2025/12/03 18:11

【re:Invent 2025】クラウド運用の知的な自動化に参加してきました

» AWS » イベントレポート » re:Invent

平林徹

こんにちは、ネクストモード株式会社の平林です。

今年はとうとう、ラスベガスで開催される AWS re:Invent 2025 に参加してきました！

街全体がAWSに染まるこの圧倒的な規模感、現地でしか味わえない熱気があります。

今回は、クラウド運用の自動化をテーマにしたワークショップ「Intelligently automating cloud operations (SPS304)」に参加してきました。

このワークショップは単なるツール操作の練習ではなく、「検知・復旧・予防・可視化」という運用のフェーズを2時間で体験する、非常に実践的な構成でした。

セッション概要

まずはセッションの基本情報です。

セッションID：SPS304
セッション名：Intelligently automating cloud operations
形式：Workshop（ハンズオン）
レベル：300 – Advanced
スピーカー：Milan Karalic、Francesco Penta

今回登壇されたスピーカのお二人です。

1000001619-1

ワークショップの内容

今回のワークショップは、大きく分けて4つのパートで構成されていました。

AWS Health不正使用イベントの自動ハンドリング

最初のセクションは、AWS側から不正使用の通知が来た際の初動対応の自動化です。

AWS Health からのアラートをトリガーに、人手を介さず即座にリアクションする仕組みを構築しました。

実装内容としては以下のようなものでした。

EventBridge & SNS: AWS Health のイベントをフックし、通知を飛ばす設定
Lambda連携: 通知だけで終わらせず、Lambda関数をキックしてログ記録や初期対応を行うフローを実装

「メールを見て慌ててコンソールを開く」のではなく、イベント駆動でシステムが自律的に動く構成です

Solution

自動コードロールバックと障害注入 (AWS FIS)

2つ目のセクションは、デプロイ時の信頼性を担保するパートでした。

ここでは AWS Fault Injection Service (FIS) を使用して意図的に障害を発生させ、システムが正しくロールバックするかを検証しました。

実装内容としては以下のようなものでした。

CloudWatch 異常検出 (Anomaly Detection): 静的な閾値ではなく、MLベースの「異常検出」を有効化し、いつもと違う挙動を検知
CodeDeploy & CloudWatch Alarm: アラーム発火時に、CodeDeployが自動的にデプロイを中断・ロールバックする設定
AWS FIS (障害注入): テストのために本番相当の障害をシミュレーションし、実際に自動ロールバックが機能することを確認

「インテリジェント」の名の通り、静的な監視設定ではなく、異常検出を活用している点が印象的でした。

※構成図は取得し忘れました

大規模なトラブルシューティングと修復の自動化

3つ目は、SSH接続などのトラブルが発生した際の実践的な復旧対応です。

1台の修正だけでなく、大規模環境での一括適用をテーマにしていました。

実装内容としては以下のようなものでした。

大規模なSSHポート変更: Systems Manager (SSM) を活用し、多数のインスタンスに対して一括で設定変更を実施
Support Automation Workflow: AWSサポートが提供する自動化ワークフローを利用し、既知の問題を効率的に修復

SSMさえあれば大規模かつ冷静に対処できることを再確認しました。

remediate_at_scale_architecture

Amazon Quick Suite を使用した運用インサイトの要約

最後のセクションは、これら全ての運用状況を俯瞰するための可視化です。

様々なデータソースを統合し、運用者が意思決定するためのダッシュボードを構築しました。

実装内容としては以下のようなものでした。

サポートコレクター (Support Collector): 運用データを収集するためのコレクターを作成し、スケジュール実行を設定
Quick Suite 統合: 収集したデータを Amazon Quick Suite に連携し、可視化用のスペースを作成

インサイトの要約: バラバラになりがちな運用データを一箇所に集め、運用上の洞察（インサイト）を得られる状態にしました。

qs_support_diagram

Quick Suiteに質問すると適切で分かりやすい回答が得られました。

FireShot Capture 085 - Quick - スペース - [us-east-1.quicksight.aws.amazon.com]

やってみて分かったこと

閾値地獄からの解放：MLベース監視の実用性

静的な閾値設定によるオオカミ少年化は運用の悩みですが、CloudWatch Anomaly Detectionは「いつもの挙動」を学習し、そこからの逸脱を検知します。

「人間が勘で決める」から「AIが違和感に気づく」スタイルへのシフトを実感しました。

段階的なデプロイ戦略：安全性の担保

「1台テスト→検証→全体適用」のフローは安全性が担保されていました。

「気合いと目視」に頼らず、「失敗しても被害を最小限に抑える仕組み」をパイプラインに組み込むことこそ、自動化には重要だと感じました。

Opsデータもデータレイクへ：一過性の通知を資産に変える

AWS Health等の通知を「メールで見て終わり」にせず、S3へ蓄積して Quick Suite で可視化する構成は良いなと感じました。

一時的な情報をデータレイク化して資産に変えることで、長期的な傾向分析や経営判断にも活用できる。これがモダンな運用の形なのだと感じました。

まとめ

今回のワークショップは、以下の4ステップで強い運用を作るための実践道場でした。

Health連携で予兆を掴み
FISと自動ロールバックでデプロイ事故を防ぎ
SSMで大規模障害を即座に直し
Quick Suiteで全体を俯瞰する

特に AWS FIS を使った障害注入のハンズオンは貴重な体験でした。

ネクストモードでは、こうしたAWSの最新機能を活用した、実践的でセキュアな運用フローの構築も支援しています。

今回の学びをお客様の環境にも還元していきたいと思います。

Opsのモダナイゼーションに興味がある方の参考になれば幸いです！

【re:Invent 2025】クラウド運用の知的な自動化に参加してきました

セッション概要

ワークショップの内容

AWS Health不正使用イベントの自動ハンドリング

自動コードロールバックと障害注入 (AWS FIS)

大規模なトラブルシューティングと修復の自動化

Amazon Quick Suite を使用した運用インサイトの要約

やってみて分かったこと

まとめ