こんにちは、ネクストモード株式会社の平林です。
【re:Invent 2025】クラウド運用の知的な自動化に参加してきました
こんにちは、ネクストモード株式会社の平林です。
今年はとうとう、ラスベガスで開催される AWS re:Invent 2025 に参加してきました!
街全体がAWSに染まるこの圧倒的な規模感、現地でしか味わえない熱気があります。
今回は、クラウド運用の自動化をテーマにしたワークショップ「Intelligently automating cloud operations (SPS304)」に参加してきました。
このワークショップは単なるツール操作の練習ではなく、「検知・復旧・予防・可視化」という運用のフェーズを2時間で体験する、非常に実践的な構成でした。
セッション概要
まずはセッションの基本情報です。
- セッションID:SPS304
- セッション名:Intelligently automating cloud operations
- 形式:Workshop(ハンズオン)
- レベル:300 – Advanced
- スピーカー:Milan Karalic、Francesco Penta
今回登壇されたスピーカのお二人です。

ワークショップの内容
今回のワークショップは、大きく分けて4つのパートで構成されていました。
-
AWS Health不正使用イベントの自動ハンドリング
最初のセクションは、AWS側から不正使用の通知が来た際の初動対応の自動化です。
AWS Health からのアラートをトリガーに、人手を介さず即座にリアクションする仕組みを構築しました。
実装内容としては以下のようなものでした。
- EventBridge & SNS: AWS Health のイベントをフックし、通知を飛ばす設定
- Lambda連携: 通知だけで終わらせず、Lambda関数をキックしてログ記録や初期対応を行うフローを実装

-
自動コードロールバックと障害注入 (AWS FIS)
2つ目のセクションは、デプロイ時の信頼性を担保するパートでした。
ここでは AWS Fault Injection Service (FIS) を使用して意図的に障害を発生させ、システムが正しくロールバックするかを検証しました。
実装内容としては以下のようなものでした。
- CloudWatch 異常検出 (Anomaly Detection): 静的な閾値ではなく、MLベースの「異常検出」を有効化し、いつもと違う挙動を検知
- CodeDeploy & CloudWatch Alarm: アラーム発火時に、CodeDeployが自動的にデプロイを中断・ロールバックする設定
- AWS FIS (障害注入): テストのために本番相当の障害をシミュレーションし、実際に自動ロールバックが機能することを確認
「インテリジェント」の名の通り、静的な監視設定ではなく、異常検出を活用している点が印象的でした。
※構成図は取得し忘れました
-
大規模なトラブルシューティングと修復の自動化
3つ目は、SSH接続などのトラブルが発生した際の実践的な復旧対応です。
1台の修正だけでなく、大規模環境での一括適用をテーマにしていました。実装内容としては以下のようなものでした。
- 大規模なSSHポート変更: Systems Manager (SSM) を活用し、多数のインスタンスに対して一括で設定変更を実施
- Support Automation Workflow: AWSサポートが提供する自動化ワークフローを利用し、既知の問題を効率的に修復
SSMさえあれば大規模かつ冷静に対処できることを再確認しました。

-
Amazon Quick Suite を使用した運用インサイトの要約
最後のセクションは、これら全ての運用状況を俯瞰するための可視化です。
様々なデータソースを統合し、運用者が意思決定するためのダッシュボードを構築しました。
実装内容としては以下のようなものでした。
- サポートコレクター (Support Collector): 運用データを収集するためのコレクターを作成し、スケジュール実行を設定
- Quick Suite 統合: 収集したデータを Amazon Quick Suite に連携し、可視化用のスペースを作成

Quick Suiteに質問すると適切で分かりやすい回答が得られました。
![FireShot Capture 085 - Quick - スペース - [us-east-1.quicksight.aws.amazon.com]](https://info.nextmode.co.jp/hs-fs/hubfs/FireShot%20Capture%20085%20-%20Quick%20-%20%E3%82%B9%E3%83%9A%E3%83%BC%E3%82%B9%20-%20%5Bus-east-1.quicksight.aws.amazon.com%5D.png?width=1920&height=1031&name=FireShot%20Capture%20085%20-%20Quick%20-%20%E3%82%B9%E3%83%9A%E3%83%BC%E3%82%B9%20-%20%5Bus-east-1.quicksight.aws.amazon.com%5D.png)
やってみて分かったこと
- 閾値地獄からの解放:MLベース監視の実用性
静的な閾値設定によるオオカミ少年化は運用の悩みですが、CloudWatch Anomaly Detectionは「いつもの挙動」を学習し、そこからの逸脱を検知します。
「人間が勘で決める」から「AIが違和感に気づく」スタイルへのシフトを実感しました。
- 段階的なデプロイ戦略:安全性の担保
「1台テスト→検証→全体適用」のフローは安全性が担保されていました。
「気合いと目視」に頼らず、「失敗しても被害を最小限に抑える仕組み」をパイプラインに組み込むことこそ、自動化には重要だと感じました。
- Opsデータもデータレイクへ:一過性の通知を資産に変える
AWS Health等の通知を「メールで見て終わり」にせず、S3へ蓄積して Quick Suite で可視化する構成は良いなと感じました。
一時的な情報をデータレイク化して資産に変えることで、長期的な傾向分析や経営判断にも活用できる。これがモダンな運用の形なのだと感じました。
まとめ
今回のワークショップは、以下の4ステップで強い運用を作るための実践道場でした。
- Health連携で予兆を掴み
- FISと自動ロールバックでデプロイ事故を防ぎ
- SSMで大規模障害を即座に直し
- Quick Suiteで全体を俯瞰する
特に AWS FIS を使った障害注入のハンズオンは貴重な体験でした。
ネクストモードでは、こうしたAWSの最新機能を活用した、実践的でセキュアな運用フローの構築も支援しています。
今回の学びをお客様の環境にも還元していきたいと思います。
Opsのモダナイゼーションに興味がある方の参考になれば幸いです!