こんにちは、ネクストモード株式会社の平林です。
今年はとうとう、ラスベガスで開催される AWS re:Invent 2025 に参加してきました!
街全体がAWSに染まるこの圧倒的な規模感、現地でしか味わえない熱気があります。
今回は、クラウド運用の自動化をテーマにしたワークショップ「Intelligently automating cloud operations (SPS304)」に参加してきました。
このワークショップは単なるツール操作の練習ではなく、「検知・復旧・予防・可視化」という運用のフェーズを2時間で体験する、非常に実践的な構成でした。
まずはセッションの基本情報です。
今回登壇されたスピーカのお二人です。
今回のワークショップは、大きく分けて4つのパートで構成されていました。
最初のセクションは、AWS側から不正使用の通知が来た際の初動対応の自動化です。
AWS Health からのアラートをトリガーに、人手を介さず即座にリアクションする仕組みを構築しました。
実装内容としては以下のようなものでした。
2つ目のセクションは、デプロイ時の信頼性を担保するパートでした。
ここでは AWS Fault Injection Service (FIS) を使用して意図的に障害を発生させ、システムが正しくロールバックするかを検証しました。
実装内容としては以下のようなものでした。
「インテリジェント」の名の通り、静的な監視設定ではなく、異常検出を活用している点が印象的でした。
※構成図は取得し忘れました
3つ目は、SSH接続などのトラブルが発生した際の実践的な復旧対応です。
1台の修正だけでなく、大規模環境での一括適用をテーマにしていました。SSMさえあれば大規模かつ冷静に対処できることを再確認しました。
最後のセクションは、これら全ての運用状況を俯瞰するための可視化です。
様々なデータソースを統合し、運用者が意思決定するためのダッシュボードを構築しました。
実装内容としては以下のようなものでした。
Quick Suiteに質問すると適切で分かりやすい回答が得られました。
静的な閾値設定によるオオカミ少年化は運用の悩みですが、CloudWatch Anomaly Detectionは「いつもの挙動」を学習し、そこからの逸脱を検知します。
「人間が勘で決める」から「AIが違和感に気づく」スタイルへのシフトを実感しました。
「1台テスト→検証→全体適用」のフローは安全性が担保されていました。
「気合いと目視」に頼らず、「失敗しても被害を最小限に抑える仕組み」をパイプラインに組み込むことこそ、自動化には重要だと感じました。
AWS Health等の通知を「メールで見て終わり」にせず、S3へ蓄積して Quick Suite で可視化する構成は良いなと感じました。
一時的な情報をデータレイク化して資産に変えることで、長期的な傾向分析や経営判断にも活用できる。これがモダンな運用の形なのだと感じました。
今回のワークショップは、以下の4ステップで強い運用を作るための実践道場でした。
特に AWS FIS を使った障害注入のハンズオンは貴重な体験でした。
ネクストモードでは、こうしたAWSの最新機能を活用した、実践的でセキュアな運用フローの構築も支援しています。
今回の学びをお客様の環境にも還元していきたいと思います。
Opsのモダナイゼーションに興味がある方の参考になれば幸いです!