コンテンツまでスキップ

【re:Invent 2025】クラウド運用の知的な自動化に参加してきました

こんにちは、ネクストモード株式会社の平林です。

今年はとうとう、ラスベガスで開催される AWS re:Invent 2025 に参加してきました!

街全体がAWSに染まるこの圧倒的な規模感、現地でしか味わえない熱気があります。

 

今回は、クラウド運用の自動化をテーマにしたワークショップ「Intelligently automating cloud operations (SPS304)」に参加してきました。

このワークショップは単なるツール操作の練習ではなく、「検知・復旧・予防・可視化」という運用のフェーズを2時間で体験する、非常に実践的な構成でした。

 


 

セッション概要

まずはセッションの基本情報です。

  • セッションID:SPS304
  • セッション名:Intelligently automating cloud operations
  • 形式:Workshop(ハンズオン)
  • レベル:300 – Advanced
  • スピーカー:Milan Karalic、Francesco Penta

 

今回登壇されたスピーカのお二人です。

1000001619-1

 


 

ワークショップの内容

今回のワークショップは、大きく分けて4つのパートで構成されていました。

 

  • AWS Health不正使用イベントの自動ハンドリング

最初のセクションは、AWS側から不正使用の通知が来た際の初動対応の自動化です。

AWS Health からのアラートをトリガーに、人手を介さず即座にリアクションする仕組みを構築しました。

実装内容としては以下のようなものでした。

  1. EventBridge & SNS: AWS Health のイベントをフックし、通知を飛ばす設定
  2. Lambda連携: 通知だけで終わらせず、Lambda関数をキックしてログ記録や初期対応を行うフローを実装
「メールを見て慌ててコンソールを開く」のではなく、イベント駆動でシステムが自律的に動く構成です

 

Solution



  • 自動コードロールバックと障害注入 (AWS FIS)

2つ目のセクションは、デプロイ時の信頼性を担保するパートでした。

ここでは AWS Fault Injection Service (FIS) を使用して意図的に障害を発生させ、システムが正しくロールバックするかを検証しました。

実装内容としては以下のようなものでした。

  1. CloudWatch 異常検出 (Anomaly Detection): 静的な閾値ではなく、MLベースの「異常検出」を有効化し、いつもと違う挙動を検知
  2. CodeDeploy & CloudWatch Alarm: アラーム発火時に、CodeDeployが自動的にデプロイを中断・ロールバックする設定
  3. AWS FIS (障害注入): テストのために本番相当の障害をシミュレーションし、実際に自動ロールバックが機能することを確認

「インテリジェント」の名の通り、静的な監視設定ではなく、異常検出を活用している点が印象的でした。

※構成図は取得し忘れました

 

  • 大規模なトラブルシューティングと修復の自動化

3つ目は、SSH接続などのトラブルが発生した際の実践的な復旧対応です。 

1台の修正だけでなく、大規模環境での一括適用をテーマにしていました。

実装内容としては以下のようなものでした。

  1. 大規模なSSHポート変更: Systems Manager (SSM) を活用し、多数のインスタンスに対して一括で設定変更を実施
  2. Support Automation Workflow: AWSサポートが提供する自動化ワークフローを利用し、既知の問題を効率的に修復

SSMさえあれば大規模かつ冷静に対処できることを再確認しました。

remediate_at_scale_architecture

 

  • Amazon Quick Suite を使用した運用インサイトの要約

最後のセクションは、これら全ての運用状況を俯瞰するための可視化です。

様々なデータソースを統合し、運用者が意思決定するためのダッシュボードを構築しました。

実装内容としては以下のようなものでした。

  1. サポートコレクター (Support Collector): 運用データを収集するためのコレクターを作成し、スケジュール実行を設定
  2. Quick Suite 統合: 収集したデータを Amazon Quick Suite に連携し、可視化用のスペースを作成
インサイトの要約: バラバラになりがちな運用データを一箇所に集め、運用上の洞察(インサイト)を得られる状態にしました。

qs_support_diagram

 

Quick Suiteに質問すると適切で分かりやすい回答が得られました。

FireShot Capture 085 - Quick - スペース - [us-east-1.quicksight.aws.amazon.com]

 


 

やってみて分かったこと

  • 閾値地獄からの解放:MLベース監視の実用性

静的な閾値設定によるオオカミ少年化は運用の悩みですが、CloudWatch Anomaly Detectionは「いつもの挙動」を学習し、そこからの逸脱を検知します。

「人間が勘で決める」から「AIが違和感に気づく」スタイルへのシフトを実感しました。

 

  • 段階的なデプロイ戦略:安全性の担保

「1台テスト→検証→全体適用」のフローは安全性が担保されていました。

「気合いと目視」に頼らず、「失敗しても被害を最小限に抑える仕組み」をパイプラインに組み込むことこそ、自動化には重要だと感じました。

 

  • Opsデータもデータレイクへ:一過性の通知を資産に変える

AWS Health等の通知を「メールで見て終わり」にせず、S3へ蓄積して Quick Suite で可視化する構成は良いなと感じました。

一時的な情報をデータレイク化して資産に変えることで、長期的な傾向分析や経営判断にも活用できる。これがモダンな運用の形なのだと感じました。


 

まとめ

今回のワークショップは、以下の4ステップで強い運用を作るための実践道場でした。

  1. Health連携で予兆を掴み
  2. FISと自動ロールバックでデプロイ事故を防ぎ
  3. SSMで大規模障害を即座に直し
  4. Quick Suiteで全体を俯瞰する

特に AWS FIS を使った障害注入のハンズオンは貴重な体験でした。

 

ネクストモードでは、こうしたAWSの最新機能を活用した、実践的でセキュアな運用フローの構築も支援しています。

今回の学びをお客様の環境にも還元していきたいと思います。

Opsのモダナイゼーションに興味がある方の参考になれば幸いです!