こんにちは、ネクストモード株式会社の平林です。
【AWS re:Invent 2025】ワークショップ「Automate cloud operations with AI agents (COP403)」レポート
こんにちは、ホワイトバードです。
ラスベガスで開催されているAWS re:Inventに来ています。
参加したセッションについてのレポートをまとめたいと思います。
今回は、Automate cloud operations with AI agents (COP403)についてのレポートなります。
セッション説明
原文
Join this technical workshop to build cloud operations solutions using AI agents. Get hands-on experience implementing Amazon Bedrock AgentCore features for streamlined debugging and intelligent analysis. Practice using real-world connectivity issues and performance operational scenarios. Learn to reduce incident resolution times through practical exercises using Amazon CloudWatch investigations.
翻訳
AIエージェントを使ったクラウドオペレーションのソリューション構築を行うテクニカルワークショップに参加しましょう。デバッグや分析にAmazon Bedrock AgentCoreの機能を利用したハンズオンです。実際のコネクティビティのトラブルやオペレーションから作られたシナリオで学んでいきます。また、Amazon ClooudWatch運用調査機能を利用したインシデント対応の簡素化についても学んでいきます。

セッション形式:Workshop
セッション時間:2時間
セッションレベル:400
セッションレポート
本セッションは、背景情報として従来型のオペレーションの課題と、AI駆動型のオペレーションによるソリューションの解決の説明があり、そこからハンズオンに入っていく形式をとっていました。
従来型のオペレーションの課題
- 従来型のオペレーションでは、一次対応者は手順書やツールによる調査や事象の切り分けを行い、情報集約を行ったうえで複数の宛先にエスカレーションを行う必要があり、このようなオペレーションには数分から数時間を要すため、SLA違反などビジネス影響を及ぼす場合がある
- 従来型のオペレーションではこのような課題を解決する必要があった
- 非効率性につながる手動プロセス
- チームメンバー間で属人化された知識
- 自動化とツールのギャップ
- テレメトリーデータへの可視性の制限
AI駆動型オペレーション
- 従来型のオペレーションの一次対応者をAIに置き換えることで、次のような課題を解決することができる
- 効率的な根本原因分析のための自動化されたプレイブックとSOPの検索
- 深い推論機能を持つ高度なLLMの利用
- 時間の経過とともに継続的な学習と運用改善
- メトリクス、ログ、トレースへのリアルタイムインサイト
ワークショップの流れ
ワークショップでは、架空の企業のアプリケーションを利用し、動作するアプリケーションに対して設定変更を行い障害状態とすることでAIエージェントが起動し調査と解決を行うシミュレーションを行っていきます。
アプリケーションアーキテクチャ(ワークショップ資料より)
モジュールは4つに分かれており、順番にハンズオンしていきます。
モジュール概要(ワークショップ資料より)

モジュール1:AIエージェントの構築
- Identity、Gatewayを使用したBedrock AgentCore Runtimeの作成
- DNS調査ツール、VPCトラブルシュート、CloudWatch情報収集のツールの実装
- 疑似障害と復元を通じたインシデント対応の実践
エージェントアーキテクチャ(ワークショップ資料より)

モジュール2:コンテキスト認識の強化
- Memory機能(短期および長期)の追加にによる、コンテキストの付加
- トラブルシューティングセッション間でのコンテキスト永続化の有効化
- コンテキストを維持しながらセッション間の引き継ぎを促進
エージェントのフローとアーキテクチャ(ワークショップ資料より)

モジュール3:マルチエージェントコラボレーション
- ネットワークトラブルシューティングとパフォーマンストラブルシューティングエージェントの実装
- A2Aを使用したエージェント間通信プロトコルの有効化
- VPC Reachability AnalyzerとCloudWatch Network Flow Monitorによるツールの拡張
エージェントのフローとアーキテクチャ(ワークショップ資料より)

モジュール4:インシデント解決時間の短縮
- CloudWatch 運用調査機能の使用による、トリアージプロセスの改善
- 自動分析
- 根本原因分析
- 自動化された推奨事項の提示と今後の改善提案
- 問題解決手法の提示
- 今後の改善提案
イメージ(ワークショップ資料より)

まとめ・感想
Bedrock AgentCoreでの保守運用の切り分け対応エージェントはアイデアとしてはありますが、実際に実装してみると非常に優秀で、数多くの情報収集能力を持っていることがわかりました。
こうした機能を利用して、複雑なアプリケーション環境においても迅速な障害調査と切り分けを行い、人間が根本対処や機能改善に集中できるようになると、またDevOpsの在り方も変わっていくように思います。
