コンテンツまでスキップ

【re:Invent 2025】大注目のAWS DevOps Agentのワークショップでプレビュー版を触ってみた

はじめに


本ブログは、re:Invent 2025のワークショップ、「Resolve and prevent future operational issues with AWS DevOps Agent (DVT337-R1)」のレポートとなります。

AWS DevOps Agent は今回のkeynoteで発表されたばかりの大注目サービスのため、超予約困難なWorkShopでしたが奇跡的に滑り込むことができました。

本レポートを通して、ワークショップで得た DevOps Agent に関する情報や実際の操作画面をご紹介します。

ワークショップの概要


This hands-on workshop demonstrates how to leverage the new frontier agent for operational excellence to accelerate incident response and prevent future incidents. Learn how to integrate AWS DevOps Agent with your existing observability tools, code repository, and CI/CD pipelines to map your applications and connect the dots for faster issue resolution. Through practical exercises, you'll leverage DevOps Agent to investigate operational issues, identify concerning trends, and obtain prioritized preventative measures. Learn best practices to reduce mean time to resolution, improve operational posture, and empower your teams to innovate, not firefight.

このハンズオンワークショップでは、運用の卓越性を実現する新しいフロンティアエージェントを活用し、インシデント対応を加速し、将来のインシデントを防止する方法を実演します。
AWS DevOps Agentを既存の可観測性ツール、コードリポジトリ、CI/CDパイプラインと統合してアプリケーションをマッピングし、より迅速な問題解決のために点と点をつなぐ方法を学びます。
実践的な演習を通じて、DevOps Agentを活用して運用上の問題を調査し、懸念すべき傾向を特定し、優先順位付けされた予防措置を取得します。
平均解決時間を短縮し、運用体制を改善し、チームが消火活動ではなくイノベーションに取り組めるようにするためのベストプラクティスを学びます。

ワークショップの流れ


スピーカーのお二人による、従来のオンコール対応の課題とサービス概要についての軽い講義の後、各々ハンズオンを進める形式でした。

従来のオンコール対応の課題

  • アラーム発生時
    • 2AMに起きる、夕食を中断するなどの不安
    • コンテキストの切り替え(コンテキストスイッチ)
    • 初期調査のための情報収集
    • 次のアクションを判断するためのアプリケーションの十分な理解
    • 誰を起こすか、対応が必要かを迅速に決定すること
  • 根本原因分析 (RCA) 後
    • ブレークグラス(緊急手動変更)で修正するか、IaC (Infrastructure as Code) 変更をCI/CDパイプラインに通す時間があるかを判断
    • ブレークグラス修正を行った場合、構成ドリフトを考慮し、それを運用プロセスに組み込む必要がある
  • 予防
    • インシデントの再発防止のため、パイプライン、テスト、コード、アーキテクチャ、可観測性クラスターなどにどのような変更を加えるかを検討

AWS DevOps Agentのサービス概要

aws-re-invent-2025-dvt337-r1-1

DevOps Agentは、DevOpsエキスパートのように、以下4つの自動化されたインシデント対応と予防機能を提供し、従来のオンコール対応の課題を解決します 。

  1. Alarm (アラーム)
    • アラームに自動的に応答し、初期調査を開始
  2. Investigation (調査)
    • アプリケーショントポロジーとAWSの専門知識を用いた根本原因分析を実行
  3. Mitigation (軽減/修復)
    • 検証ステップロールバックアクションを含む軽減計画を生成
  4. Prevention (予防)
    • 再発防止、軽減までの時間短縮のための改善点を特定

ハンズオンの内容

ハンズオンは、サンプルアプリケーション(Lambda、DynamoDB、CloudWatch Alarmsなど)をベースに構築された環境で、下記の3ステップでエージェントの動作を体験します。

  1. CloudWatch アラームの発報を検知し、調査~対応案の策定までをDevOps Agentで行う

  2. DevOps AgentとDynatraceというツールをWebhook連携する

  3. Dynatrace上のアラート発報 ~ DevOps Agentによる調査が自動で行われることを確認する

2 および 3 については、単にWebhookで連携可能、という内容だったため今回は 1 に焦点を当てて内容を解説します。


① エージェントスペースの作成

  • エージェントがアクセス可能なリソースの範囲(スコープ)と権限を定義します。

  • 下記が、DevOps Agentのサービスページです。
    ※現在、バージニアリージョンでのみ利用可能(プレビュー版)

    aws-re-invent-2025-dvt337-r1-2

  • 作成完了すると、下記のような画面になり、画面下部の「Top resource types by count」からすでにかなり多くのリソースが存在することがわかります。

    aws-re-invent-2025-dvt337-r1-3

② Webアプリへのアクセス

  • 先程の画面の「Operator access」から、DevOps Agentアプリにアクセスします。
    下記は、「Incident Responce」画面で、インシデントのステータスや情報を確認可能です。

    aws-re-invent-2025-dvt337-r1-4

  • 「DevOps Center」では、DevOps Agentが持つ権限の範囲で、管理対象のリソースが依存関係を含めて一覧表示されます。

    aws-re-invent-2025-dvt337-r1-5

  • 一覧表示の詳細レベルを変更することもできました。 下記キャプチャでは、システム(リージョン)別に 2 環境表示されています。

    aws-re-invent-2025-dvt337-r1-6

  • 下記はコンポーネントレベルの表示ですが、リソース数が膨大で拡大表示しないと見えないほどになりました。
    構成図の代わりというには厳しいので、現状は参考程度になるかと思います。

    aws-re-invent-2025-dvt337-r1-7

③ CloudWatchアラームの設定と、インシデントの発生

  • インシデント検知のトリガーとなるアラームを設定し、サンプルアプリケーションに負荷をかけ、インシデントを意図的に発生させます。
    ハンズオンでは、DynamoDBのテーブル容量セクションで、書き込みキャパシティを 250 → 2 に変更しました。

④ 調査の開始

  • DevOps Agentアプリにアクセスし、「Incident Responce」画面にて「調査開始」をクリックします。

  • 下記の様に調査が進みます。

    aws-re-invent-2025-dvt337-r1-8

  • 10分ほど調査が行われ、根本的な原因が特定されました。
    さらに、「緩和計画を作成する」をクリックします。

    aws-re-invent-2025-dvt337-r1-9

  • 10分ほどで、緩和計画(復元方法とロールバック方法)が提示されました。
    CLIコマンドも記載されていますが、本ハンズオンでは、GUI操作で設定を元に戻しました。

    aws-re-invent-2025-dvt337-r1-10

  • さらに「防止(Prevention)」タブをクリック後、遷移した画面で「今すぐ実行」をクリックすると、数分後下記の様に再発防止策が提示されました。

    aws-re-invent-2025-dvt337-r1-11

  • なお、再発防止策の実施も画面右下の「承認する」から行えそうですが、ハンズオンの環境では下記の通りエラーになりました。
    権限によるものか、プレビュー版だから不安定なのか不明ですが、時間の都合でこれ以上の検証はできませんでした。

    aws-re-invent-2025-dvt337-r1-12

さいごに


AWS DevOps Agentは、従来のオンコール対応の課題を解決する非常に期待の持てるサービスです。
特に夜間や週末のアラートによる急な対応や、複雑なシステムにおける問題調査の負担を大きく軽減できる可能性を秘めています。

今回のワークショップでは、実際にインシデント発生から調査、対策案の提示、さらには再発防止策の提案まで一連のフローを体験できました。
エージェントによる調査結果は的確で、DynamoDBのキャパシティ不足という根本原因を正しく特定し、具体的な解決策を提案してくれました。

現状はバージニアリージョンのみの提供ですが、日本リージョンへの展開も期待したいところです。

今後も引き続き注目し、実際の運用環境での活用方法を検討していきたいと思います。