インシデント対応自動化のカギ
〜大規模システム障害の自動修復に向けて~

インシデント対応自動化のカギ 〜大規模システム障害の自動修復に向けたヒント~

ビジネスの拡大と優れた顧客体験の提供を目指す組織に必要なのが、卓越したサービスの提供です。その実現には、大規模障害にも対応できるよう、インシデント管理ライフサイクル全体に自動化を導入し、人的リソースを適切に配置することが必要です。

「エンジニアのリソースを特定の業務から解放する」または「重大な局面でエンジニアをサポートするといったメリットを即座にもたらす自動化の実現に必要なインシデント管理」とは、どのようなものか本記事で解説していきます。

自動化で人間よりも速く

対応者がインシデントの発生に気付く前に、「イベント駆動型の自動化プロセス」が人間に代わってそのインシデントに対応します。イベント駆動型の自動化は、イベント発生時点つまりDatadogなどの監視ツールなどの信頼できるソースからデータが取り込まれた時点で起動し、次の5つのようなアクションを実行することで、専門スタッフへの負担が最小限に抑えられ、効率的なインシデント管理が確実に行なわれます。

1️⃣ 不要なアラートを抑制

同じ問題が起こるたびに急な対応を迫られるのは、対応者にとって厄介なだけでなく、課題解決に集中できなくなるため、対応そのものの遅れにつながります。AIと自動化が、関連する問題のアラートを同じインシデントとしてグループ化することでノイズを低減できるため、対応者は障害修復に集中できるようになります。

2️⃣ イベントボリュームを抑制し、S/N比(信号対雑音比)を改善

重複したり一時的に発生したりするイベント(障害)や、重要度の低いイベントはノイズとなり、対応者がインシデントの重要度を判断する際の妨げになります。重要ではないイベントの発生を抑制することができれば、最も重要なイベントのみを顕在化することができます。

3️⃣ イベントデータに基づいたコンテキスト

発生するイベントのタイプは、サービスの種類によって大きく異なります。しかし、インシデント対応者がイベントに関する有益な情報を常に得られるとは限りません。自動化は、イベントを重要な情報でエンリッチ化し、すべての対応者がコンテキストを理解できるよう組織内で標準化されます。さらに、カスタムフィールドを使うことで、イベントに受信データを基づいた「重要」や「本番環境」といったラベル付けも可能です。こちらの機能はPagerDutyの早期アクセスプログラムからご利用いただけます。

4️⃣ 自動診断コンテキスト

インシデントの診断は多くの場合、発生ごとに対応者により手作業で実施されます。しかし、そこにかける時間と労力はもう必要ありません。自動化することで、対応者がインシデントを調べる前に、診断が開始され必要なデータが付加されます。

5️⃣ インシデントの自動修復

PagerDutyユーザーによると、発生したインシデントの15%は人間がまったく介入することなく解決しています。このような既知の問題はすべて自動化による修復が可能なため、時間を節約できるうえ、顧客への影響を軽減できます。多くの場合、自動化により問題がスピーディに解決されるため、顧客はインシデントの発生にさえ気付かないのです。自動化で解決できなかったインシデントは、適切な専門スタッフやサービス責任者にルーティングされ、トリアージされます。

アラートのトリアージの際に必要なこと

トリアージの段階で対応者が目指すのは、問題の特定です。ところが、システムが複雑なため、問題を特定するのはそう簡単ではありません。トリアージには多くの時間を要するだけでなく、顧客がサービスの正常化を待っているため、そのプレッシャーに耐える強い精神力も必要です。そこで重要なのは、対応者は書類やポストモーテムを探したり、ほかの専門スタッフにトライバルナレッジ(グループ固有の知識)に関する見解を求めたりするのではなく、問題の特定に専門知識を賢く使うことです。機械学習と自動診断が導入されていれば、対応者が作業を開始しようとするときにはそうした多くの情報がすでにインシデントに付加されているのです。

機械学習は対応者に、「インシデントの想定される原因」や「同様の問題を経験しているチームがいないか」「過去のインシデントの解決方法」「変更イベント」といったシステムのコンテキストを提示します。

このようなコンテキストが得られれば、対応者は迅速なアクションが取れ、情報収集の手間をかけずにインシデントの状況を把握できます。つまり、システムを知り尽くした勤続10年のスタッフから着任したばかりのスタッフまで、あらゆる対応者への「情報の民主化」が実現するのです。

解決に向けた取り組みをサポート

専門スタッフが最も必要とされる業務の一つが「インシデント解決作業」です。この取り組みにおいて、自動化はアシスタントとしての役割を果たします。AIを利用して質問に答え、対応チームのワークフローを簡素化することで、あらゆる業務を体系化し軌道に乗せます。

生成AIはすでに多くの企業に大きな変革をもたらしていますが、使い方によってはその結果に大きな差が生まれます。生成AI利用の大きな利点は、質問をするなどAIとやり取りをすることで、すぐに必要な答えを得られる点です。インシデント管理に生成AIチャットボットを導入してシステムに関する質問をすることで、解決の糸口や大胆な発想などが得られチームの生産性の維持を期待できます。

AIを活用したPagerDuty Copilotと統合したIncident Workflowもまた大きな変革をもたらします。対応者が重要な質問への回答をすぐに手に入れられたり、次に取るべきアクションを理解できたりするだけでなく、手動で行なっていたコミュニケーションチャンネルの作成や、アップデートに関する通知文章の下書きといったトイルが自動で完了します。

組織内外とのコミュニケーション

コミュニケーションもインシデント管理の重要な要素です。ところが、いざインシデントが発生すると、そのコミュニケーションも、つい忘れられがちになります。効果的なコミュニケーションを必要とするのは、組織内で言えば主要なステークホルダー、組織外で言えば顧客、そしてITサービス管理などのシステムです。自動化と生成AIの両方を活用し、相手に合わせたコミュニケーションを作成し、あらゆる事態に備えることが重要です。組織内外で効果的なコミュニケーションを実現するための機能として以下があります。

✅ Custom Fields

作成したアップデートをITサービス管理に流し込み、関連するあらゆるITサービス管理のインシデントデータをアップデートすることで、ITから開発者まですべてのチームに情報を共有できます。

✅ Status Update Template

生成AIを使用して作成したアップデートが、事前に設定されたグループに基づき組織内のステークホルダーに自動で告知されます。

✅ Status Pages

レスポンスエフォートの予想結果をユーザーに自動でアップデートし、インシデント対応の完了時にその結果を共有します。

インシデント発生中のコミュニケーションは、ステークホルダーとの信頼の構築と維持には欠かせません。対応者には、初期のインシデント発生通知や、定期的なアップデート、完了通知などのコミュニケーションが必要とされます。インシデントワークフローを自動化することで、対応者はインシデントの認知から解決まで常に最新情報が共有され業務を適切に進行できます。

AIと自動化の重要性

インシデントライフサイクル全体へのAIと自動化の導入は「対応者、ステークホルダー、顧客」の業務環境の改善につながります。新たな働き方と最新技術を取り入れることは重要ですが、機械だけで新規の問題を解決できるようになるのはまだ先のことかもしれません。それまでは、組織のAIと自動化の効果の最大化をサポートする戦略的パートナーを持つことが重要です。そんなあなたにとってPagerDutyがもたらすことが可能なメリットが気になる方はぜひ無料トライアルをお試しください。

▼こちらの記事もおすすめ
インシデント対応とは?事例から読み解く対策方法
インシデント管理とは?〜システム障害を未然に防ごう〜

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる