AIOpsとは?
〜インシデント管理における重要性と効果〜

AIOpsとは?インシデント管理における重要性と効果〜

今日のインシデント管理において、複雑化する過剰なデータやアラートによる業務負荷の増大は大きな課題の一つです。そこで、迅速かつ正確なIT運用を実現できる技術として注目されているのが、インシデント数の削減と解決の迅速化を実現する「AIOps」です。
本記事では、AIOpsという機能がインシデント管理を行うチームに具体的にどのような効果をもたらすのかをご紹介します。

AIOpsとは

AIOpsとは、AI(人工知能)と運用(IT Operations)を組み合わせた造語で、複雑化するIT運用のタスクにAI技術を適用する取り組みの総称です。この言葉は、2016年にガートナー社が提唱しました。(参考:Definition of AIOps (Artificial Intelligence for IT Operations)|Gartner

AIOpsは、処理の“速さ”と“正確さ”というAIの特徴をIT運用に取り入れることが可能です。「複数のデータソースからデータを取り込むこと」や「機械学習から分析や提案を行うこと」を得意としています。
IT運用の複雑化や技術革新が進み、さまざまなシステムやサービスが自動化される現代では、インシデントの発生もあとを絶ちません。そのような中で、インシデント管理チームのメンバーがIT運用を全面的に担うのは、負担や技術面での差が大きく困難でしょう。そのため、AIOpsがIT運用を自動化・効率化するための技術として注目されているのです。

「AIOps」と「他のOps」との違い

AIOpsとは、AIによる高速かつ正確なIT運用を行うことを指しますが、他のOps(オペレーション)とはどう違うのでしょうか。

DevOps

DevOpsとは、開発(Development)と運用(Operations)が密接に連携し、効率的にシステムを構築することです。開発担当と運用担当の連携により、ソフトウェアのリリースや配信を柔軟かつスピーディに実現します。解説記事:「DevOpsとは? 超基本から実践のポイントを解説

DevSecOps

DevSecOpsとは、開発(Development)とセキュリティ(Security)、運用(Operations)の3つの手法を組み合わせた方法です。開発段階でのセキュリティへの影響をより意識し、開発と運用が連携してシステム構築を行います。解説記事:「DevSecOpsとは? DevOpsとの違い、必要なカルチャー

ChatOps

ChatOpsとは、チャットツールの活用により、チームのコミュニケーションやコラボレーションを向上させることです。チャットサービスを基盤としてシステムを運用することで、全体的な可視性を高め、効率化を行います。ご参考(英語):https://www.pagerduty.com/blog/what-is-chatops/

AIOpsのユースケース3選

ここでは、AIOpsのおもなユースケースを3つ紹介します。

1️⃣ パフォーマンス監視・分析

大量のイベントデータを収集し、「パフォーマンスが正常に保たれているか」「問題があるとすれば原因がどこか」という監視・分析を行います。
分析手法等が決まっているツールでは、日々変化するシステムに追随することが難しく、パフォーマンスの監視・分析を正確かつ効率的に行えませんでした。しかし、AIは学習機能があるため、最新の分析データ取得が可能です。
高度な機械学習機能を有するAIOpsなら、多種多様なビッグデータに一貫性をもたせつつIT運用システムを一元管理できます。そのため、高精度な監視・分析・保守業務を自動で行えます。

2️⃣ 異常検知

システムの異常検知は長い間、自動化が難しい範囲でした。また、複雑化したシステムでは異常なイベントの検出が難しく、人的コストや時間的コストが膨らむという課題もあります。
AIOpsでは、さまざまなシステムデータからAIがKPI(異常の閾値)を学習し、そのKPIと実際の観測データを比較することで異常を判断します。
そのため、大きな異常(リンクダウンやシステムダウンなど)や人が設定した閾値のみならず、学習データを元にした確度の高い「異常」の判断・検知が可能です。

異常検知については以下の記事で詳しく解説しています。ぜひ併せてご覧ください。
異常検知とは?〜発生しうるリスクと検知を行う際のポイント〜

3️⃣ 根本原因の分析

イベント発生やシステムログの監視からエラーを検知した際や障害が発生した際には、それらの根本原因を特定して分析しなければ、適切な対応はできません。
AIOpsは、大量のイベント情報の中からソースや形式を問わず根本原因を分析し、類似性と重要性に基づいて自動的に分類します。そのうえで、根本原因を解決する方法の特定が可能です。
また、エラーや障害の原因分析により対処の要否も判断できます。
エラーや障害の根本原因を分析し、本当に対処が必要なもののみチームへアラートを発するようになるため、運用コストの削減にも大きく貢献できるでしょう。

AIOps導入効果を検証する際のポイント

AIOpsの導入効果を検証する際は、AIOpsの機能やメリットがIT運用に対してどのように反映されているかを観察するのがポイントです。AIOpsには以下3つのようなメリットがあります。

  • 1. 迅速かつ正確な分析や問題解決の支援ができ、問題修復スピードが向上する
  • 2. 学習経験を重ねるほどに処理範囲が広がり、時間をかければ任せられる範囲が広がる
  • 3. 従来は自動化できなかった作業も自動化が可能になり、メンバーはAIが対応できない業務に集中できる

インシデント管理では、いかに早い段階でインシデントを検知し、迅速な対応でシステム障害の影響を最小限に留められるかが重要になります。そのため、検証の際には「AIOpsの導入によって上記のようなメリットやAIの機能がIT運用に活かされているのか」を見るとよいでしょう。

3つの部門が享受するAIOpsのメリット

✅ NOC (ネットワークオペレーションセンター)

NOCは、人間の中枢神経系と同じ働きをします。コスト削減とリスク軽減の実現に向け、最新化への取り組みを目下進めている組織もあるかもしれません。PagerDutyのNOC顧客の多くが直面する課題には、以下のようなものが挙げられます。

  • 目視による監視方法には、インシデントを見逃すリスクがある
  • マニュアル作業によるアラートの受発信は、専門スタッフへの過多なエスカレーションや間違ったチームへのルーティングといったリスクをともなう
  • マニュアル作業は、平均修復時間(MTTR)を増加させる
  • L1やL2チームは離職率が高く、非難し合うチームカルチャーが存在することもある

このような状況の改善には、L0業務の自動化がおすすめです。
第1対応者と同じような働きをするこの自動化は、基本的に人間のサポートを必要としません。十分に理解され、正しく文書化された問題であれば、対応者の業務を妨げずにインシデントを自動修正します。
人間の介入を必要とする複雑な問題においても、L0業務の自動化により、NOCチームは対応者のサポートなしで速やかに診断情報の入手が可能です。そして、イベントデータに基づいてインシデントをルーティングし、関連文書とランブック(手順書)でインシデントノートを作成できます。

PagerDuty AIOpsで最新化されたNOCは、人間による監視を必要としません。そのため、組織の重要拠点としてデータ駆動型の最適化をリードし、ベストプラクティスの実行とインシデント事前対応業務を確実に行えるようになります。

✅ MIM (重大インシデント管理)チーム

顧客に影響を与える重大なインシデントが発生した際には、1秒でも早い対応が求められます。
複雑性とノイズが増大する中、高まる顧客の期待に応えるうえで、MIMチームが取るべき手段とはどのようなものがあるのでしょうか?MIMチームに多く見られる課題には、以下のようなものが挙げられます。

  • 顧客やユーザーからの入電過多やチームのエスカレーションの遅れを原因とする重大インシデントの発生
  • 初期トリアージでインシデントの重大性とビジネスリスクの判断が遅れたことで、十分なコンテキストが提供されない
  • 適切なスタッフによる正しい診断や適切なランブックの提供を待機することによる平均修復時間(MTTR)の増加
  • ツールが統合されていないことによる対応者とチーム間に生じるコミュニケーションの壁

MIMチームが抱えるこのような課題は、自動化や機械学習を使って解決できます。
まず、自動化の作成により、優先順位や重大性の高いインシデントをMIMチームへ速やかにルーティングし、インシデントワークフローで必要なチームにタグ付けできます。さらに、過去に同様のインシデント発生履歴があれば、機械学習がその発生頻度と過去の解決手段といった重要なコンテキスト、そして課題発生の原因にもなり得る変更イベントの収集が可能です。

PagerDuty AIOpsは、MIMチームの重大インシデント検知の迅速化、平均修復時間(MTTR)の短縮、専門スタッフの効率化をサポートします。

✅ サービス担当チーム

優れた顧客体験を提供するうえで、これまで以上に負荷がかかっているのが、DevOpsと分散したサービス担当チームです。少ないリソースで優先順位が高い問題を多く解決する苦労は、担当者でなければわかりません。PagerDutyユーザーのサービス担当チームに多く見られる課題には、以下のようなものが挙げられます。

  • 種類の異なるツールを複数使用することで、状況を一目で把握できない
  • ノイズが多く、エスカレーションやインシデント作成が適切に行われない
  • コンテキストが不十分のため情報がサイロ化する
  • トイルによって付加価値業務に十分な時間が割けない

このような課題解決を検討するサービス担当チームは、AIOpsがあれば、技術的なエコシステムでモニターされるあらゆる情報源からデータを集め、取るべきインシデント対応方法を明確化できます。
さらに、コンテキストや発生時間、学習モデルのベースとなる過去のイベントデータに基づいた機械学習によりアラートをグループ化することで、ノイズの削減が可能です。また、機械学習によるトリアージ情報を加えることでインシデント対応が効率化されるため、チームは革新的な業務により多くの時間を割けるようになるでしょう。

PagerDuty AIOpsは、サービス担当チームの問題解決時間と平均修復時間(MTTR)の短縮、優れた顧客体験の提供を可能にします。これは、健全なチームカルチャーの醸成や離職率の低下をもたらすだけでなく、組織全体の収益増加にもつながります。

AIOpsを導入し効率的なインシデント対応を実践しよう

PagerDuty AIOpsをはじめとするPagerDuty Operations Cloudの機能は、AIと自動化の活用により企業のデジタルトランスフォーメーションを加速します。またPagerDutyは、700以上のインテグレーション、生成AI機能、エンドツーエンドのイベント駆動型自動化によりROI400%を達成するなど、マーケットでの顧客の優位性を実現しています。

AIOps導入を通じたインシデント解決の迅速化により、顧客に最も影響を与える業務へと集中できるようになり、リスク削減とエンジニアの燃え尽き症候群の予防につながります。PagerDuty AIOpsを導入すれば、開発からITまですべてのチームがメリットを享受できるでしょう。ぜひ、PagerDutyのAIOpsをお試しください!

PagerDuty新機能「AIOpsアドオン」をリリース
〜AIで革新的なインシデント対応を実現〜

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる