PagerDuty用語解説シリーズ
〜中級編「インシデント解決を早めるために」〜

2024.04.16更新
PagerDuty用語解説シリーズ 〜中級編「インシデント解決を早めるために」〜

本記事では、PagerDutyをご活用いただく皆様に向けて「PagerDuty機能名」「PagerDuty製品に出てくる用語」などを分かりやすくご紹介することで、よりスムーズなご活用に繋げていただけますと幸いです。シリーズ第二弾は、中級編「インシデント解決を早めるために」です。

Alert (アラート)

PagerDuty 規格に合わせて正規化されたイベントデータを指します。アラートは抑制、一時停止、重複排除、インシデントのグループ化することが可能です。アラートはPagerDutyのAlertsテーブルで確認できます。

Business Service (ビジネスサービス)

Business Serviceは、Technical Serviceがどのようにビジネスインフラを支えているかをモデル化し、インシデントのステータスをシステムに関わるメンバーだけではなく、ステークホルダーにも理解しやすく伝えるために使用されます。Business Serviceは複数のTechnical Serviceにまたがり、複数の異なるチームが所有することもあります。

Change Correlation (チェンジコレレーション)

変更相関は、インシデント担当者に最も関連性の高い最近の3つの変更イベントを”Recent Changes”として提供します。
各変更イベントには、3 つの重要な要因に基づく相関関係の理由が背景として表示されます。
その情報は時間、関連するサービス、またはインテリジェンス(機械学習)に基づいています。

Change Events (変更イベント)

変更イベントは、デプロイ、ビルド完了、設定更新などのサービス変更を示します。

Event Orchestration (イベントオーケストレーション)

Event Orchestrationとは、イベントをサービスにルーティングする方法を自動化し、設定した条件に基づいてイベントを充実させたり、自動化を実行するルールを作成することができる機能です。
Event Orchestrationには、Global OrchestrationルーティングとService Orchestrationの二つのタイプがあります。

Global Event Rules (グローバルイベントルール)

Global Event Rules(別名、ルールセット)は、イベントを単一のエンドポイントにルーティングし、イベントの内容に基づいて実行する一連のアクションを定義するイベントルールの集合体を作成することができます。

Global Orchestration (グローバルオーケストレーション)

Global Orchestrationには、イベントがどのようにサービスにルーティングされるかを定義するRouting ruleが含まれています。Global Orchestrationは、何らかの情報の補完や自動化のアクションを取るわけではありません。Global Orchestrationは、イベントを多くの異なるサービスに分岐させることができ、そこからService Orchestrationが行われます。

Incident (インシデント)

オンコール対応者への通知を必要とするサービスの中断のこと。インシデントは1つまたは複数のアラートで構成されます。

Intelligent Change Correlation (インテリジェントチェンジコレレーション)

インテリジェントな変更相関(機械学習)は、主に3つの要因によって決定されます:

  1. 以前のインシデントと変更イベントの発生時期がどれだけ近いか
  2. 変更イベントとインシデントのメタデータがどの程度関連しているか
  3. 特定の変更イベントとインシデントが発生した頻度

Nested Rule (ネステッドルール)

Service Orchestrationでは、ネストされたルールでデシジョンツリーに次に何が起こるかを決定します。

Open incidents (オープンインシデント)

オープンインシデントとは、TriggerまたはAcknowledge状態にあるインシデントのことです。

Outlier incident (アウトライヤーインシデント)

Outlier(異常値) インシデント機能では、過去30日間にサービス上で発生したインシデントの頻度を一目で把握することができます。具体的には、インシデントの詳細ページのインシデントタイトルの下に、以下のラベルが適用されます。

  • Frequent: 過去30日間の全インシデントの20%以上を占めるインシデントタイプ
  • Rare:過去30日間の全インシデントの5%以下のインシデントタイプ
  • Anomaly:過去30日間にサービス上で発生したことのないインシデントタイプ

PagerDuty Condition Language /PCL (ページャードゥーティーコンディションラングエッジ)

Event Orchestrationは、PagerDuty条件言語(PCL)を活用して複雑なルールを作成することができます。
PCL式はパス、リテラル、組み込み操作、カスタム関数の組み合わせで構成されます。PCL式はtrueまたはfalseに評価されます。

Past incidents (パーストインシデント)

過去のインシデント機能(以前は「類似インシデント」と呼ばれていました)では、同じサービス上の現在のインシデントと類似したメタデータを持つ過去のインシデントを表示できます。

Probable Origins (プロバブルオリジンズ)

推定される発生源では、現在調査中のインシデントの発生源である可能性が高いインシデントの候補を表示することができます。

Process Automation (プロセスオートメーション)

プロセスオートメーション(自動化)により、ユーザーは受信イベントの量に基づいて実行するPagerDutyオートメーションアクションを指定できます。PagerDuty Process AutomationはPagerDutyアカウントのアドオンとして購入することができます。

Related incidents (リレイテッドインシデント)

関連インシデント機能では、調査中のインシデントに関連する可能性のある、他のサービスに影響を及ぼしているインシデントのリストを表示できます。

Related Service Change Correlation (リレイテッドサービスチェンジコレレーション)

関連サービス変更相関は、そのインシデントのサービスに関連するTechnical ServiceおよびBusiness Serviceで発生した変更イベントに対して表示されます。

Service Event Rules (サービスイベントルール) ※2024年中にEOL予定

Service上にIntegrationが既に存在する場合、基本的なサービスのイベントルールを使用して、受信イベントを評価することができます。これは、イベントがモニタリングツールからTechnical Serviceに直接送信されることを意味します。

Service Orchestration (サービスオーケストレーション)

Service Orchestrationとは、イベントがServiceにルーティングされた後にどのように処理されるべきかを決定する、Serviceに紐付けられたルール群の事です。ここでイベントの情報は補完され、ネストされたルールの形で追加のアクションを取ることができます。Service Orchestrationは、基本的なサービスのイベントルールの拡張機能です。

Else Rule (エルスルール)

Service Orchestrationでは、Elseルールが一つ前の条件がマッチしない場合にどうなるかを決定します。

Technical Service (テクニカルサービス)

Technical Serviceは、PagerDutyでは単にServiceとも呼ばれます。チームが運用、管理、監視するコンポーネント、マイクロサービス、インフラストラクチャの一部を表します。通常はレスポンダーがそのサービスの正常性に対して待機しているものです。Technical ServiceはBusinessl Serviceをサポートし、その成功のために不可欠なものです。

Time-based Change Correlation (タイムベースドチェンジコレレーション)

時間ベースの変更相関は、インシデントと同じServiceで発生した過去24時間の変更イベントに基づいて表示されます。

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる