インシデントのカオスを解決!
既存ツールの変更不要なPagerDutyのインテグレーション解説

インシデントのカオスを解決! 既存ツール変更不要なPagerDuty インテグレーション解説

現代では、あらゆる業界、また企業や個人に関係なく、生産性の向上にはソフトウェアが欠かせません。また、ユーザーはテクノロジーに対し、いつでも利用できる頼れる存在であってほしいと期待しています。例えば、ソフトウェアが1つの国、かつ通常の勤務時間中に限って稼働を要求される場合、そのサポートはそれほど難しいことではありません。しかし、ソフトウェアが世界各国で24時間365日、低いレイテンシでの稼働を要求される場合は、複数の地域でサービスを運営し、各所に顧客サポートチームを設けることが必要になります。

予期せぬ問題の発生は避けられず、インシデントの発生やサービス停止といった担当者にとってストレスの多い状況では、混乱が生じます。このような状況への対応は「PagerDuty Operations Cloud」のインテグレーションと自動化が効果的でしょう。
特に、DevOpsを導入している企業としては、インシデントなどの保守作業を効率化する必要があります。その際にPagerDutyのインテグレーションと自動化によって、強力なサポート体制を整備することが可能です。
本記事では、PagerDutyのインテグレーションについて解説します。適切なインシデント対応を整備する際の参考にして頂けますと幸いです!

そもそもインテグレーションとは?

インテグレーションは「統合、一体化、融合」などといった意味を持つ言葉です。さまざまな分野で使用されていますが、一般的な外来語としてではなく、専門的な意味合いで使用されることが多いでしょう。
IT分野におけるインテグレーションは、ソフトウェアやネットワークなどを一本化し、目標達成に向けた情報システムの構築を行う概念・プロセスを意味します。これを「システムインテグレーション(SI)」と呼びます。
近年では、SaaSの普及により、多くの企業が複数のSaaSアプリケーションを導入しています。企業が複数のSaaSアプリケーションを導入するのは、1つのSaaSアプリケーションで組織のビジネスニーズを満たすのは難しいためです。
これら複数のSaaSアプリケーションを他のシステムやアプリケーションと統合し、データの共有や要求を可能にするプロセスを「SaaSインテグレーション」といいます。
膨大なデータの統合をヒューマンリソースでこなすのは現実的ではないため、SaaSツールを主軸にデータ統合を行うことになります。ただし、SaaSベンダーは統合サポートレベルや機能の違いなど、統合に関する課題が見受けられます。
そうしたなかで、PagerDuty Operations Cloudは、すでに使用しているツールから、すべてのイベントの中央ハブとして機能します。そのため、使用している「CI/CD プラットフォーム(継続的インテグレーション/継続的デリバリー)、ITSM(ITサービス管理)、監視ツール」などを変更する必要がありません。

インテグレーションがインシデント管理に貢献するわけ

サービスを安定的かつ継続的に利用するためには、目的別に複数の監視ツールを組み合わせて利用することが多いでしょう。それぞれの監視ツールから届くアラート内容や調査方法などは異なるため、対応に時間を要したり見落としにつながったりすることがあるかもしれません。
各監視ツールから届くアラートを集約し、さらに各種ツールの差異を埋めることで、通知手順や機能の標準化が可能です。例えば、オペレーションルールの定義化や、関連アラートの自動集約により、対応時間の改善や見落とし防止に貢献することが期待できます。

インシデントのカオスを解決!インテグレーションと自動化

今日、サービスは分散し、種類の異なるプラットフォームやハードウェア、ソフトウェアが使用され、なかには担当者でも管理できないものがあります。そのため、何か不具合が起こると、謎解きのような状態に陥ってしまいます。では、どのような対処方法があるでしょうか?

前述したように、PagerDutyは、現在使用中のあらゆるツールで発生する、すべてのイベントを管理するハブ機能の役割を果たします。
しかし、CI/CD プラットフォームやITSM、モニタリングツールを変更する必要はありません。
PagerDutyと連携するだけで、組み込み済みの700以上のインテグレーションを利用できたり、REST APIやEvent APIを使ったカスタムインテグレーションを構築できたりします。

こうしたインテグレーションが可能になれば、PagerDutyのAIOps機能でイベントを処理・統合し、サービスとの関連付けが可能になります。
これによりインシデント数を削減できるだけでなく、問題の原因特定に役立つ情報が加えられることで既存のイベントがエンリッチ化されます。

インシデント対応者が必要としているのは、問題が確認された際の迅速な通知と、インシデントトリガー前後の状況に関するあらゆる情報にアクセスできることです。
リソースがアラーム状態になった際、インシデント対応者に通知が発信されるインテグレーションの一例として挙げられるのが、PagerDutyとAmazon Cloudwatchの連携です。
この連携により、AWSが発した警告を受けてPagerDuty内でアラートが生成され、必要に応じてインシデントが作成されます。

また、PagerDutyとGitHubとの連携では、コードベースに加えられたあらゆる変更がGitHubからPagerDutyに送られます。
これにより、インシデント対応者は変更が行われたことを即座に把握し、その影響を事前に分析することが可能です。

独自のインテグレーションを構築する場合はAPIを活用

組み込み済みのインテグレーションでは不十分であるために、独自のインテグレーションの構築が必要になった場合は、Events APIREST APIを使って実行できます。

高い頻度で情報収集を必要とする監視ツールや可観測性ツールとのインテグレーションには、高いレート制限と信頼性を備えるEvents APIの利用をおすすめします。
ただし、APIレスポンスコードとエラー発生時のリクエストのリトライ方法には注意が必要です。

API経由で送られたイベントは、PagerDutyで処理されます。その後は、新規のアラートや必要に応じてインシデントを作成したり、既存のイベントを更新または解決したりします。

Event APIは、以下2種類のイベントをサポートします。

  • イベント:監視ツールからPagerDutyに送られるトリガーイベントで、新規の問題の報告または発生中の問題の更新を行います。
  • 変更イベント:アウトバウンドHTTP接続が可能なシステムから変更イベントAPI経由で送られるコードの修正、システム構成の更新といった、直近の変更に関するイベント。インシデントや通知は作成しませんが、PagerDutyではインシデントのコンテキストとして表示されます。

イベントを効率的にルーティングするため、Event APIでは以下のように2つのエンドポイントを使用します。
通知イベント用エンドポイント: https://events[.eu].pagerduty.com/v2/enqueue
変更イベント用エンドポイント: https://events[.eu].pagerduty.com/v2/change/enqueue
サービスにEvents API v2インテグレーションを追加すると、アカウントのURLとサービス用のインテグレーションキーが提供されます(以下を参照)。

Events API

これにより、PagerDutyに組み込み済みのインテグレーションに依存することなく、あらゆるサービス・ツール・プラットフォームをバーチャルにPagerDutyへ連携することができます。

インテグレーションと自動化によって適切なメンバーに適切なタイミングで共有できる

PagerDutyにすべてのデータインサイトを取り込んで、適切なサービスへのルーティングが完了したら、次に必要なのが適切なタイミングで適切なメンバーと連携することです。
インシデント対応者の場合は、TeamsOn-call schedulesEscalation Policiesを使用します。
その他のステークホルダーの場合は、Status PagesStatus Updatesを通常使用しますが、発生中のインシデントの通知先として登録することも可能です。

ユーザーアカウントに設定される通知機能に加え、PagerDutyでは、さまざまなインテグレーションや拡張機能を利用でき、チームは普段使用しているツールをそのまま使用できます。
これにより、コンテキストを切り替える手間が減り、導入が容易になります。

例えば、PagerDutyをSlackやMicrosoft Teamsといった既存のコミュニケーションプラットフォームに統合したとしましょう。
これにより、特定のインシデントに関して組織の全メンバーへの通知が可能になり、各自の当事者意識を喚起して、ビジネスの他の局面におよび得る影響を把握できるようになります。
また、Incident Workflowsにより、インシデントチャネルの作成や関係する対応者・ステークホルダーの追加の自動化も可能です。

以上のようなステップを踏むと、適切なサポート提供の準備が整い、結果として顧客満足度の向上につながります。

タスクやプラットフォーム診断の自動化で作業効率アップ

PagerDutyでは、繰り返されるタスクを自動化し、セルフサービスにより他のメンバーに限定された機能だけを安全に提供します(具体例はこちらからご覧にいただけます)。
ワークフローに自動化を取り入れることで、エラーの原因削減とそれを利用するエンジニアの業務効率向上を実現します。

クラウドプラットフォーム上でサービスを実行する場合、アプリケーションへ接続する前にエラーが発生し得るポイントがあります。
Incident WorkflowsProcess Automation または Runbook Automationで、プラットフォーム診断の自動化が可能です。
これにより、ログを無駄にすることなく、診断結果をインシデントタイムラインに読みやすく表示させられます。

Process Automationによるインシデントノートの例

この機能により、インシデント対応者が問題の起きている場所をすぐに把握できるだけでなく、解決までの経過をステークホルダーに知らせることができます。

インテグレーション機能活用時のポイント

この記事では、ノイズ削減や効果的なインシデント解決を実現するPagerDutyの機能についてご説明しました。
実装が適切に完了すると、インシデント対応やオンコールシフトの戦略を立てられるといった、大きなメリットが得られます。
さらに、顧客満足度の向上やビジネス拡大だけでなく、業務内容と知識拡大の両面でチームの満足度が向上するといった、さまざまなメリットにつながります。

しかし、企業にとって最も重要なことはツール選定ではありません。
まずは小さなステップから始めてインサイトを集め、他のメンバーと連携し、顧客と自社のビジネスにとって何が重要なのかを見極めることが非常に大切です。

まとめ:監視ツールを変更せずインテグレーションと自動化を実現しよう!

PagerDuty Operations Cloudによるインテグレーションと自動化によって、インシデント対応時のカオスな状態の改善に役立ちます。そのためには、まず自社ビジネスへの理解を深め、何が必要なのかを見極めることが大切です。
PagerDutyを適切に実装すれば、インシデント対応やオンコールシフトの戦略を立てられるようになり、ビジネスの拡大や顧客満足度の向上など、さまざまなメリットが得られます。
インシデント対応のインテグレーションと自動化に取り組む際は、700を超える豊富なインテグレーションの体験が可能な PagerDutyをお試しください。

PagerDutyソリューション解説動画
現代のシステム運用を取り巻く課題 / 現場エンジニアを救う処方箋とは?

システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)

PagerDury ソリューション解説動画

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる