PagerDutyと一次対応の自動化
〜24/365監視運用の実現と効果〜

PagerDutyと一次対応の自動化

cloudpackの24時間365日の監視運用を支えるPagerDuty

アイレットではクラウドの導入設計から構築・運用・監視保守までのフルマネージドサービス cloudpack を提供しています。監視業務の対象となるアラートはすべてPagerDutyに集約して一元管理し、24時間365日の有人監視を自社体制で実施しています。発生したアラートの一次対応は社内システムにより80%以上自動化しています。この自動化システムをAMS(Advanced Monitoring System)と呼んでいます。

今回はこの自動化の取り組みと、そこで活用しているPagerDutyの機能を紹介させていただきます。機能やインテグレーションが豊富なPagerDutyですが、他のSaaSやシステムとの相互活用の参考になれば幸いです。

一次対応の自動化

監視ツールが検知したアラートはPagerDutyのインシデントとして起票され「AMS(自動対応)」「1次運用チーム(有人対応)」のどちらかまたは両方で対応を行います。

一次対応の自動化

PagerDutyにインシデントが起票されるとAMSはそれをWebhookで受け取り、事前定義したAMSのプロジェクトに該当するシナリオが登録されていればAcknowledgeして自動処理を開始します。この一次対応には情報の取得、復旧作業、動作確認による分岐、チケットシステム(Backlog)への起票、電話での自動音声による担当者や顧客へのエスカレーションなどが含まれます。「該当するシナリオが存在しないもの」「途中で有人対応に引き継ぐもの」」「シナリオの想定を外れた状況になったもの」は1次運用チームによる有人対応に引き継ぎます。これにより定型化できる作業は自動で素早く処理し、定型化できない作業や判断などは有人対応というハイブリッド体制で日々アラート対応を行なっています。

PagerDutyの機能とAMSでの活用

プライオリティ

PagerDutyではインシデントにあらかじめ定義しておいた プライオリティを設定することができます。弊社ではシナリオフローの結果に従って、AMSが自動的にプライオリティを付与します。付与したプライオリティは「有人対応へ引き継いだ際の優先度」「事後の分析のための属性情報」などに利用しています。またプライオリティ毎に目標対応時間(MTTR)を定義しており、目標を達成しているか定期的に評価レポートを出力し、傾向分析やフォローを行うことで監視運用業務の高い品質を担保しています。

AMSでの活用 (プライオリティ)

ノートとタイムライン

PagerDutyではインシデントに対する変更などは全て「タイムライン」に記録され確認することができます。「ノート」という形でメモなどを追加でタイムライン上に残すこともできます。AMSではこれから実行するシナリオの内容、エラーメッセージ、情報取得結果やエスカレーション結果などの一次対応状況をノートとして随時追記しています。有人対応に切り替えた際の参考情報や、事後の分析などに役立っています。対応するインシデントの対処に役立つ他の社内システムへの連携リンクやトラブルシューティング、FAQなどをAMSが追記することもあります。

AMSでの活用(ノートとタイムライン)

カスタムフィールド

2023年にリリースされたカスタムフィールドという機能は、新たにフィールドを定義し、任意の値をインシデント毎に入力できる機能です。これにより業務に沿った情報を統一されたフォーマットに沿ってインシデントに付加することができます。AMSでも最近この機能を利用する実装を追加しました。自動シナリオ実行の完了後に有人対応へ引き継ぐ際、引き継ぎ情報を端的に格納するのに利用しています。

カスタムフィールド

もともとタイムラインを見れば必要な情報は時系列で並んではいたのですが、ここを見ればまず参照すべきドキュメントのリンクや、とるべき対応方針が確認できるようになりました。今後はこのカスタムフィールドに事後分析用のパラメータなども追加しようと考えています。

REST API

これまで紹介した機能を含むAMSからインシデントへの操作は、公開されているAPIを呼び出して実行しています。今回紹介したAMSからの利用だけでなく、APIでインシデントの過去データを取得し分析用のプラットフォームに蓄積するのにも使っています。インシデント情報を蓄積し分析することで、フォローが必要な部署の特定や運用上のボトルネックを早期に発見し改善に繋げています。

一次対応の自動化による効果

ビジネスが大きくなるにつれ発生するアラート数も劇的に増えていきます。PagerDutyの豊富な機能と連携する形で、運用・監視ノウハウをシステム化。自動化対応率は80%を超えています。これにより一次対応にかかる平均時間は大きく削減できました。

一次対応の自動化による効果

定型化された作業を自動化する事で、1次運用メンバーは人間にしか対応できない作業や新しい技術の取り込みや運用改善へリソースを割くことができます。今後もPagerDutyのテクノロジーも取り入れ協調しながらアイレットのサービス品質を高めていきたいと思います。

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる