インシデント管理を効率化する
PagerDuty「3つのスケジューリング機能」

インシデント管理を効率化する3つのスケジューリング機能

急なインシデント対応が発生した際に、うまくスケジューリングを活用していますか?
「優先順位がわからず、何から手を付けるべきか迷ってしまう」「アラートに気付くのが遅れる」「特定のエンジニアにインシデント対応が集中してしまう」など、これらの問題はスケジューリングを徹底することで解決できるかもしれません。その際手作業によるスケジューリングには限界があるため、専用のツールを導入して、自動化することをおすすめします。
本記事では、「スケジューリングの重要性」や「スケジューリングツール導入のメリット」、「スケジューリングツールの活用方法」、そして「新たにアップデートされたPagerDutyの新機能」について解説します。

スケジューリングとは

まずは、インシデント対応におけるスケジューリングについて、説明します。「スケジューリング」とは、物事を効率良く進めるために計画を立てる作業のことを言います。

インシデント対応においてスケジューリングを怠ると、インシデントへの対応が遅れ、ダウンタイムの長期化につながります。インシデント対応するエンジニアの割り当てや作業時間の割り出しが不十分だった場合、作業効率が低下して人的コストなどのリソースが増大します。迅速な対応が求められるインシデント対応において、スケジューリングは必要不可欠であるプロセスだと言えます。インシデント対応が遅れたり、不十分だったりすると、企業のイメージや顧客満足度に悪影響を及ぼす恐れがあります。

スケジューリングツールを活用したインシデント管理のメリット

スケジューリングツールは、エンジニアのシフトや対応状況を可視化し、システムやネットワークのトラブルに素早く対応するためのツールです。スケジューリングツールを用いてインシデント管理するメリットについて解説します。

✅ 迅速なインシデント対応が可能になる

迅速な対応が求められるインシデント対応では、エンジニアのシフトや現在の業務状況を常に把握しておくことが重要です。インシデントは休日や夜間にも発生することがあるため、適切なエンジニアをいつでも迅速に割り当てる必要があります。スケジューリングツールを使用しない場合、どのエンジニアに割り当てるかの判断が難しくなり、対応の遅れや重複につながる恐れがあります。

✅ インシデント発生時の通知が容易になる

スケジューリングツールは特定のルールに基づき、担当者に自動でアラートを通知する機能を備えています。例えば、インシデントが発生した際に、オンコール中のエンジニアだけにアラートを送ることが可能です。
また、連絡が取れない場合は、メールから電話への連絡方法を切り替える、または別の担当者へ自動転送するなど、さまざまな設定が可能です。スケジューリングツールがなければ、これらすべての連絡調整をすべて手作業で行なわなければなりません。

✅ エンジニアの負荷状況を把握できる

スケジューリングツールを用いてエンジニアのシフトを管理すると、各エンジニアがどれだけオンコール対応しているかを把握できます。
オンコール対応が続くと、エンジニアは燃え尽き症候群を引き起こしやすいと言われています。これは、オンコールシフト中のインシデント対応に、高い集中力を要求されるためです。
スケジューリングツールを活用して各エンジニアの負担状況を把握できれば、1人のエンジニアに負担が集中しないよう、バランス良くシフトを配分できます。

インシデント管理におけるスケジューリングの流れ

インシデント管理におけるスケジューリングの流れを解説します。

インシデント発生時の対応担当者とスケジュールの割り当て

まずは、日ごと、または週ごとにオンコールを担当するスタッフやチームを決定します。
「月曜日はAチーム、火曜日はBチームが担当する」など、すべてのスタッフがインシデント対応に参加するよう、バランス良くシフトと業務を分配しましょう。
また、担当者やチームだけでは対応できないケースやチームメンバーが病気で不足してしまうケースなど、不測の事態に備える必要があります。このようなケースを考慮し、第二担当者やバックアップチームを決めておくことも重要です。

優先順位の高いインシデントの特定とリスク評価

システムやネットワークのログデータを分析し、発生率の高いインシデントを特定します。
そのなかから、トラブル発生時に対応の遅れによって生じるリスクを想定し、インシデントに優先順位をつけます。このときに、企業のブランドイメージや顧客満足度など、営業面への影響も考慮することが重要です。特定したインシデントに対応できるように、適切な技術と経験を持つスタッフやチームを選定しましょう。

インシデント対応フローの作成

インシデントが発生した際に、迅速に対応できるよう、以下のような3段階に分けた対応フローを作成します。

  • 初動:インシデント発生時、被害を最小限に留めるための処置をします。

エラー内容に関する情報収集を行ない、インシデント対応チームに連絡しましょう。
必要に応じてバックアップを取得し、セキュリティインシデントの場合はネットワークの通信経路を変更して、臨時の対策を実施します。

  • 調査:インシデントの原因と被害状況を確認し、影響範囲を調査します。

ログファイルやシステムを分析して原因を特定し、二次被害を防ぐために、被害が及んでいる可能性のあるシステムやネットワークについても調査してください。
調査が完了したら、結果をまとめて関連部署に報告します。

  • 修復:インシデントの影響を受けたシステムやサービスを正常な状態に戻すために作業します。

特定されたインシデントの原因に対処し、システムやネットワークを復旧させるための計画を立てましょう。その後、計画に従って必要な修復作業や設定変更を実施し、修復後のシステムが正常に機能するかをテストします。

分析と事後対応

同じインシデントが再度発生しないように、根本的な原因を特定し、対策を実施します。例えば、システムのアップデートやセキュリティ対策です。
さらに、インシデント対応フローについても振り返り、改善点がある場合は見直しをしましょう。

効率的なインシデント管理に活用すべき「PagerDuty、3つのスケジューリング機能」

ここでは、PagerDutyのスケジューリング機能の活用方法を解説します。

1️⃣ オンコールシフトの効率化

PagerDutyのスケジューリング機能により、インシデントが発生した際のオンコール対応エンジニアと通知手段を設定し、対応をワークフロー化します。
PagerDutyのユーザーインターフェースはシンプルで操作しやすく、オンコールシフトのローテーションの組み替えが簡単に可能です。これにより、突発的な変更にも対応できます。
また、スケジュール画面では、現在対応中のエンジニアを一目で確認できます。
チームの状況を正確に把握することで、緊急時に迅速な対応が可能となり、ダウンタイムの短縮につながります。

2️⃣ インシデント割り当ての自動化

設定したルールに従って、インシデントの自動割り当てが可能です。
通常、インシデントが発生した際にはエラー内容を目視で確認し、マニュアルに基づいて、適切な担当者へ連絡しなくてはいけません。
しかし、PagerDutyで事前にルールを設定しておくと、発生したインシデントに対して、どのチームがどのような順序で対応するかを、自動で割り当てられます。
これにより、インシデントに着手するまでの時間が大幅に短縮可能です。

3️⃣ 不要なアラートを減らし、エンジニアの負担を軽減

インシデントアラートの緊急性を、その重要性に基づいて自動的に判断し、振り分けられます。
例えば、緊急性の高いインシデントには電話を鳴らし、緊急性が低いものにはアプリ通知を使用します。また、インシデント対応中に、別のインシデントアラートが鳴ることを防ぐ設定も可能です。
このようにアラートを効率良く振り分けると、無駄な通知が減り、エンジニアの負担軽減に役立ちます。専用のアプリをエンジニアのスマートフォンにインストールするだけ、通知を受け取ることが可能です。

スケジュールの視認性強化

PagerDutyでは、スケジュール画面が見やすく、現在の業務状況や次回のローテーションが一目で把握することが可能です。具体的には、以下の項目が1つの画面に表示されます。

  • 現在のオンコール対応者
  • 次回のオンコール対応者
  • カレンダーフィード
  • スケジュールごとの対応者、チーム、エスカレーションポリシーを折りたたみメニューで表示

柔軟なスケジュール作成機能

PagerDutyでは、お客様からいただいた意見を反映し、スケジュール作成をよりスムーズに行なえるように製品アップデートを行なっています。例えば以下の機能はお客様のフィードバックを基に追加した機能になります。

  • スケジュール名が必須に:スケジュールの作成には、スケジュールの名前が必要になりました。これにより、対応チームと管理者がほかのスケジュールと区別しやすくなります。
  • ドロップダウン式タイムピッカー:これまで手動で入力していた引き継ぎ時間と日程制限を、新たに導入されたタイムピッカーを使用して指定できるようになりました。
  • ボタンの位置の変更:キャンセルボタンと保存ボタンが「追従ボタン」としてページの右側に移動しました。これにより、ページをスクロールしてもボタンが常に表示されます。

充実した編集機能

編集機能においては、チームやプロセスが変更されても、スケジュール画面に変更箇所がすぐに反映されます。

  • チームとスケジュールを同時に管理:管理者はスケジュール画面上で、直接メンバーの追加・削除ができるようになりました。
  • スケジュールレイヤー名が変更可能に:対応者と管理者が、スケジュールのレイヤー名を編集できるようになりました。これにより担当エリア名を含めたり、誰でもすぐに理解できる名前に変更できたりします。
    また、新たに絵文字も使用できるようになりました。
  • スケジュールレイヤーの並び替えと折りたたみが可能に:ユーザーはスケジュールレイヤー作成とページ編集時に、ドラッグ&ドロップでレイヤーの並び替えが簡単にできるようになりました。

インシデント管理に取り組むエンジニアにとってもスケジューリングは重要

インシデントが発生するたびに、それらを目視で確認し、手順書に基づいて適切な担当者に連絡を取る作業は、大きな労力を要します。さらに、アラートの通知にチャットツールやメールを使用する場合、エンジニアは常にこれらをチェックし続ける必要があり、大きな負担となるでしょう。
そこで、インシデント管理ツールを導入すると、インシデントの検知と割り当てを自動化し、適切な担当者にアラートを送信できます。こうした点でインシデント対応にお困りの方は、ぜひPagerDutyをお試しいただき効果的なスケジューリングを実現ください!

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる