インシデントコマンダーとは?
〜現代のIT運用には必須!その役割と理由〜

インシデントコマンダーとは?〜現代のIT運用には必須!その役割と理由〜

近年、インシデント対応への注目度が非常に高まっています。

2024年1月に日本国内で開催された、有志によるインシデント対応の勉強会には500人を超える参加者が集まりました。また、2月に開催された別のイベントにおいても380人を超える参加者となりました。筆者も双方のイベントに参加しましたが、企業の大小や業種の違いに関わらず、運用担当者のインシデントに対する課題感が高まっているように感じられました。

2010年代からのスマートフォンの普及により、大人から子供まで誰もが息をするかのようにインターネットに接続し、Web閲覧やゲーム、動画視聴、SNSを楽しんでいます。企業においてもITの活用は当たり前となり、人々の生活がデジタルで変わっていくにつれDXの必要性が叫ばれるようになりました。

一方で、そのような高度なサービスの実現に必要な技術は、ますます複雑性を増しています。オンプレミスからクラウドの以降はもちろん、クラウドの機能を十分に活用するためのクラウドネイティブ技術の登場、利用するリソース量の爆発的な増加などが原因となり、システムを運用するためのコストが右肩上がりになっています。

PagerDutyによる独自調査によると、2023年における企業のインシデント数は前年比で13%増加しました。また、エンタープライズ企業におけるインシデント数は16%増と、より高い数字を示しています。これは、ビジネスによる大規模な運用の変革の推進に伴い、複雑性とリスクが向上しているということを示しています。

サービスの重要性が増している現在、運用が難しいからといってダウンが許されるということはありません。むしろ、可用性に対する要求は年々増加しつつあります。そういった背景もあり、インシデント対応の重要性が高まっていると考えられます。

さて、そのようなインシデント対応の分野で、特に注目が高まっているのが「インシデントコマンダー」という役割です。「コマンダー」日本語にすると「指揮官」という重厚な響きを持つこの役割が、何故注目を浴びているのでしょうか。本記事では、その由来と役割、そして実践方法を解説します。

インシデントコマンダーは何をする役割か

インシデントコマンダーの目的を一言でまとめると、

インシデントを解決に導く指揮官

となります。インシデントが発生した際には、ユーザーへの影響、そしてビジネスの影響を最小限にするため、一刻も早く解決しなければなりません。ですが、場当たり的に対処をおこなっていては迅速な解決は望めません。それどころか、誤った処置により二次災害を引き起こす恐れすらあります。

そこで、インシデントコマンダーが旗振り役となり、以下の役割を担います。

  • 意思決定
  • 作業担当への指示
  • 作業要員や関連部署の招集・体制構築
  • ステークホルダーとのコミュニケーション
  • 状況の交通整理
  • インシデントの発生と収束の宣言
  • ポストモーテムの作成指示

特に重要なのが「意思決定」です。インシデントコマンダーは、インシデントの解決にあって必要なさまざまの意思決定を行う責任を持ちます。インシデント発生中においては、最も位の高いポジションとなります。コマンダーとしての意思決定は確定的であり、CEOやCIOの判断よりも優先されるべきものなのです。

インシデントコマンダーがやるべきてはないこと

インシデントコマンダーは、インシデントの発生時にログやメトリクスの確認、コマンドの実行などを行うべきではありません。それらの作業は、インシデントコマンダーから指示された作業担当に任せるべきです。
特に運用経験の長い熟練のエンジニアほど、自分で手を動かしたくなるものです。しかし、インシデントコマンダーが行うべきは解決に導くための意思決定であり、作業ではないのです。どうしても自分でないと解決出来ない作業がある場合は、インシデントコマンダーを他の人に移譲した上でその指揮下に入り、作業担当として行うようにしましょう。

どうしてインシデントコマンダーが作業をすべきでないかは、後ほど説明します。理由の説明の前に、インシデントコマンダーが登場した背景を紹介します。

インシデントコマンダーの由来

インシデントコマンダーの考え方は、米国の消防によって1970年代に確立された、インシデント・コマンド・システム(Incident Command System, ICS)から来ています。

米国は山火事が多く発生する地域です。ニュースで大規模な山火事が報道されているのを見たことがある人も多いでしょう。ひとたび山火事が発生してしまうと、収束に多くの人手が必要となります。また、周囲の街にも人命に関わる事態が発生しうる可能性があるため、報道機関や行政機関と連携を取って対応していく必要があります。

しかし、ICSが確立されるまでは、多くの問題が発生したと言われています。

  • 一度に多くの人が情報を上げてくるため、処理しきれない
  • 通信方法が統一されていない
  • 命令系統が不明確
  • 組織的な対応が困難
  • 関係機関との間で連携をとる方法が確立されていない

これでは、現場は混乱をきたし迅速な解決が難しくなってしまいます。そこで、これらの問題の解決のために開発されたのがICSなのです。

ICSが確立されて以降、米国の他の行政機関でも利用が拡大し、さまざまな災害現場・事件現場でも利用されるデファクトスタンダードとなりました。2005年に発生し多くの犠牲者を出したハリケーン「カトリーナ」の災害現場においても、ICSに基づく対応が行われたといいます。

何故インシデントコマンダーが必要か

ICSの考え方は、IT運用の世界においても適用が可能なものです。

成長段階の運用チームでは、しばしば「全員でサッカーボールを追いかける」かのような状況が発生します。全員の息がぴったり合っており、指揮されずとも自ら最適な行動が取れればベストですが、多くの場合はそうではありません。ICSが生まれる前の消防士たちと同じく、既に鎮火しかけている場所に多くの人を集めてしまったり、作業が重複してしまったり、本当に対処すべき場所を見落として解決に時間がかかったりすることが多いのです。

全員でサッカーボールを追うよりも適切なフォーメーションを組むことが強いサッカーの必須条件であるように、IT運用もインシデントマネージャーの統率のもと、最適なフォーメーションを組むことが最速のインシデント解決の必須条件となります。

また、このような問題もあります。インシデントが発生した際、運用担当者はその原因となる障害の対応に意識が行きがちです。ですが、インシデントで向き合うべきはシステム障害だけではありません。影響を受けているユーザーへの対応、事業の責任者への説明、関係するチームとの連携など、さまざまなステークホルダーとコミュニケーションを取る必要があります。

1人でこれら全てをこなすのは現実的ではありません。Slackが障害のアラートを受け取って数秒ごとにスココンと音が鳴る中、事業責任者に説明をする状況を思い浮かべてください。果たして説明に集中できるでしょうか。

また、フロー状態に入ってログやメトリクスを調査しているときに、横から関係者に怒鳴られるシーンを思い浮かべてください。その瞬間フロー状態は解けてしまい、問題解決は遠のいてしまうでしょう。

そうならないようにするため、作業担当者は作業に集中し、ステークホルダーとのコミュニケーションはインシデントコマンダーが担う必要があるのです。

インシデント対応のフォーメーション

インシデントコマンダーを設置する場合の最小のチーム構成は、インシデントコマンダー1人、作業担当1人の2人体制となります。

コミュニケーションの量が増え、インシデントコマンダーの意思決定に影響を及ぼすようになった場合、専門のコミュニケーション担当を任命し、委譲を行います。

また、インシデントコマンダー配下の作業担当が5人を超えるような場合は、間にとりまとめ役を任命しましょう。「5-15-50-150-500の法則」とも「ダンバー数」とも言われますが、情報を密にして協調して行動できる人数は5人程度と言われています。それ以上の人数になってしまうと意思疎通に難が発生してしまうため、とりまとめ役を設けることでインシデントコマンダーの負担を減らします。

大規模なインシデントになればなるほど、図の左から右の体制へシフトしていきます。対応に当たっているうちに問題の規模が想定より大きいと判断ができたら、インシデントの最中であっても柔軟にフォーメーションを切り替えていきましょう。

インシデントコマンダーについて、興味が沸いてきましたか?

少々長くなってしまったため、この先は次回に説明することにします。次回はインシデントコマンダーのより具体的な仕事や育成方法について解説します。

インシデント対応なら「PagerDuty」にお任せください

インシデント対応は一刻一秒を争います。インシデントコマンダーは多方面からの情報を参考にしながら適切な意思決定を下さなくてはいけません。PagerDuty Operations Cloudを導入することで、さまざまな監視ツールからのアラート、診断スクリプトの自動実行、作業担当による作業メモやチャットツールの会話など、インシデントに関する情報の一元管理が可能です。ステークホルダーとの効率的な連携機能や適切な担当へのエスカレーション機能も備えており、インシデントコマンダーの業務を強力に支援します。
PagerDutyにご興味を持たれた方はぜひ14日間の無料トライアルをお試しください。

▼こちらの記事もおすすめ
インシデント対応とは?事例から読み解く対策方法
インシデント管理とは?システム障害を未然に防ごう

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる