ルーティン業務を劇的に改善する
「Runbook(ランブック)」とは?

ランブックとは?

オペレーション業務には、予期せぬ業務の発生がつきものです。「すぐには解決できないインシデントや問題」に直面することも珍しくありません。その際に、もし担当者自身ですぐに判断や対応ができない場合、どうすればよいでしょうか?例えば、「解決策を見つけるためにGoogleで検索する」「社内Wikiやドキュメントに目を通す」「共有スクリプトの場所を探す」「同僚に尋ねる」など、ありとあらゆる方法を試されるかもしれません。あるいは別の部署へエスカレーションする方もいらっしゃるかも。問題解決に向けた行動には実にさまざまな方法があります。初めて発生した問題であれば、試行錯誤することもあります。しかし、よく発生する問題で何度も同じ解決策を調べていることは、効率性の観点から見直すべきかもしれません。さらにいうと、重大なインシデント対応の最初の段階で、経験の浅い担当者が最も効率が良いとは言えない手段で、時間をかけて問題の解決にあたろうとしているケースもあるかもしれません。

そうしたケースで活躍するのが「ランブック(手順書)」です。ランブックは、頻繁に発生する問題や業務に担当者が対応する際の作業手順書で、問題を迅速かつ効率的に解決できるように汎用性のある指示が詳細に書かれています。ランブックを作成して活用すれば、繰り返し発生する問題に対して的確に対応することが可能になります。本記事では、「ランブックとはどのようなものか」そして「ランブックの必要性や活用のメリット、作成方法」についてご紹介します。

複雑さを増すシステム環境における「ランブックの重要性」

まず、ランブックとはどのようなものなのか、ランブックの必要性と併せて解説します。

ランブック(Runbook)とは

ランブックとは、「プロビジョニング」「ソフトウェアの更新・展開」「構成変更」「ポートの解放」といった、頻繁に発生するIT業務の手順を詳細に記した説明書のことです。ランブックの形式は、おもに次の3つに分けられます。

  1. マニュアル形式:手順を説明した担当者向けの説明書
  2. 半自動形式:一部のワークフローが自動化された担当者向けの説明書
  3. 完全自動形式:すべてのワークフローが自動化された、担当者を必要としないものの説明書

ランブックは料理のレシピのように、特定の業務を迅速かつ効率的に進めるための経験に基づいた詳細な手順が書かれています。ランブックがあれば、経験豊富なメンバーの知識を新しいメンバーに共有でき、経験の浅いメンバーでも頻繁に発生する問題を解決できるようになります。つまり、多くの手順を覚える必要がなく、細かい作業ステップを簡単に確認できるのです。

ランブックの必要性

日々の業務には多くのルーティン作業があります。例えば、「サーバーにパッチを適用する」「WebサイトのSSL証明書を更新する」といった作業など。現代では、ソフトウェア単体の使いやすさは向上していますが、システム全体は非常に多くのソフトウェアが複雑に絡み合って構成されています。そのため、一つひとつは単純な作業でも数が多く、漏れなく実施することが求められます。

このような状況下でランブックがないと、さまざまな問題が起きます。まず、経験の浅い担当者は非常に大変な思いをして作業内容と手順を理解して覚えなければならず成長に時間を要します。また、担当者によって対応が異なっていたり非効率な方法を実施していたりすると、作業品質が一定ではない可能性も生じます。

ランブックがないことは、インシデント対応においても非効率な状況を生み出します。インシデントが検知された場合、次に行なうのは「対応の要否や一次対応を判断するトリアージ」工程です。しかし、経験の浅い担当者にはケースに応じた適切な判断は難しいため、経験豊富なメンバーに対するエスカレーションがより多く発生するでしょう。時には、不必要なエスカレーションが重要な業務を中断してしまうかもしれません。一方で、早急なエスカレーションが求められる事態を自ら解決しようとして、大量のドキュメントやWebサイトで情報を漁り、多くの時間を費やしてしまうことも考えられます。迅速さが求められるインシデント対応において、このような状況を放置しておくのは危険です。日々の非効率の発生を防ぎ迅速なインシデント対応を実現するために、ランブックは必要とされるのです。なお、インシデント対応の詳細については、こちらの記事「事例から読み解くあるべきインシデント対応方法とは?」を参考にしてください。

ランブックを活用する4つのメリット

ランブックは日々のルーティン作業だけでなく、さまざまな場面で役立ちます。ランブックを作成・活用することで得られる主なメリットを4つ紹介します。

【メリット1】インシデント対応の効率化

ランクブックは、インシデント対応業務の効率化に有効です。インシデントの種類や内容ごとに作成することで、よりスムーズに個々のインシデント対応にあたれます。

【メリット2】形式知の共有

ランブックを集めて共有すれば、経験したスタッフに知識やノウハウが偏ることなく、チーム全員の共有財産になります。

【メリット3】オンコール対応人数の削減

ランブックの情報が詳細かつ最新であれば、担当者が自身で対応できることが増えるため、エスカレーションの頻度が減ります。その結果、ITのオンコール対応チームの人数削減につながります。

【メリット4】ヒューマンエラーの予防と作業品質の維持

ランブックは、「データベースのバックアップ」や「アクセス許可の更新」といった、ITシステムやアプリケーションの定期的なメンテナンス業務でも役立ちます。設定内容や手順の誤りから起こるヒューマンエラーを防止し、作業品質の確保と維持につながります。

ランブックとプレイブックの違い

「ランブック(Runbook)」と「プレイブック(Playbook)」はよく混同されますが、実際には異なります。「プレイブック」とは、規模の大きな問題やイベントを解決するための戦略がまとめられたものです。プレイブックのワークフローの一部には、複数のランブックとチームメンバーが含まれます。ランブックが「料理のレシピ」だとすれば、プレイブックは「パーティーを運営するためのマニュアル」だといえるかもしれません。レシピは素晴らしい料理を作るために必要ですが、料理はパーティーを構成する1要素にすぎません。つまり、ランブックはが個々の業務のための具体的な手順書であるのに対し、プレイブックは重大なインシデント対応における全体方針を示したガイドラインです。

ランブックとプレイブックは目的が異なるため、どちらか一方があればよいというものではありません。プレイブックを実行する際にランブックがあれば、高い緊張感の中でより一層正確な作業が求められる重大なインシデント対応において、メンバーは落ち着いて正確に対応しやすくなります。また、対応できるメンバーも増えるでしょう。その結果、経験豊富なメンバーはより高度な対応に集中できるようにもなります。

良いランブックを作成するための3ステップ

ここでは、ランブックを作成する際のステップとポイントについてご紹介します。

【ステップ 1】ランブックの内容を検討する

ランブックの内容を検討する際には、以下の2点を確認しながら進めましょう。

1. 最も多く発生するインシデントや業務は何か?

インシデントレポートとポストモーテム(事後分析)を詳しく見ることで、ランブックが役立つプロセスを理解できます。さらにチケットシステムを調べると、どのプロセスで同じ業務が頻繁に発生しているのかを把握できます。そうして把握した業務や問題にランブックを導入し、対応業務の時間短縮と、正確性や効率の改善につなげましょう。例えば、定期的に発生するWebサイトのSSL証明書の更新業務は、ランブックを効果的に活用できる典型的なケースです。ランブックがあれば担当者は詳しい指示のもとその業務を正確かつ迅速に進められます。さらに、ランブックによって手順が明確になり作業が完全に自動化(Webサイト監査ツールを導入する等)されれば、人手による対応が不要になります。

2. その業務における最善の解決策は何か?

ランブックを効果的に使えるケースを特定できたら、次に重要になるのが最善の解決策を見つけてそれを文書化することです。先ほどのインシデントレポートとポストモーテムを参考に、過去に該当のケースを解決した手段の中から最も的確かつ効率的な方法を見極めましょう。また、実際に問題を解決したベテランのスタッフから貴重な情報を得られた場合には、そのベストプラクティスも文書化しておきます。ランブックの作成において重要なのは、最善の解決策が担当者にわかりやすく書かれていること、そして経験者からの裏付けが取れていることです。

【ステップ2】ランブックを作成する

ランブックの内容が決まったら、次の点に留意して文書化に取り掛かりましょう。

  • シンプルかつ明確な表現を使い、細かい点は省略する
  • 誰にでも理解しやすい言葉で表現する
  • 特定のプロセスに沿って具体的に説明する
  • システムやアプリケーションに変更が生じた際にも対応できるように、フレキシブルな方法にする

担当者は複数のランブックを使うこともあるため、アプリケーションごとに内容のバラツキがでないように、一貫性を持ってランブックを作成することが大切です。担当者が必要とするポイントをすべて網羅できるように、ランブックの作成者には、名前の付け方から見出しの作り方まで体系的に説明しましょう。元Googleシステム管理者のトム・リモンチェリは、ランブックを以下7つの項目に沿って書くように推奨しています。

1. 概要

このランブックで説明するサービスの概要を説明します。例えば、「サービスの利用用途」「おもな連絡先」「バグの報告方法」「設計ドキュメントへのリンク」「その他の関連情報」などが挙げられます。

2. ITサービス・ソフトウェアのビルド方法

ソフトウェアのビルド方法を記載します。例えば、「ダウンロードする手順」「ソースコードリポジトリの場所」「ビルドしてパッケージを作成する手順」「その他の配布メカニズム」などが該当します。オープンソースプロジェクトやローカルプロジェクトで作成されたソフトウェアであれば、他の開発者はどのように入手して構築すればよいのかを説明します。理想的には、他のマシンにコピーしてインストールできるパッケージにしておくとよいでしょう。

3. ITサービス・ソフトウェアのデプロイ方法

ソフトウェアのデプロイ方法を記載します。例えば「RAMやディスクの要件」「OSのバージョンと構成」「インストールするパッケージ」などが該当します。デプロイが自動化されている場合は、その旨も記載しておきましょう。

4. 頻出する業務について

プロビジョニング(追加/変更/削除)のように、対象のサービスに対してよく行われる業務の作業手順をステップ・バイ・ステップで記載します。また、業務でよく発生する問題とその解決方法を記載します。

5. ページャープレイブック

監視システムが発生させるすべてのアラートのリストと、発生時の段階的な対処方法を記載します。

6. 障害復旧計画 (Disaster Recovery Plan, DRP)

システムやサービスに障害が発生した場合に、どのように復旧させるかを記載します。例えば、代替の「ホットスペア(すぐに稼働可能な代替機器)」や「コールドスペア(稼働準備ができていない予備機器)」に切り替える手順などが挙げられます。

7. サービス内容合意書 (SLA)

顧客と結ぶサービス内容合意書の内容を記載します。例えば、「稼働率」「RPO(Recovery Point Objective, 復旧時点目標)」「RTO(Recovery Time Objective, 復旧時間目標)」などが該当します。

【ステップ3】ランブックの内容を検証して更新や改善を加える

ランブックは「作成したらそれで終わり」ではありません。内容を検証し、更新し続けることでランブックは機能します。ランブックを読めば、いつでも業務遂行に必要な最新のノウハウをすべて理解できる状態にしておくことが大切です。そのためには、製品やプロセスの変更にともなう更新だけでなく、新規導入の際にも使えるようにする必要があります。変化の激しいITの業務環境に対応できるよう、柔軟性のあるランブックの作成・活用を目指しましょう。

PagerDuty® Runbook Automation による自動化

ランブックは、業務やインシデント対応の自動化にも役立ちます。ランブックの作成と共に手順が明確に定義されるため、業務を自動化しやすくなります。ランブックの自動化には「PagerDuty Runbook Automation」をご検討ください。「PagerDuty Runbook Automation」は、エンジニアがランブックの手順を標準化して自動化し、セルフサービス型運用として現場の担当者への委任を可能にするSaaSサービスです。例えば、クラウドの構成変更作業をセルフサービス型にし、開発者やカスタマーサービスチームといったエンドユーザーが実行できるようになります。その結果、エンドユーザーは環境が準備されるのを待つ必要がなくなり、プラットフォームを管理するチームはチケット対応やインタラプションを減らせます。「PagerDuty Runbook Automation」の詳細については、こちらの記事「PagerDuty® Runbook AutomationがPagerDuty Process Automationのポートフォリオと連携」を参照ください。

インシデント対応を含む業務の自動化に対して、取り組む余裕がないと感じている方もいらっしゃるかもしれません。そのような場合には、無理なく自動化を進める方法として「Crawl-Walk-Run(ハイハイ – 歩く – 走る)」アプローチがおすすめです。「Crawl-Walk-Run」アプローチの詳細については、こちらの記事「『インシデント対応の自動化』に企業が取り組むための3ステップ」を参考にしてください。

ランブックを活用して、業務を効率化しよう

適切に作成されたランブックは、あらゆる場面で担当者を助け業務を効率化します。担当者の知見がランブックによってチームに共有されれば、他の担当者が同じ問題の解決方法を調べるような事態を回避できるでしょう。また、新しい担当者でもすぐにチーム内で検討された最適な方法を実施できるようになります。このような日々の業務の効率化や最適化は、重大なインシデント対応に集中するためにも必要なことです。PagerDutyでは、ランブックやランブックの自動化をはじめとした、業務プロセスやインシデント対応の効率化の実現をサポートします。PagerDutyにご興味を持たれた方は、まずは無料トライアルで実際にお試しいただき、その効果をご実感ください。

PagerDuty公式資料
「デジタルオペレーションの現状」独自調査レポート

エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)

「デジタルオペレーションの現状」独自調査レポート

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる