を14日間無料で試してみる
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
障害によってIT関連のシステムやサービスの提供が急に停止してしまうと、その影響は広範囲におよびます。したがって、その正常な稼働をチェックする死活監視は、IT関連のシステム運用やサービス提供において、欠かせないものだといえるでしょう。
しかし、昨今ではIT化が急速に進行し、各種システムは複雑かつ大規模になっています。そのため、死活監視に関する工数やコスト、異常検知やアラートの精度、効率的かつ適切な監視体制などに悩みを抱えている企業や担当者は多いのではないでしょうか。
このような死活監視についての悩みを解決するには、死活監視の正しい理解と、自社の実情に合った死活監視の方法選びが重要です。
この記事では、死活監視の概要やインシデント対応との関係、実施方法、効果的な実施のための注意点などを解説します。
目次
死活監視とは、機器類やネットワークなどが正常に稼働しているかを、継続的にチェックすることを指します。ここでは、死活監視の役割とその必要性について解説します。
前述のとおり、機器類やネットワークの稼働を継続的にチェックし、業務やサービスの提供などを円滑に行なうことが死活監視の役割です。このプロセスを通じて、監視対象のさまざまな面での安全性が確保されます。
万が一、ネットワークやサーバー、機器類が急に停止してしまうと、インシデントの発生はもちろん、業務やサービスの安全な進行・提供に重大な支障をきたすおそれがあります。そして、結果的に大きな損害へとつながってしまうかもしれません。
死活監視の対象には正常に24時間・365日稼働することが求められるものも多いため、急に停止してしまうと、多くのトラブルが発生してしまうでしょう。
例えば「急にサーバーがダウンして、ビジネスに必要なデータにアクセスできない」「監視カメラが停止して、システムの安全性を確保できない」などの問題が挙げられます。
このようなことから、死活監視はIT関連のシステム運用やサービス提供において欠かせないものといえます。
死活監視は、おもに「アクティブ監視」と「パッシブ監視」の2種類に分けられます。
アクティブ監視は、能動的に対象の状態を確認する監視方法です。代表的なものには「PING監視」「ポートによる監視」があります。
PING監視は、定期的に監視対象に対して応答を求める信号(ICMPパケット、pingコマンド)を送信し、応答を確認するものです。応答があれば正常、応答がなければフリーズなどの異常が発生したと判断します。
ポートによる監視は、ポート(ネットワーク接続のための仮想ポイント)にアクセスし、ダウンしていないかを確認する方法のことです。おもに、Webサーバーなどで用いられます。
一方のパッシブ監視は、対象からのアクションを監視する方法です。代表的なものとして「Watchdog機能を利用した監視」が挙げられるでしょう。
Watchdog機能を利用した監視は、対象から定期的に送信されるパケット(細かなデータ)を監視するものです。一定期間パケットが到着しなければ、何らかの異常(フリーズなど)が発生したと判断します。
では、どういったものが死活監視の対象となるのでしょうか。代表的な例を以下にまとめました。
いずれも停電や故障、高負荷、アクセス集中など、さまざまな理由で停止またはフリーズしていないかをチェックします。
死活監視にはさまざまな種類がありますが、その実施方法はおもに3つです。以下で確認していきましょう。
死活監視の基本的な実施方法です。pingコマンドを手動で実行し、目視で稼働状況を確認します。
ただし、これはあくまで監視対象が少ない場合に限り、可能な方法でしょう。監視対象が多くなると、どうしても手動での実施は難しくなってしまいます。
その場合、後述する監視ツールの活用やプラットフォーム提供サービス、代行サービスを利用して、死活監視を実施することになります。
監視対象が多い企業で死活監視を実施する場合、一般的には監視ツールを用います。これは、監視ツールを用いることで自動化でき、工数の削減につながるためです。
監視ツールには、無料のOSS(オープンソースソフトウェア)を用いる方法と、有料の商用ソフトウェアを用いる方法があります。いずれの場合も、導入・設定・運用には専門知識や技術力が必要です。
多くの監視対象に対して、より効率的かつ効果的に死活監視をしたい場合には、システム運用とインシデント管理に特化したプラットフォーム提供サービス・代行サービスの利用がおすすめです。
監視に対する社内のリソース不足にも対応できるうえ、死活監視以外の監視項目やインシデント対応など、システム運用において必要となるさまざまな業務をまとめて依頼できます。
監視業務自体を効率化できることはもちろん、平均修復時間(MTTR)の短縮にも役立つでしょう。自社の状況に合わせて対応してもらえることも多いため、さらなるビジネスリスクの低減にもつながります。
一方でこの方法には、監視ツールを用いるよりも高額な費用が発生するデメリットがあります。とはいえ、人件費や工数などを考慮すると、必要経費と割り切ることができる企業もあるかもしれません。
さまざまなサービスを比較し、長期的な視点で検討を進めるとよいでしょう。
ここまで、死活監視の概要や種類、実施方法などを解説してきましたが、そのなかで「インシデント」についても何度か触れています。
死活監視とインシデント対応は、システムなどの運用監視においてそれぞれ欠かせないものです。さらに相互に関連があり、補完し合う関係でもあるといえるでしょう。
互いにその結果をうまく活かすことが、より良い運用監視につながります。以下では、その例を紹介します。
死活監視によってシステムの異常を早期に検知できれば、その分、インシデント対応の開始を早められます。システムのダウンタイムも、最小限に抑えることができるでしょう。
ひいては、多額の損失や顧客満足度の低下など、ビジネスへの悪影響も抑えることにもつながります。
インシデント対応の過程で得られた知見をもとに、死活監視の精度を向上させることも可能です。
死活監視の精度が上がると、セキュリティ強化やシステムダウンなどのリスク回避にもつながるでしょう。
より効果的な死活監視を行ないたい場合、「対象が正常に稼働しているか」の確認だけでは不十分です。ここでは、同時に実施したい監視項目や事前に準備しておきたいことなどを解説します。
ITシステムの運用管理を安定させ、早期のインシデント対応を行なうには、リソースやログ、ネットワークなど、複数の項目を監視しておく必要があります。
一見正常に動作しているシステムも、リソースを過剰に消費している箇所がある場合、正常なパフォーマンスを維持できるとは限りません。放置し続けた結果、トラブルにつながってしまう可能性があります。
このほか、ログを監視することでシステムの動作状況やエラーを発見できたり、ネットワークを監視することで遅延の発生などを早期発見できたりします。
このように死活監視だけでなく、併せてさまざまな監視を行なうことで、ITシステムの安定運用につながります。
死活監視と同時に実施したい監視項目例は、以下のとおりです。
監視項目 | 監視内容 |
---|---|
リソース監視 | CPUやディスク容量、メモリなどの使用量・使用率を監視し、使用状況を把握する |
ログ監視 | システムやアプリケーションから出力されるログを監視する |
プロセス監視 | システムが稼働するための各プロセスが適切に動作しているかを監視する |
ネットワーク監視 | ネットワークの通信状況や通信量を監視し、ネットワークの遅延や断線が発生していないか確認する |
アプリケーション監視 | アプリケーションの動作状況やパフォーマンスを監視する |
前述した複数項目の監視を同時に行なうことは重要ですが、それと同時に、アラートの精度にも注意を払っておく必要があるでしょう。
万が一、その精度に問題がある場合、複数の監視ツールから頻繁にアラートがあがってしまったり、逆にアラートを出してほしい障害でアラートがあがらなかったりする可能性があります。
アラートの精度が低くても、監視対象が少ない場合はそれほど問題にはなりませんが、監視対象が多い場合は大きな問題となってしまいます。
そのため、プラットフォーム提供サービスや代行サービスでは、誤検知を減少させる、アラート精査の部分で問題が起こらないようにするなど、さまざまな工夫が施されています。
死活監視では、障害発生時のフローや対処方法を障害のレベルや種類ごとに定めておくことが重要です。これは、死活監視だけでなく運用監視全体にいえることでもあります。
初動対応、ステークホルダーや外部サポートの連絡先、情報公開先、復旧手順などをきちんと整理・定義し、マニュアル化したものを文書として残しておくとよいでしょう。
最後に、システム運用とインシデント管理に特化したプラットフォームを提供するPagerDutyのサービス導入で、死活監視を含むシステム監視やインシデント管理にまつわる問題を解決した企業様の例を紹介します。
前の章で述べたように、死活監視は複数の監視と組み合わせて行なうことが大切です。しかし、アラートの精度に問題があると、監視対象の多い大企業では膨大な数のアラートが複数の監視ツールからあがってきてしまいます。
NTTドコモ様も「精査されていないアラートすべての確認や対応すべきものの特定、実行までに時間がかかる」という問題を抱えていました。
また同社では、アラートをめぐる手順書の更新ややりとりにかかる、多大な工数の削減も大きな課題でした。
これらを解決するため、複数の監視ツールからのアラートを「PagerDuty」へ集約したところ、月間10,000件ものアラートが1,000件程度に減少したといいます。
こうして、クリティカルではないアラートへの対応時間を月40時間ほど削減でき、平均確認時間(MTTA)は3~5分、平均修復時間(MTTR)は2時間15分の実現に成功しました。
株式会社NTTドコモ様の導入事例について、詳しくは以下をご覧ください。
NTTドコモ様事例 インシデント対応の変革で手作業を自動化 NOCレスな運用監視も新たな選択肢に
「Oisix」「大地を守る会」「らでぃっしゅぼーや」など、食品宅配のサブスクリプション事業を提供するオイシックス・ラ・大地株式会社様では、生鮮食料品の物流をともなう事業を展開しています。
鮮度の高い商品を扱うため、同社の業務を支えるシステム運用においては迅速なインシデント対応が欠かせません。
以前は、マネージドサービスプロバイダ(MSP)企業にインシデント対応を委託していましたが、対応の柔軟性や即時性の実現が難しく、悩みを抱えていました。
そこで「PagerDuty」を導入したところ、平均確認時間(MTTA)は30~50%程度の改善を実現。さらに、サーバー台数に応じた料金体系からアカウント単位の料金体系となったことで、コスト削減にも成功しています。
オイシックス・ラ・大地株式会社様の導入事例について、詳しくは以下をご覧ください。
オイシックス・ラ・大地様事例 オンプレミスにもPagerDutyを活用!MSPからの移行でMTTA短縮化とコスト削減を実現したオイシックス・ラ・大地
株式会社ココナラ様は、日本最大級のスキルマーケット「ココナラ」と、「ココナラ法律相談」「ココナラビジネス」「ココナラエージェント」の4つの事業を展開している企業です。いずれも24時間・365日の稼働が求められるサービスを提供しています。
同社は「ビジネスの拡大にしたがって増えるアラートに対し、限られたエンジニアでいかに対応するか」という点に悩みを抱えていました。
そこで「PagerDuty」を活用したところ、アラートの絞り込みによる効率化に成功しています。各種アラートの発報を「PagerDuty」に任せ、同時にDatadogやAmazonCloudWatch、Sentryなどの監視ツールと連携して、優先度を見極めた発報を実施しました。
具体的には、アラートを精査して「本当に発報すべき内容」のみのフィルターを「PagerDuty」側で設定。スルーして問題ないエラーや既知のエラーなどは発報せず、対応が必要なものや未知のものだけを知らせるようにしました。
その結果、対応すべきアラートは1日平均3~4件程度に抑えられ、エンジニアにかかる負担の削減にもつながったといいます。
株式会社ココナラ様の導入事例について、詳しくは以下をご覧ください。
ココナラ様事例 PagerDutyでオンコールの負担を大きく軽減!エンジニア横断で対応するココナラのインシデント対応
死活監視とインシデント対応はそれぞれが重要な役割を担い、相互補完の関係にあるといえます。互いにその結果をうまく活かすことで、より良い運用監視を実現できるでしょう。
ITシステムの運用監視として、死活監視だけでは残念ながら不十分です。同時にさまざまな項目について同時に監視することが、早期のインシデント対応につながります。
多くの監視対象に対して、より効率的かつ効果的に死活監視を含む運用監視をしたい場合は、システム運用とインシデント管理に特化したプラットフォーム提供サービスや代行サービスの利用がおすすめです。
「PagerDuty」では、下記のように高度な連携で、効果的かつ効率的な運用監視を実現しています。
高度な連携機能 | 効果 |
---|---|
複数のアラートをグループ化して1つのインシデント配下にまとめる | 不要な通知を削減 |
ほかのサービスで現在発生している関連性の高いインシデントを表示 | 担当者が影響範囲をひと目で把握できる |
サービスごとのMTTA/MTTR・インシデントの数・インシデント対応に費やした総時間や各メンバーへの負荷などを可視化 | 運用管理に役立つ |
「PagerDuty」は、効果的かつ効率的な運用監視するうえでおすすめのサービスです。「PagerDuty」について詳しく知りたい方は、ぜひ以下からご確認ください。
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
目次