システムの運用監視とは?
監視体制の整え方とインシデント対応

システムの運用監視とは? 〜監視体制の整え方とインシデント対応〜

社会全体でIT化が進む昨今、ビジネスにおいてもさまざまなシステムが使われており、それにともなってシステム運用監視の業務負担も大きくなっています。
しかしながら、システムの運用監視は、企業にとって重要であり疎かにするわけにはいきません。

そこで本記事では運用監視を実施しない場合のリスク、監視体制の整え方や注意点、効率な運用監視のコツを解説します。
運用監視への理解を深めれば、自社に適した運用監視体制の構築に役立ちます。システムの運用監視体制の構築や見直しを検討している方は、ぜひ参考にしてください。

ITシステムで重要な「運用監視」とは

運用監視とは、システム内を構成しているサーバーやネットワークが正常に作動しているかを定期的に監視する業務です。システムの監視を行ない、異常な状態が発生していないか、発生の予兆がないかを確認します。
運用監視を行なう目的は大きく2つあります。

  1. 障害の発生を防止し影響を軽減させる
  2. クレームやビジネス機会損失のリスクを軽減させる

また最新の監視体制として「オブザーバビリティ」への関心が高まっています。
オブザーバビリティとは、直訳すると「可観測性」という意味です。従来の監視体制よりも観測能力が高くなるオブザーバビリティは、以前からある「監視」と混合される場合もありますが、決定的な違いがあります。
これまでの監視体制は、設定した監視項目や、しきい値を超えた場合にアラートが出る仕組みでした。設定項目やしきい値に基づき「どこに異常があるか」を把握する方法で、モニタリングと呼ばれます。

一方、オブザーバビリティは、「なぜその障害が起きたのか」を把握するための監視体制です。複雑な分散型システムを可視化し、情報を分析することで障害が起こる原因を特定します。監視方法というよりは「システム運用における考え方」です。
オブザーバビリティは、モニタリングの上位概念ではありません。オブザーバビリティを実現するために重要な要素の一つとして、モニタリングが存在するという位置づけといえるでしょう。

「運用監視」が予防する4つのリスク

システム障害が発生した場合、企業に大きな被害をおよぼす可能性があります。そのため、未然に防止し回避できる対策を講じなくてはなりません。
システム障害の原因は、サイバー攻撃やソフトウェアの欠陥だけではありません。停電や自然災害など防げない事象も原因となります。運用監視で予防できるリスクは次のとおりです。

1️⃣ 大規模障害に発展するリスク

システム障害は発生しないことが理想的ですが、運用監視を行なっていても何かしらの障害は起きてしまうものです。障害を完全にゼロにすることは難しいため、予兆を察知して事前に障害を回避することが大切です。運用監視によるアラートは、障害発生の予兆に気付きやすくなり、大規模障害に発展するリスクを軽減させます。

ITシステムは社会のインフラです。金融系や通信系のシステムで大規模な障害が起きれば、多くの人の生活に多大な影響を及ぼしかねません。関係企業は、社会的な信頼を失う可能性もあるでしょう。
普段から適切な運用監視を行なうことで、システム障害が起きても迅速に対応しやすくなります。結果として問題を最小限に抑え、短時間での復旧も可能となります。

2️⃣ 夜間や長期休暇中の対応が遅れるリスク

運用監視を行なわなかった場合、夜間や長期休暇中のシステム障害に気付かず対応が遅れる可能性があります。
システム障害は、人員が手薄な時間帯や期間に起きる可能性ももちろんあります。いざ障害が発生した際、運用監視をしていなければアラートが届くこともなく初動が遅れ、復旧に長い時間を要します。復旧に時間がかかれば、信頼が損なわれる可能性も高まります。
運用監視によって、時間帯や時期を問わずアラートを見逃しにくくなり初期対応がしやすくなるでしょう。

3️⃣ サーバーダウンによりシステムが停止するリスク

システム障害の原因は、構成するパーツに起因する場合もあります。例えば、CPUやストレージ、メモリ、ディスク使用率のリソースが関係するケースです。
これらのリソースは使い過ぎると、サーバーがダウンしシステム停止に陥る可能性があります。また、アクセスの集中やサイバー攻撃によって、サーバーがダウンすることもあります。
運用監視を行なえば、こうしたサーバーダウンによるシステム停止も防ぎやすくなるでしょう。

4️⃣ ビジネス機会を損失するリスク

運用監視を行なわずにシステムがダウンした場合、ビジネス機会の損失につながるリスクもあります。
例えばECサイトの場合、「商品ページが機能しない」「商品をカートに入れても反映されない」などの不具合が考えられます。こういったトラブルが起きると、顧客からの信頼を失い、顧客離れも起こるでしょう。
最悪の場合、サービスやシステムの存続にかかわることもあります。

ITシステムの運用監視の対象や必要な情報には何がある?

ITシステムの運用監視は、インフラ監視とサービス監視の2つに分けられます。それぞれの特徴は次のとおりです。

  • インフラ監視
    インフラ監視とは、システムが稼働するために必要なインフラ機器が正常に稼働しているかを確認することです。サーバーやネットワーク機器は、使用率や負荷が高いと処理速度が低下してエラーが起こる可能性があるため、確認が必要です。機器の故障や、トラブル発生の予兆を早期に見つけるのがインフラ監視の目的です。
  • サービス監視
    サービス監視とは、システムが稼働する際に必要なプログラムが適切に動いているかを確認することです。サーバーソフトウェアが正しく動かないと、ユーザーからのリクエストを処理することができません。プログラムに不具合や異常がある場合に素早く察知することで、トラブルを回避できます。

ITシステムの運用監視の対象としては、次のようなものがあります。

  • サーバー
  • コンテナ
  • OS
  • ミドルウェア
  • アプリケーション
  • ネットワーク
  • クラウドサービス

また、以下はシステム運用監視の項目です。監視対象によって必要な項目を確認しましょう。

  • 死活監視
  • ハードウェア監視
  • プロセス監視
  • ログ監視
  • リソース監視

システムの運用監視において収集すべき情報は、「ログ」「メトリクス」「トレース」の3つです。これらの情報を把握することが運用監視の基本です。
システムの運用監視における新しい概念「オブザーバビリティ」では、「データの収集」「データの分析」「データの可視化」が必要とされます。オブザーバビリティにおいても、「ログ」「メトリクス」「トレース」が3つの柱となります。

運用監視体制の整え方~6つのポイント~

システムの運用監視を行なう際の監視体制の整え方を解説します。ポイントは大きく6つです。

1️⃣ 監視方針の定義

システム障害の原因を迅速に特定するには、監視方針を定義する必要があります。対象となるシステムによって監視基準が異なるため、特性を踏まえたうえで定義しましょう。

監視ポイントを定義する際は次の順番で考えます。

  1. どのサービスを監視するのか
  2. サービス提供のために必要な要素は何か
  3. 必要な要素がどう絡み合うか

外部サービスと連携している場合は、連携先のAPIの状態も監視対象に含めましょう。

2️⃣ 情報収集・システム構成の確認

障害発生時には、ステークスホルダーへの迅速な連絡が必要です。そのため、監視システムのステークホルダーを洗い出しておきましょう。外部サポートとのやり取りが必要になる場合もあるため、外部ベンダーの緊急連絡先も整理しておくのが肝要です。
障害発生時には、情報公開も必要です。自社サイトやSNS、メールなどシステム外の情報共有手段も決める必要があります。
また、障害発生時に原因究明や影響確認を素早く行なうために、システム構成図も確認しておきましょう。

3️⃣ 障害対応フロー・手順の定義

システム障害のレベルによって、するべき対応や連絡先、連絡の方法は異なるでしょう。また、対応フローを障害ごとに変える必要があることもあります。そのため、障害レベルを定義しておくことが大切です。
また、各監視項目ごとに、障害が起きた場合の対応手順も定義する必要があります。障害対応の概要や判断の方法、復旧対応の方法を定めておきましょう。

4️⃣ 監視ツールの実装

アプリやサーバーの稼働状況を手動で確認することは難しいものです。よって適切に監視するためにも、監視ツールの導入がおすすめです。
監視ツールにはさまざまな種類があります。昨今はクラウドでシステムを稼働させるケースも多いため、クラウドとオンプレミス両方に対応しているツールを選ぶとよいでしょう。

5️⃣ ドキュメンテーション

ドキュメンテーションとは、手続きや業務プロセスを文書に表すことです。運用監視の現場で障害発生時に短時間で対応できるように、情報を整理しておきます。
監視システムの概要やステークホルダー、構成図、作業の実施手順などを整理しておきましょう。ドキュメントは障害発生時に確認できるように、システムとは違う領域に保管します。

6️⃣ アラートの確認

監視ツールを導入したら、障害を検知できるかテストしましょう。
また、リリース済みのシステムでアラート確認を行なう際は、工夫が必要です。システムに異常を起こすのではなく、しきい値を変更して疑似的に障害を発生させます。アラート確認の際は、事前にステークホルダーへの案内も忘れずに行なってください。

運用監視体制構築の注意ポイント

システムの運用監視体制を構築する際には、次の3点に注意が必要です。

1️⃣ 専門知識を持つ人材の確保が必要

自社で運用監視を行なう場合は、専門知識を持つ人材を確保しなくてはなりません。システムが正常に作動しているかを判断するには、専門的な知識が必要になるためです。
止まらずに稼働するシステムであれば、24時間体制で監視できる人員を確保する必要があります。監視システムの規模に合わせた人員配置ができるように、予算を確保する必要もあるでしょう。

2️⃣ マニュアル整備が必要不可欠

運用監視の担当者向けに、マニュアルを整備する必要もあります。マニュアルを整備することで、システムダウンが起きても対応に迷いにくくなり、最短時間での復旧を目指せます。システムダウンに素早く対応できるように、ログデータの確認方法や過去の障害事例、対処方法もまとめておきましょう。
加えて、障害発生時の報告手段や連絡方法も記載すると、関係者が情報を共有しやすくなります。

3️⃣ セキュリティーツールの導入を検討する

システムの運用監視は、情報漏洩などによる顧客からの信頼低下を防ぐためにも必要です。ただし、システムの運用監視は、あくまで機器の故障などの異常を発見する性質を持つため、そのセキュリティ効果は限定的です。
サイバー攻撃の防止や機密情報の保護を目的とするのであれば、セキュリティーツールの導入も検討しましょう。

運用監視を効率化するためのコツ

運用監視は、可能な限り効率化したいところでしょう。そこでここからは効率化のコツを紹介します。

システム監視ツールを利用する

システム監視ツールは、障害発生の予兆を検知し通知します。昨今はネットワークやサーバー、アプリケーションなど、さまざまな対象に対応した監視ツールがリリースされています。
監視ツールはメーカーによって特徴が異なるため、解決したい業務課題に合ったものを比較検討しましょう。

外部にシステム監視をアウトソースする

人材が不足している場合や監視体制を整備するのが難しい場合は、外部にアウトソースする方法もあります。
運用監視サービスを提供している企業は、多くのノウハウを持っています。迅速な対応が期待でき、システムダウンによる機会損失も防ぎやすくなるでしょう。
ネットワークのパフォーマンスや健全性を常時監視する、いわゆるNOCも外部へのアウトソースが可能です。社内NOCへの依頼が難しい場合は、外部のアウトソーシングサービスを利用するのも一つの方法です。

一方でNOCを利用せず、チーム内でNOCレスな運用監視を行なう方法もあります。インシデント管理ツールを導入することで、NOCに頼らず運用監視をすることで業務効率化も可能です。これはインシデント管理ツールによって監視ツールのアラートが集約可能になるためです。

インシデント管理ツールを導入し運用監視の効率化に成功した事例:NTTドコモ様

株式会社NTTドコモ様では、コンシューマー向けサービスのアラート対応に3つの課題を抱えていました。

  • アラートの集約と精査が困難
  • NOCへのアウトソースにともなう業務が煩雑
  • アラート対応のやり取りに多くの時間と労力を消費

これらの課題を解決したのが、インシデント管理ツール「PagerDuty」です。
「PagerDuty」導入後は複数の監視ツールからのアラートを集約・精査し、対応が必要なアラートのみを緊急度に応じた通知手段で受け取れるようになりました。
また「PagerDuty」を導入したことによりNOCレスの運用監視が可能となり、NOC向けの手順書を準備する手間もなくなったのです。
インシデント対応に稼働時間の多くを割かれることが減り、業務改善のきっかけとなりました。

≫NTTドコモ様の「PagerDuty」導入事例はこちらから

≫「インシデント管理」とは?~システム障害を未然に防ごう~

まとめ:インシデント管理ツールを活用して適切な運用監視を実践しよう

システムを安定稼働させるためには、適切な運用監視を行なわなくてはなりません。そしてシステム障害などの問題が起きた場合は、早期発見と迅速な対応が必要です。
運用監視が適切に行なわれないと、アラートに気付かず対応が遅れてしまい、大規模障害につながる可能性もあります。
運用監視体制を整えるためには、自社のニーズに適した方針やフローを定義し、マニュアル化する必要があります。加えて専門知識を有する人材を確保する必要もあるでしょう。
運用監視を自社で行なうのが難しい場合は、監視ツールを使用するか外部にアウトソーシングするのも一つの方法です。

株式会社NTTドコモ様ではインシデント管理ツールを導入し、NOCレスな運用監視による業務効率化に成功しています。運用監視にお悩みの場合は、インシデント管理ツールの導入を検討してみてはいかがでしょうか。

≫NTTドコモ×AWSビデオDLはこちらから

≫「インシデント対応」とは?~効率的な体制構築のポイントを解説~

NTTドコモ様 事例
NTTドコモのシステムにおける
「DevOps推進と運用効率化」

NTTドコモが提供するサービスのシステム開発・運用では積極的にDevOpsを推進しています。
「オブザーバビリティの強化、PagerDutyの導入」により初動対応の迅速化や運用の効率化を実現。
サービスの価値を高める活動に多くの時間を割けるようになった事例をご紹介!→ PagerDutyの資料をみる(無料)

NTTドコモ様 NTTドコモのシステムにおける「DevOps推進と運用効率化」

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる