製品・アドオン
PagerDutyの優位性
おすすめコンテンツ
PagerDuty Advance
PagerDuty Advance
重要なデジタルオペレーション業務における生成AI機能

JR東日本情報システム様事例

“NoOps”への第一歩となるPagerDutyの導入が運用高度化を促進
JR東日本情報システム
従業員数
1,718名(2024年4月1日現在)
事業内容
情報処理システムの企画・提案・設計・開発及び運用、情報処理システムに係るコンサルティング、他
所在地
東京都新宿区大久保三丁目8番2号新宿ガーデンタワー7F
取引期間
2023年〜
  • 1001〜5000名
  • インシデントへの迅速な対応
  • 組織・体制変革
  • アラートの集約と精査
  • MTTA・MTTR
  • コスト削減
  • アラートノイズ

目次

    JR東日本グループのICT事業を担う株式会社JR東日本情報システム(以下、JEIS)は、鉄道システムの開発で培った品質の高いシステムを構築する技術を備え、現在では、二百数十の多岐にわたるシステムやアプリの開発・運用、さらにはデータセンターやクラウド基盤、ネットワークの設計・管理、セキュリティ対策まで、さまざまな場面で社会インフラを支えています。また、安全で安定した列車運行の実現という鉄道の使命を担う一方で、駅を中心とした多彩な生活シーンで利便性を高めるための多様なサービスを展開。中には、24時間365日止まることを許されないサービスもあり、その信頼性と安定性を担保する仕組みとしてPagerDutyを導入。インシデント対応の高度化を実現し、新たな価値創出へのリソース投入を可能にしています。

    膨大な数のアラートに人手で対応 | 24時間365日担当者の負荷が増大

    JEISが提供する多彩なサービスラインナップの中でも、JR東日本管内の列車予約を行うチケッティングサービスをはじめ、JRの列車宿泊商品を組み合わせた旅行サービス、大切な情報の発信基盤となるJR東日本の公式サイトサービスなど、コンシューマー向けサービスを中心に、その開発・運用を担うのが駅サービスシステム部です。

    24時間365日の安定稼働が求められるミッションクリティカルなサービスがメインとなるため、お盆や年末年始などのチケット予約繁忙期にシステム障害が発生するとそのインパクトは計り知れません。ただ予約が出来ないというだけでなく、切符を受け取れない、予定していた列車に乗車できない、といったことが起こり得ます。社会的信用にも直結するため、システム運用においては24時間365日夜間休日を問わず発生するアラートへの対応が求められています。

    玉澤氏はかつての運用を振り返り、「コンシューマー向けサービスのため、とにかくアラートの数が多く、全社でもトップクラスでした。連日のようにアラート対応が発生し、多いときは一晩に8回ぐらい起こされることもありました。実際にはコンシューマーに影響を与えるような問題ではなくても、ひとたび電話が鳴ればサービスへの影響や原因の調査を行い、システムの正常性を確認しなければなりません。エンジニアにとっては肉体的にも精神的にも非常に負荷が高い運用を続けていました」と語ります。

    また、人手による運用に限界を感じる場面もあったとして、東條氏はこう説明します。「以前は社内の監視業務を専門に行う部門が監視ツールから受け取ったアラートについて、どのシステムで何が起こっているのかを目視で確認した上で担当のエンジニアにエスカレーションするという流れでした。このプロセスを人手で行っていたため、担当するエンジニアに電話をかけるまでに最大15分ぐらいかかるケースもありました。特にアラートの内容がクリティカルなものである場合は、初動対応が遅れてしまい、その間に問題が大きくなる可能性もあります。」

    検証期間を経てアラートの削減効果を実感 | 人手をかけない運用を実現し価値あるプロジェクトへリソースを再配分

    アラート対応に多くのリソースを必要とする運用から脱却を図り、エンジニアが価値を生み出す業務に注力できる環境を実現するため、同社は新しいツールの検討を開始。課題解決に向けて情報収集を行うなかで着目したのが、全世界で2万社の導入実績を誇るPagerDutyでした。セミナーなどを通じて製品名は認知していたものの、実際にどんなことが実現できるのか、自社環境でどのように活用できるのかを調査するため、2023年から1年近くをかけてPoCを実施。従来の運用をPagerDutyに問題なく移行できることを確認すると共にノイズとなるアラートの削減効果を実感し、2024年12月に本稼働を開始しました。

    いかにして人手をかけずに信頼性の高い運用を実現するかが我々の一番の課題でした。PagerDutyは大量に発生するアラートのコンテキストをAIが分析しノイズを除去した上で、人が対応すべきインシデントだけを通知してくれます。PagerDutyのこの設計思想が我々の運用にフィットしたことが導入を決めた一番の理由です。また、PagerDutyでどこまでインシデントを減らせるかという観点では、複数のアラートをアルゴリズムによってグルーピングし1つのインシデントとして管理できる機能があり、検証段階で想像以上の効果を確認できたことも評価のポイントになりました。」(東條氏)

    一方でPagerDutyの導入に向けた動きは運用のあり方を整理し直すきっかけになったとして玉澤氏は、「そもそも既存環境ではアラートを十分に精査できていなかったので、PagerDutyの導入を機に過検知を緩和するルールチューニングを行い、担当エンジニアの負荷を抑えた運用の仕組みを作っていきました」と語ります。

    アラート発生から架電までのリードタイムが最大約15分から約10秒へと劇的に短縮

    本稼働がスタートしてからまだ間もないもののPoCを通じて手応えを感じていたとおり、PagerDutyによる運用は同社に顕著な変化をもたらしています。まず、アラートが発生し担当エンジニアに架電されるまでの時間が、最大約15分から約10秒へと劇的に短縮。その通知方法も、PagerDutyから自動で担当エンジニアに架電されるようになり、監視部隊を必要としない運用に踏み切れたことは大きな前進です。

    また高須氏は「今までは架電を受けて調査したにもかかわらず、サービスに影響がないためそのままクローズした案件も多くありました。無駄な調査をしなくて済むという時間削減効果だけでなく、夜中に寝ている人を起こすという電話をかける側の精神的負荷もかなり減ったのではないかと思います」と気遣い、さらにPagerDutyの導入効果についてこう続けます。

    「結果的に架電する必要がなかったようなインシデントに関して、これまでは監視部隊にリカバリや確認のオペレーションを移管するための申請に最低でも1か月を要し、その間は架電されてしまう可能性が続いていました。PagerDutyではサプレスルールを1つ設定するだけで不要な架電をなくし、エンジニアの負荷をすぐに軽減できます。」

    Excelを使ったKBに頼るインシデント対応から脱却 | ユーザーだけでなく、インシデント対応者の負荷を削減する運用改善へ

    またナレッジの蓄積と共有を目的として、アラートの棚卸と分析をExcelベースで行っており、この作業もエンジニアの負荷を増大させる要因となっていました。「監視ツールからログを抽出してExcelに転記し、内容を精査した上で対処方法を書き込むといった運用が発生していたのですが、システムごとにフォーマットがバラバラで、担当者によって情報の粒度に差があるだけでなく、Excel以外のツールで管理している情報もありました。ナレッジを活用するのにも手間がかかる状態で、アラート対応の場面では、過去にあった類似事象を探すのにかなり時間を取られていました。Excelベースで行っていたアラートの棚卸・分析は、PagerDutyのダッシュボード機能を使えば一目瞭然です。開発チームでは、自分たちが開発したシステムで発生しているアラートやインシデントを”自分ごと”として捉えられるようになっています」と高須氏は語ります。

    PagerDutyが長年当たり前に続けてきた運用を改善するきっかけとなっただけでなく、アラート対応に臨むエンジニアの意識までを変えたことについて、東條氏も「これまでは、監視部隊経由でアラートを受けて対応し、対応後は監視部隊に戻してクローズするという流れだったので、電話がかかってきたから仕方なく対応するという姿勢が否めませんでした。PagerDutyにより対応状況まで可視化されたことで、運用改善のチャンスは自分たちで作れるんだということに気づけたのです。エンドユーザーのためのソリューションというより、自分たちの負荷を軽減してくれるソリューションとして受け入れてもらえたことは大きなメリットの一つです」と補足します。

    完全なNoOpsをコンセプトに全社でシステム運用の自動化を推進 | 自動で復旧できる状態を目指す

    同社が目指すインシデント対応は「完全なNoOps」がコンセプト。今後はPagerDutyの活用拡大による、24時間365日の監視業務の自動化を検討中です。「そのためにもインシデント=サービス影響があるという前提で設計されているPagerDutyの思想を我々のシステム運用に適用し、サービス影響がない限りはエンジニアに架電されない運用をゴールとして、その有用性を社内に示していきたいですね。ゆくゆくはサービス影響があるインシデントでさえも、自動で復旧できるような状態を目指していきたいと考えています」と高須氏。

    同社は、NoOpsの実現に向け、まだ十分に使い切れていない機能の活用を進めると共に、インシデント対応を自動化するRunbook Automationの採用にも関心を寄せています。同社がさらなる自動化の先に見据えるのは、価値を生み出せる業務へのリソース転用と、それにより加速する新しい未来の創造です。PagerDutyはインシデント管理を効率化するための手段にとどまらず、同社が社会の変化のスピードに追随しビジネスをドライブする上で重要な役割を果たそうとしています。

    「PagerDutyの思想をシステム運用に適用し、NoOpsの実現に向けて自動化を進め、価値を生み出せる業務へのリソース転用を図っています。」

    JEIS 東條氏

    東條 哲彦 氏

    株式会社JR東日本情報システム
    駅サービスシステム部
    旅行業開発プロジェクト上級エキスパート

    JEIS 玉澤氏

    玉澤 浩樹 氏

    株式会社JR東日本情報システム
    駅サービスシステム部
    インターネット運営プロジェクトチーフエンジニア

    JEIS 高須氏

    高須 康平 氏

    株式会社JR東日本情報システム
    駅サービスシステム部
    インターネット運営プロジェクトチーフエンジニア