NTTデータ様事例

DevOps体制を底上げする仕組みとしてPagerDutyが貢献するカスタマーサクセスの実現に期待
株式会社NTTデータ
従業員数
約19万人(2022年10月時点)
事業内容
コンサルティング事業、システムインテグレーション事業、ネットワークシステムサービス事業、他
所在地
東京都江東区豊洲3-3-3 豊洲センタービル
取引期間
2020年3月~
  • 5001名〜
  • ヒューマンエラー削減
  • 組織・体制変革
  • テクノロジー
  • オーナーシップ
  • 自動化
PagerDuty導入前の課題
  • 「デジタルネイティブ、クラウドネイティブ」という組織目標
  • システム開発⇄運用担当者間の情報伝達スピード
  • ヒューマンエラーの発生
PagerDuty導入効果
  • エラー検知から担当者への連絡が「20〜30分」から「数秒〜数分」に短縮
  • アラートの自動振り分けでヒューマンエラーを解消
  • 組織としてサービス開発者それぞれが運用に携わっていこうという意識改革につながった
[ez-toc]

株式会社NTTデータ(以下、NTTデータ)は、1988年の設立以来、あらゆる事業領域でお客様の課題を見極め、ITの力で答えを導き出してきました。ITサービスのライフサイクル全体で価値を生み出すその技術力は、予測困難な時代に追随するために世界中で加速するDXの流れを受け、ますますその存在感を強めています。そこには、より魅力的なサービスを安定的に提供していくための仕組みとして、インシデント管理が欠かせません。同社が展開するクレジット・決済事業では、24時間365日休むことなく日本の決済シーンを支えるペイメントエコシステムにPagerDutyを導入。DevOps体制を効果的に機能させる上でも重要な役割を担っています。

ヒューマンエラーの排除に向けインシデント管理のあり方を再考

 NTTデータが提供する日本最大級のキャッシュレス決済総合プラットフォーム「CAFIS(キャフィス)」は、クレジットカードのみならず電子マネーやインバウンド決済、QRコード決済など時代に即した決済手段に迅速に対応しながら、35年以上にわたりペイメント業界をリードしてきました。その月間取引件数は2020年実績で約9億を超えており、24時間365日、さまざまな業態・業種の加盟店と国内ほぼすべてのクレジットカード会社・金融機関を結ぶミッションクリティカルなプラットフォームとして、高い可用性と信頼性が求められています。当然ながら、インシデント発生時には即時復旧が最優先です。
このCAFISを軸に、ペイメントに関わる多様なシステムの開発・運用を手がけるカード&ペイメント事業部では、数年前からDXへの取り組みを加速するべく、オンプレミスを中心としたシステム展開に加えて、クラウドネイティブ・デジタルネイティブなシス テム開発にも着手。併せて、開発と運用が一体となってペイメントインフラのさらなる進化に取り組むという新たなチャレンジに乗り出しました。

これに伴い、インシデント管理のあり方についてもゼロから考え直すことになりました。カード&ペイメント事業部で主にインフラの構築とメンテナンスを担当する笛田氏は、当初の課題をこう振り返ります。

「開発と運用が完全に分離した組織では、どうしても情報伝達のスピード感やアジリティに欠けてしまいます。運用担当者が各システムに精通していないため一次切り分けができないケースもあり、開発担当者への初動連携が遅れがちになることも少なくありませんでした。また、管理ツールへのアラートの登録が手入力だったり、監視対象のサービスが100近くある中で、マニュアルを参照しながらエスカレーション先に電話連絡をしていたりなど、一つひとつのプロセスでヒューマンエラーが発生しやすい状況でした。」

PagerDutyとServiceNowを一体的に活用しお客様目線でITサービス運用を高度化

 「情報伝達の即時性を実現すると共に、デジタルネイティブなシステムを作ることを目標とする部門として、半システム化、半自動化を実現し、ヒューマンエラーを完全に排除していきたいと考えていました」と笛田氏。事業部内でもインシデント発生をキャッチアップするツールの開発には取り組んでいたものの、即時対応、即時連絡の機能が不足しており、DevOpsチームとしてインシデント対応の質を上げていくためには新たな仕組みが必要と判断しました。そこで、機能面で必要な要件を十分に満たしていたのはもちろんのこと、グローバルでインシデント管理ツールのデファクトスタンダートとなっているPagerDutyを採用。まずは即時対応、即時連絡の機能を充足させることを主眼に活用を開始しました。

 同社は、対応までのスピード感が求められるインシデント管理にPagerDutyを活用すると共に、根本原因を分析・調査し、再発防止や新たなインシデント発生の予防に向けた問題管理やナレッジ管理のプロセスにServiceNowを活用。発報を受けた担当者は、この2つのツールを手動で切り替えながらインシデント対応を行っています。

「現在は、PagerDuty側のインシデント情報をServiceNowに手入力するという手動での連携に留まりますが、この2つを一体的に活用しながら、開発と運用の連携を強めています」と語るのは、カスタマーサクセスを担うエンジニアとして、CRE (Customer Reliability Engineering:顧客信頼性エンジニアリング)チームでITサービス運用の高度化に取り組む間瀬氏です。

運用を見据えてお客様目線でサービス開発を行うことを目標に、運用のあり方や、フローの設計、ツールの選定、人材配置などの検討を行うのがCREチームのミッションであり、間瀬氏は、「お客様第一だからこそ、そこにどのようなツールを活用するかは非常に重要です」と強調します。

発報から電話連絡までの時間が20~30分から数秒~数分に短縮

PagerDutyの導入効果について、「第一の目標としていた即時対応、即時連絡の実現に十分な手応えを感じています」と笛田氏。導入前は、システム異常のメッセージを受け取った運用担当者がマニュアルを見ながら問題の切り分けを行い、適切な担当者に電話連絡をしていました。この場合、人による判断が介在する分、マニュアルの参照時間を含め20 ~ 30分かかります。

PagerDuty導入後は、発報から電話連絡までが自動化されたことで数秒~数分に短縮。担当者の負荷は大幅に軽減されています。チームによって電話連絡の体制も異なるため、「エスカレーションポリシーを細かく設定できるPagerDutyは本当に便利」と笛田氏も間瀬氏も口を揃えます。また、以前は1 ~ 2%程度発生していた検知漏れもほぼなくなりました。

自動化が進むことで、業務負荷や人件費の大幅な削減が見込まれるだけでなく、これまでのように運用に特化したチームを抱える必要もありません。「開発と運用の一体化を目指す我々がインシデント管理を効率的かつ効果的に実施していくためには、PagerDutyのような仕組みが不可欠だと感じています」と笛田氏が語るように、DevOps体制の推進をPagerDutyが大きく後押ししつつあります。

「現在はマイクロサービスごとの開発者にオンコール対応を割り当てているのですが、PagerDutyはオンコールのスケジュール管理や階層管理、エスカレーションポリシーの設定が柔軟に行えるので開発者にも好評です。はじめはインシデント管理に携わることに抵抗感を示していた開発者も、今では積極的に運用に携わるようになっています。」(間瀬氏)

PagerDutyの活用をスケールさせながら組織全体でDevOps体制を強化

一部のサービスを対象にスタートしたPagerDutyの活用は、その範囲を徐々に広げつつあります。今後はオンプレミスで展開しているサービスについても、システムの特性上高いアジリティやスピード感が求められるものを中心にクラウドネイティブに舵を切り、PagerDutyの活用を検討していく方針です。

DevOpsという観点からPagerDutyの活用にメリットを見出している笛田氏は、「DXをスピード感をもって進めていく上で、機能面およびコスト面での貢献が期待できるツールです。PagerDutyを中心とした仕組みをスケールさせながら、組織全体でDevOps体制の底上げを図っていきたいですね」と語ります。

また、間瀬氏はCREチームの目線から、「PagerDutyの導入は、デジタル化の推進に留まらず、お客様を第一に考えた対応を強化するという意味において、カスタマーサクセスの実現に大きく貢献していくと考えています」と期待を寄せています。

この両者の視点で計画されていることの一つに、PagerDutyとServiceNowの連携の強化があります。具体的な検討はこれからですが、PagerDutyでのログ参照やレポーティングと、後続対応によってServiceNowに蓄積されていくナレッジをシームレスに連携できれば、両輪でITサービス運用のさらなる高度化を実現し、より問題が発生しにくい状況を作り出していけるはずです。開発と運用の一体化をより強固なものにし、真のビジネス価値につなげていくために、PagerDutyには、引き続き”お客様第一”へのこだわりを支える仕組みが求められています。