Tokopedia様事例

Tokopedia、PagerDutyでインシデント対応の 自動化とエンジニアのアカウンタビリティ強化を実現
Tokopedia
従業員数
1,001人〜5000人
事業内容
テクノロジー
所在地
ジャカルタ(インドネシア)
取引期間
2018年
  • 1001〜5000名
  • インシデントへの迅速な対応
  • アラートの集約と精査
  • EC
  • オーナーシップ
  • 自動化
PagerDuty導入前の課題
  • 内製インシデント管理ツールでのアラート対応の難しさ
  • インシデント対応時間の長期化
  • 大量のアラート数
PagerDuty導入効果
  • インシデント対応プロセスの自動化の実現
  • MTTR(平均修復時間)の劇的な改善
  • 責任感のあるオーナーシップ文化の醸成
[ez-toc]

インドネシアのテクノロジー企業であるTokopediaは、1億人以上の月間アクティブユーザーと900万以上の販売事業者を抱える、東南アジア最大のマーケットプレイス企業の一つです。単なるマーケットプレイスの域を超え、何百万もの販売事業者がeコマースへ参入するためのテクノロジーを提供していることに誇りを持っています。Tokopediaのエンジニアリング生産性担当アシスタントバイスプレジデント(AVP)として、プラットフォームのテクノロジーとサービスに共通のビジョンを実現しているRajesh Gopala Krishnan氏は、次のように説明します。「Tokopediaは、テクノロジーで商取引を民主化することを使命としております。小規模な小売業者が大きなブランドに成長し、より多様な顧客ベースにリーチして、インドネシア国内外でのビジネス展開を容易にできるようにサポートします。」
2009年に創設された「デジタルボーン」企業であるTokopediaは、顧客ベースが急速に拡大した2年前に、デジタルトランスフォーメーションの取り組みを集中的に行いました。自社のテクノロジースタックを最新化し、モノリシックなインフラから、350種類以上のサービスを稼働するマイクロサービスベースのマルチクラウドアーキテクチャに移行したのです

煩雑化に伴うインシデント対応スピードの低下

 しかし、より動的かつ拡張可能なアーキテクチャへ移行したことで、Tokopediaの内製インシデント管理ツールではアラート対応が追い付かなくなり、効果的に対処することが難しくなりました。インシデント対応時間がのび、エンジニアがカスタマーエクスペリエンスの向上や、販売事業者や買い物客向けの新たなサービス構築に時間を割くことができなくなったのです。また、大量のアラートが発信されるようになったことで、インシデントの優先順位を判断することも難しくなりました。
 Krishnan氏は次のように述べています。「当社のツールはインシデントを特定するものの、その対応には時間がかかりすぎていました。該当サービスの責任者を手作業で検索してから、エンジニアにインシデントを通知し、問題に対応するための対策会議を行っていたため、多くのインシデントが解決されるまでに30分ほどかかっていました。すぐに、インシデント対応プロセスの最新化と自動化を進め、この複雑な環境を可視化する必要があることを認識し、PagerDutyを取り入れたのです。」

PagerDutyを利用したインシデント対応の自動化

 PagerDutyを導入後、Tokopediaはインシデント対応プロセスを自動化し、インシデント解決までの時間を削減できるようになりました。まずは5つのサービスにPagerDutyを統合したところ、平均修復時間(MTTR)などの指標に劇的な改善が見られたため、PagerDutyの利用を拡大し、350種類以上のすべてのサービスに展開することにしました。
 さらに、PagerDutyはアラートノイズの削減にも役立っています。Krishnan氏は、次のように述べています。「PagerDutyは大量にアラートを発信するのではなく、関連するアラートを1つのインシデントにまとめ、すべての詳細を複数ツールに分散させることなく、1か所に集約します。これによって、アラートノイズを抑制できるだけでなく、最も緊急性の高いインシデントに優先対応できるようになっています。」
 デジタルトランスフォーメーションと最新のインシデント対応へ投資したことで、Tokopediaは東南アジアにおける新型コロナウイルス感染症のパンデミックに伴う需要の急増にも万全の体制で応じることができました。「クラウドへ移行し、PagerDutyを採用したことで、今までよりも確実に、発生したインシデントに対処できるようになりました。このことは、特に新型コロナウイルス感染症のパンデミック勃発時、オンラインショッピングの需要が急増したときに、本当に助かりました。インシデントにも迅速に対応し、販売事業者と買い物客の混乱を最小限に抑えることができたのです。」

アカウンタビリティギャップを解消

 また、PagerDutyを導入したことで、Tokopediaがフルサービスのオーナーシップを受け入れ、責任感のある文化を醸成するのに役立ちました。内製のインシデント管理ツールでは、課題とされていたことです。
 Krishnan氏が説明するように、インシデント発生時にその対応担当者が不明瞭であることは少なくありませんでした。「アカウンタビリティに欠けていました。サービスやアプリケーションの責任者が誰なのか、責任者は問題を認識しているのか、問題の解決に向けて取り組んでいるのか等について、明確にできていませんでした。」

tokopedia

 また、オンコールエンジニアは、アラート発生時に連絡を受けるための電話を追加で携帯していました。それにもかかわらず、エスカレーションの手順が一元管理されていないために、適切な担当者の確保が課題となっていたのです。「PagerDutyを導入したことで、手作業でのインシデント対応プロセスが解消されました。アラートが発生した場合、エスカレーションポリシーに基づき、該当サービスの責任者にインシデントが自動転送されるようになったのです。」とクリシュナン氏は説明します。

PagerDutyの特長

 PagerDutyを導入後、Tokopediaは自社環境をより詳しく洞察し、インシデント対応を強化できるようになりました。以下を含む価値が実現されています。

  • エンジニアリングチーム内のアカウンタビリティ向上
  • アラートノイズの削減
  • インシデント対応時間の短縮
  • 自動化に伴いチームの生産性が向上し、ソフトウェアの更新が1日あたり10件から300件以上に増加

Krishnan氏は次のように説明します。

tokopedia

「PagerDutyを導入して以来、当社エンジニアのインシデント対応時間は減っています。
その分、カスタマーエクスペリエンスを強化するほか、販売事業者と買い物客のニーズやTokopediaサービスの利用状況を把握することに集中できています。
PagerDutyの自動化サポートのおかげで、エンジニアの生産性も大幅に向上しました。1日あたりのソフトウェアデプロイメント件数は3000%増えています。」


今後の展望

 今後、TokopediaはPagerDutyの利用を拡大していく予定です。その一環として、展開前の新機能のパフォーマンスを監視し、本番環境で稼動させる前に問題を特定する必要があります。

また、Tokopediaが引き続きソフトウェアデリバリーサイクル全域に自動化を取り入れたり、自己修復が可能なアプリケーションを構築するにあたり、専門家のサポートを仰ぐ必要なく、インシデントを防止、診断、解決できるワークフローやランブック(手順書)を作成するには、PagerDutyが極めて重要になります。
 チームの取り組みを簡素化し、デジタルファーストの世界に合わせてオペレーションを転換させるためのPagerDutyのサポートについては、担当のアカウントマネージャーに相談するか、今すぐ無料トライアルをお試しください。