トップ → Blog → 「SRE(サイト信頼性エンジニアリング)」とは？〜DevOpsとの関係・実践ポイントを解説〜

「SRE(サイト信頼性エンジニアリング)」とは？〜DevOpsとの関係・実践ポイントを解説〜

2023.12.21更新

ユーザーニーズの変化が激しい現代において、アジャイル開発を導入するなどして開発スピードを向上させることは重要です。しかし、スピーディーな開発をめざす一方で、システムの安定性の維持が難しいと悩んでいる方もいるのではないでしょうか。

そこで注目されているのが、開発の高速化とシステムの安定性を両立するための方法論である「SRE（Site Reliability Engineering・サイト信頼性エンジニアリング）」です。

この記事では、SREの基本を知りたい方に向けて「概要」「SREのメリット」「DevOpsやプラットフォーム・エンジニアリングとの違い」「主要な指標」「実践におけるポイント」などをわかりやすくご紹介します。

SREとはなにか？

「SRE（Site Reliability Engineering）」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」といいます。2004年に、Google社がWebサイトの安定的な運用を支えるための方法論として、提唱しました。

SREの大きな特徴は、「信頼性」をシステムの重要な機能の一つとしてとらえている点です。システムの信頼性を確保し、より良いサービス提供につなげるためのツールやアプローチ方法を常に模索します。

例えば、煩雑な手作業や繰り返し作業の削減、ソフトウェアを用いたITインフラのシステム自動化などに注力します。ユーザーがシステムを安心して使い続けられること、現場の負担を抑えながら信頼性の高いシステムを提供できることは、SREがもたらす代表的なベネフィットに挙げられます。

SREはなぜ求められるのか？必要とされる背景

SREが提唱される以前は、Google社をはじめとしたIT企業でアプリケーションの開発が活発になる一方、運用業務における負担の増大が課題となっていました。

当時、開発チームと運用チームは独立した存在であることが多く、開発業務は自動化が進んでいたものの、運用業務は未だ手作業が中心でした。

そのため、アプリケーションをリリースすると運用作業の手間が増え、開発スピードに対して運用面での十分な対応が難しい状況になっていたのです。運用面での負担の増加が、システムの不安定さや問題を発生させるリスクにもつながっていました。

そこで、Google社はシステムの利便性や安定性を価値としてとらえ、安定性を向上させるためのSREという方法論を提唱しました。

SREは2004年に提唱されてから、昨今再び注目されていますが、その背景にはウォーターフォール開発からアジャイル開発への転換があります。従来のウォーターフォール開発は、品質確保を重視して、工程を段階的に区切って一つずつ進める開発手法です。

一方、アジャイル開発は開発スピードを重視した開発手法で、ニーズの変化が激しい昨今では採用する企業が増えています。

しかし、開発スピードの向上を重視するあまり、システムの利便性や安定性が損なわれてしまうケースが少なくありません。これではユーザーが安定してサービスを使えず、サービスの価値低下にもつながります。

現代において、価値の高いサービス提供には安定したシステムの存在が欠かせず、このような背景からSREに取り組む企業が増えています。

SREがもたらす2つのメリット

SREには、より良いサービス提供につながる2つのメリットがあります。それぞれのメリットを確認していきましょう。

システムの信頼性が高まる

システムの信頼性向上は、SREがもたらす主なメリットの一つです。常に万全な状態で稼働することまでは保証しないものの、円滑に業務を進められる水準のサービスレベルを保ちます。これによりユーザーは安心してシステムを活用できるため、システムはもちろん運営会社の評価も高まるでしょう。

システムの信頼性は複数の指標をモニタリングしたうえで、適宜必要な対処を行なうことにより確保されます。代表的な指標は、以下のとおりです。

稼動率
平均故障間隔（MTBF）
平均修復時間（MTTR）

これらの目標値は「SLO」、契約で定める値は「SLA」、稼働状況を数値化したものは「SLI」で示されます。指標をモニタリングしてSLO・SLAを満たすかチェックし続けることで、不具合の予兆をいち早く察知できるでしょう。顧客に被害をもたらす前に適切な対応を取れることも、システムの信頼性向上につながります。

「SLO」「SLA」「SLI」については、本記事の『SREの主要な指標である「SLO」「SLA」「SLI」』をご参照ください。

トラブル発生時の対応を迅速化でき、品質の向上に寄与する

トラブルが発生した際に迅速な対応を行なえることも、SREのメリットとして挙げられます。SREを導入した場合、トラブル発生時には規定のプロセスや自動復旧スクリプトなどを活用して、速やかに復旧に導くことが可能です。

また、SREでは再発防止のために、発生したトラブルに対してポストモーテム（事後検証）を行ないます。ポストモーテムは、システム障害に際して何らかの対応が必要な課題（インシデント）を再発させないためのプロセスです（関連記事：「インシデント対応」とは？〜効率的な体制構築のポイントを解説〜）。

ポストモーテムの内容をレビュー（検証・確認）して同様のインシデントが起きないように再発防止策を実施することで、運用プロセスを改善しつつ、システム品質を上げられます。

システムに異常が起きにくく、万が一異常が起きても復旧までの時間を短くできれば、事業への悪影響を抑えられるでしょう。

なお、インシデント対応の効率化については、本記事の『SREの実現には「インシデント対応」の効率化が重要』をご参照ください。

主なエンジニアリング手法とSREの違い

システム開発で用いられるエンジニアリング手法には、SREのほかに「DevOps」や「プラットフォーム・エンジニアリング」があります。それぞれの手法を理解して使い分けることは、適切な開発や運用において重要です。SREとの違いも含めて、特徴を押さえておきましょう。

DevOpsとSREの違い

SREとともに注目されているのが「DevOps」です。DevOpsとは、開発と運用の担当者が密に連携し、柔軟でスピーディーな開発・運用を実現する考え方を指します(関連記事：DevOpsとは？超基本からメリット・実践ポイントを解説)。

SREとDevOpsは、注目される背景や思想が似ていることから混同されやすく、違いがよくわからないという方もいるかもしれません。両者とも、自動化や全体最適化に取り組むといった点が類似しています。

「SREとDevOpsの差異」については、SREを提唱したGoogle社の表現が参考になります。同社はSREとDevOpsの関係について、プログラミングの記法で以下のように示しています。

“class SRE implements interface DevOps”（引用元）

これは、直訳すると「SREはDevOpsというinterfaceを実装する」という意味になり、DevOpsの実現方法の一つがSREである、という意味を示唆する表現です。また、DevOpsとSREは重視するポイントが異なります。

DevOpsでは「何を」すべきかを重視して具体的な実践方法は実践者に委ねられているのに対し、SREでは「どのように」すべきかを重視して具体的な方法が示されています。

つまり、DevOpsはSREの上位概念であり、SREはDevOpsを実践するための方法論だといえるでしょう。

プラットフォーム・エンジニアリングとSREの違い

プラットフォーム・エンジニアリングとSREでは、その目的や対象が異なります。プラットフォーム・エンジニアリングは開発者の認知負荷を下げ、生産性を向上させるための手法です。製品の品質向上や顧客の使いやすさには、直接フォーカスしていません。

技術の進化や便利なサービスの登場により、開発業務ではさまざまなサービスが使われるようになりました。例えば、代表的なサービスとしてクラウドが挙げられます。

現在の開発者はシステムの開発だけでなく、クラウドサービスの環境構築なども考慮しなければならず、さまざまな業務に頭を悩ませる「認知負荷が高い状態」となってしまいます。そうなれば、開発業務のための時間を削られることにもなりかねません。

そこで注目されるようになったのが、プラットフォーム・エンジニアリングです。プラットフォーム・エンジニアリングでは、開発業務に必要なプラットフォームを構築する専任チームを作ります。

開発者の認知負荷が軽減すれば開発業務に専念できるようになり、生産性の向上につながります。開発フェーズにフォーカスしているため、顧客に与えるメリットや本稼働後の運用は対象に含まれません。

一方でSREは、開発業務の生産性に加え、より良い運用業務の遂行やシステムの安定性・信頼性の向上、利便性や価値の高いサービスの提供にフォーカスする手法です。SREの目的は、開発するシステムの信頼性を高めることにあります。

SREの主要な指標である「SLO」「SLA」「SLI」

SREでは、サービスの信頼性を担保する指標を決めて、それを継続してモニタリングすることが重要です。その指標として、主に「SLO」「SLA」「SLI」の3つが用いられています。それぞれの用語の意味と、指標を決める際のポイントをご紹介します。

SLO

SLOは「Service Level Objective」を略したもので、日本語では「サービスレベル目標」といいます。自社のサービスレベルに関連する目標値のことです。

開発において、スピードと信頼性の両立は簡単ではありません。例えば、信頼性を高めるためにはテストを追加して開発を遅らせる必要があったり、逆に開発スピードを上げるために信頼性を下げる必要があったりします。

この判断において重要となるのがSLOです。例えば、サーバーの稼働率を重視するサービスでは、SLOを「月間の稼働率99.99％以上」と設定します。

SLOの値は、高く設定すれば良いものではありません。サービスの信頼性をより高く確保・維持しようとするほど運用コストがかかるからです。そのため、ユーザーへの価値提供に必要のないようなレベルまでSLOの値を高めるのは、過度な目標といえます。

サービスにおいて、ユーザーが最低限許容できるレベルの信頼性を定義し、SLOとして規定しましょう。

SLA

SLAは「Service Level Agreement」を略したもので、日本語では「サービスレベル契約」といいます。提供されるサービスレベルについて、企業と顧客との間で交わされる合意内容を指します。

SLAは顧客との契約上の取り決めであるため、SLAが達成されない場合には、返金や追加サポートの提供といったペナルティが発生します。

また、SLAでは対外的にその達成を明示する必要があるため、達成状況を判断できるよう、稼働率のようにシステムのモニタリングによって測定できる指標を用いることが重要です。

加えて、責任範囲に応じた算出条件の検討も必要になります。例えば、SLAに稼働率を用いる場合、その算出においてはユーザーの誤操作による停止は除外する、といった条件を検討します。

SLI

SLIは「Service Level Indicator」を略したもので、日本語では「サービスレベル指標」といいます。例えば、サーバーの稼働率など、サービスの品質を判断するための指標そのものを指します。

SLO・SLA・SLIでは同様の指標を用いることも多くありますが、SLOとSLAは目標や約束に向けた「設定値」であるのに対し、SLIは「実測値」である点が異なります。

SLIを定期的に測定して、SLOを下回る場合は問題が発生していると判断し、システムの可用性を高める取り組みを実施します。

SLA・SLO・SLIについては、以下の記事でも詳しく解説しています。ぜひ併せてご覧ください。
＞ SLA SLO SLIとは？違いと適切に活用するためのポイント

SRE実践、4つのポイント

SREにおける取り組みは、企業の規模や状況に応じて進めることが大切です。ここでは、SREを実践するうえで知っておきたいポイントを解説します。

システムの監視とアラートのノイズ削減

システムの可用性を維持するためには、システム状況をリアルタイムでモニタリングし、パフォーマンスが低下した際に対応する必要があります。そのためには、DatadogやNew Relic、Splunkといった監視ツールの活用が有効です。

監視ツールの導入により「レイテンシ（応答速度）」「トラフィック」「エラー」「サチュレーション（システムの飽和度）」などを常時モニタリングし、アラートにより異常を検知できます。

監視ツール導入の際には、大量のアラート発生に注意しましょう。システムを広く監視する必要はあるものの、大量のアラートが発生してしまうと、エンジニアがアラートに対応しきれないといった状況が起こります。

監視ツールのアラートには、対応が不要なものも含まれます。このように、業務にとってノイズとなるアラートが多くあると、重要なアラートが埋もれてしまい、対応の遅延にもつながるため対策が必要です。

その対策の一例としては、インシデント管理ツールを活用してアラートを削減する方法が挙げられます。近年では、AIを用いてノイズとなるアラートを削減する機能も登場しています。

オペレーションの自動化

保守・運用作業は、手作業や繰り返し作業で成り立っているケースが少なくありません。しかし、システムの安定稼働をめざすうえでは、可能な限り自動化によって手作業を減らし、ヒューマンエラーのリスクを抑える必要があります。

例えば、インフラの構築・運用には「IaC（Infrastructure as Code）」と呼ばれる、インフラ構成のコード化が有効です。

人手でのインフラ構築は、設計書に従ってひたすらコマンドを打つ作業であるため、規模が大きいほど手間やヒューマンエラーが発生しやすくなります。

IaCを導入するとソフトウェアでインフラ環境を操作できるため、ヒューマンエラーの回避や自動化による迅速な環境構築が可能です。

そのほかにも、繰り返し発生する手作業には「ランブック（手順書）」の活用がおすすめです。ランブックの作成・活用は作業品質の均一化につながるほか、ワークフローの自動化推進にも役立ちます。

ポストモーテムと継続的改善

システムの信頼性は利用状況に応じて常に変化するため、継続的な改善が求められます。特に、システム障害の対応では一時的な対処が講じられることもありますが、加えて、根本原因の解消と再発リスクの低減に取り組むことも重要です。

改善に向けた有効な取り組みの一つに「ポストモーテム」があります。ポストモーテムでは、担当者やチームを非難することなく、問題が起因するアクションを特定し、再発防止のための対応をドキュメント化します。

障害発生や失敗の隠蔽を防ぐために、担当者やチームを責めない姿勢が重要です。日々の業務が多忙ななかでは、振り返りを実施するための工夫も求められます。定期的にスケジューリングしたり、ドキュメントテンプレートを活用したりして、効率的な振り返りの実施を検討しましょう。

SREチームの構築

SREの担当者は、単に運用管理のためのコーディングをするメンバーではありません。そのため、SREの活動では顧客体験と信頼性の向上を念頭に取り組むことが大切です。担当者にその意識を持たせるためには、SREチームの構築も重要なポイントになります。

SREチームを構築する場合は、チームの目標を明文化して、組織全体に明確に示しましょう。さらに、チームメンバーの考え方や行動の指針となるガイドラインを設定します。

具体的なガイドラインを設けることで、担当者はより目標に向けたアクションをしやすくなります。また、組織におけるSREの役割や目標を明確にすることは、自社に最適なSREチームの運用体制を決めるうえでも役立ちます。

SREチームの構築についての詳細は、下記の記事を参考にしてください。

>SREチームの構築とスケーリング方法解説!

SREの実現には「インシデント対応」の効率化が重要

事前にさまざまな対策をしていても、実際にシステムを運用してみると、計画や想定とは異なる事象が起きてしまうものです。

例えば、予期しないシステム障害やパフォーマンスの低下といった望ましくない変化、いわゆるインシデントがデプロイ後に発生することがあります。

インシデントとして取り扱う事象の定義は企業によって異なりますが、PagerDutyでは「システム障害に際して何らかの対応が必要な課題」をインシデントと定義しています。

インシデントはSLIを低下させる要素であり、企業のサービスにおける信頼性を脅かす存在です。さらに、24時間365日のサービス提供が当たり前の現代では、システム停止による損失が莫大な規模になりかねません。

SREの目的であるシステムの信頼性確保を行ない、問題の影響を低減して最悪の事態を回避するためには、迅速なインシデント対応が必要です。

一方で、現代のシステム構成は複雑化しており、それにともなってインシデントの発生件数も増加傾向にあります。数多くのインシデントに迅速に対応するためには、インシデント対応の効率化が必要です。

しかし、インシデント対応において、エスカレーションや煩雑な手作業に時間を要している企業もあるでしょう。そこで、対応の効率化に向けておすすめなのがインシデント管理ツールの活用です。

インシデント管理ツールとは、インシデントを適切に管理して、迅速にシステムやサービスを復旧するためのものです。具体的には、さまざまな監視ツールからのアラートを一元管理することで、チーム間のスムーズなコミュニケーションづくりに貢献します。

また、インシデント対応で発生するさまざまな手作業の自動化も可能です。インシデント対応プロセス全体を対象としたツールであれば、包括的にインシデント対応を見直すことができ、使い続けるほどに大きな効果やコスト面でのメリットを得られます。

インシデント対応ツール活用によるSREの成功事例

SREの実践には業務の変化やツール導入への投資などがともなうため、不安を覚える方もいるかもしれません。しかし、日本でもSREへの取り組みで成功している企業は増えてきています。

ここでは、インシデント対応の効率化を含めたSREの実践によって成功している2社をご紹介します。

事例1：LINE株式会社(現: LINEヤフー株式会社)

コミュニケーションアプリを中心に、さまざまなサービスを提供するLINE株式会社。同社は、ユーザーにとってより便利なサービス提供の実現を目的とし、プライベートクラウド「Verda」を使って、DevOps体制でサービスの開発や提供を行なっています。

同社では開発の担当者がデプロイや監視を担うため、サーバー確保やシステム管理の仕組みづくりに手間と時間がかかることが課題となっていました。

そこで、その課題を解決すべくSRE活動を専門とするチームが発足されます。SREチームは、Verdaに関する問い合わせ対応や物理的なマネジメントを担い、開発チームがサービスに関する対応に集中できるようにしています。

また、インシデント管理ツールを活用してノイズとなるアラートを削減し、重要なアラートが開発者に届く仕組みを整えています。このような取り組みは、Verdaの規模拡大にともなって増える、緊急対応へのスピーディーな対応にもつながっています。

（参考記事：LINEのプライベートクラウド「Verda」のDevOpsを支えるPagerDutyによるインシデント管理）

事例2：オイシックス・ラ・大地株式会社

オイシックス・ラ・大地株式会社は、「Oisix」をはじめとした食品宅配のサブスクリプションサービスなどを提供する企業です。同社では、システム本部内にSRE部門を設置し、各サービスの運用最適化に取り組んでいます。

SREに取り組む以前は、Oisixの主要なデータベースがオンプレミス構成になっていました。しかし、リソースの増強にサービス停止が必要など、サービスが成長するにつれて拡張性が課題となっていました。

そこで、専門で対策を行なうプロジェクトを立ち上げ、入念な調査と準備を通じてAWSへのシステム基盤の移行を遂げます。

また、マニュアル整備による属人化防止やマイクロサービス化にも取り組むことで、スケールアップできるシステム環境の整備がなされています。

インシデント対応についても、MSP事業者への委託からインシデント管理ツールに移行することで、対応の効率化とコスト削減に成功しています。

具体的には、MSP事業者との細かいコミュニケーションや煩雑なチケット管理が不要になり、MTTA（平均確認時間）が約30～50％改善したとされています。

（参考記事：）

まとめ：SREを取り入れて高品質で安定的なサービス提供をめざそう

あらゆるサービスがWebで提供される現代において、ITシステムの安定稼働や信頼性はより重要性を増しています。そのため、今やSREは企業にとって欠かせない取り組みの一つです。

SREは方法論が提示されているため取り組みやすく、システムの一部の自動化から取り組んで、活動の幅を徐々に広げていくことも可能です。ぜひSREを取り入れて、高品質なサービスを安定的に供給できる環境を整えましょう。

一方で、SREの活動はさまざまなツールを活用して進めていく側面があります。特に、活動の基本となる監視ツールの導入ではアラートを制御しきれず、逆に非効率を招くケースがあるため注意が必要です。

また、インシデント対応プロセスの見直しや自動化といった点も、システムの信頼性向上には欠かせません。そこでおすすめなのが、インシデント管理プラットフォームの「PagerDuty」です。

「PagerDuty」は、世界で2万社を超えるユーザーが存在する信頼性の高いプラットフォームです。モニタリングツールやコラボレーションツールなど、700以上のサービスと連携してインシデント対応プロセス全体を改善するほか、インシデント対応の自動化を推進できるでしょう。

弊社では、PagerDutyのダウンロード資料や14日間の無料トライアルをご用意しておりますので、サービス内容や機能にご興味のある方は、ぜひお気軽にお問い合わせください。

インシデント管理やシステム障害に関するダウンロード資料はこちら
14日間の無料トライアルはこちら

公式資料
「デジタルオペレーションの現状」独自調査レポート

エンジニアの燃え尽きを防ぐ秘訣とは？
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説！→ PagerDutyの資料をみる（無料）

無料ダウンロード >

無料ダウンロード >

この記事の著者

草間一人

PagerDuty
Product Evangelist
プロダクトエヴァンジェリスト

草間一人

PagerDuty
Product Evangelist
プロダクトエヴァンジェリスト

通信事業者でプラットフォームエンジニアを務めたのを皮切りに、いくつかの外資系企業でプロフェッショナルサービスやプリセールスエンジニアとしてクラウドネイティブやプラットフォーム製品に携わるなど、10年以上さまざまな形でプラットフォームに関与している。2023年11月より現職。一般社団法人クラウドネイティブイノベーターズ協会代表理事。Platform Engineering Meetupオーガナイザー。

SNS

Blog

Cloud Penguins

「SRE(サイト信頼性エンジニアリング)」とは？〜DevOpsとの関係・実践ポイントを解説〜

SREとはなにか？

SREはなぜ求められるのか？必要とされる背景