SLO（エスエルオー）

2025年10月16日

SLO（エスエルオー）

英語表記: Service Level Objective

概要

SLO（Service Level Objective：サービスレベル目標）とは、提供するITサービスやシステムの品質を、具体的な数値で測定できるように設定した内部的な目標値のことです。これは、システムがユーザーに期待されるパフォーマンスをどの程度満たすべきかを定義する、信頼性工学（SRE）の核となる要素です。

SLOは、顧客との契約であるSLA（Service Level Agreement：サービスレベル合意）よりも厳しく、あるいは柔軟に設定されることが多く、システムがハードウェアとソフトウェアの関係を通じて提供するサービスの「理想的な状態」を定量化する役割を果たします。

詳細解説

SLOは、ITサービスの信頼性を高め、開発・運用チームが共通の目標に向かって協力するための羅針盤となります。この概念は、信頼性工学という文脈で最も力を発揮します。

SLOの目的と位置づけ

私たちが提供するサービスは、サーバーやネットワークといったハードウェアと、その上で動作するアプリケーションというソフトウェアが複雑に連携して成り立っています。SLOの目的は、この複雑な連携によって生じる結果（例：ウェブページの読み込み速度、サービスの稼働時間）を曖昧にせず、具体的な数値（パーセンテージやミリ秒）で定義することです。

SLOを設定するプロセスは、まずSLI（Service Level Indicator：サービスレベル指標）を定めることから始まります。SLIは「何を測るか」であり、SLOは「その測定値がどの程度であれば合格か」という目標値そのものです。

例えば、SLIとして「リクエストの成功率」を選んだ場合、SLOは「リクエストの成功率は99.95%以上を維持する」といった具体的な数値になります。

可観測性との関係

SLOを有効に機能させるためには、システムの状態を常時把握できる「可観測性」が不可欠です。システム全体が透明でなければ、目標値（SLO）を達成しているかどうかを正確に判断できません。

このため、可観測性とライフサイクル管理という中カテゴリにおいて、SLOは非常に重要な役割を果たします。高性能なモニタリングツールを用いてSLIを継続的に収集し、そのデータがSLOを満たしているかをリアルタイムでチェックします。もしSLOを下回る傾向が見られた場合、それはシステムの改善（ライフサイクル管理）が必要であるという明確なサインとなるのです。

エラーバジェット（許容失敗回数）

SLOの運用において特徴的なのが、「エラーバジェット（Error Budget）」という考え方です。SLOは通常、100%の達成を求めません。なぜなら、100%の信頼性を追求すると、開発スピードが極端に落ち、コストが跳ね上がってしまうからです。

例えば、SLOを99.9%に設定した場合、残りの0.1%が「失敗しても許される範囲」となり、これがエラーバジェットとなります。このバジェットを使い切るまでは、チームは新しい機能のリリースやリスクのある変更を試みることができます。

もしエラーバジェットが尽きそうになったら、その期間は信頼性向上を最優先し、新しい機能開発を一時停止します。これにより、開発チームと運用チームは、サービスの信頼性を維持しつつ、イノベーションも追求するという絶妙なバランスを取ることができるのです。これは、信頼性工学ならではの、非常に実践的で面白いアプローチだと感じます。

具体例・活用シーン

SLOは、ユーザー体験に直結するあらゆるサービス品質に適用されます。

ウェブサービスにおける典型的なSLO

レイテンシ（応答時間）: 「ユーザーリクエストの95%は、300ミリ秒以内に処理を完了すること。」
- これは、ハードウェアとソフトウェアの関係が生み出す最終的な性能、つまり「どれだけ速く動くか」を定義します。
可用性（稼働率）: 「サービスは、1ヶ月のうち99.99%の時間、アクセス可能であること。」
- この目標を達成するためには、可観測性を通じて継続的に稼働状況を監視し、計画外の停止を防ぐ必要があります。