2023年6月1日

信頼性

SRM機能アップデート - 2023 年 5 月

Service Reliability Managementモジュールの最新の信頼性機能について学びましょう。複合SLO、リクエストベースSLO、SLO Downtime、SLO Reporting、新しい統合により、より優れた信頼性・速い配信が可能になります。

SRM feature update.png

Harness では、Service Reliability Management(SRM)モジュールで大きな勢いを得ています。私たちは、主要なSREと信頼性のイベントに参加し、この素晴らしいコミュニティーで多くの素晴らしい人たちと話をしてきました。また、お客様に最大限の価値をもたらす方向に製品を進めていくために、お客様と数多くのやり取りも行ってきました。私たちの製品チームは、新しい機能を追加するために頭を悩ませてきましたが、その結果を皆様にお見せする準備が整いました。皆様にも私たちと同じように気に入っていただけると幸いです。

簡単にまとめると、SRM 内の既存の基本的な SLO 管理機能を基盤として、信頼性の目標、希望、夢の全てをサポートするために必要な高度な機能を作成しました 。

追加された内容の概要は次の通りです。

  • 複合 SLO - 複数の個別のSLOを高レベルの目標に結合します。
  • リクエストベースのSLO - システムが受け取るリクエストごとにSLO目標を定義します。
  • SLO Downtime - 予定されているダウンタイムや営業時間外でも、エラーバジェットに対するペナルティを受けないようにします。
  • SLO Reporting - SLO パフォーマンスのトレンドとパターンを特定します。
  • Chaos Engineering統合 - カオス試験がSLO 違反の原因であることを迅速に特定します。
  • Feature Flags統合 - 機能の切り替えがサービスに与える影響を即座に把握します。
  • カスタム変更ソース - 任意のソースから変更イベントをインポートして、サービスへの影響を把握します。

SRMの最新機能がもたらす価値

これらの機能があなたのワークライフにどのような影響を与えるかを探ってみましょう。

複合SLO - 個別のSLOを作成することは、あらゆるSLO管理プロセスの基礎となる機能です。しかし、あるサービスが他のサービスよりもビジネスにとって重要である場合、どうすればよいのでしょうか。例えば、決済のSLOは絶対にビジネスクリティカルとみなされ、決済の失敗が起こらないようにするため、チャットサービスのような重要度の低いサービスよりもSLOの比重を高くします。複合SLOにより、SLO管理プロセスをお客様のビジネスのニーズに合わせることができます。

Composite SLOs in Harness SRM.png

Harness SRMの複合SLO


リクエストベースのSLO - 一般的な使用例は、「良好」とみなされるリクエストの割合の目標を設定することです。このタイプの SLO の計算式は(良好なリクエストの数 / 合計リクエストの数)X 100 です。Harnessには、良好な期間と不良な期間の比率を作成する時間ベースのSLOが既にありますが、リクエストベースのSLOを追加することで、ニーズに合わせてSLOを設定できます。

Request-based SLOs in Harness SRM.png

Harness SRMのリクエストベースのSLO


SLO Downtime - 特定のサービスでは、計画されたダウンタイムイベント中、あるいはサービスが本番稼働していない時間帯にSLOメトリクスが影響を受けないようにする必要があります。Harnessを使えば、これらの期間を構成できるため、メトリクスを手動で調整する必要がなくなります(この労力を自動化して排除します)。

SLO downtime in Harness SRM.png

Harness SRMのSLOダウンタイム


SLO Reporting - SLIとSLOには、多くの貴重な情報が隠されています。現在、 Harness SRMには、すぐに使える2つのダッシュボードが付属しています。SLO Healthダッシュボードを使用すると、さまざまなプロジェクトにわたるSLOの健全性を簡単に把握できます。このレポートは毎日eメールで送信されるので、毎日ログインしてUIを確認する必要はありません。

SLO Health report in Harness SRM.png

Harness SRMのSLO Healthレポート


SLO Historical Performanceダッシュボードは、傾向とパターンを特定するのに役立ちます。例えば、エラーバジェットを遵守しているチームを特定したり、常に準拠していないチームやエラーバジェットを満たしていないチームを特定したりできます。このタイプのレポートを使用すると、それに応じてチームに報酬を与えたり、ペナルティを与えたりするためのインセンティブを構築できます(それがビジネスで必要な場合です。)

SLO History report in Harness SRM.png

Harness SRMのSLO Historyレポート


Chaos Engineering統合- カオス試験がいつ本番環境で顧客に影響を与えたか知っていますか?このようなことが起こった場合、チームがこれに気付き、是正措置を講じるまでにどれくらい時間がかかりますか?Harness SRMの最新のChaos Engineering統合により、何が起こったのかを数分で正確に把握し、是正措置を講じられます。これには2つのメリットがあります。MTTRの短縮と、手作業に伴う労力の削減です。

Integration between Chaos Engineering and Harness SRM.png

Chaos EngineeringとHarness SRMの統合


Feature Flags統合- フィーチャーフラグを作成するエンジニアリング チームは、サービスが本番環境で実行されている間に新しい機能を有効にできます。これらの新しく有効になった機能が顧客に影響を与える場合、何が起こったのかを把握するために手動で調査するのに何時間もかかる可能性があります。Harness SRMのFeature Flags統合により、数分で原因を特定できるようになります。Harnessによって、より多くの労力が自動化されるのです。

Integration between Feature Flags and Harness SRM.png

Feature FlagsとHarnessSRMの統合


カスタム変更ソース- インシデント発生時に必ず聞かれる最初の質問は、「何が変更されたのか?」です。この短い質問の答えは、20人以上の高額な報酬を得ているITプロフェッショナル・グループを悩ませる可能性がありますが、本番環境のインシデントの少なくとも80%は変更によって自らが引き起こしたものであるため、答えを知ることは非常に重要です。Harnessには、既に複数の異なる変更ソースが含まれていますが、それら全てをカバーすることは不可能です。これに対応するために、任意のソースから変更イベントをインポートできるようにしました。これにより、何が変更されたのかを数分で正確に把握できるようになり、インシデント発生時のサービスの復元がはるかに簡単かつ迅速になります。

結論

Harness SRM モジュールの最新のアップデートは、SRE がサポートするビジネスの微妙な現実に合わせて信頼性の目標を調整するのに役立つ高度な機能を提供します。さらに、これらのアップデートは、SREが問題をより迅速にトラブルシューティングするのに役立ち、信頼性の目標に対してチームがどのようにパフォーマンスを発揮しているかについての履歴的な洞察を提供します。SRMが信頼性の目標の達成にどう役立つかについて、ぜひお問い合わせください。


この記事はHarness社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

Harnessに関するお問い合わせはお気軽にお寄せください。

お問い合わせ