2023年4月7日

カオスエンジニアリング

ディザスタリカバリ101

このブログでは、ディザスターリカバリー(災害復旧)計画と、その作成・実行のためのベストプラクティスについて説明します。

Disaster Recovery.pngPOSソフトを使う小売業でも、患者の記録を電子的に保存する病院でも、組織はソフトウェアに依存しています。では、予期せぬダウンタイムや、最悪の場合、データを失うような大災害が発生した場合はどうするのでしょうか?この失われたデータを回復し、システムを復元し、通常の運用を再開するための計画を立てていますか?ディザスターリカバリーは、もはやオプションではなく、どの組織にも必要不可欠なものです。

このブログでは、ディザスターリカバリー計画と、その作成・実行のためのベストプラクティスについて説明します。

 

ディザスタリカバリーとは

まず、「ディザスター」(災害)とは何かについてお話しましょう。ITの世界では、次のような災害が発生する可能性があります。

  • マルウェアやランサムウェアなどのサイバー攻撃
  • 電源の問題や機器の故障による停止
  • 自然災害
  • 火災
  • COVID-19などの伝染病
  • ソフトウェアのバグ

 

これらの災害が発生すると、サービス損失やデータ損失が発生し、事業運営に大きな影響を与える可能性があります。さらに悪いことに、Southwest Airlinesなどの最近のインシデントが示しているように、組織の評判を傷つけ、セキュリティポリシーに対する顧客の信頼に悪影響を与える可能性があります。

ディザスターリカバリーとは、その名の通り、ソフトウェアで予期せぬ出来事や壊滅的な出来事が発生したときに失われたものを、全て回復する計画のことなのです。Gartnerはそれを次のように定義しています。

  1. 主回線が断絶または誤動作した場合に、通信回線を再確立するための代替ネットワーク回路の使用
  2. 上記に加えて、壊滅的な中断の後、データセンターを完全な運用に戻すための方法と手順(例:失われたデータの回復を含む)。

 

データの回復

優れた災害復旧計画には、データセンターの災害復旧計画も含まれている必要があります。この計画には、データがオフサイトに保存され、迅速に復旧できるようにするためのバックアップとレプリケーションの戦略、さらに、ディザスターリカバリー専門チームなど、業務を復旧するために必要な人員と設備が含まれている必要があります。その代表的なものが、ディザスターリカバリーサイトです。


ディザスターリカバリーサイトは、災害発生時に重要なデータとシステムを格納するために使う予備の物理的な場所です。自然災害やサイバー攻撃、停電などの災害からデータを守り、安全で信頼性の高い環境を企業に提供するものです。これらのサイトには、ファイアウォール、暗号化、バックアップシステムなどの高度なテクノロジーが装備されており、インシデントが発生した場合でもデータを安全に保てます。さらに、ディザスターリカバリーサイトには、あらゆる災害からの迅速な復旧を支援する専門家へのアクセスを提供するものもあります。
 

 

クラウドディザスターリカバリーサイトは必要ですか?

はい。クラウドベースの企業であり、アプリとデータが全てクラウドに存在する場合でも、ディザスターリカバリー計画が必要です。クラウドディザスターリカバリー(CDR)は、クラウドベースのシステムでデータを保護、バックアップ、復元するプロセスです。CDR計画には、重要なアプリを潜在的な災害から隔離するためのデータ保護が含まれています。CDRを使うことで、企業は重要な情報をクラウドで安全かつ確実に保護できます。さらにCDRは、失われたデータやアプリをクラウドで迅速に復元することで、災害時における企業のダウンタイム短縮に役立ちます。

 

ディザスターリカバリーと事業継続

ディザスターリカバリーは、自然災害、サイバー攻撃、その他の緊急事態が発生した場合に事業の継続性を確保するための重要な部分です。ディザスターリカバリーとは、事業の継続性を回復させる方法であり、予期せぬ事態に直面しても事業を維持するためには、どちらの概念も不可欠です。事業継続とディザスターリカバリーは関連していますが、概念は異なります。

  • ディザスターリカバリーは、インシデントが発生した後にサービスを元の状態に復元することに重点を置いています。これには、データのバックアップ、システムの復元、インフラの修復などの活動が含まれます。
  • 事業継続には、災害時と災害後に重要な事業活動が利用できるようにするための計画や手順の策定を含みます。これには、リスクの特定、対応計画の確立、担当者のトレーニングなどの手順が含まれます。

 

ディザスターリカバリープランが重要な理由

災害はいつ、どこでも発生する可能性があるため、緊急時にビジネスを継続できるように計画を立てることが重要です。明確に定義された計画を立てることで、ダウンタイムを最小限に抑え、事業を円滑に運営し続けられます。災害は顧客だけでなく、収益にも影響を与えます。Uptime Instituteによる2022年のレポートでは、次のことが分かりました。

  • 5社に1社が、過去3年間に「深刻」または「深刻」な障害(多額の金銭的損失、風評被害、コンプライアンス違反、および/または人命の損失を伴うもの)を経験している
  • 失敗の60%以上は、合計で少なくとも10万ドルの損失になる
  • 約4割の組織がヒューマンエラーによる障害発生を経験している
  • サービス停止の63%は、クラウド、ホスティング、通信ベンダーなどのサードパーティープロバイダーが原因
  • 停止の約3分の1は24時間以上続く

 

ディザスターリカバリープラン:ベストプラクティス

ディザスターリカバリープランには戦略が必要です。あらゆる緊急事態に備えるためには、ディザスターリカバリー戦略を計画・実行する際に、ベストプラクティスに従うことが重要です。ベストプラクティスには、以下のようなものが含まれます。

  • 潜在的な脅威を特定するための定期的なリスク評価の実施
  • リソースの一覧表示(重要度順)、それらに関連する潜在的な障害点
  • 潜在する障害のシミュレーション
  • 自動または手動による理論上の復旧パスの検証
  • 信頼できるハードウェアとソフトウェアのソリューションへの投資
  • バックアップが適切に機能していることを確認するための定期的なテスト
  • 緊急時の対応方法に関するスタッフのトレーニング

これらのベストプラクティスに従うことで、災害発生時にコストのかかるダウンタイムやデータ損失から組織を保護できます。

 

ディザスターリカバリー戦略にカオスエンジニアリングをどう取り入れる?

ディザスターリカバリーをサポートする新しいテクノロジーの1つに、カオスエンジニアリングがあります。カオスエンジニアリングとは?レジリエンシー(回復力)を測定するために意図的にシステムに障害を起こして、システムの信頼性とフォールトトレランスのテストに重点を置いた、ソフトウェアエンジニアリングの分野です。大きな問題になる前に、システムの潜在的な問題や弱点を特定するために使用されます。他の科学的手法と同様に、カオスエンジニアリングは実験と仮説に焦点を当て、その結果を基準(定常状態)と比較します。

分散型システムにおけるカオスエンジニアリングの典型的な例として、ランダムにサービスを停止して、アイテムの反応やユーザーに影響を与える可能性のある問題の確認が挙げられます。カオスエンジニアリングを活用することで、組織は災害への備えを強化し、予期せぬ事態に対応できる強靭なシステムを確保できます。

カオスエンジニアリングの目標は、中断を最小限に抑え、災害から迅速に回復できる堅牢なシステムを構築することです。厳密なテストを通じて、システムの脆弱な部分を特定し、強化するための対策を講じることで、災害時の迅速な復旧を可能にします。カオスエンジニアリングには、ユーザーエクスペリエンスの向上、インシデント対応時間、アプリ性能の監視など、他にも多くの利点があります。エンジニアは、インシデント対応、ポストモーテム(事後分析)レポート、システム障害の修正などの気を散らすものを取り除いて、開発に集中できます。

Harness Chaos Engineeringは、オンプレミスとSaaSの両方を提供する唯一のソリューションであり、ユーザーはソフトウェアの導入方法に応じてカオス試験を実行できます。How Harness Chaos Engineering Strengthens Your Disaster Recovery Plan(Harnessがディザスターリカバリープランをどう強化するか)という記事をご覧ください。また、あなたの組織がこのプラクティスを採用して、どう信頼性向上に役立てられるかを確認したい場合は、今すデモをリクエストしてください


この記事はHarness社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。
 

 


 



 

Harnessに関するお問い合わせはお気軽にお寄せください。

お問い合わせ