IT サービスや業務の継続性がますます求められる中、
IT 分野でも「回復力」「弾力性」 を意味する
「レジリエンス(Resilience)」という言葉が使われるようになってきました。
従来、システム障害は起こしてはならない、
完璧なシステムを構築しなければならない、
という価値観が強かったと思います。
しかし、システム障害をもたらすリスクを根絶することは不可能、
もしくは膨大なコストと時間がかかり割に合いません。
だからといって、障害を起こすシステムを
構築して良いなどといっているわけでは当然ありません。
「障害は発生するもの」という前提に立ち、信頼性向上の観点から、
「障害が起きにくい構成・構造にする」こと、
レジリエンス確保の観点から「障害の予兆や発生を検知し、
迅速に復旧・業務継続できる構成・構造・運用にすること」という
2つを同時に実現することが重要だと考えます。
本書は、筆者らがこれまでのミッションクリティカルなシステム案件で培った
システム構築・運用業務ノウハウを集大成し、実践的な指南書となっています。
【本書の内容】
・情報システムの導入・構築に携わる方々が、
ITレジリエンスを確保するために各プロセスにおいて
留意すべきポイントを解説
・ITレジリエンスを確保するフレームワークを構成する要素を解説
・特に管理者にとって必要となるシステムの可用性(情報システムが継続して稼働できる能力)の
基礎知識についても解説
・コンティンジェンシープラン(緊急時対応計画)策定の基礎
・障害訓練の実施法
・「システム障害時対応の留意点」「システム障害の原因分析と対策立案の基礎」を
付録として掲載
【目次】
第1章 ITレジリエンスを確保するフレームワーク
第2章 リスク対策を施したシステム構築のルール
第3章 システム可用性の基礎知識
第4章 コンティンジェンシープラン策定の基礎
第5章 障害訓練の基礎
情報システムの導入・構築に携わる方々が、ITレジリエンスを確保するために各プロセスにおいて留意すべきポイントを解説します。
システム開発・運用において、基礎となる構成・構造・設計思想・ルール・ノウハウなどの集合体であるフレームワークを形作る各要素について詳しく紹介しています。これにより、システム構築プロセスの不備、属人化などによって発生するシステム障害や品質低下を回避でき、システム障害からの迅速な復旧も可能となります。
特に管理者にとって必要となるシステムの可用性(情報システムが継続して稼働できる能力)の基礎知識についても解説しています。
企業・団体などにとって中核となる業務を支えている情報システムが可能な限り継続して運用できるよう、また障害となってしまった場合は迅速に復旧できるよう、システム障害対応時の体制・手順・資源の確保や、委託者・利用者への連絡などを計画したコンティンジェンシープランの策定方法がわかります。
システム障害が起きてしまったときに備え、迅速に復旧できるよう事前に定めたコンティンジェンシープランをスムーズに実行できるようにするための訓練のやり方がわかります。
第1章 ITレジリエンスを確保するフレームワーク
1-1 ITレジリエンスとは何か?
1-1-1 ITサービスが社会へ与える影響
1-1-2 ITにおけるレジリエンスの重要性
1-2 フレームワークの構成要素
1-2-1 システム障害のないシステム構築は可能か?
1-2-2 リスクコントロール設計が重要
1-2-3 フレームワークを構成する3つの要素
1-2-4 危機管理計画の観点から考える
1-2-5 システム構築のルールの位置づけ
第2章 リスク対策を施したシステム構築のルール
2-1 予防策に関するルール(全般編)
2-1-1 上流工程をしっかり行うという基本を守る
2-1-2 システム全体の稼働イメージを持つ
2-1-3 システムの独立性を確保する
2-1-4 対外接続において外部の障害や遅延を想定する
2-1-5 設計・開発工程の終了直後にテスト計画の策定を開始する
2-2 予防策に関するルール(非機能要件編)
2-2-1 非機能要件を重視する
2-2-2 容量・性能設計は前提条件に注意を払う
2-2-3 運用・保守要件は可能な限り自動化対応する
2-2-4 運用要件は障害対応を想定して設計する
2-2-5 システム移行を入念に計画し、移行リハーサルで検証する
2-3 予防策に関するルール(標準化編)
2-3-1 機器・ミドルウェア・クラウド利用の標準化を行う
2-3-2 システムの可視化のためにドキュメントを維持する
2-4 検知策に関するルール
2-4-1 監視の基礎
2-4-2 アラームは対策の実行時間を考慮して設計する
2-4-3 正常稼働監視をあらかじめ組み込む
2-4-4 通知後のアクションを促すような監視メッセージにする
第3章 システム可用性の基礎知識
3-1 システム可用性の基礎
3-1-1 安定稼働に貢献する可用性、信頼性、保守性の対策
3-1-2 システム可用性と稼働率の関係
3-2 冗長化の基礎
3-2-1 冗長化対策とその効果
3-2-2 サーバーの冗長化
3-2-3 DBサーバーの冗長化
3-3 保守に関わる基礎
3-3-1 保守作業の基礎
3-3-2 冗長化構成を活かしたメンテナンス方式
3-3-3 ITリソースの拡張方式
3-4 仮想化の基礎
3-4-1 仮想化の特徴とその効果
3-4-2 サーバーの仮想化技術
3-4-3 ストレージの仮想化技術
3-4-4 ネットワークの仮想化技術
3-5 クラウドの基礎
3-5-1 クラウドの成り立ちとその特徴
3-5-2 クラウドのサービス提供形態
3-5-3 クラウドの導入効果と注意点
3-6 パブリッククラウドサービスの基礎
3-6-1 パブリッククラウドサービスの基礎知識
3-6-2 アベイラビリティゾーン、リージョンの冗長化構成
3-6-3 パブリッククラウドで実現する高可用性実装方式
3-6-4 マネージドサービスの活用
3-7 アプリケーションの可用性
3-7-1 コンテナ技術による可用性の向上
3-7-2 マイクロサービスによる可用性の向上
3-7-3 コンテナオーケストレーションによる可用性の向上
第4章 コンティンジェンシープラン策定の基礎
4-1 コンティンジェンシープランの種類と適用場面
4-1-1 コンティンジェンシープランの構成要素と種類
4-1-2 コンティンジェンシープラン策定のポイント
4-2 コンティンジェンシープラン策定の実際
4-2-1 コンティンジェンシープランのタイプ別の特徴
4-2-2 コンティンジェンシープランの発動の実際
4-2-3 範囲を縮小して中核業務を守る(B-1タイプ)
4-2-4 別の手段により業務・サービスを継続する(B-2タイプ)
4-2-5 変更前の業務・サービスに戻す(Cタイプ)
4-2-6 コンティンジェンシープランの実行に必要な体制
4-2-7 ステークホルダー間の迅速かつ正確な情報共有・公開
第5章 障害訓練の基礎
5-1 障害訓練の進め方
5-1-1 障害訓練の意義と計画のタイミング
5-1-2 障害訓練計画立案時の検討事項
5-2 障害訓練の実際
5-2-1 障害訓練計画の立案
5-2-2 障害訓練の実施
5-2-3 障害訓練結果の評価・報告
付録① システム障害時対応の留意点
付録② システム障害の原因分析と対策立案の基礎