気合と根性の運用は、もう終わりだ。
本書はPagerDutyを活用した、障害対応現場に秩序をもたらすための実践的解説書です。
現代の複雑化したITシステムにおいて、障害を完全に防ぐことは不可能です。「システムは壊れるものである」という前提に立ち、いかに迅速に復旧し、ビジネスへの影響を最小限に抑えるためのインシデント管理の重要性は非常に高い。
■本書について
本書は単なるツールの操作説明にとどまらず、障害対応の現場で培われたICS(インシデントコマンドシステム)の概念や、SREの原則に基づいた組織としての対応力を高める方法についても解説しました。
「検知→トリアージ→動員→解決→学習」というインシデントライフサイクル全般を網羅し、アラートノイズの削減、オンコール負担の軽減、AI(PagerDuty Adevance)を活用した最新の自動化手法まで解説しています。
操作画面もできるだけ細かく収録しているので、手を動かしながら学べます。
■本書の特徴
・インシデント管理の型が身につく
ICSをベースにした指揮系統、役割分担や戦時と平時の切り替えなど、組織として動くためのフレームワークを体系的に解説しています。
・PagerDutyの機能を活用するための実践知が学べる
基本的なオンコールスケジュールやエスカレーションポリシーの設定はもちろん、Event Orchestrationによる高度なノイズ削減、Service Graphによる影響範囲の可視化といった現場ですぐに使える手法を紹介しています。
・失敗を学習に変える方法を紹介
障害対応が終わってそのままにしないための「ポストモーテム」の考え方や、Jeliを活用した振り返り手法を紹介します。本書を読むことで、組織の運用熟練度を高めるためのサイクルを回せるようになります。
■読者対象
・PagerDutyを実際に利用する運用エンジニア
・PagerDutyに興味を持っているエンジニア
・インシデント管理ツールに興味があるエンジニア
■目次
Chapter 1 インシデント管理の必要性とPagerDutyの役割
Chapter 2 PagerDutyの基礎
Chapter 3 検知
Chapter 4 トリアージ
Chapter 5 動員
Chapter 6 修復
Chapter 7 学習
Chapter 8 PagerDuty Advanceの活用
Chapter 9 運用の成熟度を上げるには
Chapter 10 サポート活用ガイド
Chapter 1 インシデント管理の必要性とPagerDutyの役割
Chapter 2 PagerDutyの基礎
Chapter 3 検知
Chapter 4 トリアージ
Chapter 5 動員
Chapter 6 修復
Chapter 7 学習
Chapter 8 PagerDuty Advanceの活用
Chapter 9 運用の成熟度を上げるには
Chapter 10 サポート活用ガイド