SRE サイトリライアビリティエンジニアリング

―Googleの tín lại tính を chi えるエンジニアリングチーム

[cover photo]
TOPICS
System/Network
Phát hành niên nguyệt nhật
PRINT LENGTH
590
ISBN
978-4-87311-791-1
Nguyên thư
Site Reliability Engineering
FORMAT
Print PDF EPUB
Print
5,280 viên

サイトリライアビリティエンジニアリング ( SRE ) とは, Googleで bồi われたシステム quản lý とサービス vận dụng の phương pháp luận です. GoogleのSREチームの chủ yếu メンバーによって thư かれた bổn thư は, ソフトウェアのライフサイクル toàn thể にコミットすることで thế giới tối đại quy mô のソフトウェアシステムがどのように cấu trúc, đạo nhập, giam thị, duy trì されているのかを giải thuyết します. はじめにリスク quản lý やサービスレベル mục tiêu, リリースエンジニアリングなどSREの hành động の cơ sở となる nguyên tắc について giải thuyết し, thứ にインシデント quản lý や chướng hại の căn bổn nguyên nhân phân tích, SRE nội でのソフトウェア khai phát など đại quy mô phân tán コンピューティングシステムを cấu trúc し vận dụng するSREの thật tiễn について tường thuật します. さらにSREのトレーニングやコミュニケーションなどの quản lý について thiệu giới します. Cấp tốc にスケールするサービスを cao い tín lại tính で vận dụng する phương pháp を giải thuyết する bổn thư はエンジニア tất huề の nhất sách です.

Mục thứ

Bổn thư への thôi tiến の ngôn diệp 
Giam 訳 giả まえがき
Tự văn 
はじめに

Đệ Ⅰ bộ イントロダクション

1 chương イントロダクション
1.1 サービス quản lý へのシステム quản lý giả のアプローチ
1.2 サービス quản lý への Googleのアプローチ: サイトリライアビリティエンジニアリング
1.3 SREの tín điều 
1.3.1 エンジニアリングへの継続 đích な chú lực の bảo chứng 
1.3.2 サービスの SLOを hạ hồi ることなく, 変 canh の tốc độ の tối đại hóa を truy cầu する
1.3.3 モニタリング
1.3.4 khẩn cấp đối ứng 
1.3.5 変 canh quản lý 
1.3.6 nhu yếu の dư trắc とキャパシティプランニング
1.3.7 プロビジョニング
1.3.8 hiệu suất とパフォーマンス
1.4 thủy まりの chung わり

2 chương SREの quan điểm から kiến た Googleのプロダクション hoàn cảnh 
2.1 ハードウェア
2.2 ハードウェアを “Tổ chức hóa” するシステムソフトウェア
2.2.1 マシン quần の quản lý 
2.2.2 ストレージ
2.2.3 ネットワーク
2.3 tha のシステムソフトウェア
2.3.1 ロックサービス
2.3.2 モニタリングとアラート
2.4 Googleのソフトウェアインフラストラクチャ
2.5 Googleの khai phát hoàn cảnh 
2.6 シェークスピア: サンプルのサービス
2.6.1 リクエストのライフサイクル
2.6.2 ジョブとデータの biên thành 

Đệ Ⅱ bộ nguyên tắc 
Ⅱ.1 Google SREが thôi thưởng する tham khảo văn hiến 

3 chương リスクの thụ dung 
3.1 リスクの quản lý 
3.2 サービスリスクの kế trắc 
3.3 サービスのリスク hứa dung độ 
3.3.1 コンシューマサービスにおけるリスク hứa dung độ の minh xác hóa 
3.3.2 インフラストラクチャサービスのリスク hứa dung độ の minh xác hóa 
3.4 エラーバジェットの hoạt dụng 
3.4.1 エラーバジェットの hình thành 
3.4.2 メリット

4 chương サービスレベル mục tiêu 
4.1 サービスレベルに quan する dụng ngữ 
4.1.1 chỉ tiêu 
4.1.2 mục tiêu 
4.1.3 アグリーメント
4.2 chỉ tiêu の thật tế 
4.2.1 サービスの đề cung giả とユーザーの quan tâm sự 
4.2.2 chỉ tiêu の thâu tập 
4.2.3 tập kế 
4.2.4 chỉ tiêu の tiêu chuẩn hóa 
4.3 mục tiêu の thật tế 
4.3.1 mục tiêu の định nghĩa 
4.3.2 ターゲットの tuyển 択
4.3.3 kế trắc trị のコントロール
4.3.4 SLOによる kỳ đãi の thiết định 
4.4 アグリーメントの thật tế 

5 chương トイルの phác diệt 
5.1 トイルの định nghĩa 
5.2 トイルは thiếu ない phương が lương い lý do 
5.3 エンジニアリングであるための điều kiện 
5.4 トイルは thường に ác なのか? 
5.5 まとめ

6 chương phân tán システムのモニタリング
6.1 định nghĩa 
6.2 モニタリングの tất yếu tính 
6.3 モニタリングにおける thỏa đương な kỳ đãi trị の thiết định 
6.4 chứng trạng と nguyên nhân 
6.5 ブラックボックスとホワイトボックス
6.6 4 đại シグナル
6.7 テイルレイテンシに quan する huyền niệm ( あるいはインスツルメンテーションとパフォーマンス ) 
6.8 thích thiết な kế trắc の lạp độ の tuyển 択
6.9 khả năng な hạn りシンプルに, ただしやり quá ぎないこと
6.10 nguyên tắc のとりまとめ
6.11 trường kỳ gian にわたるモニタリング
6.11.1 Bigtableの SRE: Quá thặng なアラートの vật ngữ 
6.11.2 Gmail: スクリプト hóa された dư trắc khả năng なレスポンスの thủ động tống tín 
6.11.3 trường kỳ đích な thị điểm 
6.12 まとめ

7 chương Googleにおける tự động hóa の tiến hóa 
7.1 tự động hóa の価 trị 
7.1.1 nhất quán tính 
7.1.2 プラットフォーム
7.1.3 cao tốc な tu phục 
7.1.4 tố tảo いアクション
7.1.5 thời gian の tiết ước 
7.2 Google SREにとっての価 trị 
7.3 tự động hóa のユースケース
7.3.1 Google SREによる tự động hóa のユースケース
7.3.2 tự động hóa のクラスの giai tằng 
7.4 tự phân の sĩ sự の tự động hóa: Hà もかも tự động hóa する
7.5 khổ thống の hoãn hòa: クラスタのターンアップへの tự động hóa の thích dụng 
7.5.1 Prodtestでの bất chỉnh hợp の kiểm xuất 
7.5.2 bất chỉnh hợp の mịch đẳng な giải tiêu 
7.5.3 đặc hóa する khuynh hướng 
7.5.4 サービス chỉ hướng のクラスタのターンアップ
7.6 Borg: ウェアハウススケールコンピュータの đản sinh 
7.7 cơ bổn đích cơ năng としての tín lại tính 
7.8 tự động hóa のすすめ

8 chương リリースエンジニアリング
8.1 リリースエンジニアの dịch cát 
8.2 triết học 
8.2.1 セルフサービスモデル
8.2.2 cao tốc tính 
8.2.3 mật phong ビルド
8.2.4 ポリシーと thủ thuận の cường chế 
8.3 継続 đích ビルドとデプロイメント
8.3.1 ビルド
8.3.2 ブランチ
8.3.3 テスト
8.3.4 パッケージ hóa 
8.3.5 Rapid
8.3.6 デプロイメント
8.4 thiết định quản lý 
8.5 まとめ
8.5.1 Googleだけに hạn った thoại ではない
8.5.2 リリースエンジニアリングは sơ kỳ の đoạn giai から thủy めよう

9 chương 単 thuần さ
9.1 システムの an định tính とアジリティ
9.2 thối khuất の mỹ đức 
9.3 tự phân のコードはあきらめないぞ! 
9.4 tước trừ した hành の kế trắc 
9.5 tối tiểu hạn の API
9.6 モジュラー tính 
9.7 リリースの単 thuần さ
9.8 単 thuần な kết luận 

Đệ Ⅲ bộ thật tiễn 
Ⅲ.1 モニタリング
Ⅲ.2 インシデント đối ứng 
Ⅲ.3 ポストモーテムと căn bổn nguyên nhân phân tích 
Ⅲ.4 テスト
Ⅲ.4.1 キャパシティプランニング
Ⅲ.5 khai phát 
Ⅲ.6 プロダクト
Ⅲ.7 Google SREが thôi thưởng する tham khảo văn hiến 

10 chương thời hệ liệt データからの thật tiễn đích なアラート
10.1 Borgmonの đản sinh 
10.2 アプリケーションのインスツルメンテーション
10.3 エクスポートされたデータの thâu tập 
10.4 thời hệ liệt のアリーナにおけるストレージ
10.4.1 ラベルとベクタ
10.5 ルールの bình 価
10.6 アラート
10.7 モニタリングのトポロジーのシャーディング
10.8 ブラックボックスモニタリング
10.9 thiết định のメンテナンス
10.10 10 niên が kinh quá して

11 chương オンコール đối ứng 
11.1 イントロダクション
11.2 オンコールエンジニアの nhật thường sinh hoạt 
11.3 バランスの thủ れたオンコール
11.3.1 lượng におけるバランス
11.3.2 chất におけるバランス
11.3.3 bổ thường 
11.4 an tâm cảm 
11.5 bất thích thiết な vận dụng phụ hà の hồi tị 
11.5.1 vận dụng の quá phụ hà 
11.5.2 du đoạn ならない địch: Đê すぎる vận dụng phụ hà 
11.6 まとめ

12 chương hiệu quả đích なトラブルシューティング
12.1 lý luận 
12.2 thật tiễn 
12.2.1 vấn đề のレポート
12.2.2 トリアージ
12.2.3 kiểm chứng 
12.2.4 chẩn đoạn 
12.2.5 テストと đối ứng 
12.3 phủ định đích な kết quả の tố tình らしさ
12.3.1 đối sách 
12.4 ケーススタディ
12.5 トラブルシューティングを dung dịch にするために
12.6 まとめ

13 chương khẩn cấp đối ứng 
13.1 システムが壊れた tế に hành うこと
13.2 テストによって dẫn き khởi こされた khẩn cấp sự thái 
13.2.1 tường tế 
13.2.2 レスポンス
13.2.3 chướng hại から phân かったこと
13.3 変 canh が dẫn き khởi こした khẩn cấp sự thái 
13.3.1 tường tế 
13.3.2 đối ứng 
13.3.3 chướng hại から phân かったこと
13.4 プロセスが dẫn き khởi こした khẩn cấp sự thái 
13.4.1 tường tế 
13.4.2 đối ứng 
13.4.3 chướng hại から phân かったこと
13.5 giải quyết できない vấn đề は tồn tại しない
13.6 quá khứ から học び, sào り phản さない
13.6.1 サービス chướng hại の lịch sử を tàn す
13.6.2 đại きな, むしろありそうもない vấn いかけをしてみよう
13.6.3 dư phòng đích なテストのすすめ
13.7 まとめ

14 chương インシデント quản lý 
14.1 quản lý されていないインシデント
14.2 quản lý されていないインシデントの tường tế phân tích 
14.2.1 kỹ thuật đích な vấn đề への cực đoan な tập trung 
14.2.2 bần nhược なコミュニケーション
14.2.3 thắng thủ な động き
14.3 インシデント quản lý のプロセスの cấu thành yếu tố 
14.3.1 trách nhậm の tái quy đích な phân ly 
14.3.2 minh xác な tư lệnh sở 
14.3.3 ライブインシデント trạng huống ドキュメント
14.3.4 はっきりとした dẫn き継ぎ
14.4 quản lý されたインシデント
14.5 インシデントと tuyên ngôn すべき tràng hợp 
14.6 まとめ

15 chương ポストモーテムの văn hóa: Thất bại からの học び
15.1 Googleにおけるポストモーテムの triết học 
15.2 コラボレーションと tri thức の cộng hữu 
15.3 ポストモーテムの văn hóa の đạo nhập 
15.4 まとめと cải thiện の継続

16 chương サービス chướng hại の truy tích 
16.1 Escalator
16.2 Outalator
16.2.1 tập kế 
16.2.2 タグ phó け
16.2.3 phân tích 
16.2.4 dư tưởng ngoại のメリット

17 chương tín lại tính のためのテスト
17.1 ソフトウェアテストの chủng loại 
17.1.1 vân thống đích なテスト
17.1.2 プロダクションテスト
17.2 テストの tác thành と hoàn cảnh の cấu trúc 
17.3 đại quy mô なテスト
17.3.1 スケーラブルなツールのテスト
17.3.2 ディザスタのテスト
17.3.3 tốc độ の trọng yếu tính 
17.3.4 プロダクションへのプッシュ
17.3.5 dư tưởng されるテストの thất bại 
17.3.6 kết hợp 
17.3.7 プロダクション hoàn cảnh におけるプローブ
17.4 まとめ

18 chương SREにおけるソフトウェアエンジニアリング
18.1 SRE nội でのソフトウェアエンジニアリングの trọng yếu tính 
18.2 Auxonのケーススタディ: プロジェクトの bối cảnh と vấn đề の lĩnh vực 
18.2.1 cựu lai のキャパシティプランニング
18.2.2 Googleにおけるソリューション: インテントベースのキャパシティプランニング
18.3 インテントベースのキャパシティプランニング
18.3.1 インテントを kỳ すもの
18.3.2 Auxonの thiệu giới 
18.3.3 yếu cầu と thật trang: Thành công と học んだこと
18.3.4 nhận tri の hướng thượng と thải dụng の thôi tiến 
18.3.5 チームの lực học 
18.4 SREにおけるソフトウェアエンジニアリングの thôi tiến 
18.4.1 SREにおけるソフトウェアエンジニアリング văn hóa の cấu trúc の thành công: Thải dụng と khai phát kỳ gian 
18.4.2 đạt thành 
18.5 まとめ

19 chương フロントエンドにおけるロードバランシング
19.1 パワーは giải đáp にあらず
19.2 DNSを sử ったロードバランシング
19.3 仮 tưởng IPアドレスでのロードバランシング

20 chương データセンターでのロードバランシング
20.1 lý tưởng đích なケース
20.2 bất lương タスクの đặc định: フロー chế ngự とレイムダック
20.2.1 kiện toàn ではないタスクに đối するシンプルなアプローチ: フロー chế ngự 
20.2.2 bất kiện toàn なタスクへの xác thật なアプローチ: レイムダック trạng thái 
20.3 サブセットの thiết định によるコネクションプールの chế hạn 
20.3.1 thích thiết なサブセットの tuyển 択
20.3.2 サブセットの tuyển 択アルゴリズム: ランダムなサブセットの tuyển 択
20.3.3 サブセット tuyển 択のアルゴリズム: Quyết định đích なサブセット tuyển 択
20.4 ロードバランシングのポリシー
20.4.1 シンプルなラウンドロビン
20.4.2 tối tiểu phụ hà ラウンドロビン
20.4.3 trọng み phó きラウンドロビン

21 chương quá phụ hà への đối ứng 
21.1 “クエリ / miểu” の lạc とし huyệt 
21.2 cố khách 単 vị での chế hạn 
21.3 クライアント trắc でのスロットリング
21.4 trọng yếu độ 
21.5 lợi dụng suất のシグナル
21.6 quá phụ hà によるエラーへの đối ứng 
21.6.1 リトライの phán đoạn 
21.7 tiếp 続によって sinh じる phụ hà 
21.8 まとめ

22 chương カスケード chướng hại への đối ứng 
22.1 カスケード chướng hại の nguyên nhân cập び hồi tị のための thiết kế 
22.1.1 サーバーの quá phụ hà 
22.1.2 リソースの khô khát 
22.1.3 lợi dụng できないサービス
22.2 サーバーの quá phụ hà の hồi tị 
22.2.1 キューの quản lý 
22.2.2 ロードシェディングとグレースフルデグラデーション
22.2.3 リトライ
22.2.4 レイテンシとタイムアウト
22.3 khởi động trực hậu の đê パフォーマンスとコールドキャッシュ
22.3.1 スタックは thường に hạ っていくようにすること
22.4 カスケード chướng hại を dẫn き khởi こす điều kiện 
22.4.1 プロセスの đình chỉ 
22.4.2 プロセスのアップデート
22.4.3 ロールアウト
22.4.4 tự nhiên な lợi dụng の tăng đại 
22.4.5 kế họa tế みの変 canh, ドレイン, ターンダウン
22.5 カスケード chướng hại に bị えるためのテスト
22.5.1 テストによる chướng hại の phát sinh とその hậu の quan sát 
22.5.2 nhất bàn đích なクライアントのテスト
22.5.3 trọng yếu độ の đê いバックエンドのテスト
22.6 カスケード chướng hại に đối ứng するためにすぐに hành うべき thủ thuận 
22.6.1 リソースの truy gia 
22.6.2 ヘルスチェックが chướng hại を dẫn き khởi こさないようにする
22.6.3 サーバーの tái khởi động 
22.6.4 トラフィックのドロップ
22.6.5 デグレーデッドモードへの di hành 
22.6.6 バッチの phụ hà の bài trừ 
22.6.7 vấn đề のあるトラフィックの bài trừ 
22.7 まとめ

23 chương クリティカルな trạng thái の quản lý: Tín lại tính のための phân tán hợp ý 
23.1 hợp ý を lợi dụng する mục đích: Phân tán システムの hiệp điều chướng hại 
23.1.1 ケーススタディ 1: スプリットブレイン vấn đề 
23.1.2 ケーススタディ 2: Nhân gian の giới nhập を tất yếu とするフェイルオーバー
23.1.3 ケーススタディ 3: Vấn đề のあるグループメンバーシップアルゴリズム
23.2 phân tán hợp ý の động tác 
23.2.1 Paxosの khái yếu: サンプルのプロトコル
23.3 phân tán hợp ý のためのシステムアーキテクチャパターン
23.3.1 tín lại tính を trì つ phục chế ステートマシン
23.3.2 tín lại tính を trì つ phục chế データストア cập び thiết định ストア
23.3.3 リーダー tuyển xuất を lợi dụng する cao khả dụng tính を trì つ処 lý 
23.3.4 phân tán hiệp điều cập びロックサービス
23.3.5 tín lại tính を trì つ phân tán キュー cập びメッセージング
23.4 phân tán hợp ý のパフォーマンス
23.4.1 Multi-Paxos: Tường tế なメッセージフロー
23.4.2 đọc み thủ り phụ hà が đại きいワークロードのスケーリング
23.4.3 クォーラムのリース
23.4.4 phân tán hợp ý のパフォーマンスとネットワークのレイテンシ
23.4.5 パフォーマンスに quan する khảo sát: Fast Paxos
23.4.6 an định したリーダー
23.4.7 バッチ処 lý 
23.4.8 ディスクアクセス
23.5 phân tán hợp ý ベースのシステムのデプロイ
23.5.1 レプリカ sổ 
23.5.2 レプリカの phối trí 
23.5.3 キャパシティとロードバランシング
23.6 phân tán hợp ý システムのモニタリング
23.7 まとめ

24 chương cronによる phân tán định kỳ スケジューリング
24.1 cron
24.1.1 イントロダクション
24.1.2 tín lại tính という quan điểm 
24.2 cronジョブと mịch đẳng tính 
24.3 đại quy mô hoàn cảnh における cron
24.3.1 拡 trương されたインフラストラクチャ
24.3.2 拡 trương された yếu cầu 
24.4 Googleにおける cronの cấu trúc 
24.4.1 cronジョブの trạng thái の truy tích 
24.4.2 Paxosの lợi dụng 
24.4.3 リーダーとフォロワーの dịch cát 
24.4.4 trạng thái の bảo tồn 
24.4.5 đại quy mô な cronの thật hành 
24.5 まとめ

25 chương データ処 lý のパイプライン
25.1 パイプラインのデザインパターンの khởi nguyên 
25.2 シンプルなパイプラインパターンでのビッグデータの sơ kỳ の hiệu quả 
25.3 định kỳ đích なパイプラインパターンでの khóa đề 
25.4 bất quân hành な phụ hà の phối phân によるトラブル
25.5 phân tán hoàn cảnh における định kỳ パイプラインの khiếm điểm 
25.5.1 định kỳ パイプラインにおけるモニタリングの vấn đề 
25.5.2 “Thundering Herd” vấn đề 
25.5.3 モアレ phụ hà パターン
25.6 Google Workflowの thiệu giới 
25.6.1 Model-View-Controllerパターンとしての Workflow
25.7 Workflowにおける thật hành のステージ
25.7.1 Workflowの chính しさの bảo chứng 
25.8 ビジネスの継続 tính の bảo chứng 
25.9 まとめ, そして chung わりに

26 chương データの hoàn toàn tính: What You Read Is What You Wrote
26.1 データの hoàn toàn tính への nghiêm cách な yếu cầu 
26.1.1 データ hoàn toàn tính をきわめて cao くするための chiến lược の tuyển 択
26.1.2 バックアップとアーカイブ
26.1.3 đại cục đích な thị điểm から kiến たクラウド hoàn cảnh の yếu kiện 
26.2 データの hoàn toàn tính cập び khả dụng tính の quản lý における Google SREの mục tiêu 
26.2.1 データの hoàn toàn tính は thủ đoạn であり, mục tiêu とするのはデータの khả dụng tính である
26.2.2 バックアップシステムよりもリカバリのシステムを đề cung しよう
26.2.3 データの tổn thất につながる chướng hại の chủng loại 
26.2.4 thâm く, そして quảng くデータの hoàn toàn tính を quản lý することの nan しさ
26.3 データ hoàn toàn tính の khóa đề への Google SREの đối 処
26.3.1 データ hoàn toàn tính の chướng hại の hình thái の 24 chủng の tổ み hợp わせ
26.3.2 đệ 1のレイヤー: Luận lý tước trừ 
26.3.3 đệ 2のレイヤー: バックアップと quan liên するリカバリの phương pháp 
26.3.4 bao quát đích な giai tằng: レプリケーション
26.3.5 テラバイト đối エクサバイト: Đại きい “だけ” ではなくなるバックアップ
26.3.6 đệ 3のレイヤー: Tảo kỳ の kiểm xuất 
26.3.7 データリカバリがうまくいくことの xác nhận 
26.4 ケーススタディ
26.4.1 Gmail - 2011 niên 2 nguyệt: GTapeからのリストア
26.4.2 Google Music - 2012 niên 3 nguyệt: Bạo tẩu した tước trừ の kiểm xuất 
26.5 データの hoàn toàn tính に đối する SREの nhất bàn nguyên tắc の thích dụng 
26.5.1 sơ tâm giả の tâm cấu えを vong れないこと
26.5.2 tín lại しつつも kiểm chứng を
26.5.3 nguyện vọng は chiến lược にあらず
26.5.4 đa tằng phòng ngự 
26.6 まとめ

27 chương đại quy mô なプロダクトのローンチにおける tín lại tính 
27.1 ローンチ điều chỉnh エンジニアリング
27.1.1 ローンチ điều chỉnh エンジニアの dịch cát 
27.2 ローンチプロセスのセットアップ
27.2.1 ローンチチェックリスト
27.2.2 thâu thúc と単 thuần hóa の thôi tiến 
27.2.3 dư tưởng ngoại のローンチ
27.3 ローンチチェックリストの khai phát 
27.3.1 アーキテクチャと y tồn quan hệ 
27.3.2 thống hợp 
27.3.3 キャパシティプランニング
27.3.4 chướng hại の hình thái 
27.3.5 クライアントの động tác 
27.3.6 プロセスと tự động hóa 
27.3.7 khai phát のプロセス
27.3.8 ngoại bộ の y tồn đối tượng 
27.3.9 ロールアウトの kế họa 
27.4 tín lại tính のあるローンチのためのテクニック
27.4.1 trục thứ đích かつ đoạn giai đích なロールアウト
27.4.2 cơ năng フラグフレームワーク
27.4.3 công kích đích なクライアントの cử động への đối 処
27.4.4 quá phụ hà thời の cử động とロードテスト
27.5 LCEの phát triển 
27.5.1 LCEチェックリストの tiến hóa 
27.5.2 LCEが giải quyết しなかった vấn đề 
27.6 まとめ

Đệ Ⅳ bộ quản lý 
Ⅳ.1 Google SREが thôi thưởng する tham khảo văn hiến 

28 chương SREの thành trường を gia tốc する phương pháp: Tân nhân からオンコール đam đương, そしてその tiên へ
28.1 tự phân の hậu 継 SRE ( たち ) を cố dụng した hậu にすべきことは? 
28.2 sơ kỳ の học tập kinh nghiệm: Hỗn độn ではなく cấu tạo を đề cung する
28.2.1 thuận tự lập てて tích み trọng ねる học tập の đạo cân 
28.2.2 単 thuần tác nghiệp ではなく, mục đích のはっきりしたプロジェクトの tác nghiệp を thụ け trì ってもらうこと
28.3 ưu れたリバースエンジニアリングと nhu nhuyễn な tư khảo の dục thành 
28.3.1 リバースエンジニアリング: システムの động tác を lý giải する
28.3.2 thống kế đích cập び bỉ giác đích tư khảo: プレッシャーの hạ での khoa học đích thủ pháp の hoạt dụng 
28.3.3 tức hưng の vân thuật gia: Dư tưởng ngoại の sự thái への đối ứng 
28.3.4 tổng hợp đích なトレーニング: プロダクションサービスのリバースエンジニアリング
28.4 thượng を mục chỉ すオンコール đam đương giả の 5つのプラクティス
28.4.1 chướng hại への khát vọng: ポストモーテムの đọc み込みと cộng hữu 
28.4.2 ディザスタロールプレイング
28.4.3 bổn vật の phá 壊と tu phục 
28.4.4 đồ đệ quan hệ としてのドキュメンテーション
28.4.5 tảo kỳ からの tần phồn なオンコールのシャドウイング
28.5 オンコールの đam đương, そしてその tiên: Thông quá nghi lễ と継続 đích な giáo dục の thật tiễn 
28.6 まとめ

29 chương cát り込みへの đối 処
29.1 vận dụng phụ hà の quản lý 
29.2 cát り込みへの đối 処を quyết định する yếu tố 
29.3 bất hoàn toàn なマシン
29.3.1 nhận tri đích フロー trạng thái 
29.3.2 1つのことをうまく hành う
29.3.3 chân kiếm な giải quyết sách 
29.3.4 cát り込みの tước giảm 

30 chương SREの đầu nhập による vận dụng quá phụ hà からのリカバリ
30.1 フェーズ 1: サービスの học tập と trạng huống の bả ác 
30.1.1 tối đại のストレス phát sinh nguyên の đặc định 
30.1.2 phát hỏa điểm の đặc định 
30.2 フェーズ 2: Trạng huống の cộng hữu 
30.2.1 チームのために lương いポストモーテムを thư く
30.2.2 hỏa sự を chủng loại biệt に tịnh べる
30.3 フェーズ 3: 変 hóa の thôi tiến 
30.3.1 cơ bổn からのスタート
30.3.2 phát hỏa điểm の tảo trừ の thủ trợ けを cầu める
30.3.3 căn 拠を thuyết minh すること
30.3.4 đạo く chất vấn を đầu げかけること
30.4 まとめ

31 chương SREにおけるコミュニケーションとコラボレーション
31.1 コミュニケーション: プロダクションミーティング
31.1.1 アジェンダ
31.1.2 xuất tịch giả 
31.2 SRE nội でのコラボレーション
31.2.1 チームの cấu thành 
31.2.2 hiệu suất đích な tác nghiệp のための thủ pháp 
31.3 SRE nội でのコラボレーションのケーススタディ: Viceroy
31.3.1 Viceroy đăng tràng 
31.3.2 khóa đề 
31.3.3 thôi thưởng sự hạng 
31.4 SRE ngoại でのコラボレーション
31.5 ケーススタディ: DFPにおける F1へのマイグレーション
31.6 まとめ

32 chương tiến hóa する SREのエンゲージメントモデル
32.1 SREのエンゲージメント: その đối tượng, phương pháp, lý do 
32.2 PRRモデル
32.3 SREのエンゲージメントモデル
32.3.1 đại thế サポート
32.4 プロダクションレディネスレビュー: 単 thuần PRRモデル
32.4.1 エンゲージメント
32.4.2 phân tích 
32.4.3 cải thiện とリファクタリング
32.4.4 トレーニング
32.4.5 オンボーディング
32.4.6 継続 đích な cải thiện 
32.5 単 thuần PRRモデルの tiến hóa hình: Tảo kỳ エンゲージメント
32.5.1 tảo kỳ エンゲージメントの hầu bổ 
32.5.2 tảo kỳ エンゲージメントモデルのメリット
32.6 tiến hóa するサービス khai phát: フレームワークと SREプラットフォーム
32.6.1 học んだ giáo huấn 
32.6.2 SREに ảnh hưởng を cập ぼす ngoại bộ yếu nhân 
32.6.3 cấu tạo đích なソリューション: フレームワーク hóa に hướng かって
32.6.4 サービスや quản lý に quan する tân たなメリット
32.7 まとめ

Đệ V bộ まとめ

33 chương tha の nghiệp giới からの giáo huấn 
33.1 nghiệp giới のベテランたち
33.2 chuẩn bị とディザスタテスト
33.2.1 an toàn への triệt để した tổ chức đích tập trung 
33.2.2 tế bộ への chú ý 
33.2.3 dư thặng キャパシティ
33.2.4 シミュレーションと thật địa huấn luyện 
33.2.5 トレーニングと nhận định 
33.2.6 tường tế な yếu cầu の thâu tập と thiết kế への tập trung 
33.2.7 quảng phạm 囲にわたる đa tằng phòng ngự 
33.3 ポストモーテムの văn hóa 
33.4 phản phục nghiệp vụ と vận dụng のオーバーヘッドの tự động hóa 
33.5 cấu tạo hóa された hợp lý đích phán đoạn 
33.6 まとめ

34 chương まとめ

Phó lục A khả dụng tính の nhất lãm 

Phó lục B プロダクションサービスのためのベストプラクティス
B.1 処 lý の thích thiết な trung chỉ 
B.2 đoạn giai đích なロールアウト
B.3 SLOの định nghĩa はユーザーの quan điểm で
B.4 エラーバジェット
B.5 モニタリング
B.6 ポストモーテム
B.7 キャパシティプランニング
B.8 quá phụ hà と chướng hại 
B.9 SREチーム

Phó lục C インシデント trạng huống ドキュメントの lệ 

Phó lục D ポストモーテムの lệ 

Phó lục E ローンチ điều chỉnh チェックリスト

Phó lục F プロダクションミーティングの nghị sự lục の lệ 

Tham khảo văn hiến 
訳 giả あとがき
Tác dẫn