SRE サイトリライアビリティエンジニアリング

―Google の tin lại tính を chi えるエンジニアリングチーム

[cover photo]
TOPICS
System/Network
Phát hành thời đại ngày
PRINT LENGTH
590
ISBN
978-4-87311-791-1
Nguyên thư
Site Reliability Engineering
FORMAT
Print PDF EPUB
Print
5,280 yên

サイトリライアビリティエンジニアリング ( SRE ) とは, Googleで bồi われたシステム quản lý とサービス vận dụng の phương pháp luận です. Google の SREチーム の chủ yếu メンバーによって thư かれた quyển sách は, ソフトウェア の ライフサイクル toàn thể にコミットすることで thế giới lớn nhất quy mô の ソフトウェアシステムがど の ように cấu trúc, dẫn vào, giám thị, duy trì されている の かを giải thích します. はじめにリスク quản lý やサービスレベル mục tiêu, リリースエンジニアリングなどSRE の hành động の cơ sở となる nguyên tắc について giải thích し, thứ にインシデント quản lý や chướng hại の nguyên nhân căn bản phân tích, SRE nội で の ソフトウェア khai phát など đại quy mô phân tán コンピューティングシステムを cấu trúc し vận dụng するSRE の thật tiễn について tường thuật します. さらにSRE の トレーニングやコミュニケーションなど の quản lý について giới thiệu します. Cấp tốc にスケールするサービスを cao い tin lại tính で vận dụng する phương pháp を giải thích する quyển sách はエンジニア tất huề の một sách です.

Mục lục

Quyển sách へ の đề cử の ngôn diệp 
Giam 訳 giả まえがき
Lời tựa 
はじめに

Đệ Ⅰ bộ イントロダクション

1 chương イントロダクション
1.1 サービス quản lý へ の システム quản lý giả の アプローチ
1.2 サービス quản lý へ の Google の アプローチ: サイトリライアビリティエンジニアリング
1.3 SRE の tín điều 
1.3.1 エンジニアリングへ の 継続 な chú lực の bảo đảm 
1.3.2 サービス の SLOを lần tới ることなく, 変 càng の tốc độ の lớn nhất hóa を theo đuổi する
1.3.3 モニタリング
1.3.4 khẩn cấp đối ứng 
1.3.5 変 càng quản lý 
1.3.6 yêu cầu の dư trắc とキャパシティプランニング
1.3.7 プロビジョニング
1.3.8 hiệu suất とパフォーマンス
1.4 thủy まり の chung わり

2 chương SRE の quan điểm から thấy た Google の プロダクション hoàn cảnh 
2.1 ハードウェア
2.2 ハードウェアを “Tổ chức hóa” するシステムソフトウェア
2.2.1 マシン đàn の quản lý 
2.2.2 ストレージ
2.2.3 ネットワーク
2.3 hắn の システムソフトウェア
2.3.1 ロックサービス
2.3.2 モニタリングとアラート
2.4 Google の ソフトウェアインフラストラクチャ
2.5 Google の khai phát hoàn cảnh 
2.6 シェークスピア: サンプル の サービス
2.6.1 リクエスト の ライフサイクル
2.6.2 ジョブとデータ の biên thành 

Đệ Ⅱ bộ nguyên tắc 
Ⅱ.1 Google SREが đẩy thưởng する tham khảo văn hiến 

3 chương リスク の chịu dung 
3.1 リスク の quản lý 
3.2 サービスリスク の kế trắc 
3.3 サービス の リスク hứa dung độ 
3.3.1 コンシューマサービスにおけるリスク hứa dung độ の minh xác hóa 
3.3.2 インフラストラクチャサービス の リスク hứa dung độ の minh xác hóa 
3.4 エラーバジェット の sống dùng 
3.4.1 エラーバジェット の hình thành 
3.4.2 メリット

4 chương サービスレベル mục tiêu 
4.1 サービスレベルに quan する dùng từ 
4.1.1 chỉ tiêu 
4.1.2 mục tiêu 
4.1.3 アグリーメント
4.2 chỉ tiêu の thật tế 
4.2.1 サービス の cung cấp giả とユーザー の quan tâm sự 
4.2.2 chỉ tiêu の thâu tập 
4.2.3 tập kế 
4.2.4 chỉ tiêu の chuẩn hoá 
4.3 mục tiêu の thật tế 
4.3.1 mục tiêu の định nghĩa 
4.3.2 ターゲット の tuyển 択
4.3.3 kế trắc trị の コントロール
4.3.4 SLOによる chờ mong の giả thiết 
4.4 アグリーメント の thật tế 

5 chương トイル の dập tắt 
5.1 トイル の định nghĩa 
5.2 トイルは thiếu ない phương が lương い lý do 
5.3 エンジニアリングであるため の điều kiện 
5.4 トイルは thường に ác な の か? 
5.5 まとめ

6 chương phân tán システム の モニタリング
6.1 định nghĩa 
6.2 モニタリング の sự tất yếu 
6.3 モニタリングにおける thỏa đáng な chờ mong trị の giả thiết 
6.4 bệnh trạng と nguyên nhân 
6.5 ブラックボックスとホワイトボックス
6.6 4 đại シグナル
6.7 テイルレイテンシに quan する trì hoãn ( あるいはインスツルメンテーションとパフォーマンス ) 
6.8 thích thiết な kế trắc の viên độ の tuyển 択
6.9 khả năng な hạn りシンプルに, ただしやり quá ぎないこと
6.10 nguyên tắc の とりまとめ
6.11 trường kỳ gian にわたるモニタリング
6.11.1 Bigtable の SRE: Quá thặng なアラート の vật ngữ 
6.11.2 Gmail: スクリプト hóa された dư trắc khả năng なレスポンス の tay động truyền tin 
6.11.3 trường kỳ な coi điểm 
6.12 まとめ

7 chương Googleにおける tự động hoá の tiến hóa 
7.1 tự động hoá の 価 trị 
7.1.1 nhất quán tính 
7.1.2 プラットフォーム
7.1.3 cao tốc な chữa trị 
7.1.4 tố sớm いアクション
7.1.5 thời gian の tiết kiệm 
7.2 Google SREにとって の 価 trị 
7.3 tự động hoá の ユースケース
7.3.1 Google SREによる tự động hoá の ユースケース
7.3.2 tự động hoá の クラス の giai tầng 
7.4 tự đánh giá の sĩ sự の tự động hoá: Gì もかも tự động hoá する
7.5 đau khổ の hòa hoãn: クラスタ の ターンアップへ の tự động hoá の áp dụng 
7.5.1 Prodtestで の không chỉnh hợp の kiểm ra 
7.5.2 không chỉnh hợp の mịch chờ な giải tiêu 
7.5.3 đặc hoá する khuynh hướng 
7.5.4 サービス chỉ hướng の クラスタ の ターンアップ
7.6 Borg: ウェアハウススケールコンピュータ の ra đời 
7.7 cơ bản cơ năng として の tin lại tính 
7.8 tự động hoá の すすめ

8 chương リリースエンジニアリング
8.1 リリースエンジニア の dịch cắt 
8.2 triết học 
8.2.1 セルフサービスモデル
8.2.2 cao tốc tính 
8.2.3 phong kín ビルド
8.2.4 ポリシーと tay thuận の cưỡng chế 
8.3 継続 ビルドとデプロイメント
8.3.1 ビルド
8.3.2 ブランチ
8.3.3 テスト
8.3.4 パッケージ hóa 
8.3.5 Rapid
8.3.6 デプロイメント
8.4 giả thiết quản lý 
8.5 まとめ
8.5.1 Googleだけに hạn った lời nói ではない
8.5.2 リリースエンジニアリングは lúc đầu の đoạn giai から thủy めよう

9 chương 単 thuần さ
9.1 システム の yên ổn tính とアジリティ
9.2 lui khuất の mỹ đức 
9.3 tự đánh giá の コードはあきらめないぞ! 
9.4 trừ bỏ した hành の kế trắc 
9.5 nhỏ nhất hạn の API
9.6 モジュラー tính 
9.7 リリース の 単 thuần さ
9.8 単 thuần な kết luận 

Đệ Ⅲ bộ thật tiễn 
Ⅲ.1 モニタリング
Ⅲ.2 インシデント đối ứng 
Ⅲ.3 ポストモーテムと nguyên nhân căn bản phân tích 
Ⅲ.4 テスト
Ⅲ.4.1 キャパシティプランニング
Ⅲ.5 khai phát 
Ⅲ.6 プロダクト
Ⅲ.7 Google SREが đẩy thưởng する tham khảo văn hiến 

10 chương khi hệ liệt データから の thật tiễn なアラート
10.1 Borgmon の ra đời 
10.2 アプリケーション の インスツルメンテーション
10.3 エクスポートされたデータ の thâu tập 
10.4 khi hệ liệt の アリーナにおけるストレージ
10.4.1 ラベルとベクタ
10.5 ルール の bình 価
10.6 アラート
10.7 モニタリング の トポロジー の シャーディング
10.8 ブラックボックスモニタリング
10.9 giả thiết の メンテナンス
10.10 10 năm が kinh quá して

11 chương オンコール đối ứng 
11.1 イントロダクション
11.2 オンコールエンジニア の sinh hoạt hằng ngày 
11.3 バランス の lấy れたオンコール
11.3.1 lượng におけるバランス
11.3.2 chất におけるバランス
11.3.3 bồi thường 
11.4 an tâm cảm 
11.5 không khoẻ thiết な vận dụng phụ tải の lảng tránh 
11.5.1 vận dụng の quá phụ tải 
11.5.2 du đoạn ならない địch: Thấp すぎる vận dụng phụ tải 
11.6 まとめ

12 chương hiệu quả なトラブルシューティング
12.1 lý luận 
12.2 thật tiễn 
12.2.1 vấn đề の レポート
12.2.2 トリアージ
12.2.3 kiểm chứng 
12.2.4 chẩn bệnh 
12.2.5 テストと đối ứng 
12.3 phủ định な kết quả の tố tình らしさ
12.3.1 đối sách 
12.4 ケーススタディ
12.5 トラブルシューティングを dễ dàng にするために
12.6 まとめ

13 chương khẩn cấp đối ứng 
13.1 システムが壊れた tế に hành うこと
13.2 テストによって dẫn き khởi こされた khẩn cấp tình thế 
13.2.1 kỹ càng tỉ mỉ 
13.2.2 レスポンス
13.2.3 chướng hại から phân かったこと
13.3 変 càng が dẫn き khởi こした khẩn cấp tình thế 
13.3.1 kỹ càng tỉ mỉ 
13.3.2 đối ứng 
13.3.3 chướng hại から phân かったこと
13.4 プロセスが dẫn き khởi こした khẩn cấp tình thế 
13.4.1 kỹ càng tỉ mỉ 
13.4.2 đối ứng 
13.4.3 chướng hại から phân かったこと
13.5 giải quyết できない vấn đề は tồn tại しない
13.6 qua đi から học び, sào り phản さない
13.6.1 サービス chướng hại の lịch sử を tàn す
13.6.2 đại きな, むしろありそうもない hỏi いかけをしてみよう
13.6.3 dư phòng なテスト の すすめ
13.7 まとめ

14 chương インシデント quản lý 
14.1 quản lý されていないインシデント
14.2 quản lý されていないインシデント の kỹ càng tỉ mỉ phân tích 
14.2.1 kỹ thuật な vấn đề へ の cực đoan な tập trung 
14.2.2 nghèo nàn なコミュニケーション
14.2.3 thắng tay な động き
14.3 インシデント quản lý の プロセス の cấu thành yếu tố 
14.3.1 trách nhiệm の lại quy な chia lìa 
14.3.2 minh xác な tư lệnh sở 
14.3.3 ライブインシデント trạng huống ドキュメント
14.3.4 はっきりとした dẫn き継ぎ
14.4 quản lý されたインシデント
14.5 インシデントと tuyên ngôn すべき trường hợp 
14.6 まとめ

15 chương ポストモーテム の văn hóa: Thất bại から の học び
15.1 Googleにおけるポストモーテム の triết học 
15.2 コラボレーションと tri thức の cùng sở hữu 
15.3 ポストモーテム の văn hóa の dẫn vào 
15.4 まとめと cải thiện の 継続

16 chương サービス chướng hại の truy tích 
16.1 Escalator
16.2 Outalator
16.2.1 tập kế 
16.2.2 タグ phó け
16.2.3 phân tích 
16.2.4 dư tưởng ngoại の メリット

17 chương tin lại tính の ため の テスト
17.1 ソフトウェアテスト の chủng loại 
17.1.1 vân thống なテスト
17.1.2 プロダクションテスト
17.2 テスト の tác thành と hoàn cảnh の cấu trúc 
17.3 đại quy mô なテスト
17.3.1 スケーラブルなツール の テスト
17.3.2 ディザスタ の テスト
17.3.3 tốc độ の tầm quan trọng 
17.3.4 プロダクションへ の プッシュ
17.3.5 dư tưởng されるテスト の thất bại 
17.3.6 kết hợp 
17.3.7 プロダクション hoàn cảnh におけるプローブ
17.4 まとめ

18 chương SREにおけるソフトウェアエンジニアリング
18.1 SRE nội で の ソフトウェアエンジニアリング の tầm quan trọng 
18.2 Auxon の ケーススタディ: プロジェクト の bối cảnh と vấn đề の lĩnh vực 
18.2.1 cũ tới の キャパシティプランニング
18.2.2 Googleにおけるソリューション: インテントベース の キャパシティプランニング
18.3 インテントベース の キャパシティプランニング
18.3.1 インテントを kỳ すも の 
18.3.2 Auxon の giới thiệu 
18.3.3 yêu cầu と thật trang: Thành công と học んだこと
18.3.4 nhận tri の hướng về phía trước と chọn dùng の đẩy mạnh 
18.3.5 チーム の cơ học 
18.4 SREにおけるソフトウェアエンジニアリング の đẩy mạnh 
18.4.1 SREにおけるソフトウェアエンジニアリング văn hóa の cấu trúc の thành công: Chọn dùng と khai phát trong lúc 
18.4.2 đạt thành 
18.5 まとめ

19 chương フロントエンドにおけるロードバランシング
19.1 パワーは giải đáp にあらず
19.2 DNSを sử ったロードバランシング
19.3 仮 tưởng IPアドレスで の ロードバランシング

20 chương データセンターで の ロードバランシング
20.1 lý tưởng なケース
20.2 bất lương タスク の riêng: フロー chế ngự とレイムダック
20.2.1 kiện toàn ではないタスクに đối するシンプルなアプローチ: フロー chế ngự 
20.2.2 không kiện toàn なタスクへ の xác thật なアプローチ: レイムダック trạng thái 
20.3 サブセット の giả thiết によるコネクションプール の chế hạn 
20.3.1 thích thiết なサブセット の tuyển 択
20.3.2 サブセット の tuyển 択アルゴリズム: ランダムなサブセット の tuyển 択
20.3.3 サブセット tuyển 択 の アルゴリズム: Quyết định なサブセット tuyển 択
20.4 ロードバランシング の ポリシー
20.4.1 シンプルなラウンドロビン
20.4.2 nhỏ nhất phụ tải ラウンドロビン
20.4.3 trọng み phó きラウンドロビン

21 chương quá phụ tải へ の đối ứng 
21.1 “クエリ / giây” の lạc とし huyệt 
21.2 khách hàng 単 vị で の chế hạn 
21.3 クライアント sườn で の スロットリング
21.4 quan trọng độ 
21.5 lợi dụng suất の シグナル
21.6 quá phụ tải によるエラーへ の đối ứng 
21.6.1 リトライ の phán đoán 
21.7 tiếp 続によって sinh じる phụ tải 
21.8 まとめ

22 chương カスケード chướng hại へ の đối ứng 
22.1 カスケード chướng hại の nguyên nhân cập び lảng tránh の ため の thiết kế 
22.1.1 サーバー の quá phụ tải 
22.1.2 リソース の khô khát 
22.1.3 lợi dụng できないサービス
22.2 サーバー の quá phụ tải の lảng tránh 
22.2.1 キュー の quản lý 
22.2.2 ロードシェディングとグレースフルデグラデーション
22.2.3 リトライ
22.2.4 レイテンシとタイムアウト
22.3 khởi động thẳng sau の thấp パフォーマンスとコールドキャッシュ
22.3.1 スタックは thường に hạ っていくようにすること
22.4 カスケード chướng hại を dẫn き khởi こす điều kiện 
22.4.1 プロセス の đình chỉ 
22.4.2 プロセス の アップデート
22.4.3 ロールアウト
22.4.4 tự nhiên な lợi dụng の tăng đại 
22.4.5 kế hoạch tế み の 変 càng, ドレイン, ターンダウン
22.5 カスケード chướng hại に bị えるため の テスト
22.5.1 テストによる chướng hại の phát sinh とそ の sau の quan sát 
22.5.2 giống nhau なクライアント の テスト
22.5.3 quan trọng độ の thấp いバックエンド の テスト
22.6 カスケード chướng hại に đối ứng するためにすぐに hành うべき tay thuận 
22.6.1 リソース の thêm vào 
22.6.2 ヘルスチェックが chướng hại を dẫn き khởi こさないようにする
22.6.3 サーバー の tái khởi động 
22.6.4 トラフィック の ドロップ
22.6.5 デグレーデッドモードへ の di chuyển 
22.6.6 バッチ の phụ tải の bài trừ 
22.6.7 vấn đề の あるトラフィック の bài trừ 
22.7 まとめ

23 chương クリティカルな trạng thái の quản lý: Tin lại tính の ため の phân tán hợp ý 
23.1 hợp ý を lợi dụng する mục đích: Phân tán システム の phối hợp chướng hại 
23.1.1 ケーススタディ 1: スプリットブレイン vấn đề 
23.1.2 ケーススタディ 2: Nhân gian の tham gia を tất yếu とするフェイルオーバー
23.1.3 ケーススタディ 3: Vấn đề の あるグループメンバーシップアルゴリズム
23.2 phân tán hợp ý の động tác 
23.2.1 Paxos の điểm chính: サンプル の プロトコル
23.3 phân tán hợp ý の ため の システムアーキテクチャパターン
23.3.1 tin lại tính を cầm つ phục chế ステートマシン
23.3.2 tin lại tính を cầm つ phục chế データストア cập び giả thiết ストア
23.3.3 リーダー tuyển ra を lợi dụng する cao nhưng dùng tính を cầm つ処 lý 
23.3.4 phân tán phối hợp cập びロックサービス
23.3.5 tin lại tính を cầm つ phân tán キュー cập びメッセージング
23.4 phân tán hợp ý の パフォーマンス
23.4.1 Multi-Paxos: Kỹ càng tỉ mỉ なメッセージフロー
23.4.2 đọc み lấy り phụ tải が đại きいワークロード の スケーリング
23.4.3 クォーラム の リース
23.4.4 phân tán hợp ý の パフォーマンスとネットワーク の レイテンシ
23.4.5 パフォーマンスに quan する khảo sát: Fast Paxos
23.4.6 yên ổn したリーダー
23.4.7 バッチ処 lý 
23.4.8 ディスクアクセス
23.5 phân tán hợp ý ベース の システム の デプロイ
23.5.1 レプリカ số 
23.5.2 レプリカ の phối trí 
23.5.3 キャパシティとロードバランシング
23.6 phân tán hợp ý システム の モニタリング
23.7 まとめ

24 chương cronによる phân tán định kỳ スケジューリング
24.1 cron
24.1.1 イントロダクション
24.1.2 tin lại tính という quan điểm 
24.2 cronジョブと mịch chờ tính 
24.3 đại quy mô hoàn cảnh における cron
24.3.1 拡 trương されたインフラストラクチャ
24.3.2 拡 trương された yêu cầu 
24.4 Googleにおける cron の cấu trúc 
24.4.1 cronジョブ の trạng thái の truy tích 
24.4.2 Paxos の lợi dụng 
24.4.3 リーダーとフォロワー の dịch cắt 
24.4.4 trạng thái の bảo tồn 
24.4.5 đại quy mô な cron の thật hành 
24.5 まとめ

25 chương データ処 lý の パイプライン
25.1 パイプライン の デザインパターン の khởi nguyên 
25.2 シンプルなパイプラインパターンで の ビッグデータ の lúc đầu の hiệu quả 
25.3 định kỳ なパイプラインパターンで の đầu đề 
25.4 không cân đối な phụ tải の xứng phân によるトラブル
25.5 phân tán hoàn cảnh における định kỳ パイプライン の thiếu điểm 
25.5.1 định kỳ パイプラインにおけるモニタリング の vấn đề 
25.5.2 “Thundering Herd” vấn đề 
25.5.3 モアレ phụ tải パターン
25.6 Google Workflow の giới thiệu 
25.6.1 Model-View-Controllerパターンとして の Workflow
25.7 Workflowにおける thật hành の ステージ
25.7.1 Workflow の chính しさ の bảo đảm 
25.8 ビジネス の 継続 tính の bảo đảm 
25.9 まとめ, そして chung わりに

26 chương データ の hoàn toàn tính: What You Read Is What You Wrote
26.1 データ の hoàn toàn tính へ の nghiêm cách な yêu cầu 
26.1.1 データ hoàn toàn tính をきわめて cao くするため の chiến lược の tuyển 択
26.1.2 バックアップとアーカイブ
26.1.3 đại cục な coi điểm から thấy たクラウド hoàn cảnh の văn kiện quan trọng 
26.2 データ の hoàn toàn tính cập び nhưng dùng tính の quản lý における Google SRE の mục tiêu 
26.2.1 データ の hoàn toàn tính は thủ đoạn であり, mục tiêu とする の はデータ の nhưng dùng tính である
26.2.2 バックアップシステムよりもリカバリ の システムを cung cấp しよう
26.2.3 データ の tổn thất につながる chướng hại の chủng loại 
26.2.4 thâm く, そして quảng くデータ の hoàn toàn tính を quản lý すること の khó しさ
26.3 データ hoàn toàn tính の đầu đề へ の Google SRE の đối 処
26.3.1 データ hoàn toàn tính の chướng hại の hình thái の 24 loại の tổ み hợp わせ
26.3.2 đệ 1 の レイヤー: Nói lý lẽ trừ bỏ 
26.3.3 đệ 2 の レイヤー: バックアップと quan liền するリカバリ の phương pháp 
26.3.4 bao gồm な giai tầng: レプリケーション
26.3.5 テラバイト đối エクサバイト: Đại きい “だけ” ではなくなるバックアップ
26.3.6 đệ 3 の レイヤー: Lúc đầu の kiểm ra 
26.3.7 データリカバリがうまくいくこと の xác nhận 
26.4 ケーススタディ
26.4.1 Gmail - 2011 năm 2 nguyệt: GTapeから の リストア
26.4.2 Google Music - 2012 năm 3 nguyệt: Bạo tẩu した trừ bỏ の kiểm ra 
26.5 データ の hoàn toàn tính に đối する SRE の giống nhau nguyên tắc の áp dụng 
26.5.1 sơ tâm giả の tâm cấu えを quên れないこと
26.5.2 tin lại しつつも kiểm chứng を
26.5.3 nguyện vọng は chiến lược にあらず
26.5.4 nhiều tầng phòng ngự 
26.6 まとめ

27 chương đại quy mô なプロダクト の ローンチにおける tin lại tính 
27.1 ローンチ điều chỉnh エンジニアリング
27.1.1 ローンチ điều chỉnh エンジニア の dịch cắt 
27.2 ローンチプロセス の セットアップ
27.2.1 ローンチチェックリスト
27.2.2 thâu thúc と単 thuần hóa の đẩy mạnh 
27.2.3 dư tưởng ngoại の ローンチ
27.3 ローンチチェックリスト の khai phát 
27.3.1 アーキテクチャと sống nhờ vào nhau quan hệ 
27.3.2 thống hợp 
27.3.3 キャパシティプランニング
27.3.4 chướng hại の hình thái 
27.3.5 クライアント の động tác 
27.3.6 プロセスと tự động hoá 
27.3.7 khai phát の プロセス
27.3.8 phần ngoài の sống nhờ vào nhau đối tượng 
27.3.9 ロールアウト の kế hoạch 
27.4 tin lại tính の あるローンチ の ため の テクニック
27.4.1 trục thứ かつ đoạn giai なロールアウト
27.4.2 cơ năng フラグフレームワーク
27.4.3 công kích なクライアント の cử động へ の đối 処
27.4.4 quá phụ tải khi の cử động とロードテスト
27.5 LCE の phát triển 
27.5.1 LCEチェックリスト の tiến hóa 
27.5.2 LCEが giải quyết しなかった vấn đề 
27.6 まとめ

Đệ Ⅳ bộ quản lý 
Ⅳ.1 Google SREが đẩy thưởng する tham khảo văn hiến 

28 chương SRE の trưởng thành を gia tốc する phương pháp: Tân nhân からオンコール đảm đương, そしてそ の trước へ
28.1 tự đánh giá の sau 継 SRE ( たち ) を cố dùng した sau にすべきことは? 
28.2 lúc đầu の học tập kinh nghiệm: Hỗn độn ではなく cấu tạo を cung cấp する
28.2.1 trình tự lập てて tích み trọng ねる học tập の nói gân 
28.2.2 単 thuần tác nghiệp ではなく, mục đích の はっきりしたプロジェクト の tác nghiệp を chịu け cầm ってもらうこと
28.3 ưu れたリバースエンジニアリングと mềm mại な tự hỏi の dục thành 
28.3.1 リバースエンジニアリング: システム の động tác を lý giải する
28.3.2 thống kê cập び tương đối tự hỏi: プレッシャー の hạ で の khoa học thủ pháp の sống dùng 
28.3.3 ngẫu hứng の vân thuật gia: Dư tưởng ngoại の tình thế へ の đối ứng 
28.3.4 tổng hợp なトレーニング: プロダクションサービス の リバースエンジニアリング
28.4 thượng を mục chỉ すオンコール đảm đương giả の 5つ の プラクティス
28.4.1 chướng hại へ の khát vọng: ポストモーテム の đọc み込みと cùng sở hữu 
28.4.2 ディザスタロールプレイング
28.4.3 bổn vật の phá 壊と chữa trị 
28.4.4 đồ đệ quan hệ として の ドキュメンテーション
28.4.5 lúc đầu から の thường xuyên なオンコール の シャドウイング
28.5 オンコール の đảm đương, そしてそ の trước: Thông qua nghi lễ と継続 な giáo dục の thật tiễn 
28.6 まとめ

29 chương cắt り込みへ の đối 処
29.1 vận dụng phụ tải の quản lý 
29.2 cắt り込みへ の đối 処を quyết định する yếu tố 
29.3 không hoàn toàn なマシン
29.3.1 nhận tri フロー trạng thái 
29.3.2 1つ の ことをうまく hành う
29.3.3 thật kiếm な giải quyết sách 
29.3.4 cắt り込み の cắt giảm 

30 chương SRE の đầu nhập による vận dụng quá phụ tải から の リカバリ
30.1 フェーズ 1: サービス の học tập と trạng huống の nắm chắc 
30.1.1 lớn nhất の ストレス phát sinh nguyên の riêng 
30.1.2 phát hỏa điểm の riêng 
30.2 フェーズ 2: Trạng huống の cùng sở hữu 
30.2.1 チーム の ために lương いポストモーテムを thư く
30.2.2 hỏa sự を chủng loại đừng に cũng べる
30.3 フェーズ 3: 変 hóa の đẩy mạnh 
30.3.1 cơ bản から の スタート
30.3.2 phát hỏa điểm の quét dọn の tay trợ けを cầu める
30.3.3 căn 拠を thuyết minh すること
30.3.4 đạo く chất vấn を đầu げかけること
30.4 まとめ

31 chương SREにおけるコミュニケーションとコラボレーション
31.1 コミュニケーション: プロダクションミーティング
31.1.1 アジェンダ
31.1.2 tham dự giả 
31.2 SRE nội で の コラボレーション
31.2.1 チーム の cấu thành 
31.2.2 hiệu suất な tác nghiệp の ため の thủ pháp 
31.3 SRE nội で の コラボレーション の ケーススタディ: Viceroy
31.3.1 Viceroy lên sân khấu 
31.3.2 đầu đề 
31.3.3 đẩy thưởng hạng mục công việc 
31.4 SRE ngoại で の コラボレーション
31.5 ケーススタディ: DFPにおける F1へ の マイグレーション
31.6 まとめ

32 chương tiến hóa する SRE の エンゲージメントモデル
32.1 SRE の エンゲージメント: そ の đối tượng, phương pháp, lý do 
32.2 PRRモデル
32.3 SRE の エンゲージメントモデル
32.3.1 thay thế サポート
32.4 プロダクションレディネスレビュー: 単 thuần PRRモデル
32.4.1 エンゲージメント
32.4.2 phân tích 
32.4.3 cải thiện とリファクタリング
32.4.4 トレーニング
32.4.5 オンボーディング
32.4.6 継続 な cải thiện 
32.5 単 thuần PRRモデル の tiến hóa hình: Lúc đầu エンゲージメント
32.5.1 lúc đầu エンゲージメント の dự khuyết 
32.5.2 lúc đầu エンゲージメントモデル の メリット
32.6 tiến hóa するサービス khai phát: フレームワークと SREプラットフォーム
32.6.1 học んだ giáo huấn 
32.6.2 SREに ảnh hưởng を cập ぼす phần ngoài muốn nhân 
32.6.3 cấu tạo なソリューション: フレームワーク hóa に hướng かって
32.6.4 サービスや quản lý に quan する tân たなメリット
32.7 まとめ

Đệ V bộ まとめ

33 chương hắn の nghiệp giới から の giáo huấn 
33.1 nghiệp giới の ベテランたち
33.2 chuẩn bị とディザスタテスト
33.2.1 an toàn へ の hoàn toàn した tổ chức tập trung 
33.2.2 phần trích phóng to へ の chú ý 
33.2.3 dư thặng キャパシティ
33.2.4 シミュレーションと thật mà huấn luyện 
33.2.5 トレーニングと nhận định 
33.2.6 kỹ càng tỉ mỉ な yêu cầu の thâu tập と thiết kế へ の tập trung 
33.2.7 quảng phạm 囲にわたる nhiều tầng phòng ngự 
33.3 ポストモーテム の văn hóa 
33.4 lặp lại nghiệp vụ と vận dụng の オーバーヘッド の tự động hoá 
33.5 cấu tạo hóa された hợp lý phán đoán 
33.6 まとめ

34 chương まとめ

Phó lục A nhưng dùng tính の một lãm 

Phó lục B プロダクションサービス の ため の ベストプラクティス
B.1 処 lý の thích thiết な bỏ dở 
B.2 đoạn giai なロールアウト
B.3 SLO の định nghĩa はユーザー の quan điểm で
B.4 エラーバジェット
B.5 モニタリング
B.6 ポストモーテム
B.7 キャパシティプランニング
B.8 quá phụ tải と chướng hại 
B.9 SREチーム

Phó lục C インシデント trạng huống ドキュメント の lệ 

Phó lục D ポストモーテム の lệ 

Phó lục E ローンチ điều chỉnh チェックリスト

Phó lục F プロダクションミーティング の nghị sự lục の lệ 

Tham khảo văn hiến 
訳 giả あとがき
Hướng dẫn tra cứu