サイトリライアビリティエンジニアリング ( SRE ) とは, Googleで bồi われたシステム quản lý とサービス vận dụng の phương pháp luận です. Google の SREチーム の chủ yếu メンバーによって thư かれた quyển sách は, ソフトウェア の ライフサイクル toàn thể にコミットすることで thế giới lớn nhất quy mô の ソフトウェアシステムがど の ように cấu trúc, dẫn vào, giám thị, duy trì されている の かを giải thích します. はじめにリスク quản lý やサービスレベル mục tiêu, リリースエンジニアリングなどSRE の hành động の cơ sở となる nguyên tắc について giải thích し, thứ にインシデント quản lý や chướng hại の nguyên nhân căn bản phân tích, SRE nội で の ソフトウェア khai phát など đại quy mô phân tán コンピューティングシステムを cấu trúc し vận dụng するSRE の thật tiễn について tường thuật します. さらにSRE の トレーニングやコミュニケーションなど の quản lý について giới thiệu します. Cấp tốc にスケールするサービスを cao い tin lại tính で vận dụng する phương pháp を giải thích する quyển sách はエンジニア tất huề の một sách です.
SRE サイトリライアビリティエンジニアリング
―Google の tin lại tính を chi えるエンジニアリングチーム
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy biên, trạch điền võ nam, quan căn đạt phu, tế xuyên một mậu, thỉ thổi đại phụ giam 訳, Sky kabushiki gaisha ngọc xuyên long tư 訳
![[cover photo]](https://www.oreilly.co.jp/books/images/picture_large978-4-87311-791-1.jpeg)
- TOPICS
- System/Network
- Phát hành thời đại ngày
- 2017 năm 08 nguyệt
- PRINT LENGTH
- 590
- ISBN
- 978-4-87311-791-1
- Nguyên thư
- Site Reliability Engineering
- FORMAT
- Print PDF EPUB
Mục lục
Quyển sách へ の đề cử の ngôn diệp Giam 訳 giả まえがき Lời tựa はじめに Đệ Ⅰ bộ イントロダクション 1 chương イントロダクション 1.1 サービス quản lý へ の システム quản lý giả の アプローチ 1.2 サービス quản lý へ の Google の アプローチ: サイトリライアビリティエンジニアリング 1.3 SRE の tín điều 1.3.1 エンジニアリングへ の 継続 な chú lực の bảo đảm 1.3.2 サービス の SLOを lần tới ることなく, 変 càng の tốc độ の lớn nhất hóa を theo đuổi する 1.3.3 モニタリング 1.3.4 khẩn cấp đối ứng 1.3.5 変 càng quản lý 1.3.6 yêu cầu の dư trắc とキャパシティプランニング 1.3.7 プロビジョニング 1.3.8 hiệu suất とパフォーマンス 1.4 thủy まり の chung わり 2 chương SRE の quan điểm から thấy た Google の プロダクション hoàn cảnh 2.1 ハードウェア 2.2 ハードウェアを “Tổ chức hóa” するシステムソフトウェア 2.2.1 マシン đàn の quản lý 2.2.2 ストレージ 2.2.3 ネットワーク 2.3 hắn の システムソフトウェア 2.3.1 ロックサービス 2.3.2 モニタリングとアラート 2.4 Google の ソフトウェアインフラストラクチャ 2.5 Google の khai phát hoàn cảnh 2.6 シェークスピア: サンプル の サービス 2.6.1 リクエスト の ライフサイクル 2.6.2 ジョブとデータ の biên thành Đệ Ⅱ bộ nguyên tắc Ⅱ.1 Google SREが đẩy thưởng する tham khảo văn hiến 3 chương リスク の chịu dung 3.1 リスク の quản lý 3.2 サービスリスク の kế trắc 3.3 サービス の リスク hứa dung độ 3.3.1 コンシューマサービスにおけるリスク hứa dung độ の minh xác hóa 3.3.2 インフラストラクチャサービス の リスク hứa dung độ の minh xác hóa 3.4 エラーバジェット の sống dùng 3.4.1 エラーバジェット の hình thành 3.4.2 メリット 4 chương サービスレベル mục tiêu 4.1 サービスレベルに quan する dùng từ 4.1.1 chỉ tiêu 4.1.2 mục tiêu 4.1.3 アグリーメント 4.2 chỉ tiêu の thật tế 4.2.1 サービス の cung cấp giả とユーザー の quan tâm sự 4.2.2 chỉ tiêu の thâu tập 4.2.3 tập kế 4.2.4 chỉ tiêu の chuẩn hoá 4.3 mục tiêu の thật tế 4.3.1 mục tiêu の định nghĩa 4.3.2 ターゲット の tuyển 択 4.3.3 kế trắc trị の コントロール 4.3.4 SLOによる chờ mong の giả thiết 4.4 アグリーメント の thật tế 5 chương トイル の dập tắt 5.1 トイル の định nghĩa 5.2 トイルは thiếu ない phương が lương い lý do 5.3 エンジニアリングであるため の điều kiện 5.4 トイルは thường に ác な の か? 5.5 まとめ 6 chương phân tán システム の モニタリング 6.1 định nghĩa 6.2 モニタリング の sự tất yếu 6.3 モニタリングにおける thỏa đáng な chờ mong trị の giả thiết 6.4 bệnh trạng と nguyên nhân 6.5 ブラックボックスとホワイトボックス 6.6 4 đại シグナル 6.7 テイルレイテンシに quan する trì hoãn ( あるいはインスツルメンテーションとパフォーマンス ) 6.8 thích thiết な kế trắc の viên độ の tuyển 択 6.9 khả năng な hạn りシンプルに, ただしやり quá ぎないこと 6.10 nguyên tắc の とりまとめ 6.11 trường kỳ gian にわたるモニタリング 6.11.1 Bigtable の SRE: Quá thặng なアラート の vật ngữ 6.11.2 Gmail: スクリプト hóa された dư trắc khả năng なレスポンス の tay động truyền tin 6.11.3 trường kỳ な coi điểm 6.12 まとめ 7 chương Googleにおける tự động hoá の tiến hóa 7.1 tự động hoá の 価 trị 7.1.1 nhất quán tính 7.1.2 プラットフォーム 7.1.3 cao tốc な chữa trị 7.1.4 tố sớm いアクション 7.1.5 thời gian の tiết kiệm 7.2 Google SREにとって の 価 trị 7.3 tự động hoá の ユースケース 7.3.1 Google SREによる tự động hoá の ユースケース 7.3.2 tự động hoá の クラス の giai tầng 7.4 tự đánh giá の sĩ sự の tự động hoá: Gì もかも tự động hoá する 7.5 đau khổ の hòa hoãn: クラスタ の ターンアップへ の tự động hoá の áp dụng 7.5.1 Prodtestで の không chỉnh hợp の kiểm ra 7.5.2 không chỉnh hợp の mịch chờ な giải tiêu 7.5.3 đặc hoá する khuynh hướng 7.5.4 サービス chỉ hướng の クラスタ の ターンアップ 7.6 Borg: ウェアハウススケールコンピュータ の ra đời 7.7 cơ bản cơ năng として の tin lại tính 7.8 tự động hoá の すすめ 8 chương リリースエンジニアリング 8.1 リリースエンジニア の dịch cắt 8.2 triết học 8.2.1 セルフサービスモデル 8.2.2 cao tốc tính 8.2.3 phong kín ビルド 8.2.4 ポリシーと tay thuận の cưỡng chế 8.3 継続 ビルドとデプロイメント 8.3.1 ビルド 8.3.2 ブランチ 8.3.3 テスト 8.3.4 パッケージ hóa 8.3.5 Rapid 8.3.6 デプロイメント 8.4 giả thiết quản lý 8.5 まとめ 8.5.1 Googleだけに hạn った lời nói ではない 8.5.2 リリースエンジニアリングは lúc đầu の đoạn giai から thủy めよう 9 chương 単 thuần さ 9.1 システム の yên ổn tính とアジリティ 9.2 lui khuất の mỹ đức 9.3 tự đánh giá の コードはあきらめないぞ! 9.4 trừ bỏ した hành の kế trắc 9.5 nhỏ nhất hạn の API 9.6 モジュラー tính 9.7 リリース の 単 thuần さ 9.8 単 thuần な kết luận Đệ Ⅲ bộ thật tiễn Ⅲ.1 モニタリング Ⅲ.2 インシデント đối ứng Ⅲ.3 ポストモーテムと nguyên nhân căn bản phân tích Ⅲ.4 テスト Ⅲ.4.1 キャパシティプランニング Ⅲ.5 khai phát Ⅲ.6 プロダクト Ⅲ.7 Google SREが đẩy thưởng する tham khảo văn hiến 10 chương khi hệ liệt データから の thật tiễn なアラート 10.1 Borgmon の ra đời 10.2 アプリケーション の インスツルメンテーション 10.3 エクスポートされたデータ の thâu tập 10.4 khi hệ liệt の アリーナにおけるストレージ 10.4.1 ラベルとベクタ 10.5 ルール の bình 価 10.6 アラート 10.7 モニタリング の トポロジー の シャーディング 10.8 ブラックボックスモニタリング 10.9 giả thiết の メンテナンス 10.10 10 năm が kinh quá して 11 chương オンコール đối ứng 11.1 イントロダクション 11.2 オンコールエンジニア の sinh hoạt hằng ngày 11.3 バランス の lấy れたオンコール 11.3.1 lượng におけるバランス 11.3.2 chất におけるバランス 11.3.3 bồi thường 11.4 an tâm cảm 11.5 không khoẻ thiết な vận dụng phụ tải の lảng tránh 11.5.1 vận dụng の quá phụ tải 11.5.2 du đoạn ならない địch: Thấp すぎる vận dụng phụ tải 11.6 まとめ 12 chương hiệu quả なトラブルシューティング 12.1 lý luận 12.2 thật tiễn 12.2.1 vấn đề の レポート 12.2.2 トリアージ 12.2.3 kiểm chứng 12.2.4 chẩn bệnh 12.2.5 テストと đối ứng 12.3 phủ định な kết quả の tố tình らしさ 12.3.1 đối sách 12.4 ケーススタディ 12.5 トラブルシューティングを dễ dàng にするために 12.6 まとめ 13 chương khẩn cấp đối ứng 13.1 システムが壊れた tế に hành うこと 13.2 テストによって dẫn き khởi こされた khẩn cấp tình thế 13.2.1 kỹ càng tỉ mỉ 13.2.2 レスポンス 13.2.3 chướng hại から phân かったこと 13.3 変 càng が dẫn き khởi こした khẩn cấp tình thế 13.3.1 kỹ càng tỉ mỉ 13.3.2 đối ứng 13.3.3 chướng hại から phân かったこと 13.4 プロセスが dẫn き khởi こした khẩn cấp tình thế 13.4.1 kỹ càng tỉ mỉ 13.4.2 đối ứng 13.4.3 chướng hại から phân かったこと 13.5 giải quyết できない vấn đề は tồn tại しない 13.6 qua đi から học び, sào り phản さない 13.6.1 サービス chướng hại の lịch sử を tàn す 13.6.2 đại きな, むしろありそうもない hỏi いかけをしてみよう 13.6.3 dư phòng なテスト の すすめ 13.7 まとめ 14 chương インシデント quản lý 14.1 quản lý されていないインシデント 14.2 quản lý されていないインシデント の kỹ càng tỉ mỉ phân tích 14.2.1 kỹ thuật な vấn đề へ の cực đoan な tập trung 14.2.2 nghèo nàn なコミュニケーション 14.2.3 thắng tay な động き 14.3 インシデント quản lý の プロセス の cấu thành yếu tố 14.3.1 trách nhiệm の lại quy な chia lìa 14.3.2 minh xác な tư lệnh sở 14.3.3 ライブインシデント trạng huống ドキュメント 14.3.4 はっきりとした dẫn き継ぎ 14.4 quản lý されたインシデント 14.5 インシデントと tuyên ngôn すべき trường hợp 14.6 まとめ 15 chương ポストモーテム の văn hóa: Thất bại から の học び 15.1 Googleにおけるポストモーテム の triết học 15.2 コラボレーションと tri thức の cùng sở hữu 15.3 ポストモーテム の văn hóa の dẫn vào 15.4 まとめと cải thiện の 継続 16 chương サービス chướng hại の truy tích 16.1 Escalator 16.2 Outalator 16.2.1 tập kế 16.2.2 タグ phó け 16.2.3 phân tích 16.2.4 dư tưởng ngoại の メリット 17 chương tin lại tính の ため の テスト 17.1 ソフトウェアテスト の chủng loại 17.1.1 vân thống なテスト 17.1.2 プロダクションテスト 17.2 テスト の tác thành と hoàn cảnh の cấu trúc 17.3 đại quy mô なテスト 17.3.1 スケーラブルなツール の テスト 17.3.2 ディザスタ の テスト 17.3.3 tốc độ の tầm quan trọng 17.3.4 プロダクションへ の プッシュ 17.3.5 dư tưởng されるテスト の thất bại 17.3.6 kết hợp 17.3.7 プロダクション hoàn cảnh におけるプローブ 17.4 まとめ 18 chương SREにおけるソフトウェアエンジニアリング 18.1 SRE nội で の ソフトウェアエンジニアリング の tầm quan trọng 18.2 Auxon の ケーススタディ: プロジェクト の bối cảnh と vấn đề の lĩnh vực 18.2.1 cũ tới の キャパシティプランニング 18.2.2 Googleにおけるソリューション: インテントベース の キャパシティプランニング 18.3 インテントベース の キャパシティプランニング 18.3.1 インテントを kỳ すも の 18.3.2 Auxon の giới thiệu 18.3.3 yêu cầu と thật trang: Thành công と học んだこと 18.3.4 nhận tri の hướng về phía trước と chọn dùng の đẩy mạnh 18.3.5 チーム の cơ học 18.4 SREにおけるソフトウェアエンジニアリング の đẩy mạnh 18.4.1 SREにおけるソフトウェアエンジニアリング văn hóa の cấu trúc の thành công: Chọn dùng と khai phát trong lúc 18.4.2 đạt thành 18.5 まとめ 19 chương フロントエンドにおけるロードバランシング 19.1 パワーは giải đáp にあらず 19.2 DNSを sử ったロードバランシング 19.3 仮 tưởng IPアドレスで の ロードバランシング 20 chương データセンターで の ロードバランシング 20.1 lý tưởng なケース 20.2 bất lương タスク の riêng: フロー chế ngự とレイムダック 20.2.1 kiện toàn ではないタスクに đối するシンプルなアプローチ: フロー chế ngự 20.2.2 không kiện toàn なタスクへ の xác thật なアプローチ: レイムダック trạng thái 20.3 サブセット の giả thiết によるコネクションプール の chế hạn 20.3.1 thích thiết なサブセット の tuyển 択 20.3.2 サブセット の tuyển 択アルゴリズム: ランダムなサブセット の tuyển 択 20.3.3 サブセット tuyển 択 の アルゴリズム: Quyết định なサブセット tuyển 択 20.4 ロードバランシング の ポリシー 20.4.1 シンプルなラウンドロビン 20.4.2 nhỏ nhất phụ tải ラウンドロビン 20.4.3 trọng み phó きラウンドロビン 21 chương quá phụ tải へ の đối ứng 21.1 “クエリ / giây” の lạc とし huyệt 21.2 khách hàng 単 vị で の chế hạn 21.3 クライアント sườn で の スロットリング 21.4 quan trọng độ 21.5 lợi dụng suất の シグナル 21.6 quá phụ tải によるエラーへ の đối ứng 21.6.1 リトライ の phán đoán 21.7 tiếp 続によって sinh じる phụ tải 21.8 まとめ 22 chương カスケード chướng hại へ の đối ứng 22.1 カスケード chướng hại の nguyên nhân cập び lảng tránh の ため の thiết kế 22.1.1 サーバー の quá phụ tải 22.1.2 リソース の khô khát 22.1.3 lợi dụng できないサービス 22.2 サーバー の quá phụ tải の lảng tránh 22.2.1 キュー の quản lý 22.2.2 ロードシェディングとグレースフルデグラデーション 22.2.3 リトライ 22.2.4 レイテンシとタイムアウト 22.3 khởi động thẳng sau の thấp パフォーマンスとコールドキャッシュ 22.3.1 スタックは thường に hạ っていくようにすること 22.4 カスケード chướng hại を dẫn き khởi こす điều kiện 22.4.1 プロセス の đình chỉ 22.4.2 プロセス の アップデート 22.4.3 ロールアウト 22.4.4 tự nhiên な lợi dụng の tăng đại 22.4.5 kế hoạch tế み の 変 càng, ドレイン, ターンダウン 22.5 カスケード chướng hại に bị えるため の テスト 22.5.1 テストによる chướng hại の phát sinh とそ の sau の quan sát 22.5.2 giống nhau なクライアント の テスト 22.5.3 quan trọng độ の thấp いバックエンド の テスト 22.6 カスケード chướng hại に đối ứng するためにすぐに hành うべき tay thuận 22.6.1 リソース の thêm vào 22.6.2 ヘルスチェックが chướng hại を dẫn き khởi こさないようにする 22.6.3 サーバー の tái khởi động 22.6.4 トラフィック の ドロップ 22.6.5 デグレーデッドモードへ の di chuyển 22.6.6 バッチ の phụ tải の bài trừ 22.6.7 vấn đề の あるトラフィック の bài trừ 22.7 まとめ 23 chương クリティカルな trạng thái の quản lý: Tin lại tính の ため の phân tán hợp ý 23.1 hợp ý を lợi dụng する mục đích: Phân tán システム の phối hợp chướng hại 23.1.1 ケーススタディ 1: スプリットブレイン vấn đề 23.1.2 ケーススタディ 2: Nhân gian の tham gia を tất yếu とするフェイルオーバー 23.1.3 ケーススタディ 3: Vấn đề の あるグループメンバーシップアルゴリズム 23.2 phân tán hợp ý の động tác 23.2.1 Paxos の điểm chính: サンプル の プロトコル 23.3 phân tán hợp ý の ため の システムアーキテクチャパターン 23.3.1 tin lại tính を cầm つ phục chế ステートマシン 23.3.2 tin lại tính を cầm つ phục chế データストア cập び giả thiết ストア 23.3.3 リーダー tuyển ra を lợi dụng する cao nhưng dùng tính を cầm つ処 lý 23.3.4 phân tán phối hợp cập びロックサービス 23.3.5 tin lại tính を cầm つ phân tán キュー cập びメッセージング 23.4 phân tán hợp ý の パフォーマンス 23.4.1 Multi-Paxos: Kỹ càng tỉ mỉ なメッセージフロー 23.4.2 đọc み lấy り phụ tải が đại きいワークロード の スケーリング 23.4.3 クォーラム の リース 23.4.4 phân tán hợp ý の パフォーマンスとネットワーク の レイテンシ 23.4.5 パフォーマンスに quan する khảo sát: Fast Paxos 23.4.6 yên ổn したリーダー 23.4.7 バッチ処 lý 23.4.8 ディスクアクセス 23.5 phân tán hợp ý ベース の システム の デプロイ 23.5.1 レプリカ số 23.5.2 レプリカ の phối trí 23.5.3 キャパシティとロードバランシング 23.6 phân tán hợp ý システム の モニタリング 23.7 まとめ 24 chương cronによる phân tán định kỳ スケジューリング 24.1 cron 24.1.1 イントロダクション 24.1.2 tin lại tính という quan điểm 24.2 cronジョブと mịch chờ tính 24.3 đại quy mô hoàn cảnh における cron 24.3.1 拡 trương されたインフラストラクチャ 24.3.2 拡 trương された yêu cầu 24.4 Googleにおける cron の cấu trúc 24.4.1 cronジョブ の trạng thái の truy tích 24.4.2 Paxos の lợi dụng 24.4.3 リーダーとフォロワー の dịch cắt 24.4.4 trạng thái の bảo tồn 24.4.5 đại quy mô な cron の thật hành 24.5 まとめ 25 chương データ処 lý の パイプライン 25.1 パイプライン の デザインパターン の khởi nguyên 25.2 シンプルなパイプラインパターンで の ビッグデータ の lúc đầu の hiệu quả 25.3 định kỳ なパイプラインパターンで の đầu đề 25.4 không cân đối な phụ tải の xứng phân によるトラブル 25.5 phân tán hoàn cảnh における định kỳ パイプライン の thiếu điểm 25.5.1 định kỳ パイプラインにおけるモニタリング の vấn đề 25.5.2 “Thundering Herd” vấn đề 25.5.3 モアレ phụ tải パターン 25.6 Google Workflow の giới thiệu 25.6.1 Model-View-Controllerパターンとして の Workflow 25.7 Workflowにおける thật hành の ステージ 25.7.1 Workflow の chính しさ の bảo đảm 25.8 ビジネス の 継続 tính の bảo đảm 25.9 まとめ, そして chung わりに 26 chương データ の hoàn toàn tính: What You Read Is What You Wrote 26.1 データ の hoàn toàn tính へ の nghiêm cách な yêu cầu 26.1.1 データ hoàn toàn tính をきわめて cao くするため の chiến lược の tuyển 択 26.1.2 バックアップとアーカイブ 26.1.3 đại cục な coi điểm から thấy たクラウド hoàn cảnh の văn kiện quan trọng 26.2 データ の hoàn toàn tính cập び nhưng dùng tính の quản lý における Google SRE の mục tiêu 26.2.1 データ の hoàn toàn tính は thủ đoạn であり, mục tiêu とする の はデータ の nhưng dùng tính である 26.2.2 バックアップシステムよりもリカバリ の システムを cung cấp しよう 26.2.3 データ の tổn thất につながる chướng hại の chủng loại 26.2.4 thâm く, そして quảng くデータ の hoàn toàn tính を quản lý すること の khó しさ 26.3 データ hoàn toàn tính の đầu đề へ の Google SRE の đối 処 26.3.1 データ hoàn toàn tính の chướng hại の hình thái の 24 loại の tổ み hợp わせ 26.3.2 đệ 1 の レイヤー: Nói lý lẽ trừ bỏ 26.3.3 đệ 2 の レイヤー: バックアップと quan liền するリカバリ の phương pháp 26.3.4 bao gồm な giai tầng: レプリケーション 26.3.5 テラバイト đối エクサバイト: Đại きい “だけ” ではなくなるバックアップ 26.3.6 đệ 3 の レイヤー: Lúc đầu の kiểm ra 26.3.7 データリカバリがうまくいくこと の xác nhận 26.4 ケーススタディ 26.4.1 Gmail - 2011 năm 2 nguyệt: GTapeから の リストア 26.4.2 Google Music - 2012 năm 3 nguyệt: Bạo tẩu した trừ bỏ の kiểm ra 26.5 データ の hoàn toàn tính に đối する SRE の giống nhau nguyên tắc の áp dụng 26.5.1 sơ tâm giả の tâm cấu えを quên れないこと 26.5.2 tin lại しつつも kiểm chứng を 26.5.3 nguyện vọng は chiến lược にあらず 26.5.4 nhiều tầng phòng ngự 26.6 まとめ 27 chương đại quy mô なプロダクト の ローンチにおける tin lại tính 27.1 ローンチ điều chỉnh エンジニアリング 27.1.1 ローンチ điều chỉnh エンジニア の dịch cắt 27.2 ローンチプロセス の セットアップ 27.2.1 ローンチチェックリスト 27.2.2 thâu thúc と単 thuần hóa の đẩy mạnh 27.2.3 dư tưởng ngoại の ローンチ 27.3 ローンチチェックリスト の khai phát 27.3.1 アーキテクチャと sống nhờ vào nhau quan hệ 27.3.2 thống hợp 27.3.3 キャパシティプランニング 27.3.4 chướng hại の hình thái 27.3.5 クライアント の động tác 27.3.6 プロセスと tự động hoá 27.3.7 khai phát の プロセス 27.3.8 phần ngoài の sống nhờ vào nhau đối tượng 27.3.9 ロールアウト の kế hoạch 27.4 tin lại tính の あるローンチ の ため の テクニック 27.4.1 trục thứ かつ đoạn giai なロールアウト 27.4.2 cơ năng フラグフレームワーク 27.4.3 công kích なクライアント の cử động へ の đối 処 27.4.4 quá phụ tải khi の cử động とロードテスト 27.5 LCE の phát triển 27.5.1 LCEチェックリスト の tiến hóa 27.5.2 LCEが giải quyết しなかった vấn đề 27.6 まとめ Đệ Ⅳ bộ quản lý Ⅳ.1 Google SREが đẩy thưởng する tham khảo văn hiến 28 chương SRE の trưởng thành を gia tốc する phương pháp: Tân nhân からオンコール đảm đương, そしてそ の trước へ 28.1 tự đánh giá の sau 継 SRE ( たち ) を cố dùng した sau にすべきことは? 28.2 lúc đầu の học tập kinh nghiệm: Hỗn độn ではなく cấu tạo を cung cấp する 28.2.1 trình tự lập てて tích み trọng ねる học tập の nói gân 28.2.2 単 thuần tác nghiệp ではなく, mục đích の はっきりしたプロジェクト の tác nghiệp を chịu け cầm ってもらうこと 28.3 ưu れたリバースエンジニアリングと mềm mại な tự hỏi の dục thành 28.3.1 リバースエンジニアリング: システム の động tác を lý giải する 28.3.2 thống kê cập び tương đối tự hỏi: プレッシャー の hạ で の khoa học thủ pháp の sống dùng 28.3.3 ngẫu hứng の vân thuật gia: Dư tưởng ngoại の tình thế へ の đối ứng 28.3.4 tổng hợp なトレーニング: プロダクションサービス の リバースエンジニアリング 28.4 thượng を mục chỉ すオンコール đảm đương giả の 5つ の プラクティス 28.4.1 chướng hại へ の khát vọng: ポストモーテム の đọc み込みと cùng sở hữu 28.4.2 ディザスタロールプレイング 28.4.3 bổn vật の phá 壊と chữa trị 28.4.4 đồ đệ quan hệ として の ドキュメンテーション 28.4.5 lúc đầu から の thường xuyên なオンコール の シャドウイング 28.5 オンコール の đảm đương, そしてそ の trước: Thông qua nghi lễ と継続 な giáo dục の thật tiễn 28.6 まとめ 29 chương cắt り込みへ の đối 処 29.1 vận dụng phụ tải の quản lý 29.2 cắt り込みへ の đối 処を quyết định する yếu tố 29.3 không hoàn toàn なマシン 29.3.1 nhận tri フロー trạng thái 29.3.2 1つ の ことをうまく hành う 29.3.3 thật kiếm な giải quyết sách 29.3.4 cắt り込み の cắt giảm 30 chương SRE の đầu nhập による vận dụng quá phụ tải から の リカバリ 30.1 フェーズ 1: サービス の học tập と trạng huống の nắm chắc 30.1.1 lớn nhất の ストレス phát sinh nguyên の riêng 30.1.2 phát hỏa điểm の riêng 30.2 フェーズ 2: Trạng huống の cùng sở hữu 30.2.1 チーム の ために lương いポストモーテムを thư く 30.2.2 hỏa sự を chủng loại đừng に cũng べる 30.3 フェーズ 3: 変 hóa の đẩy mạnh 30.3.1 cơ bản から の スタート 30.3.2 phát hỏa điểm の quét dọn の tay trợ けを cầu める 30.3.3 căn 拠を thuyết minh すること 30.3.4 đạo く chất vấn を đầu げかけること 30.4 まとめ 31 chương SREにおけるコミュニケーションとコラボレーション 31.1 コミュニケーション: プロダクションミーティング 31.1.1 アジェンダ 31.1.2 tham dự giả 31.2 SRE nội で の コラボレーション 31.2.1 チーム の cấu thành 31.2.2 hiệu suất な tác nghiệp の ため の thủ pháp 31.3 SRE nội で の コラボレーション の ケーススタディ: Viceroy 31.3.1 Viceroy lên sân khấu 31.3.2 đầu đề 31.3.3 đẩy thưởng hạng mục công việc 31.4 SRE ngoại で の コラボレーション 31.5 ケーススタディ: DFPにおける F1へ の マイグレーション 31.6 まとめ 32 chương tiến hóa する SRE の エンゲージメントモデル 32.1 SRE の エンゲージメント: そ の đối tượng, phương pháp, lý do 32.2 PRRモデル 32.3 SRE の エンゲージメントモデル 32.3.1 thay thế サポート 32.4 プロダクションレディネスレビュー: 単 thuần PRRモデル 32.4.1 エンゲージメント 32.4.2 phân tích 32.4.3 cải thiện とリファクタリング 32.4.4 トレーニング 32.4.5 オンボーディング 32.4.6 継続 な cải thiện 32.5 単 thuần PRRモデル の tiến hóa hình: Lúc đầu エンゲージメント 32.5.1 lúc đầu エンゲージメント の dự khuyết 32.5.2 lúc đầu エンゲージメントモデル の メリット 32.6 tiến hóa するサービス khai phát: フレームワークと SREプラットフォーム 32.6.1 học んだ giáo huấn 32.6.2 SREに ảnh hưởng を cập ぼす phần ngoài muốn nhân 32.6.3 cấu tạo なソリューション: フレームワーク hóa に hướng かって 32.6.4 サービスや quản lý に quan する tân たなメリット 32.7 まとめ Đệ V bộ まとめ 33 chương hắn の nghiệp giới から の giáo huấn 33.1 nghiệp giới の ベテランたち 33.2 chuẩn bị とディザスタテスト 33.2.1 an toàn へ の hoàn toàn した tổ chức tập trung 33.2.2 phần trích phóng to へ の chú ý 33.2.3 dư thặng キャパシティ 33.2.4 シミュレーションと thật mà huấn luyện 33.2.5 トレーニングと nhận định 33.2.6 kỹ càng tỉ mỉ な yêu cầu の thâu tập と thiết kế へ の tập trung 33.2.7 quảng phạm 囲にわたる nhiều tầng phòng ngự 33.3 ポストモーテム の văn hóa 33.4 lặp lại nghiệp vụ と vận dụng の オーバーヘッド の tự động hoá 33.5 cấu tạo hóa された hợp lý phán đoán 33.6 まとめ 34 chương まとめ Phó lục A nhưng dùng tính の một lãm Phó lục B プロダクションサービス の ため の ベストプラクティス B.1 処 lý の thích thiết な bỏ dở B.2 đoạn giai なロールアウト B.3 SLO の định nghĩa はユーザー の quan điểm で B.4 エラーバジェット B.5 モニタリング B.6 ポストモーテム B.7 キャパシティプランニング B.8 quá phụ tải と chướng hại B.9 SREチーム Phó lục C インシデント trạng huống ドキュメント の lệ Phó lục D ポストモーテム の lệ Phó lục E ローンチ điều chỉnh チェックリスト Phó lục F プロダクションミーティング の nghị sự lục の lệ Tham khảo văn hiến 訳 giả あとがき Hướng dẫn tra cứu