Site Reliability Engineering: How Google Runs Production Systems, Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Murphy, 2017 (O'Reilly Media, Inc.) - 这本关于站点可靠性工程(SRE)实践的开创性著作,详细介绍了谷歌如何实现大规模分布式系统的高可用性、容错性和卓越运营。它涵盖了服务级别目标(SLO)、监控、事件响应以及维护可靠系统的方面,适用于生产RAG部署。