作者:魅力·陈,贝丝·库珀
ACM通信,2020年10月,第63卷第10期,第40-46页
10.1145 / 3397880
评论
谷歌出版了两本关于站点可靠性工程(SRE)原则、最佳实践和实际应用的书籍。1,2然而,在处理生产事件的紧要关头,团队的实际响应和调试方法往往与理想的最佳实践不同。
本文介绍了2019年进行的关于谷歌工程师如何调试生产问题的研究成果,包括工程师以各种组合方式有效地调试所使用的工具类型、高级策略和低级任务。它检查了用于捕获数据的研究方法,总结了生产调查的常见工程过程,并分享了专家如何调试复杂分布式系统的例子。最后,本文扩展了本研究的谷歌细节,提供了一些您可以在您的组织中应用的实用策略。
没有发现记录
登录阅读全文
需要访问吗?
请选择下面的一个选项以访问高级内容和功能。
创建一个网上帐户
如果你已经是ACM会员,通信订阅者或数码图书馆订阅者,请设置网页帐户,以浏览本网站的优质内容。
参加ACM
成为ACM的会员,可以充分利用ACM卓越的计算信息资源、网络机会等优势。
订阅ACM杂志通讯
获得50多年的中华中医药学会内容的完整访问权限,并每月获得杂志印刷版。
购买这篇文章
非会员可以购买这篇文章或刊登这篇文章的杂志。