acm-header
登录

ACM通信

实践

调试谷歌的分布式系统中的事件


飞行的独角兽穿着SRE喷气背包,插图

回到顶部

谷歌出版了两本关于站点可靠性工程(SRE)原则、最佳实践和实际应用的书籍。12然而,在处理生产事件的紧要关头,团队的实际响应和调试方法往往与理想的最佳实践不同。

本文介绍了2019年进行的关于谷歌工程师如何调试生产问题的研究成果,包括工程师以各种组合方式有效地调试所使用的工具类型、高级策略和低级任务。它检查了用于捕获数据的研究方法,总结了生产调查的常见工程过程,并分享了专家如何调试复杂分布式系统的例子。最后,本文扩展了本研究的谷歌细节,提供了一些您可以在您的组织中应用的实用策略。


没有发现记录

登录阅读全文

登录

如果您是ACM会员、通讯订阅用户或数字图书馆订阅用户,则使用ACM Web帐户用户名和密码登录以访问优质内容。

需要访问吗?

请选择下面的一个选项以访问高级内容和功能。

创建一个网上帐户

如果你已经是ACM会员,通信订阅者或数码图书馆订阅者,请设置网页帐户,以浏览本网站的优质内容。

参加ACM

成为ACM的会员,可以充分利用ACM卓越的计算信息资源、网络机会等优势。

订阅ACM杂志通讯

获得50多年的中华中医药学会内容的完整访问权限,并每月获得杂志印刷版。

购买这篇文章

非会员可以购买这篇文章或刊登这篇文章的杂志。
Baidu
map