acm-header.
登入

ACM的通信

kode恶毒

我拔掉了什么?


手拿着未连接的电缆直到天花板

信用:果汁的Flair

回到顶部亲爱的kv,

我相信现在你已经阅读了最近的大型系统失败(见https://bit.ly/3dtssdt.-编辑。),我想知道你是否会分享你对如此许多聪明人在其处置的大型公司如何定义的想法 - 可以在基础设施中如此悲惨地失败。我可能很悠闲地徘徊垒球,但这些大而普遍的失败是如何发生的?

在等待你的回复时制作爆米花

回到顶部

亲爱的爆米花,

有些人会说在如此壮观的失败之后挑选任何公司是不公平的,并且在他们下降时踢人或公司并不好。当然,克夫不是那些人之一。

就像世界其他地方一样,我在娱乐中观看了地球上最富有的公司之一,看起来有一个配置错误。有人看着恐怖,是的,kv看着娱乐。不言而喻,我只知道我在新闻中读过的东西和各种“饲料”,但一些失败似乎在外部记录得很好。

这里的课程比仅仅是一个简单的“不要这样做”,并且在这个最近的事件发生之前,有许多公司对自己做了类似的东西的例子。真正的根本原因使这一切都灾难性不仅仅是推动糟糕的配置;实际原因是几乎所有现代计算基础设施的事情,它必须与蛋糕有关。

只有一个甚至一小组电脑,现代化计算不再采用,但是在全球分布的数千台机器上进行。这种基础设施已经建立起来的方式,逻辑和物理,往往类似于层蛋糕,但冰也不那么甜蜜的地方。事实上,在最好的情况下,不仅是结冰的苦涩,而且通常层之间的结冰变得腐臭。此外,每层都被不同的厨师烘烤然后拍打在蛋糕顶部的腐臭结冰之上。哦,厨师没有沟通,因为这会违反蛋糕分层或其他东西。

这个最近的灾难中的PiècedeRésistance是似乎对同一网络挂钩的众所周知的新秀级别错误,使得单一的失败不仅带来了外部可见的网站,还带来了它的内部工具,甚至是锁定人员他们的会议室和数据中心。据说,开始重置使用角度磨机所需的系统的唯一方法,以便在锁定的机架中访问设备。

两个交织的问题使得失败远远差。首先是系统的未触发耦合,而没有充分探讨在糖粉之一是腐臭时会发生的事情。另一个是将所有层放在一个蛋糕上。

把所有的层放在一个蛋糕上只是愚蠢,老实说,可能更令人震惊的启示。KV无法想到任何人都知道控制网络的任何人在同一网络上为任何一种物理基础架构作为服务于猫的图片。必须在考虑到关注的分离的概念时构建所有分布式系统,这可能导致多个蛋糕而不是一个蛋糕。

另一个失败 - 不跟踪蛋糕是分层的方式 - 是,唉,全部常见。现代系统似乎不太设计,更像是随着时间的推移的系统和功能。鉴于技术人员在技术改变工作的频率,保留清晰,体制知识的能力是如何进行蛋糕的锻炼。文档,如代码,rots如果没有维护,这是构建大型系统的最大风险。季度系统审查,将来自多个学科的人们汇集在一起​​的公司 - 包括Devops,Netops,Bizops,Secops,Fooops - 或者名称组Vogue du Jour-可能是确保冰也没有消失的最佳方式之一厨师都知道他们的层应该去哪里。

这些类型的故障始终是通信的故障:首先在人体层,然后,最终在技术层处。

kv.

Q ACM队列邮票相关文章
queue.acm.org.

太大而无法失败
kode恶毒
https://queue.acm.org/detail.cfm?id=2693195

自动化软件故障报告
Brendan Murphy.
https://queue.acm.org/detail.cfm?id=1036498

弹性工程:学习拥抱失败
Gameayay练习案例研究
https://queue.acm.org/detail.cfm?id=2371297

回到顶部

作者

乔治V. Neville-Neilkv@acm.org.)是尼维尔尼尔咨询和联合主席的所有者ACM队列编辑委员会。他在网络和操作系统代码上工作,以获得有趣和利润,教导各种编程相关的科目的课程,并鼓励您的评论,Quips和与他有关的代码剪辑通讯柱子。


作者持有的版权。
请求权限(重新)从业主/作者发布

数字图书馆由Computing Machinery协会发布。版权所有©2022 ACM,Inc。


没有发现任何条目

Baidu
map