亲爱的KV,
经过几年的创业,我们似乎终于变得足够大,足够受欢迎,以至于管理层和法律部门都在关注我们如何存储和隔离用户数据。说这感觉像是一场消防演习就太轻描淡写了。现在每个人似乎都对我们应该如何处理用户数据有自己的看法。关于这个主题的会议如果不是如此悲惨的话,会很有趣。我们并不是一家号称拥有数十亿用户的大公司,当然,保护我们客户的数据也很重要。但是,在这一点上所有的绝望似乎都为时已晚,并可能最终导致大量的工程,最终不会增加产品的价值,而是一种管理——或者可能是法律部门——保护自己的方式。我无法想象这有什么价值,但也许你有不同的意见?我想至少,你的观点会比法律部门的邮件信息读起来更有趣。我觉得我们只是在毫无理由地重新排列桶。
没有正当理由的桶
亲爱的桶,
在一个现在包含了如此多关于公司如何处理用户数据的规则和规定的世界里,我想说,我很惊讶贵公司能坚持几年才走到这一步。但坏消息很少让我感到惊讶,甚至比人们不考虑如何处理他们收到的数据的故事更让我惊讶。
应该引起人们思考数据工程和数据维护的不仅仅是规章制度;事实是,在计算领域,我们现在已经到了一个数据具有重大价值和重大风险的位置——以同等的衡量标准。回顾过去的70年,计算机工程的发展轨迹发生了巨大的变化。虽然70年在某些传统科学中可能被认为是一个很短的时间,但在这段时间里,对于使用计算机的人来说,重要的东西发生了巨大的变化。我们已经从20世纪50年代和60年代,硬件是主要的成本和我们努力的重点,到20世纪后期软件的崛起th世纪,到21世纪初才兴起数据圣世纪。为什么?
摩尔定律对此有很多解释,还有人类收集东西后却不能扔掉的问题。帕金森定律(“工作的扩展是为了填满完成它的时间”)有一个推论,“数据的扩展是为了填满存储的空间”,自从我们有能力存储数据以来一直是这样。
我记得我小的时候去我叔叔的大学办公室,那里有一叠又一叠的穿孔卡片。
“这些是什么?”我问。
“这是我研究的所有天体物理数据,”他解释说。
我的叔叔只有有限的空间来放他的打孔卡,所以我鼓励他,作为一个万事通16岁KV,换成磁带。我从未问过他是否这么做,但我敢打赌,如果他这么做了,他最终得到的数据会比他办公室的立方英尺容量还要多。
随着时间的推移,软件开始主导系统的成本,因为计算机变得更便宜、更强大,因此,我们可以编写更大、更复杂的程序,这些程序变成程序系统,然后是程序的分布式系统。
所有这些日益增加的复杂性迫使我们寻找解决软件危机的方法,Dijkstra在他1972年的ACM图灵演讲中描述得很好:“但我们没有发现自己处于所有编程问题都解决了的永久幸福状态,而是发现自己陷入了软件危机!如何来吗?主要原因是这些机器的威力提高了好几个数量级!说白了就是:只要没有机器,编程根本就不是问题;当我们只有几台弱计算机时,编程就成了一个轻微的问题,而现在我们有了巨大的计算机,编程就成了一个同样巨大的问题。”edsger Dijkstra算法,卑微的程序员;https://bit.ly/3JCvc2P
无论如何,软件危机从未减弱。通常,一些荒谬的趋势似乎可以解决这个问题。模块化编程、面向对象编程、结对编程、敏捷编程、Scrum编程和其他方法,都是为了解决这样一个事实:我们正在构建的硬件——尤其是软件——对我们这些使用它的人来说过于复杂,以至于无法理解。
随着计算机和内存越来越便宜,存储也越来越便宜。在20世纪80年代,早期的微型计算机可以在软盘上存储几百kb的数据,或者,如果我们有钱的话,我们可能在PC上有一个10MB的驱动器。20年后,也就是现在的20年前,它的存储空间变成了很多gb,现在变成了tb——这就是我们所能做到的就我个人而言商店。当然,数据中心在存储空间方面也经历了类似的、惊人的快速增长。
无论如何,软件危机从未减弱。
这不仅仅是我们存储的数据量;它是数据之间的关系。关系推动了复杂性,就像现代软件中使用的库和包的激增推动了软件系统的复杂性和成本一样。
这一切在2022年意味着什么?
当每个人都在考虑收集数据时,不管是用户还是其他人,都必须首先认真考虑数据工程和数据维护,因为出错的成本太高了,无论是从金钱上还是从社会上来说。我想说,没有一个理智的人会坐下来开始输入代码,脑子里只有一个松散的想法,并期望事情在未来能解决。适用于软件工程的东西也适用于数据工程。您真的不能只是将数据转储到云存储桶或任何其他大型存储系统中,并期望一切都会得到最好的结果。
有些人已经考虑这个问题很长时间了,但他们通常已经没有太多的影响力了。在廉价计算和所有非事务性数据库系统兴起之前,我们有一些数据存储方面的专家,这些人是高效的数据存储后端所必需的。他们是数据库管理员,但这些人很少参与创业,因为创业公司总是把代码放在第一位,数据放在第二,除非他们真正的市场目标是获得FAANG-Facebook(现在是Meta)、亚马逊(Amazon)、苹果(Apple)、Netflix、谷歌(现在是Alphabet)中的一个,以数据的价值购买它们。即便如此,他们更像吸尘器,吸走一切他们能得到的东西,很少考虑它的安全性、未来的价值和风险。
即使公司走上了正确的道路,他们通常也会在数据维护上失败,就像公司在软件维护上失败一样。新数据是在没有计划的情况下积累起来的,它们堆积在各处,因为人们认为,他们只需喷洒一些机器学习的魔法,就能从中获得更多的价值。
在工程领域没有灵丹妙药。如果你不考虑对整体结构的影响就强行扩建房子,你的扩建部分,或者整个房子,都会被破坏,最坏的情况是,会倒塌在地上。我们的行业充斥着这些数据尸体,但一开始的一点点规划和对数据的整个生命周期的照顾将会带来丰厚的回报。
像“我们如何确保这些数据的安全”这样的问题,只有在你一开始就问了才会起作用,而当一群律师或政府官员坐在会议室里,查看你的数据和日志,低声发出威胁的声音时,这些问题就不起作用了。我们关心的所有与我们的数据有关的事情——安全、隐私、访问效率、正确的真相来源——都需要深思熟虑,但这似乎是我们急于创造出来的利益相关者价值我们愿意牺牲这些重要的属性,只是像数据美食家一样行事。
既然数据在规模和复杂性上已经超过了大多数软件,是时候让数据工程和数据维护成为一流的研究课题了。做其他事情只会让我们犯同样的错误,并将我们的员工和公司置于危险之中。
KV
相关文章
在queue.acm.org
反对数据锁定的案例
Brian W. Fitzpatrick和JJ Lueck,数据解放阵线
https://queue.acm.org/detail.cfm?id=1868432
物联网:恐怖互联网
Kode恶性
https://queue.acm.org/detail.cfm?id=3121440
联邦学习与隐私
卡莉斯塔·伯纳维茨,彼得·凯鲁兹,布兰登·麦克马汉和丹尼尔·拉梅奇
https://queue.acm.org/detail.cfm?id=3501293
数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司
没有发现记录