从本质上说
2022年1月31日
评论
近年来,许多流行的数据集已经被机器学习社区确定为具有惊人数量的潜在法律和伦理问题——表示损害、偏见影响、隐私侵犯和不明确或可疑的下游使用。这导致了一些数据集被删除或大量编辑。然而,在实践中,它们继续可用并被广泛使用,要么以其原始形式(如通过在线洪流),要么以衍生形式(作为原始数据集的子集或修改,或在废弃数据集上预训练的模型)。
向前发展,有必要从根本上改变数据集文化。在数据集的整个生命周期中都需要减少危害和管理,而创建者必须监视其数据集的使用,更新许可证和文档,并在必要时限制访问。
从自然
查看全文
没有发现记录