对于输入中提供的给定上下文(例如,查询),条目推荐算法将目录中的条目从最相关到最不相关进行排序。这些算法是我们日常与数字系统互动的关键组成部分,在可预见的未来,它们在社会中的扩散只会增加。
考虑到推荐系统的普及,他们的比较是一个至关重要的努力。商品推荐算法通常使用一些指标(例如,平均精度)进行比较,这些指标取决于算法生成的目录中所有商品的排名中真正相关的商品的位置。
算法的实验评价和比较很不容易。原因之一是需要做出几个选择,比如计算的输入实例:应该考虑其中的多少个?哪一个?虽然理想情况下,人们希望选择代表部署时算法将在其上运行的实例的输入,但在这种选择中还有其他几个因素发挥作用,如可用资源(例如,时间和内存)。输入选择的影响对于每个尝试过比较算法和工具的研究人员和实践者来说都是显而易见的。
下面的文章揭示了评估算法和工具的另一个关键方面:使用抽样指标而不是精确计算的指标的影响。根据商品推荐系统排序的目录通常非常大,大小从数万到数百万不等,这取决于应用程序。因此,项目推荐算法的评估是极其费力的。最近使用的一种加速评价的方法是使用抽样指标,即根据相关项目与从目录中抽样的一小组无关项目的排名得出的指标。
下面的论文揭示了评估算法和工具的一个关键方面:使用抽样指标而不是精确计算的指标的影响。
作者研究了抽样指标在评价项目推荐算法中的应用。本文的主要结果之一是抽样度量得出的结论与精确度量不一致,这意味着算法A在使用精确度量时逊于算法B,而在抽样度量时则显得优越。更令人惊讶的是,这篇论文表明,对于常用的指标,当增加样本的大小时,三个真实世界推荐的相对顺序会发生变化,而不同的样本大小会得出相反的结论。
抽样指标的不一致行为的一个可能解释是,由于抽样,这些指标的方差。然而,本文表明,对于条目推荐算法,情况并非如此。事实上,采样的度量有非常低的方差,它们的不一致性是由于它们对精确度量的估计中固有的偏差。这就排除了一种通过抽样获得稳定结果的常用方法,即多次重复估计过程。此外,本文还表明,从采样的度量中获得一致的结果需要较大的样本。事实上,论文表明当1/3理查德·道金斯以整个目录为样本,抽样指标与精确指标一致。不幸的是,在这种情况下,从采样的速度是有限的。
抽样度量中不一致和偏差的来源是什么?正如作者所表明的那样,它们源于一个简单的事实:通过使用不相关项目的样本,相关项目的排名是对其准确排名的低估,这是在考虑了所有不相关项目后得到的。由于估计中的误差是可以量化的,因此可以进行修正,本文的另一个主要结果是,即使是一个简单的修正,也能够解决未经修正的采样度量的大多数错误。因此,虽然正如作者所建议的那样,在评估中应尽可能避免以抽样为基础的方法,但它们仍然可以通过使用适当设计的校正来使用。
从这篇论文中得到的一个最重要的结论是:当使用抽样来估计数量时,理解和分析抽样程序的影响是至关重要的。这是一个比乍一看更普遍的信息。在一些应用程序中,人们很少会假设手头的数据代表正在研究的整个系统、种群或过程,而且最常见的是,数据只是系统/种群/过程的一个样本。了解抽样程序对算法结果的影响,以及如何在计算中适当地考虑它们,对于从数据中得出可靠和稳健的答案至关重要。
数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司
没有发现记录