过去的十年见证了人们对机器学习和数据挖掘的兴趣爆发,在理论成果和高度可见的实际应用方面都取得了重大进展。其中一个应用就是自动推荐系统。客户购买或评价项目或产品,并将评分存储在数据库中。实际上,可能有数百万的客户和项目。然后分析过去客户的行为和偏好,自动预测客户可能对哪些商品评价高或购买,哪些商品他们还没有购买过或评价过。这种类型的推荐系统现在在Web上很常见,例如,在诸如Amazon.com购物和最后。对音乐调频。
2006年10月,Netflix公司提供了100万美元的奖金,用于开发一种算法,可以显著提高其内部推荐系统的准确性。Netflix的用户给他们看过的电影打分,分值从1到5。推荐问题是根据一个大型的过去评分数据库向客户推荐新电影。衡量推荐算法准确性的一种方法是计算算法评分和实际客户评分之间的平均差的平方,这是算法之前没有看到的商品-客户对。Netflix表示,将把100万美元奖金奖励给第一个能够将其内部算法的错误率降低10%的人或团队。在比赛中,参赛者可以下载大量的训练数据集,在此基础上开发他们的方法。该数据集由一个高度稀疏的矩阵组成,由大约50万客户(行)和18000部电影(列)组成,其中只有不到1%的条目包含已知的评分。
三年来(20062009年),该竞赛是全球计算机科学家、数学家、工程师和统计学家激烈活动的焦点。截止到最后,来自150多个国家的4万多名注册参赛者。最初的进展非常快,到2006年12月,一些团队已经有了算法,能够在不可见的测试数据上减少5%的错误,接近百万美元!
但是,与许多有趣的问题一样,实现后5%的改善比实现前5%要困难得多。随着2007年进展速度放缓,人们纷纷猜测10%的目标是否能够实现。到2007年秋,AT&T研究公司的耶胡达·科伦、罗伯特·贝尔和克里斯·沃林斯基已经成为该奖项的主要竞争者。这个AT&T团队在2007年10月以减少8.4%的错误获得了最初的“进步奖”(5万美元)。Koren和他的同事继续向10%推进,并在12个月后获得了第二个进步奖(与两名奥地利大学生合作),误差减少了9.4%。
下面这篇论文是一个很好的例子,说明了如何巧妙地思考构成复杂领域的基本因素,从而大大提高预测精度。
下面这篇论文由现任雅虎高级研究科学家的Koren撰写。该研究于2009年6月在巴黎举行的ACM SIGKDD会议上发表。这是一个很好的例子,说明了如何巧妙地思考构成复杂领域的基本因素,从而大大提高预测精度。虽然本文关注的是推荐系统,但它背后的思想和策略提供了适用于许多数据挖掘任务的有用经验。
本文的一个关键方面是使用探索性数据分析和可视化来揭示隐藏的信息,特别是发现评级数据随时间的推移是非平稳的(如图1所示)。Koren继续表明,可以通过调整这种非平稳性来系统地改进预测。数据中的多种类型的时间变化以各种方式被纳入到预测模型的方程中,对不包含时间成分的预测提供了重要的改进。
本文清楚地说明了如何结合统计思维(以系统的方式建模变化)和计算方法(拟合这些模型超过1亿个评级),在非常大的数据集上建立复杂的模型。作者指出,“处理时间动态比设计更复杂的学习算法对准确性有更重要的影响。”这一点在预测分析的一般背景下是至关重要的,仔细考虑控制数据如何生成(和收集)的基本因素可以导致更准确的预测。
为了给这个100万美元奖金的故事画上句号(给那些不知道结局的读者),大奖于2009年9月颁发给了一个由Yehuda Koren和六名同事组成的团队(来自AT&T实验室研究中心的Bell和Volinsky,两名来自奥地利的学生和两名来自蒙特利尔的工程师)。
2010 acm 0001-0782/10/0400 $10.00
允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。ACM版权所有2010
有没有人能告诉我SIGKDD的论文题目是什么?提前非常感谢
亲爱的艾哈迈德·伊
由Yehuda Koren撰写的SIGKDD论文“时间动态协同过滤”发表在2010年4月的ACM通信杂志上,可在//www.eqigeno.com/magazines/2010/4/81486-collaborative-filtering-with-temporal-dynamics/fulltext在线获得。
显示所有2评论