5.3.1 Netflix的奖

Netflix的奖采用公开征集来预测人们会喜欢这电影。

最知名的公开招募项目是Netflix奖。 Netflix是一家在线电影租赁公司,并于2000年推出了Cinematch,这是一项向客户推荐电影的服务。例如,Cinematch可能会注意到你喜欢星球大战帝国反击战 ,然后建议你观看绝地归来 。最初,Cinematch表现不佳。但是,在多年的过程中,它继续提高其预测客户喜欢的电影的能力。然而到了2006年,Cinematch的进展已经趋于稳定。 Netflix的研究人员已经尝试了他们能想到的所有东西,但与此同时,他们怀疑还有其他想法可以帮助他们改进他们的系统。因此,他们想出了当时一个激进的解决方案:一个公开的电话。

Netflix奖最终成功的关键在于如何设计公开电话,这一设计对于公开电话如何用于社会研究具有重要的经验教训。 Netflix不只是提出了一个非结构化的创意请求,这是许多人在第一次考虑公开呼叫时所想象的。相反,Netflix在一个简单的评估程序中提出了一个明显的问题:他们要求人们使用一组1亿的电影评级来预测300万个保持评级(用户已经做出的评级,但Netflix没有发布)。创建算法的第一个人预测300万个保持评级比Cinematch好10%将赢得一百万美元。这种清晰且易于应用的评估程序 - 将预测评级与保持评级进行比较 - 意味着Netflix奖的框架方式使得解决方案更容易检查而不是生成;它将改进Cinematch的挑战转变为适合公开呼叫的问题。

2006年10月,Netflix发布了一个数据集,其中包含大约500,000个客户的1亿个电影评级(我们将在第6章中考虑此数据发布的隐私影响)。 Netflix数据可以被概念化为一个巨大的矩阵,大约500,000个客户可以看到20,000部电影。在这个矩阵中,从1到5星的范围内有大约1亿个评级(表5.2)。挑战在于使用矩阵中观察到的数据来预测300万个保持评级。

表5.2:来自Netflix奖的数据示意图
电影1 电影2 电影3 ... 电影20,000
客户1 2 ...
客户2 2 ... 3
客户3 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
客户500,000 2 ... 1

世界各地的研究人员和黑客都被这一挑战所吸引,到2008年,已有超过30,000人参与其中(Thompson 2008) 。在整个比赛过程中,Netflix从5,000多个团队中收到了超过40,000个提议的解决方案(Netflix 2009) 。显然,Netflix无法阅读和理解所有这些提议的解决方案。然而,整个过程顺利进行,因为解决方案很容易检查。 Netflix可能只是让计算机使用预先指定的度量(预测的度量,它们使用的特定度量是均方误差的平方根)将预测的评级与保持的评级进行比较。正是这种快速评估解决方案的能力使Netflix能够接受每个人的解决方案,这一点很重要,因为好的想法来自一些令人惊讶的地方。实际上,获胜的解决方案是由三位研究人员提出的,他们之前没有建立电影推荐系统的经验(Bell, Koren, and Volinsky 2010)

Netflix奖的一个很好的方面是它能够公平地评估所有提议的解决方案。也就是说,当人们上传他们预测的评级时,他们不需要上传他们的学历,年龄,种族,性别,性取向或任何与自己有关的内容。斯坦福大学一位着名教授的预测评分与她卧室里一名少年的评分完全相同。不幸的是,在大多数社会研究中并非如此。也就是说,对于大多数社会研究而言,评估非常耗时且部分主观。因此,大多数研究思想从未被认真评估,并且在评估想法时,很难将这些评估与思想的创建者分开。另一方面,公开呼叫项目具有简单和公平的评估,因此他们可以发现可能会错过的想法。

例如,在Netflix奖期间的某个时刻,屏幕名称为Simon Funk的人在他的博客上发布了基于奇异值分解的提议解决方案,这是一种先前未被其他参与者使用的线性代数方法。 Funk的博客文章同时是技术性的,非常非正式的。这篇博文是否描述了一个好的解决方案,还是浪费时间?在公开呼叫项目之外,解决方案可能永远不会得到认真的评估。毕竟,Simon Funk不是麻省理工学院的教授;他是一名软件开发人员,当时正在新西兰背包旅行(Piatetsky 2007) 。如果他将这个想法通过电子邮件发送给Netflix的工程师,那几乎肯定不会被阅读。

幸运的是,由于评估标准清晰且易于应用,他对预测的评分进行了评估,很明显他的方法非常强大:他在比赛中飙升到第四名,因为其他球队已经取得了巨大的成绩。在问题上工作了好几个月。最后,他的方法的一部分几乎被所有严肃的竞争对手使用(Bell, Koren, and Volinsky 2010)

Simon Funk选择写博客文章解释他的方法,而不是试图保密,这也说明Netflix奖的许多参与者并非完全由百万美元的奖金激励。相反,许多参与者似乎也喜欢智力挑战和围绕这个问题开发的社区(Thompson 2008) ,我希望许多研究人员能够理解这些感受。

Netflix奖是公开电话的典型例子。 Netflix提出了一个具有特定目标(预测电影评级)的问题,并征求了许多人的解决方案。 Netflix能够评估所有这些解决方案,因为它们比创建更容易检查,最终Netflix选择了最佳解决方案。接下来,我将向您展示如何在生物学和法律中使用相同的方法,并且没有百万美元的奖金。