5.3.1 Netflix的獎

Netflix的獎採用公開徵集來預測人們會喜歡這電影。

最知名的公開招募項目是Netflix獎。 Netflix是一家在線電影租賃公司,並於2000年推出了Cinematch,這是一項向客戶推薦電影的服務。例如,Cinematch可能會注意到你喜歡星球大戰帝國反擊戰 ,然後建議你觀看絕地歸來 。最初,Cinematch表現不佳。但是,在多年的過程中,它繼續提高其預測客戶喜歡的電影的能力。然而到了2006年,Cinematch的進展已經趨於穩定。 Netflix的研究人員已經嘗試了他們能想到的所有東西,但與此同時,他們懷疑還有其他想法可以幫助他們改進他們的系統。因此,他們想出了當時一個激進的解決方案:一個公開的電話。

Netflix獎最終成功的關鍵在於如何設計公開電話,這一設計對於公開電話如何用於社會研究具有重要的經驗教訓。 Netflix不只是提出了一個非結構化的創意請求,這是許多人在第一次考慮公開呼叫時所想像的。相反,Netflix在一個簡單的評估程序中提出了一個明顯的問題:他們要求人們使用一組1億的電影評級來預測300萬個保持評級(用戶已經做出的評級,但Netflix沒有發布)。創建算法的第一個人預測300萬個保持評級比Cinematch好10%將贏得一百萬美元。這種清晰且易於應用的評估程序 - 將預測評級與保持評級進行比較 - 意味著Netflix獎的框架方式使得解決方案更容易檢查而不是生成;它將改進Cinematch的挑戰轉變為適合公開呼叫的問題。

2006年10月,Netflix發布了一個數據集,其中包含大約500,000個客戶的1億個電影評級(我們將在第6章中考慮此數據發布的隱私影響)。 Netflix數據可以被概念化為一個巨大的矩陣,大約500,000個客戶可以看到20,000部電影。在這個矩陣中,從1到5星的範圍內有大約1億個評級(表5.2)。挑戰在於使用矩陣中觀察到的數據來預測300萬個保持評級。

表5.2:來自Netflix獎的數據示意圖
電影1 電影2 電影3 ... 電影20,000
客戶1 2 ...
客戶2 2 ... 3
客戶3 2 ...
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
客戶500,000 2 ... 1

世界各地的研究人員和黑客都被這一挑戰所吸引,到2008年,已有超過30,000人參與其中(Thompson 2008) 。在整個比賽過程中,Netflix從5,000多個團隊中收到了超過40,000個提議的解決方案(Netflix 2009) 。顯然,Netflix無法閱讀和理解所有這些提議的解決方案。然而,整個過程順利進行,因為解決方案很容易檢查。 Netflix可能只是讓計算機使用預先指定的度量(預測的度量,它們使用的特定度量是均方誤差的平方根)將預測的評級與保持的評級進行比較。正是這種快速評估解決方案的能力使Netflix能夠接受每個人的解決方案,這一點很重要,因為好的想法來自一些令人驚訝的地方。實際上,獲勝的解決方案是由三位研究人員提出的,他們之前沒有建立電影推薦系統的經驗(Bell, Koren, and Volinsky 2010)

Netflix獎的一個很好的方面是它能夠公平地評估所有提議的解決方案。也就是說,當人們上傳他們預測的評級時,他們不需要上傳他們的學歷,年齡,種族,性別,性取向或任何與自己有關的內容。斯坦福大學一位著名教授的預測評分與她臥室裡一名少年的評分完全相同。不幸的是,在大多數社會研究中並非如此。也就是說,對於大多數社會研究而言,評估非常耗時且部分主觀。因此,大多數研究思想從未被認真評估,並且在評估想法時,很難將這些評估與思想的創建者分開。另一方面,公開呼叫項目具有簡單和公平的評估,因此他們可以發現可能會錯過的想法。

例如,在Netflix獎期間的某個時刻,屏幕名稱為Simon Funk的人在他的博客上發布了基於奇異值分解的提議解決方案,這是一種先前未被其他參與者使用的線性代數方法。 Funk的博客文章同時是技術性的,非常非正式的。這篇博文是否描述了一個好的解決方案,還是浪費時間?在公開呼叫項目之外,解決方案可能永遠不會得到認真的評估。畢竟,Simon Funk不是麻省理工學院的教授;他是一名軟件開發人員,當時正在新西蘭背包旅行(Piatetsky 2007) 。如果他將這個想法通過電子郵件發送給Netflix的工程師,那幾乎肯定不會被閱讀。

幸運的是,由於評估標準清晰且易於應用,他對預測的評分進行了評估,很明顯他的方法非常強大:他在比賽中飆升到第四名,因為其他球隊已經取得了巨大的成績。在問題上工作了好幾個月。最後,他的方法的一部分幾乎被所有嚴肅的競爭對手使用(Bell, Koren, and Volinsky 2010)

Simon Funk選擇寫博客文章解釋他的方法,而不是試圖保密,這也說明Netflix獎的許多參與者並非完全由百萬美元的獎金激勵。相反,許多參與者似乎也喜歡智力挑戰和圍繞這個問題開發的社區(Thompson 2008) ,我希望許多研究人員能夠理解這些感受。

Netflix獎是公開電話的典型例子。 Netflix提出了一個具有特定目標(預測電影評級)的問題,並徵求了許多人的解決方案。 Netflix能夠評估所有這些解決方案,因為它們比創建更容易檢查,最終Netflix選擇了最佳解決方案。接下來,我將向您展示如何在生物學和法律中使用相同的方法,並且沒有百萬美元的獎金。