Netflix Prize використовує відкритий виклик , щоб передбачити , які фільми люди люблять.
Найвідомішим проектом відкритих викликів є Приз Netflix. Компанія Netflix є компанією з прокату онлайн-фільмів, і в 2000 році вона випустила програму Cinematch, що рекомендує фільми для клієнтів. Наприклад, Cinematch може помітити, що вам сподобалися Star Wars і The Empire Strikes Back, а потім рекомендую переглядати Returned the Jedi . Спочатку Cinematch працював погано. Але протягом багатьох років він продовжував вдосконалювати свою здатність передбачати, які фільми сподобаються клієнтам. Проте до 2006 року прогрес у Cinematch був запланований. Дослідники Netflix спробували майже все, що могли подумати, але, водночас, вони підозрювали, що існують інші ідеї, які можуть допомогти їм вдосконалити свою систему. Таким чином, вони придумали те, що було в той час радикальним рішенням: відкритим дзвінком.
Критично важливим для майбутнього успіху премії Netflix було те, як було розроблено відкритий дзвінок, і ця конструкція має важливі уроки того, як відкриті дзвінки можуть використовуватися для соціальних досліджень. Netflix не просто випустив неструктурований запит на ідеї, про що багато хто собі уявляє, коли вперше розглядають відкритий дзвінок. Скоріше, Netflix ставив явну проблему з простою процедурою оцінки: вони кинули виклик людям використовувати 100 мільйонів рейтингів фільмів, щоб прогнозувати 3 мільйони прострочених рейтингів (рейтинги, зроблені користувачами, але Netflix не випускає). Перша людина, яка створила алгоритм, який передбачав, що 3 мільйони прострочених оцінок на 10% краще, ніж Cinematch, виграли б мільйон доларів. Ця чітка та проста процедура оцінки - порівняння прогнозованих рейтингів з простроченими рейтингами означала, що премія Netflix була сформована таким чином, що рішення було простіше перевірити, ніж генерувати; це перетворило завдання поліпшити Cinematch у проблему, придатну для відкритого дзвінка.
У жовтні 2006 року Netflix випустив набір даних, що містить 100 мільйонів оцінок фільмів, з приблизно 500000 користувачів (ми розглянемо конфіденційність цього випуску даних в розділі 6). Дані Netflix можна зрозуміти як величезну матрицю, яка становить приблизно 500 000 клієнтів на 20 000 фільмів. В рамках цієї матриці було оцінено близько 100 мільйонів оцінок у масштабі від однієї до п'яти зірок (таблиця 5.2). Завдання полягало в тому, щоб використовувати передбачені дані в матриці для прогнозування 3 мільйонів прострочених рейтингів.
Фільм 1 | Фільм 2 | Фільм 3 | ... | Фільм 20 000 | |
---|---|---|---|---|---|
Клієнт 1 | 2 | 5 | ... | ? | |
Клієнт 2 | 2 | ? | ... | 3 | |
Замовник 3 | ? | 2 | ... | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
Клієнт 500 000 | ? | 2 | ... | 1 |
Дослідники та хакери у всьому світі звернули увагу на виклик, і до 2008 року на нього працювали понад 30 000 людей (Thompson 2008) . За час проведення конкурсу Netflix отримав понад 40 000 запропонованих рішень з більш ніж 5000 колективів (Netflix 2009) . Очевидно, Netflix не міг прочитати і зрозуміти всі ці запропоновані рішення. Проте все було гладко, оскільки рішення було легко перевірити. Netflix може просто порівняти прогнозовані рейтинги з прогнозованими рейтингами за допомогою попередньо визначених показників (їх використовуваний квадратний корінь середньої квадратичної помилки). Це була ця здатність швидко оцінювати рішення, що дозволило Netflix приймати рішення від кожного, що виявилося важливим, оскільки хороші ідеї прийшли з деяких дивних місць. Фактично, виграшне рішення було представлено командою, яку започаткували три дослідники, які не мали попереднього досвіду створення систем рекомендацій щодо фільмів (Bell, Koren, and Volinsky 2010) .
Одним з прекрасних аспектів премії Netflix є те, що він дозволив оцінити всі пропоновані рішення справедливо. Тобто, коли люди завантажували свої передбачувані рейтинги, їм не потрібно було завантажувати свої академічні дані, їх вік, расу, стать, сексуальну орієнтацію чи щось про себе. Прогнозовані рейтинги відомих професорів зі Стенфорда оброблялися точно так само, як і у підлітка в її спальні. На жаль, це не так у більшості соціальних досліджень. Тобто для більшості соціальних досліджень оцінка є дуже трудомісткою та частково суб'єктивною. Отже, більшість дослідницьких ідей ніколи не піддаються серйозній оцінці, і коли оцінюються ідеї, важко відокремити ці оцінки від творця ідей. З іншого боку, проекти відкритих викликів мають просту та справедливу оцінку, щоб вони могли виявляти ідеї, які могли б бути пропущені інакше.
Наприклад, в один момент під час премії Netflix хтось з псевдонімом Саймон Фанк розмістив у своєму блозі запропоноване рішення, що базується на однозначному розкладі значень, підхід з лінійної алгебри, який раніше не використовувався іншими учасниками. Публікація блогу Функа була одночасно технічною та дивно неформальною. Чи був цей пост допису хорошим рішенням, чи це трата часу? За межами проекту відкритих викликів рішення може ніколи не отримувати серйозної оцінки. Зрештою, Саймон Функ не був професором MIT; він був розробником програмного забезпечення, який в той час був (Piatetsky 2007) навколо Нової Зеландії (Piatetsky 2007) . Якщо б він відправив цю ідею по електронній пошті до інженера Netflix, то це майже напевно не було б прочитано.
На щастя, оскільки критерії оцінки були чіткі та прості у застосуванні, його прогнозовані рейтинги були оцінені, і миттєво зрозуміло, що його підхід був дуже потужним: він піднявся на четверте місце у змаганнях, це величезний результат, оскільки інші команди вже були працюючи протягом декількох місяців на проблему. Зрештою, частини його підходу використовували практично всі серйозні конкуренти (Bell, Koren, and Volinsky 2010) .
Той факт, що Саймон Фанк вирішив написати допис в блозі, пояснюючи його підхід, а не намагаючись зберегти його в таємниці, також показує, що багато учасників премії Netflix не були виключно мотивовані призом у розмірі мільйона доларів. Скоріше за все, багато учасників також, як видається, користуються інтелектуальною проблемою та спільнотою, яка розвивається навколо проблеми (Thompson 2008) , почуттів, які я очікую, що багато дослідників можуть зрозуміти.
Приз Netflix - класичний приклад відкритого дзвінка. Netflix ставив питання з конкретною метою (прогнозування рейтингів фільмів) і затребуваних рішень від багатьох людей. Netflix зумів оцінити всі ці рішення, оскільки їх було простіше перевірити, ніж створити, і в остаточному підсумку Netflix підібрала найкраще рішення. Далі я покажу вам, як цей же підхід може бути використаний у біології та правопорядку, і без премії мільйонів доларів.