Netflix Prize использует открытый вызов , чтобы предсказать , какие фильмы люди любят.
Самый известный проект открытых звонков - приз Netflix. Netflix - онлайн-компания по прокату фильмов, а в 2000 году она запустила Cinematch, услугу по рекламе фильмов для клиентов. Например, Cinematch может заметить, что вам понравились Звездные войны и The Empire Strikes Back, а затем рекомендую вам посмотреть Return of the Jedi . Первоначально Cinematch работала плохо. Но в течение многих лет он продолжал улучшать свою способность прогнозировать, какие фильмы понравятся клиентам. Однако к 2006 году прогресс в Cinematch был платиновым. Исследователи из Netflix пробовали почти все, что могли подумать, но в то же время они подозревали, что есть другие идеи, которые могли бы помочь им улучшить свою систему. Таким образом, они придумали то, что было в то время радикальным решением: открытый звонок.
Критически важным для успеха Netflix Prize было то, как был разработан открытый вызов, и этот проект имеет важные уроки для того, как открытые вызовы могут использоваться для социальных исследований. Netflix не просто выставлял неструктурированный запрос идей, чего многие люди воображают, когда они сначала рассматривают открытый вызов. Скорее, Netflix поставил четкую проблему с простой процедурой оценки: они бросили вызов людям использовать набор из 100 миллионов рейтингов фильмов, чтобы предсказать 3 миллиона рейтингов с рейтингом (рейтинги, которые сделали пользователи, но Netflix не выпустили). Первый человек, создавший алгоритм, который предсказал, что 3 миллиона удерживаемых рейтингов на 10% лучше, чем Cinematch, выиграет миллион долларов. Эта четкая и простая в применении процедура оценки - сравнение прогнозируемых рейтингов с удерживаемыми рейтингами - означает, что приз Netflix был оформлен таким образом, что решения легче проверить, чем произвести; он поставил задачу улучшить Cinematch в проблему, подходящую для открытого вызова.
В октябре 2006 года Netflix выпустила набор данных, содержащий 100 миллионов рейтингов фильмов примерно от 500 000 клиентов (мы рассмотрим последствия конфиденциальности этого выпуска данных в главе 6). Данные Netflix можно концептуализировать как огромную матрицу, которая составляет около 500 000 клиентов на 20 000 фильмов. Внутри этой матрицы было около 100 миллионов оценок по шкале от одной до пяти звезд (таблица 5.2). Задача состояла в том, чтобы использовать наблюдаемые данные в матрице для прогнозирования 3 миллионов удерживаемых рейтингов.
Фильм 1 | Фильм 2 | Фильм 3 | ... | Фильм 20 000 | |
---|---|---|---|---|---|
Клиент 1 | 2 | 5 | ... | ? | |
Клиент 2 | 2 | ? | ... | 3 | |
Клиент 3 | ? | 2 | ... | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
Клиент 500 000 | ? | 2 | ... | 1 |
Исследователи и хакеры по всему миру были привлечены к этой проблеме, и к 2008 году над ней работало более 30 000 человек (Thompson 2008) . В ходе конкурса Netflix получила более 40 000 предлагаемых решений от более 5000 команд (Netflix 2009) . Очевидно, Netflix не мог читать и понимать все предлагаемые решения. Однако все прошло гладко, потому что решения были легко проверены. Netflix может просто сравнить компьютер с прогнозируемыми рейтингами с оцененными рейтингами с использованием заданной метрики (конкретная метрика, которую они использовали, была квадратным корнем из средней квадратичной ошибки). Именно эта способность быстро оценивала решения, позволяющие Netflix принимать решения от всех, что оказалось важным, потому что хорошие идеи исходили из некоторых удивительных мест. Фактически, победное решение было представлено командой, начатой тремя исследователями, у которых не было опыта создания систем рекомендаций для фильмов (Bell, Koren, and Volinsky 2010) .
Одним из прекрасных аспектов премии Netflix является то, что он позволил справедливо оценивать все предлагаемые решения. То есть, когда люди загружали свои прогнозируемые рейтинги, им не нужно было загружать свои академические верительные грамоты, их возраст, расу, пол, сексуальную ориентацию или что-либо о себе. Прогнозируемые рейтинги известного профессора из Стэнфорда относились точно так же, как к подросткам в ее спальне. К сожалению, это не относится к большинству социальных исследований. То есть для большинства социальных исследований оценка очень трудоемкая и частично субъективная. Таким образом, большинство исследовательских идей никогда серьезно не оцениваются, и когда идеи оцениваются, трудно отделить эти оценки от создателя идей. С другой стороны, проекты открытых вызовов имеют легкую и справедливую оценку, поэтому они могут открывать идеи, которые в противном случае будут упущены.
Например, в какой-то момент во время премии Netflix кто-то с именем Саймона Фанком опубликовал в своем блоге предлагаемое решение, основанное на декомпозиции сингулярных значений, подход от линейной алгебры, который ранее не использовался другими участниками. Сообщение блога Funk было одновременно техническим и странным неофициальным. Было ли это сообщение в блоге, описывающее хорошее решение, или это была пустая трата времени? Вне проекта с открытым вызовом решение, возможно, никогда не получило бы серьезной оценки. В конце концов, Саймон Фанк не был профессором Массачусетского технологического института; он был разработчиком программного обеспечения, который в то время был рюкзаком вокруг Новой Зеландии (Piatetsky 2007) . Если бы он отправил эту идею инженерам в Netflix, это почти наверняка не было бы прочитано.
К счастью, поскольку критерии оценки были четкими и легкими в применении, его прогнозируемые рейтинги оценивались, и было сразу понятно, что его подход был очень сильным: он поднялся на четвертое место в соревновании, что стало огромным результатом, поскольку другие команды уже были много месяцев работая над проблемой. В конце концов, части его подхода использовались практически всеми серьезными конкурентами (Bell, Koren, and Volinsky 2010) .
Тот факт, что Саймон Фанк решил написать сообщение в блоге, объясняющее его подход, вместо того, чтобы пытаться сохранить его в секрете, также иллюстрирует, что многие участники премии Netflix не были исключительно мотивированы премией в миллион долларов. Скорее, многие участники также, казалось, пользовались интеллектуальным вызовом и сообществом, которое развивалось вокруг проблемы (Thompson 2008) , чувства, которые, как я ожидаю, могут понять многие исследователи.
Приз Netflix - классический пример открытого вызова. Netflix задал вопрос с определенной целью (предсказывая рейтинги фильмов) и запросил решения у многих людей. Netflix смог оценить все эти решения, потому что их было легче проверить, чем создавать, и в конечном итоге Netflix выбрал лучшее решение. Затем я покажу вам, как этот же подход можно использовать в биологии и праве и без миллиона долларов.