El Premio Netflix utiliza convocatoria abierta para predecir qué películas la gente le gusta.
El proyecto de llamada abierta más conocido es el Premio Netflix. Netflix es una compañía de alquiler de películas en línea, y en 2000 lanzó Cinematch, un servicio para recomendar películas a los clientes. Por ejemplo, Cinematch podría notar que te gustaron Star Wars y The Empire Strikes Back y luego recomendar que veas Return of the Jedi . Inicialmente, Cinematch funcionó mal. Pero, en el transcurso de muchos años, continuó mejorando su capacidad para predecir qué películas disfrutarían los clientes. En 2006, sin embargo, el progreso en Cinematch se había estancado. Los investigadores de Netflix habían intentado casi todo lo que podían pensar, pero, al mismo tiempo, sospechaban que había otras ideas que podrían ayudarlos a mejorar su sistema. Por lo tanto, se les ocurrió lo que era, en ese momento, una solución radical: una llamada abierta.
Lo fundamental para el éxito final del Premio Netflix fue cómo se diseñó la convocatoria abierta, y este diseño tiene lecciones importantes sobre cómo las llamadas abiertas pueden usarse para la investigación social. Netflix no solo presentó una solicitud desestructurada de ideas, que es lo que muchas personas imaginan cuando consideran por primera vez una llamada abierta. Más bien, Netflix planteó un claro problema con un procedimiento de evaluación simple: desafiaron a las personas a utilizar un conjunto de 100 millones de calificaciones de películas para predecir 3 millones de clasificaciones retenidas (clasificaciones que los usuarios habían hecho pero que Netflix no lanzó). La primera persona en crear un algoritmo que predijo los 3 millones de clasificaciones retenidas un 10% mejor que Cinematch ganaría un millón de dólares. Este procedimiento de evaluación claro y fácil de aplicar, que compara las calificaciones pronosticadas con las clasificaciones retenidas, significó que el Premio Netflix se enmarcó de tal manera que las soluciones eran más fáciles de verificar que generar; convirtió el reto de mejorar Cinematch en un problema adecuado para una llamada abierta.
En octubre de 2006, Netflix lanzó un conjunto de datos que contiene 100 millones de clasificaciones de películas de alrededor de 500,000 clientes (consideraremos las implicaciones de privacidad de este lanzamiento de datos en el capítulo 6). Los datos de Netflix se pueden conceptualizar como una enorme matriz de aproximadamente 500,000 clientes por 20,000 películas. Dentro de esta matriz, había alrededor de 100 millones de calificaciones en una escala de una a cinco estrellas (tabla 5.2). El desafío fue utilizar los datos observados en la matriz para predecir los 3 millones de clasificaciones retenidas.
Película 1 | Película 2 | Película 3 | ... | Película 20,000 | |
---|---|---|---|---|---|
Cliente 1 | 2 | 5 | ... | ? | |
Cliente 2 | 2 | ? | ... | 3 | |
Cliente 3 | ? | 2 | ... | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
Cliente 500,000 | ? | 2 | ... | 1 |
Los investigadores y piratas informáticos de todo el mundo se sintieron atraídos por el desafío, y en 2008 más de 30,000 personas estaban trabajando en él (Thompson 2008) . En el transcurso del concurso, Netflix recibió más de 40,000 soluciones propuestas de más de 5,000 equipos (Netflix 2009) . Obviamente, Netflix no podía leer y entender todas estas soluciones propuestas. Todo se desarrolló sin problemas, sin embargo, porque las soluciones eran fáciles de verificar. Netflix podría simplemente hacer que una computadora comparara las calificaciones pronosticadas con las clasificaciones extendidas usando una métrica preespecificada (la métrica particular que usaron fue la raíz cuadrada del error cuadrático medio). Fue esta capacidad para evaluar rápidamente soluciones que permitieron a Netflix aceptar soluciones de todos, lo que resultó ser importante porque las buenas ideas provenían de algunos lugares sorprendentes. De hecho, la solución ganadora fue presentada por un equipo iniciado por tres investigadores que no tenían experiencia previa en la creación de sistemas de recomendación de películas (Bell, Koren, and Volinsky 2010) .
Un aspecto hermoso del Premio Netflix es que permitió que todas las soluciones propuestas se evaluaran de manera justa. Es decir, cuando las personas subían sus calificaciones previstas, no necesitaban cargar sus credenciales académicas, su edad, raza, sexo, orientación sexual ni nada sobre sí mismos. Los valores predichos de un famoso profesor de Stanford fueron tratados exactamente como los de un adolescente en su dormitorio. Desafortunadamente, esto no es cierto en la mayoría de las investigaciones sociales. Es decir, para la mayoría de las investigaciones sociales, la evaluación consume mucho tiempo y es parcialmente subjetiva. Por lo tanto, la mayoría de las ideas de investigación nunca se evalúan seriamente, y cuando se evalúan las ideas, es difícil separar esas evaluaciones del creador de las ideas. Los proyectos de convocatoria abierta, por otro lado, tienen una evaluación fácil y justa para que puedan descubrir ideas que de otro modo se perderían.
Por ejemplo, en un momento durante el Premio Netflix, alguien con el nombre de pantalla Simon Funk publicó en su blog una solución propuesta basada en una descomposición de valores singulares, un enfoque del álgebra lineal que no había sido utilizado anteriormente por otros participantes. La publicación de blog de Funk era a la vez técnica y extrañamente informal. ¿Esta publicación de blog describía una buena solución o era una pérdida de tiempo? Fuera de un proyecto de convocatoria abierta, es posible que la solución nunca haya recibido una evaluación seria. Después de todo, Simon Funk no era profesor en el MIT; él era un desarrollador de software que, en ese momento, estaba (Piatetsky 2007) mochila por Nueva Zelanda (Piatetsky 2007) . Si le hubiera enviado esta idea por correo electrónico a un ingeniero de Netflix, seguramente no se habría leído.
Afortunadamente, debido a que los criterios de evaluación eran claros y fáciles de aplicar, se evaluaron sus clasificaciones previstas, y fue instantáneamente claro que su enfoque fue muy poderoso: se disparó al cuarto lugar en la competencia, un resultado tremendo dado que otros equipos ya habían sido trabajando durante meses en el problema. Al final, prácticamente todos los competidores serios usaron partes de su enfoque (Bell, Koren, and Volinsky 2010) .
El hecho de que Simon Funk eligió escribir una publicación de blog explicando su enfoque, en lugar de tratar de mantenerlo en secreto, también ilustra que muchos participantes en el Premio Netflix no fueron motivados exclusivamente por el premio de un millón de dólares. Por el contrario, muchos participantes también parecían disfrutar el desafío intelectual y la comunidad que se desarrolló alrededor del problema (Thompson 2008) , sentimientos que espero que muchos investigadores puedan entender.
El Premio Netflix es un ejemplo clásico de una llamada abierta. Netflix planteó una pregunta con un objetivo específico (predicción de calificaciones de películas) y solicitó soluciones de muchas personas. Netflix pudo evaluar todas estas soluciones porque eran más fáciles de verificar que de crear y, en última instancia, Netflix eligió la mejor solución. A continuación, le mostraré cómo se puede usar este mismo enfoque en biología y derecho, y sin un premio de un millón de dólares.