O Prêmio Netflix usa a chamada aberta para prever quais filmes as pessoas vão gostar.
O projeto de chamada aberta mais conhecido é o Prêmio Netflix. A Netflix é uma empresa de aluguel de filmes on-line e, em 2000, lançou o Cinematch, um serviço para recomendar filmes aos clientes. Por exemplo, Cinematch pode notar que você gostou de Star Wars e The Empire Strikes Back e então recomenda que você assista o Return of the Jedi . Inicialmente, o Cinematch funcionou mal. Mas, ao longo de muitos anos, continuou a melhorar sua capacidade de prever quais filmes os clientes gostariam. Em 2006, no entanto, o progresso na Cinematch havia estabilizado. Os pesquisadores da Netflix tentaram praticamente tudo o que puderam pensar, mas, ao mesmo tempo, suspeitaram que havia outras ideias que poderiam ajudá-los a melhorar seu sistema. Assim, eles criaram o que era, na época, uma solução radical: uma chamada aberta.
Crítico para o eventual sucesso do Prêmio Netflix foi como a chamada aberta foi projetada, e este projeto tem lições importantes sobre como as chamadas abertas podem ser usadas para pesquisa social. A Netflix não fez apenas um pedido não estruturado de ideias, que é o que muitas pessoas imaginam quando consideram uma chamada aberta pela primeira vez. Em vez disso, o Netflix apresentou um problema claro com um procedimento de avaliação simples: eles desafiavam as pessoas a usar um conjunto de 100 milhões de classificações de filmes para prever 3 milhões de avaliações (avaliações feitas pelos usuários, mas que o Netflix não divulgou). A primeira pessoa a criar um algoritmo que previa que os 3 milhões de avaliações retidas em 10% melhor do que a Cinematch ganharia um milhão de dólares. Esse procedimento de avaliação claro e fácil de aplicar - comparando os ratings previstos com os ratings retidos - significava que o Prêmio Netflix era estruturado de tal maneira que as soluções eram mais fáceis de verificar do que gerar; Ele transformou o desafio de melhorar o Cinematch em um problema adequado para uma chamada aberta.
Em outubro de 2006, a Netflix lançou um conjunto de dados contendo 100 milhões de classificações de filmes de cerca de 500.000 clientes (consideraremos as implicações de privacidade deste lançamento de dados no capítulo 6). Os dados da Netflix podem ser conceituados como uma matriz enorme que é de aproximadamente 500.000 clientes em 20.000 filmes. Dentro dessa matriz, havia cerca de 100 milhões de avaliações em uma escala de uma a cinco estrelas (tabela 5.2). O desafio era usar os dados observados na matriz para prever os 3 milhões de ratings retidos.
Filme 1 | Filme 2 | Filme 3 | … | Filme 20.000 | |
---|---|---|---|---|---|
Cliente 1 | 2 | 5 | … | ? | |
Cliente 2 | 2 | ? | … | 3 | |
Cliente 3 | ? | 2 | … | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
Cliente 500.000 | ? | 2 | … | 1 |
Pesquisadores e hackers de todo o mundo foram atraídos pelo desafio e, em 2008, mais de 30.000 pessoas estavam trabalhando nisso (Thompson 2008) . Ao longo do concurso, a Netflix recebeu mais de 40.000 soluções propostas de mais de 5.000 equipes (Netflix 2009) . Obviamente, a Netflix não pôde ler e entender todas essas soluções propostas. A coisa toda correu bem, no entanto, porque as soluções eram fáceis de verificar. A Netflix poderia simplesmente ter um computador comparar os ratings previstos com as classificações em espera usando uma métrica pré-especificada (a métrica específica usada era a raiz quadrada do erro quadrático médio). Foi essa capacidade de avaliar rapidamente as soluções que permitiram que a Netflix aceitasse soluções de todos, o que acabou sendo importante, porque boas ideias vieram de lugares surpreendentes. De fato, a solução vencedora foi apresentada por uma equipe iniciada por três pesquisadores que não tinham experiência anterior na construção de sistemas de recomendação de filmes (Bell, Koren, and Volinsky 2010) .
Um belo aspecto do Prêmio Netflix é que ele permitiu que todas as soluções propostas fossem avaliadas de forma justa. Ou seja, quando as pessoas fizeram o upload de suas avaliações previstas, elas não precisaram fazer o upload de suas credenciais acadêmicas, idade, raça, sexo, orientação sexual ou qualquer coisa sobre si mesmas. As classificações previstas de um famoso professor de Stanford foram tratadas exatamente da mesma forma que as de uma adolescente em seu quarto. Infelizmente, isso não é verdade na maioria das pesquisas sociais. Isto é, para a maioria das pesquisas sociais, a avaliação é muito demorada e parcialmente subjetiva. Assim, a maioria das ideias de pesquisa nunca é seriamente avaliada e, quando as ideias são avaliadas, é difícil separar essas avaliações do criador das ideias. Os projetos abertos, por outro lado, têm uma avaliação fácil e justa para que possam descobrir idéias que seriam perdidas de outra forma.
Por exemplo, em um ponto durante o Prêmio Netflix, alguém com o nome de tela Simon Funk postou em seu blog uma solução proposta baseada em uma decomposição de valor singular, uma abordagem da álgebra linear que não havia sido usada anteriormente por outros participantes. O post do blog de Funk era simultaneamente técnico e estranhamente informal. Este post do blog descrevia uma boa solução ou era uma perda de tempo? Fora de um projeto de chamada aberta, a solução pode nunca ter recebido uma avaliação séria. Afinal, Simon Funk não era professor do MIT; Ele era um desenvolvedor de software que, na época, estava (Piatetsky 2007) pela Nova Zelândia (Piatetsky 2007) . Se ele tivesse enviado essa idéia para um engenheiro da Netflix, quase certamente não teria sido lido.
Felizmente, como os critérios de avaliação eram claros e fáceis de aplicar, suas classificações previstas foram avaliadas, e ficou claro que sua abordagem era muito poderosa: ele subiu para o quarto lugar na competição, um tremendo resultado, já que outras equipes já haviam sido trabalhando por meses no problema. No final, partes de sua abordagem foram usadas por praticamente todos os concorrentes sérios (Bell, Koren, and Volinsky 2010) .
O fato de Simon Funk ter escolhido escrever um post explicando sua abordagem, em vez de tentar mantê-lo em segredo, também ilustra que muitos participantes do Prêmio Netflix não foram exclusivamente motivados pelo prêmio de um milhão de dólares. Em vez disso, muitos participantes também pareciam gostar do desafio intelectual e da comunidade que se desenvolveu em torno do problema (Thompson 2008) , sentimentos que eu espero que muitos pesquisadores possam entender.
O Prêmio Netflix é um exemplo clássico de uma chamada aberta. A Netflix fez uma pergunta com um objetivo específico (prever classificações de filmes) e solicitou soluções de muitas pessoas. A Netflix pôde avaliar todas essas soluções porque elas eram mais fáceis de verificar do que criar e, finalmente, a Netflix escolheu a melhor solução. Em seguida, mostrarei como essa mesma abordagem pode ser usada na biologia e na lei e sem um prêmio de um milhão de dólares.