Netflix Prize bruker åpen samtale for å forutse hvilke filmer folk vil like.
Det mest kjente åpne anropsprosjektet er Netflix-prisen. Netflix er et onlinefilmselskap, og i 2000 lanserte Cinematch, en tjeneste for å anbefale filmer til kunder. For eksempel kan Cinematch merke at du likte Star Wars og The Empire Strikes Back, og deretter anbefale at du ser Retur av Jedi . I utgangspunktet fungerte Cinematch dårlig. Men i løpet av mange år fortsatte den å forbedre sin evne til å forutsi hvilke filmer kundene ville ha glede av. Innen 2006 hadde imidlertid fremdriften på Cinematch platået. Forskerne ved Netflix hadde prøvd stort sett alt de kunne tenke på, men samtidig mistenkte de at det var andre ideer som kunne hjelpe dem med å forbedre systemet. Dermed kom de opp med det som på den tiden var en radikal løsning: en åpen samtale.
Kritisk til den endelige suksessen til Netflix-prisen var hvordan det åpne samtalen ble utformet, og dette designet har viktige leksjoner for hvordan åpne samtaler kan brukes til samfunnsforskning. Netflix lagde ikke bare ut en ustrukturert forespørsel om ideer, noe som mange mennesker forestiller seg når de først ser på et åpent anrop. Netflix utgjorde et klart problem med en enkel evalueringsprosedyre: de utfordret folk til å bruke et sett på 100 millioner filmkarakterer for å forutsi 3 millioner utestengte karakterer (rangeringer som brukerne hadde gjort, men Netflix slettet ikke). Den første personen til å lage en algoritme som forutslo 3 millioner utholdte ratinger 10% bedre enn Cinematch ville vinne en million dollar. Denne klare og enkle å anvende evalueringsprosedyre - sammenligne forventede rangeringer med utestengte ratinger - betydde at Netflix-prisen var innrammet på en slik måte at løsninger var enklere å kontrollere enn å generere; det ble utfordringen med å forbedre Cinematch til et problem som passer for en åpen samtale.
I oktober 2006 lanserte Netflix et datasett som inneholdt 100 millioner filmkarakterer fra ca 500 000 kunder (vi vil se på privatlivets konsekvenser av denne datafremstillingen i kapittel 6). Netflix-dataene kan konseptualiseres som en stor matrise som er omtrent 500 000 kunder med 20 000 filmer. Innenfor denne matrisen var det rundt 100 millioner rangeringer på en skala fra en til fem stjerner (tabell 5.2). Utfordringen var å bruke de observerte dataene i matrisen for å forutsi 3 millioner utholdte ratinger.
Film 1 | Film 2 | Film 3 | ... | Film 20.000 | |
---|---|---|---|---|---|
Kunde 1 | 2 | 5 | ... | ? | |
Kunde 2 | 2 | ? | ... | 3 | |
Kunde 3 | ? | 2 | ... | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
Kund 500.000 | ? | 2 | ... | 1 |
Forskere og hackere rundt om i verden ble trukket på utfordringen, og i 2008 jobbet mer enn 30.000 mennesker på den (Thompson 2008) . I løpet av konkurransen mottok Netflix mer enn 40 000 foreslåtte løsninger fra over 5000 lag (Netflix 2009) . Selvfølgelig kunne Netflix ikke lese og forstå alle disse foreslåtte løsningene. Hele grepet løp imidlertid jevnt, fordi løsningene var enkle å sjekke. Netflix kan bare ha en datamaskin sammenligne de forutsagte karakterene med de utholdte rangeringer ved hjelp av en forhåndsdefinert metrisk (den spesielle metriske de brukte var kvadratroten av den gjennomsnittlige kvadratfeilen). Det var denne muligheten til raskt å vurdere løsninger som gjorde det mulig for Netflix å godta løsninger fra alle, noe som viste seg å være viktig fordi gode ideer kom fra noen overraskende steder. Faktisk ble den vinnende løsningen sendt av et team startet av tre forskere som ikke hadde noen tidligere erfaring med å bygge (Bell, Koren, and Volinsky 2010) .
Et vakkert aspekt av Netflix-prisen er at det gjorde det mulig å evaluere alle de foreslåtte løsningene. Det vil si når folk lastet opp sine forventede karakterer, behøvde de ikke å laste opp sine akademiske legitimasjon, alder, rase, kjønn, seksuell orientering eller noe om seg selv. De forventede karakterene til en berømt professor fra Stanford ble behandlet nøyaktig det samme som de fra en tenåring i soverommet hennes. Dessverre er dette ikke sant i de fleste sosiale undersøkelser. Det er for de fleste sosiale undersøkelser, evalueringen er svært tidkrevende og delvis subjektiv. Så, de fleste forskningsideer blir aldri seriøst vurdert, og når ideer blir vurdert, er det vanskelig å løsne disse evalueringene fra ideens skaperen. Åpen samtaleprosjekter, derimot, har en rettferdig vurdering, slik at de kan oppdage ideer som ville bli savnet ellers.
For eksempel, på et tidspunkt under Netflix-prisen, opplyste noen med skjermnavnet Simon Funk på bloggen sin en foreslått løsning basert på enverdigverdisnedbrytning, en tilnærming fra lineær algebra som ikke tidligere hadde vært brukt av andre deltakere. Funks blogginnlegg var samtidig teknisk og merkelig uformelt. Var dette blogginnlegget en god løsning, eller var det sløsing med tid? Utenfor et åpent anropsprosjekt, kan løsningen aldri ha fått alvorlig evaluering. Tross alt var Simon Funk ikke en professor ved MIT; han var en programvareutvikler som på den tiden var backpacking rundt New Zealand (Piatetsky 2007) . Hvis han hadde sendt denne ideen til en ingeniør hos Netflix, ville det nesten ikke vært lest.
Heldigvis, fordi evalueringskriteriene var klare og enkle å anvende, ble hans forventede karakterer vurdert, og det var umiddelbart klart at hans tilnærming var veldig kraftig: han raket til fjerdeplass i konkurransen, et enormt resultat gitt at andre lag allerede hadde vært jobber for måneder på problemet. Til slutt ble deler av hans tilnærming benyttet av nesten alle alvorlige konkurrenter (Bell, Koren, and Volinsky 2010) .
Det faktum at Simon Funk valgte å skrive et blogginnlegg som forklarte sin tilnærming, i stedet for å prøve å holde det hemmelig, illustrerer også at mange deltakere i Netflix-prisen ikke var utelukkende motivert av million-dollar-prisen. I stedet syntes mange deltakere å nyte den intellektuelle utfordringen og samfunnet som utviklet seg rundt problemet (Thompson 2008) , følelser som jeg forventer at mange forskere kan forstå.
Netflix-prisen er et klassisk eksempel på en åpen samtale. Netflix stillte et spørsmål med et bestemt mål (forutsi filmkarakterer) og etterspurte løsninger fra mange mennesker. Netflix var i stand til å evaluere alle disse løsningene fordi de var enklere å kontrollere enn å lage, og til slutt valgte Netflix den beste løsningen. Deretter skal jeg vise deg hvordan denne samme tilnærmingen kan brukes i biologi og lov, og uten en million dollar premie.