De Netflix Prize maakt gebruik van open oproep om te voorspellen welke films zullen de mensen willen.
Het meest bekende open call-project is de Netflix-prijs. Netflix is een online verhuurbedrijf voor films en in 2000 lanceerde het Cinematch, een dienst om films aan te bevelen aan klanten. Cinematch zou bijvoorbeeld kunnen opmerken dat je Star Wars en The Empire Strikes Back leuk vond en raad dan aan Return to the Jedi te bekijken . Aanvankelijk werkte Cinematch slecht. Maar in de loop van vele jaren bleef het zijn vermogen verbeteren om te voorspellen welke films klanten zouden genieten. In 2006 was de vooruitgang op Cinematch echter wel gegroeid. De onderzoekers van Netflix hadden vrijwel alles geprobeerd wat ze konden bedenken, maar tegelijkertijd vermoedden ze dat er andere ideeën waren die hen konden helpen hun systeem te verbeteren. Zo kwamen ze op de proppen met wat destijds een radicale oplossing was: een open roeping.
Cruciaal voor het uiteindelijke succes van de Netflix-prijs was de manier waarop de open call werd ontworpen en dit ontwerp heeft belangrijke lessen voor hoe open oproepen kunnen worden gebruikt voor sociaal onderzoek. Netflix heeft niet alleen een ongestructureerd verzoek om ideeën uitgedeeld, wat veel mensen zich voorstellen wanneer ze voor het eerst een open call overwegen. In plaats daarvan stelde Netflix een duidelijk probleem met een eenvoudige evaluatieprocedure: ze daagden mensen uit om een set van 100 miljoen filmbeoordelingen te gebruiken om 3 miljoen uithoudingspercentages te voorspellen (beoordelingen die gebruikers hadden gemaakt maar die Netflix niet vrijgaf). De eerste persoon die een algoritme heeft gemaakt dat voorspeld heeft dat de 3 miljoen uitgeleende ratings 10% beter zijn dan Cinematch, zou een miljoen dollar winnen. Deze duidelijke en eenvoudig toe te passen evaluatieprocedure - het vergelijken van voorspelde beoordelingen met uitgestelde beoordelingen - betekende dat de Netflix-prijs zo was ingekaderd dat oplossingen eenvoudiger te controleren waren dan te genereren; het werd de uitdaging om Cinematch te verbeteren tot een probleem dat geschikt is voor een open call.
In oktober 2006 heeft Netflix een dataset uitgebracht met 100 miljoen filmbeoordelingen van ongeveer 500.000 klanten (we zullen de privacyimplicaties van deze gegevensversie in hoofdstuk 6 bespreken). De Netflix-gegevens kunnen worden geconceptualiseerd als een enorme matrix die ongeveer 500.000 klanten vertegenwoordigt bij 20.000 films. Binnen deze matrix waren er ongeveer 100 miljoen beoordelingen op een schaal van één tot vijf sterren (tabel 5.2). De uitdaging was om de geobserveerde gegevens in de matrix te gebruiken om de 3 miljoen uitgesloten ratings te voorspellen.
Film 1 | Film 2 | Film 3 | ... | Film 20.000 | |
---|---|---|---|---|---|
Klant 1 | 2 | 5 | ... | ? | |
Klant 2 | 2 | ? | ... | 3 | |
Klant 3 | ? | 2 | ... | ||
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
Klant 500.000 | ? | 2 | ... | 1 |
Onderzoekers en hackers over de hele wereld kwamen voor de uitdaging en in 2008 werkten meer dan 30.000 mensen eraan (Thompson 2008) . Tijdens de wedstrijd ontving Netflix meer dan 40.000 voorgestelde oplossingen van meer dan 5.000 teams (Netflix 2009) . Uiteraard kon Netflix al deze voorgestelde oplossingen niet lezen en begrijpen. Het hele ding verliep soepel, omdat de oplossingen eenvoudig te controleren waren. Netflix kan alleen een computer hebben om de voorspelde waarden te vergelijken met de uitgestelde beoordelingen met een vooraf gespecificeerde waarde (de specifieke metriek die ze gebruikten was de vierkantswortel van de gemiddelde kwadratische fout). Het was dit vermogen om snel oplossingen te evalueren waarmee Netflix oplossingen van iedereen kon accepteren, wat belangrijk bleek te zijn omdat goede ideeën voortkwamen uit enkele verrassende plaatsen. De winnende oplossing werd zelfs ingediend door een team dat was opgericht door drie onderzoekers die geen eerdere ervaring hadden met het bouwen van (Bell, Koren, and Volinsky 2010) .
Een mooi aspect van de Netflix-prijs is dat alle voorgestelde oplossingen eerlijk konden worden geëvalueerd. Dat wil zeggen, wanneer mensen hun voorspelde beoordelingen uploadden, hoefden ze hun academische referenties, hun leeftijd, ras, geslacht, seksuele geaardheid of iets over zichzelf niet te uploaden. De voorspelde cijfers van een beroemde professor uit Stanford werden precies hetzelfde behandeld als die van een tiener in haar slaapkamer. Helaas is dit niet waar in de meeste sociale onderzoeken. Dat wil zeggen, voor het meeste sociale onderzoek is evaluatie erg tijdrovend en gedeeltelijk subjectief. De meeste onderzoeksideeën worden dus nooit serieus beoordeeld en wanneer ideeën worden geëvalueerd, is het moeilijk om die evaluaties los te koppelen van de maker van de ideeën. Open call-projecten, aan de andere kant, hebben een gemakkelijke en eerlijke evaluatie, zodat ze ideeën kunnen ontdekken die anders gemist zouden worden.
Op een gegeven moment bijvoorbeeld tijdens de Netflix-prijs, plaatste iemand met de schermnaam Simon Funk op zijn blog een voorgestelde oplossing op basis van een singuliere waarde-decompositie, een benadering uit lineaire algebra die niet eerder door andere deelnemers was gebruikt. De blogpost van Funk was tegelijkertijd technisch en weirdly informeel. Was deze blogpost een goede oplossing of was het tijdverspilling? Buiten een open call-project heeft de oplossing misschien nooit een serieuze evaluatie gekregen. Immers, Simon Funk was geen professor aan het MIT; hij was een softwareontwikkelaar die op dat moment backpacken door Nieuw-Zeeland (Piatetsky 2007) . Als hij dit idee had gemaild naar een technicus op Netflix, zou het vrijwel zeker niet zijn gelezen.
Gelukkig, omdat de evaluatiecriteria duidelijk en gemakkelijk toe te passen waren, werden zijn voorspelde scores geëvalueerd, en het was meteen duidelijk dat zijn aanpak zeer krachtig was: hij schreed op naar de vierde plaats in de competitie, een geweldig resultaat aangezien andere teams al waren maandenlang werken aan het probleem. Uiteindelijk werden delen van zijn aanpak gebruikt door vrijwel alle serieuze concurrenten (Bell, Koren, and Volinsky 2010) .
Het feit dat Simon Funk ervoor koos om een blogpost te schrijven waarin hij zijn aanpak toelichtte, in plaats van te proberen het geheim te houden, illustreert ook dat veel deelnemers aan de Netflix-prijs niet uitsluitend werden gemotiveerd door de miljoen-dollarprijs. Integendeel, veel deelnemers leken ook te genieten van de intellectuele uitdaging en de gemeenschap die zich rondom het probleem ontwikkelde (Thompson 2008) , gevoelens waarvan ik verwacht dat veel onderzoekers het kunnen begrijpen.
De Netflix-prijs is een klassiek voorbeeld van een open oproep. Netflix stelde een vraag met een specifiek doel (het voorspellen van filmbeoordelingen) en gezochte oplossingen van veel mensen. Netflix kon al deze oplossingen evalueren omdat ze gemakkelijker te controleren waren dan te maken en uiteindelijk koos Netflix voor de beste oplossing. Vervolgens zal ik je laten zien hoe deze zelfde benadering kan worden gebruikt in biologie en wetgeving, en zonder een miljoen-dollar prijs.