4.2 Vad är experiment?

Denna översättning skapades av en dator. ×

4.2 Vad är experiment?

Randomiserade kontrollerade experiment har fyra huvudingredienser: rekrytering av deltagare, randomisering av behandling, leverans av behandling, och mätning av resultat.

Randomiserade kontrollerade experiment har fyra huvudingredienser: rekrytering av deltagare, randomisering av behandling, behandling av behandling och mätning av resultat. Den digitala tiden förändrar inte experimentets grundläggande karaktär, men det gör det lättare att logga. Till exempel kan det ha varit svårt att mäta miljontals beteenden, men det händer nu rutinmässigt i många digitala system. Forskare som kan räkna ut hur man utnyttjar dessa nya möjligheter kommer att kunna köra experiment som tidigare var omöjliga.

För att göra allt lite mer konkret - både vad som har stannat detsamma och det som har förändrats - låt oss överväga ett experiment av Michael Restivo och Arnout van de Rijt (2012) . De ville förstå effekten av informella peerbelöningar på redaktionella bidrag till Wikipedia. I synnerhet studerade de effekterna av barnstars , en pris som någon Wikipedian kan ge till någon annan Wikipedian för att erkänna hårt arbete och due diligence. Restivo och van de Rijt gav barnstars till 100 förtjänar Wikipedians. Därefter spårade de mottagarens efterföljande bidrag till Wikipedia under de närmaste 90 dagarna. Mycket till deras förvåning tenderade folket till vilka de tilldelade barnstars att göra färre ändringar efter att ha fått en. Barnstarsna var med andra ord avskräckande än att uppmuntra bidrag.

Lyckligtvis körde inte Restivo och van de Rijt ett "störande och observerande" experiment; De körde ett randomiserat kontrollerat experiment. Så, förutom att välja 100 bästa bidragsgivare för att få en barnstjärna, valde de också 100 toppbidragare till vilka de inte gav en. Dessa 100 tjänade som en kontrollgrupp. Och kritiskt var vem som var i behandlingsgruppen och som var i kontrollgruppen bestämd slumpmässigt.

När Restivo och van de Rijt tittade på beteendet hos personer i kontrollgruppen fann de att deras bidrag också sjönk. Vidare, när Restivo och van de Rijt jämförde personer i behandlingsgruppen (dvs. mottagna barnstars) till personer i kontrollgruppen, fann de att personer i behandlingsgruppen bidrog med cirka 60% mer. Med andra ord var de båda gruppernas bidrag avlidande, men kontrollgruppen gjorde så mycket snabbare.

Som denna studie illustrerar är kontrollgruppen i experiment kritisk på ett sätt som är något paradoxalt. För att noggrant mäta effekten av barnstars, behövde Restivo och van de Rijt att observera personer som inte fick barnstars. Många gånger misslyckas forskare som inte är bekant med experiment att uppskatta det otroliga värdet av kontrollgruppen. Om Restivo och van de Rijt inte hade haft någon kontrollgrupp skulle de ha dragit exakt den felaktiga slutsatsen. Kontrollgrupper är så viktiga att verkställande direktören för ett större kasinoföretag har sagt att det bara finns tre sätt att anställda kan avfyras från hans företag: för stöld, sexuella trakasserier eller för att utföra ett experiment utan en kontrollgrupp (Schrage 2011) .

Restivo och van de Rijts studie illustrerar de fyra viktigaste ingredienserna i ett experiment: rekrytering, randomisering, intervention och resultat. Tillsammans tillåter dessa fyra ingredienser att forskare flyttar sig bortom korrelationer och mäter orsakssambandet av behandlingar. Specifikt innebär randomisering att personer i behandlings- och kontrollgrupperna kommer att likna varandra. Detta är viktigt eftersom det innebär att någon skillnad i utfallet mellan de två grupperna kan hänföras till behandlingen och inte en confounder.

Förutom att vara en bra illustration av experimentens mekanik visar också Restivo och van de Rijts studie att logistik av digitala experiment kan vara helt annorlunda än för analoga experiment. I Restivo och van de Rijts experiment var det lätt att ge barnstjärnan till någon, och det var lätt att spåra resultatet-antal redigeringar över en längre tid (eftersom redigeringshistoriken spelas in automatiskt av Wikipedia). Denna förmåga att leverera behandlingar och mäta resultat utan kostnad är kvalitativt till skillnad från experiment tidigare. Även om detta experiment involverade 200 personer kunde det ha körts med 2000 eller till och med 20 000 personer. Det viktigaste att hindra forskarna från att skala upp experimentet med en faktor 100 var inte kostnaden. det var etik. Det vill säga, Restivo och van de Rijt ville inte ge barnstars till oönskande redaktörer, och de ville inte att deras experiment skulle störa Wikipedia-samhället (Restivo and Rijt 2012, 2014) . Jag återkommer till några av de etiska överväganden som uppstod av experiment senare i detta kapitel och i kapitel 6.

Sammanfattningsvis visar experimentet i Restivo och van de Rijt tydligt att medan experimentens grundläggande logik inte har förändrats kan logistiken i digitala åldersexperiment vara dramatiskt annorlunda. För att tydligare isolera de möjligheter som skapas av dessa förändringar jämför jag de experiment som forskare kan göra nu med de typer av experiment som har gjorts tidigare.