Randomiserade kontrollerade experiment har fyra huvudingredienser: rekrytering av deltagare, randomisering av behandling, leverans av behandling, och mätning av resultat.
Randomiserade kontrollerade experiment kan ta många former och kan användas för att studera många typer av beteenden. Men, i sin kärna, randomiserade kontrollerade experiment har fyra huvudingredienser: rekrytering av deltagare, randomisering av behandling, leverans av behandling, och mätning av resultat. Den digitala eran ändrar inte den grundläggande karaktären av experiment, men det gör dem lättare logistiskt. Till exempel i det tidigare kan ha varit svårt att mäta beteendet hos miljontals människor, men som nu rutinmässigt sker i många digitala system. Forskare som kan räkna ut hur man kan utnyttja dessa nya möjligheter kommer att kunna köra experiment som var omöjligt tidigare.
För att göra allt detta lite mer konkret, både vad som stannade samma och vad som har ändrats, låt oss betrakta Michael Restivo och Arnout van de Rijt s (2012) . Forskarna ville förstå effekten av informella inbördes belöningar på redaktionella bidrag till Wikipedia. I synnerhet de studerade effekterna av barnstars, en utmärkelse som varje Wikipedian kan ge till någon annan Wikipedian att erkänna hårt arbete och due diligence. Restivo och van de Rijt gav barnstars till 100 meriterade wikipedianer. Då Restivo och van de Rijt spårade mottagarnas vidare bidrag till Wikipedia under de närmaste 90 dagarna. Men till deras förvåning, de människor som de tilldelas barnstars tenderade att göra färre ändringar efter att ha fått en. Med andra ord, verkade de barnstars som skall avskräcka snarare än att främja bidrag.
Lyckligtvis Restivo och van de Rijt inte köra en "störa och observera" experiment; de körde en randomiserad kontrollerad experiment. Så, förutom att välja 100 bästa bidragsgivarna att få en barnstar, de plockade också 100 bästa bidragsgivarna som de inte ger en barnstar. Dessa hundra tjänade som en kontrollgrupp, och som fick en barnstar och som inte bestämdes slumpmässigt. När Restivo och van de Rijt tittade på kontrollgruppen fann de att det hade en brant nedgång i bidrag också. Slutligen, när forskarna jämförde personer i behandlingsgruppen (dvs fick barnstars) och personer i kontrollgruppen, fann de att barnstar orsakade redaktörer att bidra med cirka 60% mer. Men var denna ökning av bidraget sker som en del av en allmän nedgång i båda grupperna.
Som denna studie visar, är kontrollgruppen i experiment kritiskt på ett sätt som är något paradoxal. För att exakt mäta effekten av barnstars, Restivo och van der Rijt behövs för att observera människor som inte får barnstars. Många gånger forskare som inte är bekant med experiment misslyckas med att uppskatta den otroliga värdet för kontrollgruppen. Om Restivo och van de Rijt inte hade en kontrollgrupp, skulle de ha dragit exakt fel slutsats. Kontrollgrupper är så viktigt att VD för ett stort kasino företaget har sagt att det bara finns tre sätt att de anställda kan avfyras från sitt företag: stöld, sexuella trakasserier, och kör ett experiment utan kontrollgruppen (Schrage 2011) .
Restivo och van de Rijt studie visar de fyra huvudingredienserna i ett experiment: rekrytering, randomisering, ingripande och utfall. Tillsammans utgör dessa fyra ingredienser tillåta forskare att gå längre än korrelationer och mäta kausal effekt av behandlingar. Specifikt innebär randomisering att när man jämför resultaten för behandlings- och kontrollgrupper du få en uppskattning av den kausala effekten av denna intervention för den uppsättning deltagare. Med andra ord, med en randomiserad kontrollerad experiment kan man vara säker på att eventuella skillnader i resultat orsakas av interventions och inte en confounder, ett påstående som jag gör exakt i det tekniska tillägget att använda ramarna för möjliga utfall.
Förutom att vara en fin illustration av mekaniken i experiment visar Restivo och van de Rijt studie också att logistiken för digitala experiment kan vara helt annorlunda från analoga experiment. I Restivo och van de Rijt experiment, var det lätt att ge barnstar till någon i världen och det var lätt att spåra resultat antalet redigeringar-over en längre tid (eftersom historiken registreras automatiskt av Wikipedia). Denna förmåga att leverera behandlingar och mäta resultaten utan kostnad är kvalitativt till skillnad från experiment i det förflutna. Även detta experiment involverade 200 personer, det kunde ha körts med 2.000 eller 20.000 personer. Det viktigaste att förhindra forskarna från att skala upp deras experiment med en faktor av 100 var inte kosta, var det etik. Det vill säga, Restivo och van de Rijt ville inte ge barnstars till undeserving redaktörer och de inte vill att deras experiment för att störa Wikipedia samhället (Restivo and Rijt 2012; Restivo and Rijt 2014) . Så även om experimentet med Restivo och van de Rijt är relativt enkel, tydligt visar det sig att vissa saker om försök har stannat samma och en del har förändrats. I synnerhet, är den grundläggande logiken i experimenterande samma, men logistiken har förändrats. Nästa, i syfte att tydligare isolera de möjligheter som skapas av denna förändring, kommer jag jämföra experiment som forskarna kan göra nu vilka typer av experiment som har gjorts i det förflutna.