Lab experiment ger kontroll, fältförsök erbjuda realism, och digitala fältförsök kombinerar kontroll och realism i stor skala.
Experiment finns i många olika former och storlekar. Tidigare har forskare funnit det bra att organisera experiment längs ett kontinuum mellan laboratorieexperiment och fältförsök . Nu ska forskare också organisera experiment längs ett andra kontinuum mellan analoga experiment och digitala experiment . Detta tvådimensionella designutrymme hjälper dig att förstå styrkorna och svagheterna i olika tillvägagångssätt och lyfta fram de största möjligheterna (figur 4.1).
En dimension längs vilka experiment kan organiseras är labfältets dimension. Många experiment inom samhällsvetenskapen är laboratorieexperiment där studenter gör utmärkta uppgifter i ett laboratorium för kurskredit. Denna typ av experiment dominerar forskning i psykologi eftersom det gör det möjligt för forskare att skapa högt kontrollerade inställningar för att exakt isolera och testa specifika teorier om socialt beteende. För vissa problem känns det dock något konstigt att dra starka slutsatser om mänskligt beteende från sådana ovanliga människor som utför sådana ovanliga uppgifter i en sådan ovanlig miljö. Dessa problem har lett till en rörelse mot fältförsök . Fältförsök kombinerar den starka utformningen av randomiserade kontrollexperiment med mer representativa grupper av deltagare som utför mer vanliga uppgifter i mer naturliga miljöer.
Även om vissa människor tänker på laboratorie- och fältförsök som konkurrerande metoder är det bäst att tänka på dem som komplementära, med olika styrkor och svagheter. Correll, Benard, and Paik (2007) använde till exempel både ett laboratorieexperiment och ett fältförsök i ett försök att hitta källorna till "moderskapsstraff." I USA tjänar mammor mindre pengar än barnlösa kvinnor, även när jämföra kvinnor med liknande färdigheter som arbetar i liknande jobb. Det finns många möjliga förklaringar för detta mönster, varav en är att arbetsgivare är partisk mot mödrar. (Intressant är det motsatsen som förefaller vara sant för fäderna: De tenderar att tjäna mer än jämförbara barnlösa män.) För att kunna bedöma eventuell fördom mot mödrar, körde Correll och kollegor två experiment: en i labbet och en i fältet.
Först i ett laboratorieexperiment berättade de för deltagare, vilka var universitetsexaminerare, att ett företag utför en anställningssökning för en person att leda sin nya marknadschef för East Coast. Eleverna fick höra att företaget ville ha hjälp i anställningsförfarandet och de blev ombedda att granska återupptag av flera potentiella kandidater och att betygsätta kandidaterna på ett antal dimensioner, såsom intelligens, värme och engagemang för arbete. Vidare frågades eleverna om de skulle rekommendera att anställa sökanden och vad de skulle rekommendera som startlön. Omöjligt för studenterna var emellertid resuméerna speciellt konstruerade för att vara likartade med undantag för en sak: några av dem signalerade moderskap (genom deltagande i föräldrarnas förening) och vissa gjorde det inte. Correll och kollegor fann att eleverna var mindre benägna att rekommendera att hyra mödrarna och att de erbjöd dem en lägre startlön. Vidare fann Correll och kollegor genom en statistisk analys av både betygsättningen och de anställningsrelaterade besluten att mödrarnas nackdelar förklarades i stor utsträckning av att de bedömdes lägre vad gäller kompetens och engagemang. Således gav detta laboratorieexperiment Correll och kollegor möjlighet att mäta en kausala effekt och ge en möjlig förklaring till den effekten.
Naturligtvis kan man vara skeptisk till att dra slutsatser om hela den amerikanska arbetsmarknaden utifrån beslut av några hundra akademiker som förmodligen aldrig har haft heltidsjobb, än mindre anlitat någon. Därför genomförde Correll och kollegor också ett kompletterande fältförsök. De svarade på hundratals annonserade jobböppningar med falska omslag och CV. På samma sätt som material som visats till de studerande, återupptas vissa signalerade moderskap och några gjorde det inte. Correll och kollegor fann att mödrarna var mindre benägna att bli kallade till intervjuer än lika kvalificerade barnlösa kvinnor. Med andra ord uppträdde äkta arbetsgivare som följde beslut i en naturlig miljö mycket som undervisarna. Gjorde de samma beslut av samma skäl? Tyvärr vet vi inte. Forskarna kunde inte be arbetsgivarna att bedöma kandidaterna eller förklara sina beslut.
Det här experimentet avslöjar mycket om laboratorie- och fältförsök i allmänhet. Lab experiments erbjuder forskare nästan total kontroll över miljön där deltagare fattar beslut. Så, till exempel, i laboratorieexperimentet kunde Correll och kollegor försäkra sig om att alla återupptas läses i en lugn miljö; i fältförsöket kanske några av CV-ens kanske inte ens har lästs. Eftersom deltagare i laboratorieinställningen vet att de studeras, kan forskare ofta samla in ytterligare data som kan hjälpa till att förklara varför deltagarna fattar sina beslut. Till exempel frågade Correll och kollegor deltagarna i lab-experimentet för att betygsätta kandidaterna i olika dimensioner. Denna typ av processdata kan hjälpa forskare att förstå mekanismerna bakom skillnader i hur deltagarna behandlar CV-dokumenten.
Å andra sidan är dessa exakta samma egenskaper som jag just beskrivit som fördelar ibland betraktad som nackdelar. Forskare som föredrar fältförsök argumenterar för att deltagare i laboratorieexperiment skulle kunna agera mycket annorlunda eftersom de vet att de studeras. Exempelvis kunde deltagarna i gruvförsöket gissa målet för forskningen och ändra sitt beteende för att inte vara förutseende. Vidare kan forskare som föredrar fältförsök argumentera för att små skillnader i återupptagning endast kan utmärka sig i en mycket ren, steril laboratoriemiljö, och därmed kommer laboratorieexperimentet att överskatta effekten av moderskapet på verkliga anställningsbeslut. Slutligen kritiserar många förespråkare av fältexperiment laboratorieexperimenternas beroende av WEIRD-deltagare: främst studenter från västerländska, utbildade, industrialiserade, rika och demokratiska länder (Henrich, Heine, and Norenzayan 2010a) . Experimenten från Correll och kollegor (2007) illustrerar de två ytterligheterna på laboratoriefältets kontinuum. Mellan dessa två ytterligheter finns också en mängd olika hybriddesigner, inklusive tillvägagångssätt som att föra icke-elever in i ett labb eller gå in på fältet men fortfarande ha deltagare att utföra en ovanlig uppgift.
Förutom den lab-fältdimension som existerat tidigare, innebär den digitala tiden att forskare nu har en andra huvuddimension, varav experimenten kan variera: analog-digital. Precis som det finns rena lab experiment, rena fältförsök, och en mängd hybrider däremellan finns det rena analoga experiment, rena digitala experiment och en mängd olika hybrider. Det är knepigt att erbjuda en formell definition av denna dimension, men en användbar definition är att helt digitala experiment är experiment som utnyttjar digital infrastruktur för att rekrytera deltagare, randomisera, leverera behandlingar och mäta resultat. Till exempel var Restivo och van de Rijts (2012) studie av barnstars och Wikipedia ett helt digitalt experiment eftersom det använde digitala system för alla fyra av dessa steg. På samma sätt utnyttjar inte fullständiga analoga experiment digitala infrastrukturer för något av dessa fyra steg. Många av de klassiska experimenten i psykologi är helt analoga experiment. Mellan dessa två ytterligheter finns det delvis digitala experiment som använder en kombination av analoga och digitala system.
När vissa människor tänker på digitala experiment, tänker de omedelbart på online-experiment. Detta är olyckligt eftersom möjligheterna att köra digitala experiment inte bara är online. Forskare kan springa delvis digitala experiment genom att använda digitala enheter i den fysiska världen för att kunna leverera behandlingar eller mäta resultat. Forskare kan till exempel använda smartphones för att leverera behandlingar eller sensorer i den inbyggda miljön för att mäta resultaten. Faktum är att forskare redan har använt hemmätare för att mäta resultaten i experiment om energiförbrukning med 8,5 miljoner hushåll (Allcott 2015) , som vi kommer att se senare i detta kapitel. Eftersom digitala enheter blir alltmer integrerade i människors liv och sensorer integreras i den inbyggda miljön, kommer dessa möjligheter att köra delvis digitala experiment i den fysiska världen att öka dramatiskt. Med andra ord är digitala experiment inte bara online-experiment.
Digitala system skapar nya möjligheter till experiment överallt längs labfältets kontinuum. I rena laboratorieexperiment kan forskare exempelvis använda digitala system för finare mätning av deltagarnas beteende. Ett exempel på denna typ av förbättrad mätning är ögonspårningsutrustning som ger exakta och kontinuerliga mätningar av blickplatsen. Digital ålder skapar också möjligheten att köra lab-liknande experiment online. Forskare har till exempel snabbt antagit Amazon Mechanical Turk (MTurk) för att rekrytera deltagare för online-experiment (figur 4.2). MTurk matchar "arbetsgivare" som har uppgifter som måste fyllas i med "arbetstagare" som önskar slutföra dessa uppgifter för pengar. Till skillnad från traditionella arbetsmarknader krävs emellertid bara de inblandade uppgifterna bara några minuter och hela samspelet mellan arbetsgivare och arbetstagare är online. Eftersom MTurk efterliknar aspekter av traditionella laboratorieexperiment - betalar människor för att slutföra uppgifter som de inte skulle göra gratis - det är naturligt lämpat för vissa typer av experiment. I huvudsak har MTurk skapat infrastrukturen för att hantera en pool av deltagare - rekrytera och betala människor - och forskare har utnyttjat den infrastrukturen för att utnyttja en alltid tillgänglig grupp av deltagare.
Digitala system skapar ännu fler möjligheter för fältliknande experiment. I synnerhet möjliggör de forskare att kombinera de täta kontroll- och processdata som är förknippade med laboratorieexperiment med de mer olika deltagarna och mer naturliga inställningar som hör samman med laboratorieexperiment. Dessutom erbjuder digitala fältförsök tre möjligheter som tenderade att vara svåra i analoga experiment.
För det första, medan de flesta analoga laboratorie- och fältförsök har hundratals deltagare kan digitala fältförsök få miljontals deltagare. Denna skalförändring beror på att vissa digitala experiment kan producera data med noll variabel kostnad. Det är, när forskare har skapat en experimentell infrastruktur, ökar antalet deltagare oftast inte kostnaden. Att öka antalet deltagare med en faktor 100 eller mer är inte bara en kvantitativ förändring; Det är en kvalitativ förändring, eftersom det gör det möjligt för forskare att lära sig olika saker från experiment (t.ex. heterogenitet av behandlingseffekter) och att driva helt olika experimentella mönster (t.ex. storgruppsexperiment). Denna punkt är så viktig, jag kommer tillbaka till slutet av kapitlet när jag erbjuder råd om att skapa digitala experiment.
För det andra, medan de flesta analoga laboratorie- och fältförsök behandlar deltagare som oskiljbara widgets använder digitala fältförsök ofta bakgrundsinformation om deltagare i forsknings- och analysstadiet. Denna bakgrundsinformation, som kallas förbehandlingsinformation , är ofta tillgänglig i digitala experiment, eftersom de körs utöver alltid på mätsystem (se kapitel 2). En forskare på Facebook har till exempel mycket mer förbehandlingsinformation om personer i sitt digitala fältförsök än en universitetsforskare har om folket i sitt analoga fältförsök. Denna förbehandling möjliggör mer effektiva experimentella mönster, såsom blockering (Higgins, Sävje, and Sekhon 2016) och riktade rekryteringar av deltagare (Eckles, Kizilcec, and Bakshy 2016) - och mer insiktsfull analys - såsom uppskattning av heterogenitet av behandlingseffekter (Athey and Imbens 2016a) och kovariatjustering för förbättrad precision (Bloniarz et al. 2016) .
För det tredje, medan många analoga laboratorie- och fältförsök levererar behandlingar och mäter resultat i en relativt komprimerad tid, händer vissa digitala fältförsök över mycket längre tidsramar. Till exempel hade Restivo och van de Rijt experimentet uppmätt resultatet varje dag i 90 dagar, och ett av de experiment som jag kommer att berätta om senare i kapitlet (Ferraro, Miranda, and Price 2011) spårade resultat över tre år i stort sett nej kosta. Dessa tre möjlighetsstorlekar, förbehandlingsinformation och longitudinell behandling och utfallsdata uppstår oftast när experimenten körs utöver alltid-på-mätningssystem (se kapitel 2 för mer om kontinuerliga mätsystem).
Medan digitala fältförsök erbjuder många möjligheter, delar de också vissa svagheter med både analoga laboratorier och analoga fältförsök. Exempelvis kan experiment inte användas för att studera det förflutna, och de kan bara uppskatta effekterna av behandlingar som kan manipuleras. Även om experiment är utan tvekan användbar för att styra politiken, kan den exakta vägledningen de erbjuder, vara något begränsad på grund av komplikationer som miljöberoende, complianceproblem och jämviktseffekter (Banerjee and Duflo 2009; Deaton 2010) . Digitala fältförsök förstärker också de etiska problem som skapats av fältförsök - ett ämne som jag kommer att ta upp senare i detta kapitel och i kapitel 6.