Lab eksperimenter tilbyde kontrol, markforsøg tilbyder realisme, og digitale markforsøg kombinerer kontrol og realisme på skalaen.
Eksperimenter kommer i mange forskellige former og størrelser. Tidligere har forskere fundet det nyttigt at organisere eksperimenter langs et kontinuum mellem laboratorieforsøg og feltforsøg . Nu skal forskerne også organisere eksperimenter langs et andet kontinuum mellem analoge eksperimenter og digitale eksperimenter . Dette todimensionale designrum vil hjælpe dig med at forstå styrken og svaghederne i forskellige tilgange og fremhæve områder med størst mulige muligheder (figur 4.1).
En dimension, hvorigennem eksperimenter kan organiseres, er labfield-dimensionen. Mange eksperimenter i samfundsvidenskaberne er laboratorieforsøg, hvor bachelorstuderende udfører mærkelige opgaver i et laboratorium for kursuskredit. Denne type forsøg dominerer forskning i psykologi, fordi det gør det muligt for forskere at skabe højt kontrollerede indstillinger for præcist at isolere og teste specifikke teorier om social adfærd. For visse problemer synes der dog noget mærkeligt at trække stærke konklusioner om menneskelig adfærd fra sådanne usædvanlige mennesker, der udfører sådanne usædvanlige opgaver i en sådan usædvanlig ramme. Disse bekymringer har ført til en bevægelse mod felteksperimenter . Felteksperimenter kombinerer det stærke design af randomiserede kontrolforsøg med mere repræsentative grupper af deltagere, der udfører mere almindelige opgaver i mere naturlige omgivelser.
Selvom nogle mennesker tænker på laboratorie- og felteksperimenter som konkurrerende metoder, er det bedst at tænke på dem som komplementære, med forskellige styrker og svagheder. For eksempel brugte Correll, Benard, and Paik (2007) både et laboratorieeksperiment og et felteksperiment i et forsøg på at finde kilderne til "moderskabsstraffen." I USA tjener mødre mindre penge end barnløse kvinder, selv når sammenligne kvinder med lignende færdigheder, der arbejder i lignende job. Der er mange mulige forklaringer til dette mønster, hvoraf den ene er, at arbejdsgiverne er forspændte mod mødre. (Interessant nok synes det modsatte at være sandt for fædre. De har tendens til at tjene mere end sammenlignelige barnløse mænd.) For at vurdere mulige forstyrrelser mod mødre løb Correll og kolleger to eksperimenter: en i laboratoriet og en i marken.
Først i et laboratorieeksperiment fortalte de deltagere, der var universitetsstuderende, at et firma gennemførte en jobsøgning for en person til at lede sin nye marketingchef til East Coast. Eleverne blev fortalt, at selskabet ønskede deres hjælp i ansættelsesprocessen, og de blev bedt om at gennemgå CV'er af flere potentielle kandidater og at vurdere kandidaterne på en række dimensioner, såsom deres intelligens, varme og engagement i arbejdet. Desuden blev eleverne spurgt, om de ville anbefale at ansætte ansøgeren og hvad de ville anbefale som startløn. Ikke kendt for eleverne, men CV'erne blev specielt konstrueret til at være ens med undtagelse af én ting: nogle af dem signalerede moderskab (ved notering involvering i en forælder-lærerforening) og nogle gjorde det ikke. Correll og kolleger fandt, at eleverne mindre tilbøjelige til at anbefale at ansætte mødrene, og at de tilbød dem en lavere startløn. Endvidere fandt Correll og kolleger gennem en statistisk analyse af både vurderingerne og de ansættelsesrelaterede beslutninger, at mødres ulemper for en stor del var forklaret af, at de blev vurderet lavere med hensyn til kompetence og engagement. Dette laboratorieforsøg gjorde det derfor muligt for Correll og kolleger at måle en årsagssammenhæng og give en mulig forklaring på den effekt.
Selvfølgelig kan man være skeptisk til at drage konklusioner om hele det amerikanske arbejdsmarked baseret på beslutninger fra et par hundrede kandidater, der sandsynligvis aldrig har haft fuldtidsjob, endsige hyret nogen. Derfor gennemførte Correll og kolleger også et komplementært felteksperiment. De reagerede på hundredvis af annoncerede jobåbninger med falske coverbreve og genoptaget. I lighed med de materialer, der er vist til undergraduates, genoptager nogle signaleret moderskab, og nogle gjorde det ikke. Correll og kolleger fandt, at mødre var mindre tilbøjelige til at blive kaldt tilbage til interviews end lige kvalificerede barnløse kvinder. Med andre ord opførte virkelige arbejdsgivere, der fik konsekvensbeslutninger i en naturlig indstilling, meget ligesom undergraduaterne. Fik de samme beslutninger af samme grund? Desværre ved vi ikke. Forskerne kunne ikke bede arbejdsgiverne om at bedømme kandidaterne eller forklare deres beslutninger.
Dette par forsøg afslører meget om laboratorie- og felteksperimenter generelt. Lab eksperimenter tilbyder forskere næsten total kontrol over miljøet, hvor deltagerne træffer beslutninger. Så i eksempelvis i laboratorieeksperimentet var Correll og kollegerne i stand til at sikre, at alle genoptagelserne blev læst i rolige omgivelser; I feltforsøg kan nogle af CV'erne ikke engang være blevet læst. Fordi deltagerne i laboratorieindstillingen ved, at de studeres, kan forskere ofte samle yderligere data, som kan hjælpe med at forklare, hvorfor deltagerne træffer deres beslutninger. For eksempel bad Correll og kolleger deltagerne i laboratorieeksperimentet for at bedømme kandidaterne i forskellige dimensioner. Denne slags procesdata kan hjælpe forskere med at forstå mekanismerne bag forskelle i, hvordan deltagerne behandler genoptagelserne.
På den anden side betragtes disse nøjagtige samme egenskaber, som jeg netop har beskrevet som fordele, nogle gange ulemper. Forskere, der foretrækker felteksperimenter, hævder, at deltagere i laboratorieeksperimenter kan handle meget anderledes, fordi de ved, at de studeres. For eksempel kunne deltagerne i laboratorieeksperimentet have gættet målet med forskningen og ændrede deres adfærd for ikke at virke forudindtaget. Forskere, der foretrækker felteksperimenter, kan endvidere hævde, at små forskelle i genoptagelser kun kan skille sig ud i et meget rent, sterilt laboratoriemiljø, og laboratorim eksperimentet vil derfor overvurdere moderskabets virkning på virkelige ansættelsesbeslutninger. Endelig kritiserer mange forkæmpere af feltforsøg laboratorieeksperimenternes afhængighed af WEIRD-deltagere: primært studerende fra vestlige, uddannede, industrialiserede, rige og demokratiske lande (Henrich, Heine, and Norenzayan 2010a) . Eksperimenterne fra Correll og kolleger (2007) illustrerer de to ekstremer på laboratoriefeltet kontinuum. I mellem disse to ekstremer findes der også en række hybriddesigner, herunder tilgange som at bringe ikke-elever i et laboratorium eller gå ind i marken, men stadig har deltagere en usædvanlig opgave.
Udover den labfield-dimension, der har eksisteret tidligere, betyder den digitale tidsalder, at forskere nu har en anden stor dimension, hvor eksperimenterne kan variere: analog-digital. Ligesom der er rene laboratorieforsøg, rene feltforsøg og en række hybrider imellem, er der rene analoge eksperimenter, rene digitale eksperimenter og en række hybrider. Det er vanskeligt at tilbyde en formel definition af denne dimension, men en nyttig arbejdsdefinition er, at fuldt digitale eksperimenter er eksperimenter, der gør brug af digital infrastruktur til at rekruttere deltagere, randomisere, levere behandlinger og måle resultater. For eksempel var Restivo og van de Rijts (2012) undersøgelse af barnstars og Wikipedia et fuldt digitalt eksperiment, fordi det brugte digitale systemer til alle fire af disse trin. På samme måde udnytter ikke fuldt analoge eksperimenter digital infrastruktur til nogen af disse fire trin. Mange af de klassiske eksperimenter i psykologi er fuldt analoge eksperimenter. Mellem disse to ekstremer er der delvist digitale eksperimenter, der bruger en kombination af analoge og digitale systemer.
Når nogle mennesker tænker på digitale eksperimenter, tænker de straks på online eksperimenter. Dette er uheldigt, fordi mulighederne for at køre digitale eksperimenter ikke kun er online. Forskere kan køre delvist digitale eksperimenter ved at bruge digitale enheder i den fysiske verden for at kunne levere behandlinger eller måle resultater. For eksempel kunne forskere bruge smartphones til at levere behandlinger eller sensorer i det byggede miljø for at måle resultaterne. Faktisk, som vi vil se senere i dette kapitel, har forskere allerede brugt (Allcott 2015) til at måle resultaterne i eksperimenter om energiforbrug, der involverer 8,5 millioner husstande (Allcott 2015) . Da digitale enheder bliver mere og mere integreret i folks liv og sensorer bliver integreret i det byggede miljø, vil disse muligheder for at køre delvist digitale eksperimenter i den fysiske verden øges dramatisk. Med andre ord er digitale eksperimenter ikke kun onlineeksperimenter.
Digitale systemer skaber nye muligheder for eksperimenter overalt langs laboratoriefeltet kontinuum. I rene laboratorieforsøg kan forskere f.eks. Anvende digitale systemer til finere måling af deltagernes adfærd; Et eksempel på denne type forbedret måling er øjensporingsudstyr, der giver præcise og kontinuerlige målinger af blikplacering. Den digitale tidsalder skaber også muligheden for at køre lab-lignende eksperimenter online. For eksempel har forskere hurtigt vedtaget Amazon Mechanical Turk (MTurk) for at rekruttere deltagere til online-eksperimenter (figur 4.2). MTurk matcher "arbejdsgivere", der har opgaver, der skal udfyldes med "arbejdstagere", der ønsker at gennemføre disse opgaver for penge. I modsætning til traditionelle arbejdsmarkeder kræver de involverede opgaver dog kun få minutter at fuldføre, og hele samspillet mellem arbejdsgiver og arbejdstager er online. Fordi MTurk efterligner aspekter af traditionelle laboratorieeksperimenter - betaler folk til at fuldføre opgaver, som de ikke ville gøre gratis - det er naturligt egnet til bestemte typer forsøg. I det væsentlige har MTurk skabt infrastrukturen til styring af en pulje af deltagere - rekruttering og betaling af mennesker - og forskere har udnyttet denne infrastruktur til at udnytte en altid tilgængelig pulje af deltagere.
Digitale systemer skaber endnu flere muligheder for feltlignende eksperimenter. Især giver de forskere mulighed for at kombinere de stramme kontrol- og procesdata, der er forbundet med laboratorieforsøg med de mere forskellige deltagere og mere naturlige indstillinger, der er forbundet med laboratorieforsøg. Derudover tilbyder digitale felteksperimenter også tre muligheder, som har tendens til at være vanskelige ved analoge forsøg.
For det første, mens de fleste analoge laboratorie- og feltforsøg har hundredvis af deltagere, kan digitale felteksperimenter have millioner af deltagere. Denne ændring i skala er, fordi nogle digitale eksperimenter kan producere data med nul variable omkostninger. Det er, når forskere har oprettet en eksperimentel infrastruktur, øger antallet af deltagere typisk ikke prisen. At øge antallet af deltagere med en faktor på 100 eller mere er ikke bare en kvantitativ ændring; Det er en kvalitativ forandring, fordi det gør det muligt for forskerne at lære forskellige ting fra eksperimenter (fx heterogenitet af behandlingseffekter) og at køre helt forskellige eksperimentelle designs (fx store gruppeforsøg). Dette punkt er så vigtigt, jeg kommer tilbage til det i slutningen af kapitlet, når jeg tilbyder råd om at skabe digitale eksperimenter.
For det andet, mens de fleste analoge laboratorie- og felteksperimenter behandler deltagerne som uadskillelige widgets, bruger digitale felteksperimenter ofte baggrundsinformation om deltagere i forskningens design og analyse. Denne baggrundsinformation, som kaldes forbehandling , er ofte tilgængelig i digitale eksperimenter, fordi de køres oven på altid-på målesystemer (se kapitel 2). For eksempel har en forsker på Facebook meget mere forbehandlingsinformation om personer i sit digitale feltforsøg end en universitetsforsker har om folkene i sit analoge felteksperiment. Denne forbehandling muliggør mere effektive eksperimentelle designs, såsom blokering (Higgins, Sävje, and Sekhon 2016) og målrettet rekruttering af deltagere (Eckles, Kizilcec, and Bakshy 2016) - og mere indsigtsanalyse - som estimering af heterogenitet af behandlingseffekter (Athey and Imbens 2016a) og kovariatjustering for forbedret præcision (Bloniarz et al. 2016) .
For det tredje, mens mange analoge laboratorie- og felteksperimenter leverer behandlinger og måler resultater i en relativt komprimeret tid, sker nogle digitale feltforsøg over meget længere tidsrammer. For eksempel havde Restivo og van de Rijt eksperimentet resultatet målt dagligt i 90 dage, og et af de eksperimenter, jeg vil fortælle om senere i kapitlet (Ferraro, Miranda, and Price 2011) spores resultater over tre år på stort set nej koste. Disse tre muligheder for størrelse, præ-behandling og langsgående behandling og udfaldsdata er mest almindelige, når eksperimenter udføres oven på altid-på målesystemer (se kapitel 2 for mere om altid-på målesystemer).
Mens digitale felteksperimenter tilbyder mange muligheder, deler de også nogle svagheder med både analogt lab og analoge felteksperimenter. Eksperimenter kan f.eks. Ikke bruges til at studere fortiden, og de kan kun vurdere effekterne af behandlinger, der kan manipuleres. Selvom eksperimenter uden tvivl er nyttige til at styre politikken, kan den nøjagtige vejledning, de tilbyder, være noget begrænset på grund af komplikationer som miljøafhængighed, complianceproblemer og ligevægtseffekter (Banerjee and Duflo 2009; Deaton 2010) . Digitale felteksperimenter forstørrer også de etiske problemer, der er skabt af felteksperimenter. Et emne, jeg behandler senere i dette kapitel og i kapitel 6.