Laboratorieeksperimenter har kontroll, feltforsøk tilby realisme, og digitale feltforsøk kombinere kontroll og realisme i stor skala.
Eksperimenter kommer i mange forskjellige former og størrelser. Men til tross for disse forskjellene, har forskere funnet det nyttig å organisere eksperimenter langs et kontinuum mellom laboratorieforsøk og feltforsøk. Nå har imidlertid forskere bør også organisere eksperimenter langs et kontinuum mellom analoge eksperimenter og digitale eksperimenter. Denne to-dimensjonale design plass vil hjelpe deg å forstå styrker og svakheter ved ulike tilnærminger og foreslå områder som har størst mulighet (figur 4.1).
I det siste, den viktigste måten at forskere organisert eksperimenter var langs lab-feltet dimensjon. Flertallet av eksperimenter i samfunnsvitenskapene er laboratorieeksperimenter der studentene utfører merkelige oppgaver i en lab for kurset kreditt. Denne typen eksperiment dominerer forskning i psykologi, fordi det gjør det mulig for forskere å lage svært spesifikke behandlinger utviklet for å teste svært spesifikke teorier om sosial atferd. For visse problemer, men noe føles litt rart å trekke sterke konklusjoner om menneskelig atferd fra slike uvanlige mennesker som utfører slike uvanlige oppgaver i en slik uvanlig setting. Disse bekymringene har ført til en bevegelse mot feltforsøk. Feltforsøk kombinere sterk design av randomiserte kontrollforsøk med mer representative grupper av deltakere, utføre mer vanlige oppgaver, i mer naturlige omgivelser.
Selv om noen folk tenker på lab og feltforsøk som konkurrerende metoder, er det best å tenke på dem som komplementære metoder med forskjellige styrker og svakheter. For eksempel, Correll, Benard, and Paik (2007) brukte både en lab eksperiment og et felteksperiment i et forsøk på å finne kildene til "moder straff." I USA, mødre tjener mindre penger enn barnløse kvinner, selv når sammenligne kvinner med lignende ferdigheter som arbeider i lignende stillinger. Det er mange mulige forklaringer på dette mønsteret, og én er at arbeidsgivere er partisk mot mødre. (Interessant, synes det motsatte å være sant for fedre, de har en tendens til å tjene mer enn sammenlignbare barnløse menn). For å kunne vurdere mulige fordommer mot mødre, Correll og kolleger kjørte to eksperimenter: en i laboratoriet og en i feltet.
Først i en lab eksperiment Correll og kolleger fortalte deltakerne, som var college studenter, som en California-baserte oppstartskommunikasjonsselskap ble drive en sysselsetting søk etter en person til å lede den nye East Coast markedsavdeling. Elevene ble fortalt at selskapet ønsket deres hjelp i ansettelsesprosessen, og de ble bedt om å vurdere gjenopptar av flere potensielle kandidater og å rangere kandidatene på en rekke dimensjoner som deres intelligens, varme og engasjement til å jobbe. Videre ble elevene spurt om de ville anbefale å ansette søkeren og hva de vil anbefale som en begynnerlønn. Ukjent for studentene, men gjenopptar ble spesielt konstruert for å være lik, bortsett fra én ting: noen av de gjenopptar signalisert morskap (ved å liste engasjement i en Foreldrenes arbeidsutvalg) og noen ikke. Correll fant at studentene var mindre sannsynlig å anbefale ansette mødre og tilbød dem lavere begynnerlønn. Videre gjennom en statistisk analyse av både karakterer og ansette relaterte beslutninger, fant Correll at mødres ulemper ble i stor grad forklares med det faktum at mødre ble vurdert lavere i form av kompetanse og engasjement. Med andre ord, hevder Correll at disse trekkene er den mekanisme som mødre er vanskeligstilte. Dermed denne lab eksperiment tillatt Correll og kolleger til å måle en kausal effekt og gi en mulig forklaring på den effekten.
Selvfølgelig kan man være skeptisk til å trekke konklusjoner om hele amerikanske arbeidsmarkedet basert på vedtak av et par hundre studenter som har sannsynligvis aldri hatt en fulltids jobb, enn si innleide folk. Derfor Correll og kolleger gjennomførte også en utfyllende felteksperiment. Forskerne svart på hundrevis av utlyste ledige stillinger ved å sende inn falske følgebrev og CV. I likhet med de materialene vist til studenter, noen CVer signalisert morskap og noen ikke. Correll og kolleger fant at mødrene hadde mindre sannsynlighet for å bli kalt tilbake til intervju enn like kvalifiserte barnløse kvinner. Med andre ord, reelle arbeidsgivere gjør følge beslutninger i en naturlig setting opptrådt mye som studenter. Har de gjøre lignende vedtak av samme grunn? Dessverre vet vi ikke. Forskerne var ikke i stand til å be arbeidsgiverne å rangere kandidatene eller forklare sine beslutninger.
Dette paret av eksperimenter avslører mye om lab og feltforsøk generelt. Laboratorieeksperimenter har forskere nærheten total kontroll over miljøet der deltakerne tar beslutninger. Så, for eksempel, i laboratoriet eksperiment, Correll var i stand til å sørge for at alle gjenopptar ble lest i en rolig setting; i feltforsøket, noen av de gjenopptar kanskje ikke engang har blitt lest. Videre fordi deltakerne i laboratoriet innstillingen vet at de er under utredning, forskere er ofte i stand til å samle ytterligere data som kan hjelpe dem å forstå hvorfor deltakerne gjør sine beslutninger. For eksempel, spurte Correll deltakere i laboratoriet eksperiment for å rangere kandidatene på ulike dimensjoner. Denne typen prosessdata kan hjelpe forskerne å forstå mekanismene bak forskjeller i hvordan deltakerne behandle gjenopptas.
På den annen side er disse nøyaktig de samme egenskaper som jeg nettopp beskrevne fordeler som også noen ganger betraktes ulemper. Forskere som foretrekker feltforsøk hevde at deltakerne i laboratorieeksperimenter kan fungere svært ulikt når de blir nøye fulgt. For eksempel, i laboratoriet forsøket deltakerne kanskje har gjettet målet for forskning og endret sin atferd slik at de ikke vises partisk. Videre kan forskerne som foretrekker feltforsøk kan hevde at små forskjeller på gjenopptar bare skiller seg ut i et veldig rent, sterilt lab miljø, og dermed lab eksperiment vil overvurdere effekten av morskap på fast ansettelsesbeslutninger. Til slutt, mange talsmenn for feltforsøk kritisere laboratorieeksperimenter avhengighet rare deltakere: hovedsakelig studenter fra Western, Educated, land, rike og demokratiske land (Henrich, Heine, and Norenzayan 2010) . Forsøkene med Correll og kolleger (2007) illustrerer de to ytterpunktene på lab-feltet kontinuum. I mellom disse to ytterpunktene er det en rekke hybrid design, inkludert tilnærminger som bringer ikke-studenter inn i en lab eller går inn i feltet, men fortsatt har deltakerne utføre en uvanlig oppgave.
I tillegg til laboratoriet-feltet dimensjon som har eksistert tidligere, betyr den digitale at forskere nå har en andre større dimensjon langs hvilke eksperimentene kan variere: analog-digital. Akkurat som det er rene laboratorieeksperimenter, rene feltforsøk, og en rekke av hybrider i mellom, er det rene analoge eksperimenter, rene digitale eksperimenter, og en rekke av hybrider. Det er vanskelig å gi en formell definisjon av denne dimensjonen, men en nyttig arbeidsdefinisjon er at fullt digitale eksperimenter er eksperimenter som gjør bruk av digital infrastruktur for å rekruttere deltakere, random leverer behandlinger, og måle resultater. For eksempel, Restivo og van de Rijt s (2012) studie av barnstars og Wikipedia var en fullt digitalt eksperiment fordi det brukes digitale systemer for alle fire av disse trinnene. Likeledes fullstendig analoge forsøk er forsøk som ikke gjør bruk av digital infrastruktur for noen av disse fire trinn. Mange av de klassiske eksperimenter i psykologi er analoge eksperimenter. I mellom disse to ytterpunktene er det delvis digitale eksperimenter som bruker en kombinasjon av analoge og digitale systemer for de fire trinnene.
Kritisk, muligheter for å kjøre digitale eksperimenter er ikke bare på nettet. Forskere kan kjøre delvis digitale eksperimenter ved hjelp av digitale enheter i den fysiske verden for å levere behandlinger eller måle resultater. For eksempel kan forskerne bruke smarttelefoner til å levere behandlinger eller sensorer i det bygde miljøet for å måle resultater. Faktisk, som vi vil se senere i dette kapitlet, har forskerne allerede brukt hjemme kraftmålere for å måle resultater i eksperimenter om sosiale normer og energiforbruk involverer 8,5 millioner husstander (Allcott 2015) . Som digitale enheter blir stadig mer integrert i folks liv og sensorer bli integrert i det bygde miljø, til disse mulighetene kjøre delvis digitale eksperimenter i den fysiske verden vil øke dramatisk. Med andre ord, digitale eksperimenter er ikke bare online eksperimenter.
Digitale systemer skape nye muligheter for eksperimenter overalt langs lab-feltet kontinuum. I rene laboratorieeksperimenter, for eksempel, kan forskerne bruke digitale systemer for finere måling av deltakernes atferd; ett eksempel på denne typen forbedret måling er eye-tracking utstyr som gir presise og kontinuerlige målinger av blikket plassering. Den digitale tidsalder skaper også muligheten til å kjøre lab-lignende eksperimenter online. For eksempel har forskerne raskt adoptert Amazon Mechanical Turk (MTurk) for å rekruttere deltakere for online eksperimenter (figur 4.2). MTurk matcher "arbeidsgivere" som har oppgaver som må være ferdig med "arbeidere" som ønsker å fullføre disse oppgavene for pengene. I motsetning til tradisjonelle arbeidsmarkeder, men er involvert vanligvis oppgavene krever bare et par minutter å fullføre og hele samspillet mellom arbeidsgiver og arbeidstaker er virtuelle. Fordi MTurk ligner aspekter av tradisjonelle laboratorieeksperimenter-betale folk for å fullføre oppgaver som de ikke ville gjøre for fritt det er naturlig egnet for visse typer eksperimenter. I hovedsak har MTurk skapt infrastrukturen for å administrere en pool av deltakerne rekrutterende og betale folk-og forskere har tatt fordel av at infrastruktur for å trykke inn en alltid tilgjengelig pool av deltakerne.
Digitale eksperimenter skape enda flere muligheter for feltlignende eksperimenter. Digitale feltforsøk kan tilby tett kontroll og behandle data for å forstå mulige mekanismer (som laboratorieeksperimenter) og mer varierte deltakere gjør reelle beslutninger i et naturlig miljø (som feltforsøk). I tillegg til denne kombinasjon av gode egenskaper ved tidligere forsøk, digital feltforsøk har også tre muligheter som var vanskelig i analoge lab og feltforsøk.
Først, mens de fleste analoge lab og feltforsøk har hundrevis av deltakere, kan digitale feltforsøk har millioner av deltakere. Denne endringen i skalaen er fordi noen digitale eksperimenter kan produsere data på null variable kostnader. Det vil si, når forskere har skapt en eksperimentell infrastruktur, øke antall deltakere vanligvis ikke øker kostnaden. Økende antall deltakere med en faktor på 100 eller mer er ikke bare en kvantitativ endring, er det en kvalitativ endring, fordi det gjør det mulig for forskere å lære forskjellige ting fra eksperimenter (f.eks heterogenitet av behandlingseffekter) og kjører helt forskjellige eksperimentelle design ( for eksempel store gruppe eksperimenter). Dette punktet er så viktig, vil jeg gå tilbake til det mot slutten av kapitlet når jeg gir råd om å lage digitale eksperimenter.
For det andre, mens de fleste analoge lab og feltforsøk behandle deltakerne så utvisket widgets, digitale feltforsøk bruker ofte bakgrunnsinformasjon om deltakerne i design og analyse faser av forskningen. Denne bakgrunnsinformasjon, som kalles forhåndsbehandling informasjon, er ofte tilgjengelig i digital eksperimenter fordi de finner sted i fullt målt miljøer. For eksempel, en forsker ved Facebook har mye mer forbehandling informasjon enn en forsker å utforme en standard lab eksperiment med studenter. Dette forbehandling informasjonen gjør forskere til å gå utover behandle deltakere som utvisket widgets. Mer spesifikt, gir mer effektive eksperimentelle design-som blokkerer forbehandling informasjon (Higgins, Sävje, and Sekhon 2016) og målrettet rekruttering av deltakere (Eckles, Kizilcec, and Bakshy 2016) -og mer innsiktsfull analyse-som estimering av heterogenitet av behandlingseffekter (Athey and Imbens 2016a) og kovariat justering for bedre presisjon (Bloniarz et al. 2016) .
For det tredje, mens mange analog lab og feltforsøk levere behandlinger og måle resultater i en relativt komprimert tid, noen digitale feltforsøk involvere behandlinger som kan leveres over tid og effekten kan også måles over tid. For eksempel har Restivo og van de Rijt eksperiment utfallet måles daglig i 90 dager, og en av de eksperimentene jeg skal fortelle deg om senere i kapitlet (Ferraro, Miranda, and Price 2011) sporer utfall over 3 år ved utgangspunktet ingen koste. Disse tre muligheter størrelse, forbehandling informasjon, og langsgående behandling og resultatdata-er mest vanlig når eksperimenter blir drevet på toppen av alltid-på målinger systemer (se kapittel 2 for mer om always-on målesystemer).
Mens digitale feltforsøk byr på mange muligheter, de deler også noen svakheter med både analog lab og feltforsøk. For eksempel kan eksperimenter ikke brukes til å studere den siste, og de kan bare beregne effekten av behandlinger som kan manipuleres. Også, selv om forsøkene er utvilsomt nyttig å veilede politikk, nøyaktig veiledning de kan tilby er noe begrenset på grunn av komplikasjoner som miljø avhengighet, compliance problemer, og likevektseffekter (Banerjee and Duflo 2009; Deaton 2010) . Til slutt, digitale feltforsøk foredle de etiske bekymringer opprettet av feltforsøk. Tilhengere av feltforsøk utbasunere sin evne til å diskret og tilfeldig gripe inn følge vedtak fattet av millioner av mennesker. Disse funksjonene gir visse vitenskapelige fordeler, men de kan også gjøre feltforsøk etisk kompleks (tenk på det som forskere behandle folk som "forsøkskaniner" på en massiv skala). Videre, i tillegg til mulige skader til deltakerne, digitale feltforsøk, på grunn av sin skala, kan også øke bekymringer om avbrudd av arbeids sosiale systemer (for eksempel bekymringer om forstyrre Wikipedia belønningssystem hvis Restivo og van der Rijt ga for mange barnstars) .