Lab experimenten bieden control, veldexperimenten bieden realisme en digitale veldexperimenten combineren controle en realisme op schaal.
Experimenten zijn er in veel verschillende vormen en maten. In het verleden vonden onderzoekers het nuttig om experimenten te organiseren in een continuüm tussen laboratoriumexperimenten en veldexperimenten . Nu moeten onderzoekers echter ook experimenten organiseren langs een tweede continuüm tussen analoge experimenten en digitale experimenten . Deze tweedimensionale ontwerpruimte zal u helpen de sterke en zwakke punten van verschillende benaderingen te begrijpen en de gebieden met de grootste kansen te markeren (figuur 4.1).
Eén dimensie waarlangs experimenten kunnen worden georganiseerd, is de dimensie van het laboratoriumveld. Veel experimenten in de sociale wetenschappen zijn laboratoriumexperimenten waarbij studenten in een lab vreemde dingen doen voor het cursusgeld. Dit type experiment domineert onderzoek in de psychologie omdat het onderzoekers in staat stelt om sterk gecontroleerde instellingen te maken om specifieke theorieën over sociaal gedrag precies te isoleren en te testen. Voor bepaalde problemen, echter, voelt iets een beetje vreemd over het trekken van sterke conclusies over het menselijk gedrag van dergelijke ongewone mensen die dergelijke ongewone taken uitvoeren in een dergelijke ongewone omgeving. Deze zorgen hebben geleid tot een beweging in de richting van veldexperimenten . Veldexperimenten combineren het sterke ontwerp van gerandomiseerde controle-experimenten met meer representatieve groepen deelnemers die meer algemene taken uitvoeren in meer natuurlijke omgevingen.
Hoewel sommigen denken aan laboratorium- en veldexperimenten als concurrerende methoden, is het het beste om ze als complementair te beschouwen, met verschillende sterke en zwakke punten. Correll, Benard, and Paik (2007) gebruikten bijvoorbeeld zowel een laboratoriumexperiment als een veldexperiment in een poging om de bronnen van de "moederschapsuitkering" te vinden. In de Verenigde Staten verdienen moeders minder geld dan kinderloze vrouwen, zelfs wanneer vrouwen vergelijken met vergelijkbare vaardigheden die in vergelijkbare banen werken. Er zijn veel mogelijke verklaringen voor dit patroon, een daarvan is dat werkgevers bevooroordeeld zijn tegen moeders. (Interessant genoeg lijkt het tegenovergestelde waar te zijn voor vaders: ze hebben de neiging om meer te verdienen dan vergelijkbare kinderloze mannen.) Om mogelijke bias tegen moeders te beoordelen, voerden Correll en zijn collega's twee experimenten uit: één in het lab en één in het veld.
Eerst vertelden ze in een laboratoriumexperiment aan deelnemers, die universiteitsstudenten waren, dat een bedrijf op zoek was naar een baan voor een persoon om leiding te geven aan de nieuwe marketingafdeling van Oostkust. De studenten kregen te horen dat het bedrijf hun hulp bij het sollicitatieproces wilde, en ze werden gevraagd CV's van verschillende potentiële kandidaten te beoordelen en de kandidaten te beoordelen op een aantal dimensies, zoals hun intelligentie, warmte en toewijding om te werken. Verder werd aan de studenten gevraagd of ze zouden adviseren om de sollicitant in te huren en wat ze als startersalaris zouden aanbevelen. Buiten het medeweten van de studenten waren de cv's echter specifiek geconstrueerd om vergelijkbaar te zijn, behalve één ding: sommigen van hen wezen op het moederschap (door vermelding van betrokkenheid bij een ouder-leraar vereniging) en sommigen niet. Correll en collega's vonden dat de studenten minder geneigd waren om aan te bevelen om de moeders in te huren en dat ze hun een lager beginsalaris aanboden. Verder constateerden Correll en collega's via een statistische analyse van zowel de ratings als de aan het werk gerelateerde beslissingen dat de nadelen van moeders grotendeels werden verklaard door het feit dat ze lager werden beoordeeld op basis van competentie en inzet. Op basis van dit laboratoriumexperiment konden Correll en collega's dus een causaal effect meten en een mogelijke verklaring voor dat effect geven.
Natuurlijk kan iemand sceptisch zijn over het trekken van conclusies over de hele Amerikaanse arbeidsmarkt op basis van de beslissingen van enkele honderden studenten die waarschijnlijk nooit een fulltime baan hebben gehad, laat staan iemand hebben ingehuurd. Daarom voerden Correll en zijn collega's ook een aanvullend veldexperiment uit. Ze reageerden op honderden geadverteerde vacatures met nep-begeleidende brieven en cv's. Vergelijkbaar met de materialen getoond aan de studenten, signaleerden sommige cv's het moederschap en andere niet. Correll en collega's ontdekten dat moeders minder snel geroepen zouden worden voor interviews dan gelijk gekwalificeerde kinderloze vrouwen. Met andere woorden, echte werkgevers die consequente beslissingen namen in een natuurlijke omgeving gedroegen zich net als de studenten. Hebben ze om dezelfde reden dezelfde beslissingen genomen? Helaas weten we het niet. De onderzoekers konden de werkgevers niet vragen de kandidaten te beoordelen of hun beslissingen toe te lichten.
Dit paar experimenten onthullen veel over laboratorium- en veldexperimenten in het algemeen. Labexperimenten bieden onderzoekers een bijna totale controle over de omgeving waarin deelnemers beslissingen nemen. In het laboratoriumexperiment konden Correll en collega's er bijvoorbeeld voor zorgen dat alle cv's in een stille omgeving werden gelezen; in het veldexperiment zijn sommige cv's mogelijk niet eens gelezen. Omdat deelnemers aan de labomgeving weten dat ze worden bestudeerd, kunnen onderzoekers bovendien vaak extra gegevens verzamelen die kunnen helpen verklaren waarom deelnemers hun beslissingen nemen. Correll en zijn collega's vroegen deelnemers aan het laboratoriumexperiment om de kandidaten op verschillende dimensies te beoordelen. Dit soort procesgegevens kan onderzoekers helpen de mechanismen achter verschillen in de manier waarop deelnemers de cv's behandelen, te begrijpen.
Aan de andere kant worden deze exact dezelfde kenmerken die ik zojuist heb beschreven als voordelen soms ook als nadelen beschouwd. Onderzoekers die de voorkeur geven aan veldexperimenten, beweren dat deelnemers aan laboratoriumexperimenten heel verschillend kunnen handelen omdat ze weten dat ze worden bestudeerd. In het laboratoriumexperiment hebben deelnemers bijvoorbeeld het doel van het onderzoek geraden en hun gedrag gewijzigd om niet vooringenomen te lijken. Verder kunnen onderzoekers die de voorkeur geven aan veldexperimenten beweren dat kleine verschillen in cv's alleen kunnen opvallen in een zeer schone, steriele laboratoriumomgeving, en dus zal het laboratoriumexperiment het effect van het moederschap op echte rekruteringsbeslissingen overschatten. Ten slotte bekritiseren veel voorstanders van veldexperimenten de afhankelijkheid van laboratoriumexperimenten van WEIRD-deelnemers: voornamelijk studenten uit westerse, opgeleide, geïndustrialiseerde, rijke en democratische landen (Henrich, Heine, and Norenzayan 2010a) . De experimenten van Correll en collega's (2007) illustreren de twee uitersten op het continuüm van het laboratorium. Tussen deze twee uitersten in zijn er ook een verscheidenheid aan hybride ontwerpen, inclusief benaderingen zoals het brengen van niet-studenten naar een lab of het veld in gaan, maar nog steeds deelnemers een ongebruikelijke taak laten uitvoeren.
Naast de in het verleden bestaande dimensie van het laboratoriumveld, betekent het digitale tijdperk dat onderzoekers nu een tweede belangrijke dimensie hebben waarbinnen experimenten kunnen variëren: analoog-digitaal. Net zoals er pure laboratoriumexperimenten, zuivere veldexperimenten en een verscheidenheid aan hybriden daartussen zijn, zijn er pure analoge experimenten, pure digitale experimenten en een verscheidenheid aan hybriden. Het is lastig om een formele definitie van deze dimensie te bieden, maar een nuttige werkdefinitie is dat volledig digitale experimenten experimenten zijn die gebruik maken van digitale infrastructuur om deelnemers te werven, willekeurig te maken, behandelingen af te leveren en uitkomsten te meten. Bijvoorbeeld, Restivo en van de Rijt's (2012) studie van barnstars en Wikipedia was een volledig digitaal experiment omdat het voor al deze vier stappen digitale systemen gebruikte. Evenzo maken volledig analoge experimenten geen gebruik van digitale infrastructuur voor een van deze vier stappen. Veel van de klassieke experimenten in de psychologie zijn volledig analoge experimenten. Tussen deze twee uitersten in, zijn er gedeeltelijk digitale experimenten die een combinatie van analoge en digitale systemen gebruiken.
Wanneer sommige mensen denken aan digitale experimenten, denken ze meteen aan online experimenten. Dit is jammer omdat de mogelijkheden om digitale experimenten uit te voeren niet alleen online zijn. Onderzoekers kunnen gedeeltelijk digitale experimenten uitvoeren door digitale apparaten in de fysieke wereld te gebruiken om behandelingen of meetresultaten te leveren. Onderzoekers zouden bijvoorbeeld smartphones kunnen gebruiken om behandelingen of sensoren in de gebouwde omgeving af te leveren om de uitkomsten te meten. In feite, zoals we verderop in dit hoofdstuk zullen zien, hebben onderzoekers al (Allcott 2015) gebruikt om de resultaten te meten in experimenten over energieverbruik met 8,5 miljoen huishoudens (Allcott 2015) . Naarmate digitale apparaten steeds meer geïntegreerd raken in het leven van mensen en sensoren worden geïntegreerd in de gebouwde omgeving, zullen deze mogelijkheden om gedeeltelijk digitale experimenten uit te voeren in de fysieke wereld drastisch toenemen. Met andere woorden, digitale experimenten zijn niet alleen online experimenten.
Digitale systemen creëren nieuwe mogelijkheden voor experimenten overal in het laboratorium-continuüm. In pure laboratoriumexperimenten kunnen onderzoekers bijvoorbeeld digitale systemen gebruiken om het gedrag van deelnemers nauwkeuriger te meten; Een voorbeeld van dit soort verbeterde metingen is oogvolgapparatuur die nauwkeurige en continue metingen van de bliklocatie biedt. Het digitale tijdperk creëert ook de mogelijkheid om labachtige experimenten online uit te voeren. Onderzoekers hebben bijvoorbeeld snel Amazon Mechanical Turk (MTurk) aangenomen om deelnemers aan te werven voor online experimenten (figuur 4.2). MTurk koppelt "werkgevers" die taken hebben die moeten worden aangevuld met "werknemers" die deze taken voor geld willen voltooien. Anders dan bij traditionele arbeidsmarkten, zijn de taken meestal slechts enkele minuten nodig om te voltooien en is de volledige interactie tussen werkgever en werknemer online. Omdat MTurk aspecten van traditionele laboratoriumexperimenten nabootst - mensen betalen om taken te voltooien die ze niet gratis zouden doen - is het van nature geschikt voor bepaalde soorten experimenten. In essentie heeft MTurk de infrastructuur gecreëerd voor het beheren van een pool van deelnemers - het werven en betalen van mensen - en onderzoekers hebben van die infrastructuur gebruik gemaakt om een altijd beschikbare pool van deelnemers aan te boren.
Digitale systemen creëren nog meer mogelijkheden voor veldachtige experimenten. Met name stellen ze onderzoekers in staat om de strakke controle- en procesgegevens die zijn gekoppeld aan laboratoriumexperimenten te combineren met de meer diverse deelnemers en meer natuurlijke instellingen die geassocieerd zijn met laboratoriumexperimenten. Bovendien bieden digitale veldexperimenten ook drie mogelijkheden die in analoge experimenten de neiging hadden moeilijk te zijn.
Ten eerste, terwijl de meeste analoge laboratorium- en veldexperimenten honderden deelnemers hebben, kunnen digitale veldexperimenten miljoenen deelnemers hebben. Deze schaalverandering is omdat sommige digitale experimenten gegevens kunnen produceren zonder variabele kosten. Dat wil zeggen, wanneer onderzoekers eenmaal een experimentele infrastructuur hebben gecreëerd, verhoogt het verhogen van het aantal deelnemers doorgaans niet de kosten. Het verhogen van het aantal deelnemers met een factor 100 of meer is niet alleen een kwantitatieve verandering; het is een kwalitatieve verandering, omdat het onderzoekers in staat stelt om andere dingen te leren van experimenten (bijv. heterogeniteit van behandelingseffecten) en om heel andere experimentele ontwerpen uit te voeren (bijv. experimenten met grote groepen). Dit punt is zo belangrijk, ik zal er tegen het einde van het hoofdstuk op terugkomen als ik advies geef over het maken van digitale experimenten.
Ten tweede, terwijl de meeste analoge laboratorium- en veldexperimenten deelnemers als niet-onderscheidende widgets behandelen, gebruiken digitale veldexperimenten vaak achtergrondinformatie over deelnemers in de ontwerp- en analysefasen van het onderzoek. Deze achtergrondinformatie, die informatie over de voorbehandeling wordt genoemd, is vaak beschikbaar in digitale experimenten omdat ze worden uitgevoerd bovenop altijd beschikbare meetsystemen (zie hoofdstuk 2). Een onderzoeker op Facebook heeft bijvoorbeeld veel meer informatie over de voorbehandeling van mensen in haar digitale veldexperiment dan een universitair onderzoeker over de mensen in haar analoge veldexperiment. Deze voorbehandeling maakt efficiëntere experimentele ontwerpen mogelijk - zoals blokkeren (Higgins, Sävje, and Sekhon 2016) en gerichte werving van deelnemers (Eckles, Kizilcec, and Bakshy 2016) - en meer inzichtelijke analyse - zoals schatting van heterogeniteit van behandeleffecten (Athey and Imbens 2016a) en covariabele aanpassing voor verbeterde precisie (Bloniarz et al. 2016) .
Ten derde, terwijl veel analoge laboratorium- en veldexperimenten behandelingen leveren en resultaten meten in een relatief gecomprimeerde hoeveelheid tijd, gebeuren sommige digitale veldexperimenten gedurende veel langere tijdschema's. Het experiment van Restivo en van de Rijt liet het resultaat bijvoorbeeld dagelijks 90 dagen meten, en een van de experimenten waarover ik later in het hoofdstuk (Ferraro, Miranda, and Price 2011) zal vertellen (Ferraro, Miranda, and Price 2011) volgde de resultaten over drie jaar bij in principe geen kosten. Deze drie mogelijkheden - omvang, informatie over voorbehandeling en longitudinale behandelings- en uitkomstgegevens - komen het meest voor als experimenten worden uitgevoerd bovenop permanent meettechnieken (zie hoofdstuk 2 voor meer informatie over always-on meetsystemen).
Hoewel digitale veldexperimenten veel mogelijkheden bieden, delen ze ook enkele zwakheden met zowel analoge laboratorium- als analoge veldexperimenten. Experimenten kunnen bijvoorbeeld niet worden gebruikt om het verleden te bestuderen, en ze kunnen alleen de effecten inschatten van behandelingen die kunnen worden gemanipuleerd. Hoewel experimenten ongetwijfeld nuttig zijn om het beleid te sturen, is de precieze begeleiding die ze kunnen bieden enigszins beperkt vanwege complicaties zoals milieu-afhankelijkheid, compliantieproblemen en evenwichtseffecten (Banerjee and Duflo 2009; Deaton 2010) . Digitale veldexperimenten vergroten ook de ethische bezorgdheid die wordt gecreëerd door veldexperimenten - een onderwerp dat ik later in dit hoofdstuk en in hoofdstuk 6 zal bespreken.