Laten we verder gaan dan eenvoudige experimenten. Drie concepten zijn nuttig voor rijke experimenten: geldigheid, heterogeniteit van de effecten van de behandeling, en het mechanisme.
Onderzoekers die nieuw zijn voor experimenten richten zich vaak op een heel specifieke, smalle vraag: doet deze behandeling "werk"? Bijvoorbeeld, een telefoontje van een vrijwilliger aan te moedigen iemand om te stemmen? Doet het veranderen van een website knop van blauw naar groen stijging click-through rate? Helaas, losse frasering over wat "werkt" verduistert het feit dat een sterk gefocuste experimenten je niet echt vertellen of een behandeling "werken" in algemene zin. Integendeel, nauwkeurig gerichte experimenten beantwoord een veel meer specifieke vraag: wat is het gemiddelde effect van deze specifieke behandeling met deze specifieke implementatie voor deze populatie van de deelnemers op dit moment? Ik zal experimenten die zich richten op deze smalle vraag eenvoudige experimenten noemen.
Eenvoudige experimenten kunnen waardevolle informatie verstrekken, maar ze niet te veel vragen die zowel belangrijk en interessant, zoals zijn te beantwoorden: zijn er een aantal mensen voor wie de behandeling van een groter of kleiner effect gehad ?; is er een andere behandeling die doeltreffender zou zijn ?; en hoe verhoudt dit experiment relateren aan bredere sociale theorieën?
Met het oog op de waarde van het verplaatsen dan eenvoudige experimenten laten zien, laten we eens kijken een van mijn favoriete analoge veldexperimenten, een studie van P. Wesley Schultz en zijn collega's over de relatie tussen sociale normen en het energieverbruik (Schultz et al. 2007) . Schultz en zijn collega's opgehangen deurhangers op 300 huishoudens in San Marcos, Californië, en deze deurhangers geleverd verschillende berichten ontworpen om energiebesparing te stimuleren. Vervolgens Schultz en medewerkers het effect gemeten van deze berichten op het elektriciteitsverbruik, zowel na één week en drie weken; zie figuur 4.3 voor een meer gedetailleerde beschrijving van de experimentele opzet.
De proef had twee voorwaarden. In de eerste voorwaarde, ontvingen de huishoudens algemene tips voor energiebesparing (bijvoorbeeld het gebruik fans in plaats van airconditioners) en informatie over het energieverbruik van hun huishouden in vergelijking met het gemiddelde van het energieverbruik in hun buurt. Schultz en zijn collega's noemde dit het beschrijvende normatieve toestand, omdat de informatie over het energieverbruik in hun buurt informatie verstrekt over typisch gedrag (dat wil zeggen, een beschrijvende norm). Wanneer Schultz en collega's keken naar de resulterende energieverbruik in deze groep, de behandeling bleek geen effect te hebben, zowel op de korte termijn of op de lange termijn; in andere woorden, de behandeling niet te "werken" (Figuur 4.4).
Maar gelukkig Schultz et al. (2007) geen genoegen met deze simplistische analyse. Voordat het experiment begonnen ze met redenen omkleed dat zware gebruikers van elektriciteit-mensen boven de gemiddelde-zou hun verbruik te verminderen, en dat licht de gebruikers van elektriciteit-mensen onder het gemiddelde-zou hun verbruik daadwerkelijk te verhogen. Toen ze keek naar de gegevens, dat is precies wat ze vonden (Figuur 4.4). Dus, wat leek op een behandeling die had geen effect was eigenlijk een behandeling die twee compenserende effecten gehad. De onderzoekers noemden dit contra-productief stijging bij de light users een boemerang effect.
Verder Schultz en medewerkers verwacht deze mogelijkheid, en in de tweede toestand ingezet dat het een iets andere behandeling, een expliciet ontworpen om de boemerang effect te elimineren. De huishoudens in de tweede voorwaarde kreeg exact dezelfde behandeling-generaal energiebesparende tips en informatie over het energieverbruik van hun huishouden in vergelijking met de hun buurt-met een kleine toevoeging: voor mensen met een lager dan gemiddelde verbruik, de onderzoekers nog een :) en voor mensen met een bovengemiddeld verbruik ze nog een :(. Deze emoticons zijn ontworpen op gang te brengen wat de onderzoekers genoemd injunctief normen. Voorlopige normen verwijzen naar de perceptie van wat algemeen wordt erkend (en afgekeurd), terwijl beschrijvende normen verwijzen naar de perceptie van wat algemeen wordt gedaan (Reno, Cialdini, and Kallgren 1993) .
Door de toevoeging van deze ene kleine emoticon, de onderzoekers drastisch verminderd het boemerangeffect (Figuur 4.4). Dus, door het maken van deze ene simpele verandering-een verandering die werd ingegeven door een abstracte sociaal psychologische theorie (Cialdini, Kallgren, and Reno 1991) -het onderzoekers waren in staat om een programma te zetten van de ene die niet lijkt te werken in een die werkte, en, tegelijkertijd, waren ze in staat om bij te dragen aan de algemene begrip van hoe de sociale normen van invloed op het menselijk gedrag.
Op dit punt, echter, zou je merkt dat er iets een beetje anders over dit experiment. Met name ook het experiment van Schultz en zijn collega's niet echt een controlegroep op dezelfde manier dat gerandomiseerde gecontroleerde experimenten te doen. De vergelijking tussen dit ontwerp en het ontwerp van Restivo en Van de Rijt illustreert de verschillen tussen de twee belangrijkste ontwerpen die worden gebruikt door onderzoekers. Tussen-subjects designs, zoals Restivo en van de Rijt is er een behandelgroep en een controlegroep, en binnen-subjects ontwerpen het gedrag van de vergeleken vóór en na de behandeling (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . In een within-subject experiment is het alsof elke deelnemer fungeert als haar eigen controlegroep. De sterkte van tussen-onderwerpen ontwerpen is dat het bescherming biedt tegen verstorende factoren (zoals ik al eerder beschreven), en de kracht van binnen-proefpersonen experimenten grotere precisie in de ramingen. Wanneer elke deelnemer fungeert als hun eigen controle, tussen-deelnemer variatie wordt geëlimineerd (zie technische bijlage). Om een voorafschaduwing die later zal komen wanneer ik advies geven over het ontwerpen van digitale experimenten, is er een definitief ontwerp, een zogenaamde gemengde ontwerp, dat de verbeterde nauwkeurigheid van within-subjects designs en de bescherming tegen verstorende tussen-proefpersonen design combineert.
Over het algemeen, het ontwerp en de resultaten van Schultz et al. (2007) , de omvang van het verplaatsen dan eenvoudige experimenten. Gelukkig hoef je niet nodig om een genie te zijn om experimenten als deze te creëren. 1) geldigheid, 2) heterogeniteit van de effecten van de behandeling, en 3) mechanismen: sociale wetenschappers hebben drie begrippen die u zal begeleiden in de richting van rijkere en meer creatieve experimenten ontwikkeld. Dat wil zeggen, als je deze drie ideeën in gedachten te houden terwijl u het ontwerpen van uw experiment, zult u uiteraard leiden tot meer interessant en nuttig experimenten. Om deze drie begrippen in actie te illustreren, zal ik een aantal follow-up gedeeltelijk digitale veldexperimenten dat gebouwd op het elegante design en spannende resultaten in beschrijven Schultz et al. (2007) . Zoals u zult zien, door middel van meer zorgvuldige ontwerp, implementatie, analyse en interpretatie, ook u kunt gaan dan eenvoudige experimenten.