[ , ] Berinsky en collega's (2012) evalueerden MTurk gedeeltelijk door het repliceren van drie klassieke experimenten. Repliceer het klassieke Aziatische ziekte framing-experiment van Tversky and Kahneman (1981) . Komen uw resultaten overeen met Tversky en Kahneman's? Komen uw resultaten overeen met die Berinsky en collega's? Wat-als iets - leert dit ons over het gebruik van MTurk voor survey-experimenten?
[ , ] In een enigszins ironisch document met de titel "We moeten uit elkaar gaan", de sociaal psycholoog Robert Cialdini, een van de auteurs van Schultz et al. (2007) , schreef dat hij vroegtijdig met zijn baan als professor stopte, deels vanwege de uitdagingen waarmee hij geconfronteerd werd met veldexperimenten in een discipline (psychologie) die voornamelijk laboratoriumexperimenten uitvoert (Cialdini 2009) . Lees de paper van Cialdini en schrijf hem een e-mail waarin hij hem aanspoort om zijn breuk opnieuw te overwegen in het licht van de mogelijkheden van digitale experimenten. Gebruik specifieke voorbeelden van onderzoek die zijn zorgen aanpakken.
[ ] Om vast te stellen of kleine initiële successen vastlopen of wegebben, hebben van de Rijt en collega's (2014) ingegrepen in vier verschillende systemen die succesvol waren bij willekeurig geselecteerde deelnemers, en vervolgens de langetermijneffecten van dit arbitraire succes gemeten. Kun je andere systemen bedenken waarin je vergelijkbare experimenten zou kunnen uitvoeren? Evalueer deze systemen in termen van kwesties van wetenschappelijke waarde, algoritmische confounding (zie hoofdstuk 2) en ethiek.
[ , ] De resultaten van een experiment kunnen van de deelnemers afhangen. Maak een experiment en voer het vervolgens uit op MTurk met behulp van twee verschillende wervingsstrategieën. Probeer het experiment en de rekruteringsstrategieën te kiezen, zodat de resultaten zo verschillend mogelijk zullen zijn. Uw wervingsstrategieën kunnen bijvoorbeeld bestaan uit het werven van deelnemers in de ochtend en de avond of om deelnemers met hoge en lage lonen te compenseren. Dit soort verschillen in wervingsstrategie kan leiden tot verschillende groepen deelnemers en verschillende experimentele uitkomsten. Hoe verschillend zijn uw resultaten geworden? Wat onthult dit over het uitvoeren van experimenten op MTurk?
[ , , ] Stel u voor dat u het Emotional Contagion-experiment aan het plannen was (Kramer, Guillory, and Hancock 2014) . Gebruik de resultaten van een eerdere observationele studie van Kramer (2012) om het aantal deelnemers in elke aandoening te bepalen. Deze twee onderzoeken komen niet perfect overeen, dus geef expliciet een lijst van alle aannames die u maakt:
[ , , ] Beantwoord de vorige vraag opnieuw, maar gebruik deze keer in plaats van de eerdere observationele studie van Kramer (2012) , de resultaten van een eerder natuurlijk experiment van Lorenzo Coviello et al. (2014) .
[ ] Beide Margetts et al. (2011) en van de Rijt et al. (2014) heeft experimenten uitgevoerd om het proces te bestuderen van mensen die een petitie ondertekenen. Vergelijk en contrasteer de ontwerpen en bevindingen van deze studies.
[ ] Dwyer, Maki, and Rothman (2015) voerden twee veldexperimenten uit op de relatie tussen sociale normen en pro-milieugedrag. Dit is de samenvatting van hun paper:
"Hoe kan psychologische wetenschap worden gebruikt om pro-omgevingsgedrag aan te moedigen? In twee studies onderzochten interventies gericht op het bevorderen van energiebesparingsgedrag in openbare badkamers de invloeden van beschrijvende normen en persoonlijke verantwoordelijkheid. In Studie 1 werd de lichtstatus (dwz aan of uit) gemanipuleerd voordat iemand een onbezette openbare badkamer betrad, wat de beschrijvende norm voor die instelling aangeeft. Deelnemers hadden significant meer kans om de lichten uit te doen als ze uit waren toen ze binnenkwamen. In Studie 2 is een extra voorwaarde opgenomen waarin de norm om het licht uit te schakelen werd aangetoond door een verbonden persoon, maar deelnemers waren niet zelf verantwoordelijk voor het inschakelen. Persoonlijke verantwoordelijkheid matigde de invloed van sociale normen op gedrag; wanneer de deelnemers niet verantwoordelijk waren voor het aanzetten van het licht, was de invloed van de norm afgenomen. Deze resultaten geven aan hoe beschrijvende normen en persoonlijke verantwoordelijkheid de effectiviteit van pro-omgevingsinterventies kunnen reguleren. "
Lees hun paper en ontwerp een replicatie van studie 1.
[ , ] Bouw voort op de vorige vraag en voer nu uw ontwerp uit.
[ ] Er is veel discussie geweest over experimenten met deelnemers uit MTurk. Tegelijkertijd is er ook veel discussie geweest over experimenten met deelnemers die zijn geworven uit studentenpopulaties. Schrijf een memo van twee pagina's die Turkers en studenten vergelijkt en vergelijkt als deelnemers aan het onderzoek. Uw vergelijking zou een bespreking van zowel wetenschappelijke als logistieke kwesties moeten omvatten.
[ ] Jim Manzi's boek Uncontrolled (2012) is een prachtige introductie tot de kracht van experimenteren in het bedrijfsleven. In het boek bracht hij het volgende verhaal over:
"Ik was eens in een ontmoeting met een echte zakengenie, een selfmade miljardair die een diepe, intuïtieve onderschatting had van de kracht van experimenten. Zijn bedrijf besteedde aanzienlijke middelen aan het creëren van geweldige etalagedisplays die consumenten zouden aantrekken en de verkoop zouden verhogen, zoals de conventionele wijsheid beweerde. Experts hebben design na ontwerp zorgvuldig getest en in individuele testreviewsessies over een periode van jaren bleef er geen significant causaal effect van elk nieuw displayontwerp op de verkoop. Senior executives van marketing en merchandising hebben een ontmoeting gehad met de CEO om deze historische testresultaten in detail te bekijken. Nadat ze alle experimentele gegevens hadden gepresenteerd, concludeerden ze dat de conventionele wijsheid onjuist was - dat vensterweergaven de verkoop niet stimuleren. Hun aanbevolen actie was om de kosten en inspanningen op dit gebied te verminderen. Dit demonstreerde dramatisch het vermogen van experimenten om conventionele wijsheid omver te werpen. De reactie van de CEO was simpel: 'Mijn conclusie is dat je ontwerpers niet erg goed zijn.' Zijn oplossing was om de inspanningen op het gebied van winkelpresentatie te vergroten en om nieuwe mensen te krijgen om het te doen. " (Manzi 2012, 158–9)
Welk type geldigheid is de zorg van de CEO?
[ ] Bouw voort op de vorige vraag, stel je voor dat je op de bijeenkomst was waar de resultaten van de experimenten werden besproken. Wat zijn vier vragen die u zou kunnen stellen: één voor elk type geldigheid (statistisch, construct, intern en extern)?
[ ] Bernedo, Ferraro, and Price (2014) bestudeerden het zeven jaar durende effect van de waterbesparende interventie beschreven in Ferraro, Miranda, and Price (2011) (zie figuur 4.11). In deze paper tracht Bernedo en collega's ook het mechanisme achter het effect te begrijpen door het gedrag te vergelijken van huishoudens die wel en niet zijn verhuisd nadat de behandeling is uitgevoerd. Dat wil zeggen dat ze ruwweg probeerden te zien of de behandeling invloed had op het huis of de huiseigenaar.
[ ] In een follow-up van Schultz et al. (2007) , Schultz en collega's voerden een reeks van drie experimenten uit op het effect van beschrijvende en injunctie-normen op een ander milieugedrag (handdoekhergebruik) in twee contexten (een hotel en een timeshare-condominium) (Schultz, Khazian, and Zaleski 2008) .
[ ] In antwoord op Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) voerden een reeks laboratoriumachtige experimenten uit om het ontwerp van elektrische rekeningen te bestuderen. Hier is hoe ze het in abstracto beschrijven:
"In een op onderzoek gebaseerd experiment zag elke deelnemer een hypothetische elektriciteitsrekening voor een gezin met een relatief hoog elektriciteitsverbruik, met informatie over (een) historisch gebruik, (b) vergelijkingen met buren, en (c) historisch gebruik met uitval van apparaten. Deelnemers zagen alle informatietypes in een van de drie formaten, waaronder (a) tabellen, (b) staafdiagrammen en (c) pictogramgrafieken. We rapporteren over drie belangrijke bevindingen. Ten eerste begreep de consument elk type informatie over elektriciteitsgebruik het meest toen het in een tabel werd gepresenteerd, misschien omdat tabellen een eenvoudige puntaflezing vergemakkelijken. Ten tweede waren voorkeuren en intenties om elektriciteit te besparen de sterkste voor de historische gebruiksinformatie, onafhankelijk van het formaat. Ten derde begrepen individuen met een lagere energievaardigheden alle informatie minder. "
In tegenstelling tot andere follow-upstudies, is het belangrijkste resultaat van interesse in Canfield, Bruin, and Wong-Parodi (2016) gedrag en geen feitelijk gedrag gerapporteerd. Wat zijn de sterke en zwakke punten van dit type onderzoek in een breder onderzoeksprogramma ter bevordering van energiebesparing?
[ , Smith and Pell (2003) presenteerden een satirische meta-analyse van studies die de effectiviteit van parachutes aantonen. Ze concludeerden:
"Zoals met vele interventies die bedoeld zijn om een slechte gezondheid te voorkomen, is de effectiviteit van parachutes niet onderworpen aan een grondige evaluatie door het gebruik van gerandomiseerde gecontroleerde studies. Voorstanders van evidence-based medicine hebben kritiek geuit op de adoptie van interventies die geëvalueerd zijn door alleen observatiegegevens te gebruiken. We denken dat iedereen er baat bij kan hebben als de meest radicale protagonisten van op bewijsmateriaal gebaseerde geneeskunde een dubbelblinde, gerandomiseerde, placebo-gecontroleerde, cross-over trial van de parachute organiseren en eraan deelnemen. "
Schrijf een opiniestuk dat geschikt is voor een algemene lezerskrant, zoals de New York Times , en die streed tegen de fetisjisering van experimenteel bewijs. Geef specifieke, concrete voorbeelden. Hint: zie ook Deaton (2010) en Bothwell et al. (2016) .
[ , , ] Difference-in-difference-schattingen van een behandeleffect kunnen nauwkeuriger zijn dan verschil-in-gemiddelde schatters. Schrijf een memo aan een ingenieur die belast is met A / B-testen bij een startend bedrijf op sociale media, waarin de waarde van de verschil-in-verschillen benadering wordt uitgelegd voor het uitvoeren van een online experiment. De memo moet een verklaring van het probleem bevatten, enige intuïtie over de omstandigheden waaronder de verschil-in-verschilschatter beter zal presteren dan de verschil-in-gemiddelde schatter, en een eenvoudige simulatie-studie.
[ , ] Gary Loveman was professor aan de Harvard Business School voordat hij CEO werd van Harrah's, een van de grootste casino-bedrijven ter wereld. Toen hij naar Harrah verhuisde, transformeerde Loveman het bedrijf met een loyaliteitsprogramma dat veelvuldig fliert en dat enorme hoeveelheden gegevens verzamelde over klantgedrag. Bovenop dit always-on meetsysteem begon het bedrijf met het uitvoeren van experimenten. Ze kunnen bijvoorbeeld een experiment uitvoeren om het effect van een kortingsbon voor een gratis hotelnacht te evalueren voor klanten met een specifiek gokpatroon. Dit is hoe Loveman het belang van experimenten voor de dagelijkse handelspraktijken van Harrah beschreef:
"Het is alsof je geen vrouwen lastigvalt, je steelt niet en je moet een controlegroep hebben. Dit is een van de dingen waar je je baan voor kunt verliezen bij Harrah's - geen controlegroep runnen. " (Manzi 2012, 146)
Schrijf een e-mail naar een nieuwe medewerker en leg uit waarom Loveman vindt dat het zo belangrijk is om een controlegroep te hebben. Je moet proberen een voorbeeld te geven, hetzij echt, hetzij verzonnen, om je punt te illustreren.
[ , ] Een nieuw experiment is bedoeld om het effect van het ontvangen van sms-herinneringen op de opname van vaccinaties te schatten. Honderdvijftig klinieken, elk met 600 in aanmerking komende patiënten, zijn bereid om deel te nemen. Er is een vaste prijs van $ 100 voor elke kliniek waar je mee wilt werken, en het kost $ 1 voor elk sms-bericht dat je wilt verzenden. Verder zullen alle klinieken waar u mee werkt de uitkomst (ongeacht of iemand een vaccinatie ontvangt) gratis meten. Stel dat u een budget heeft van $ 1.000.
[ , ] Een groot probleem met online cursussen is natuurlijk verloop: veel studenten die cursussen starten, raken uit. Stel je voor dat je op een online leerplatform werkt, en een ontwerper op het platform heeft een visuele voortgangsbalk gecreëerd waarvan ze denkt dat deze zal helpen voorkomen dat studenten de cursus verlaten. U wilt het effect van de voortgangsbalk testen op studenten in een grote cursus computational social science. Nadat u zich hebt gebogen over eventuele ethische problemen die zich in het experiment kunnen voordoen, maken u en uw collega's zich zorgen dat de cursus mogelijk niet voldoende studenten heeft om de effecten van de voortgangsbalk betrouwbaar te detecteren. In de volgende berekeningen kunt u ervan uitgaan dat de helft van de studenten de voortgangsbalk ontvangt en de andere helft niet. Verder kunt u aannemen dat er geen interferentie is. Met andere woorden, u kunt ervan uitgaan dat deelnemers alleen worden beïnvloed door de vraag of zij de behandeling of controle hebben ontvangen; ze worden niet beïnvloed door de vraag of andere mensen de behandeling of controle hebben ontvangen (voor een meer formele definitie, zie hoofdstuk 8 van Gerber and Green (2012) ). Blijf op de hoogte van eventuele aanvullende aannames die u maakt.
[ , , ] Stel u voor dat u als data-wetenschapper bij een technologiebedrijf werkt. Iemand van de marketingafdeling vraagt om uw hulp bij het evalueren van een experiment dat zij plannen om het rendement op investering (ROI) voor een nieuwe online advertentiecampagne te meten. ROI wordt gedefinieerd als de nettowinst van de campagne gedeeld door de kosten van de campagne. Een campagne die geen effect had op de verkoop zou bijvoorbeeld een ROI van -100% hebben; een campagne waarbij gegenereerde winsten gelijk waren aan kosten zou een ROI van 0 hebben; en een campagne waarbij de gegenereerde winsten dubbel zo hoog waren als de kosten een ROI van 200% zouden hebben.
Voordat het experiment wordt gestart, biedt de marketingafdeling u de volgende informatie op basis van eerder onderzoek (in feite zijn deze waarden typerend voor de echte online advertentiecampagnes die zijn gerapporteerd in Lewis en Rao (2015) ):
Schrijf een memo waarin dit voorgestelde experiment wordt geëvalueerd. Uw memo moet bewijsmateriaal gebruiken uit een simulatie die u maakt en er moeten twee belangrijke problemen worden opgelost: (1) Zou u aanbevelen om dit experiment te starten zoals gepland? Zo ja, waarom? Zo nee, waarom niet? Zorg ervoor dat u duidelijk bent over de criteria die u gebruikt om deze beslissing te nemen. (2) Welke steekproefomvang zou u aanbevelen voor dit experiment? Nogmaals, wees alsjeblieft duidelijk over de criteria die je gebruikt om deze beslissing te nemen.
Een goed memo zal dit specifieke geval behandelen; een betere memo zal op één manier gegeneraliseerd worden vanuit deze casus (laat bijvoorbeeld zien hoe de beslissing verandert als een functie van de grootte van het effect van de campagne); en een geweldige memo zal een volledig gegeneraliseerd resultaat presenteren. Uw memo moet grafieken gebruiken om uw resultaten te illustreren.
Hier zijn twee hints. Ten eerste heeft de marketingafdeling u mogelijk onnodige informatie verstrekt en is het mogelijk dat ze u niet de nodige informatie hebben verstrekt. Ten tweede, als u R gebruikt, moet u weten dat de functie rlnorm () niet werkt zoals veel mensen verwachten.
Met deze activiteit kunt u oefenen met energieanalyse, simulaties maken en uw resultaten communiceren met woorden en grafieken. Het moet u helpen energieanalyses uit te voeren voor elk soort experiment, niet alleen voor experimenten die zijn ontworpen om de ROI te schatten. Bij deze activiteit wordt ervan uitgegaan dat u enige ervaring hebt met statistische testen en energieanalyse. Als u niet bekend bent met vermogensanalyse, raad ik u aan "A Power Primer" van Cohen (1992) .
Deze activiteit is geïnspireerd op een mooie paper van RA Lewis and Rao (2015) , die een fundamentele statistische beperking van zelfs enorme experimenten levendig illustreert. Hun paper - die oorspronkelijk de provocerende titel 'On the Near-Impossibility of Measuring the Returns to Advertising' had - laat zien hoe moeilijk het is om het rendement op de investering van online advertenties te meten, zelfs met digitale experimenten waarbij miljoenen klanten zijn betrokken. Meer in het algemeen illustreren RA Lewis and Rao (2015) een fundamenteel statistisch feit dat vooral belangrijk is voor digitale-leeftijds-experimenten: het is moeilijk om kleine behandeleffecten te schatten temidden van luidruchtige uitkomstgegevens.
[ , ] Doe hetzelfde als de vorige vraag, maar in plaats van simulatie, moet u analytische resultaten gebruiken.
[ , , ] Doe hetzelfde als de vorige vraag, maar gebruik zowel simulatie- als analytische resultaten.
[ , , ] Stel u voor dat u de hierboven beschreven memo hebt geschreven en dat iemand van de marketingafdeling één stuk nieuwe informatie biedt: zij verwachten een correlatie van 0,4 tussen de verkopen voor en na het experiment. Hoe verandert dit de aanbevelingen in uw memo? (Hint: zie sectie 4.6.2 voor meer informatie over de verschil-van-middelenschatter en de verschil-in-verschillen-schatter.)
[ , ] Om de doeltreffendheid van een nieuw op het web gebaseerd programma voor personeelsbijstand te evalueren, voerde een universiteit een gerandomiseerde controlestudie uit bij 10.000 studenten die hun laatste schooljaar ingingen. Een gratis abonnement met unieke inloginformatie werd via een exclusieve e-mailuitnodiging verstuurd naar 5.000 van de willekeurig geselecteerde studenten, terwijl de overige 5.000 studenten deel uitmaakten van de controlegroep en geen abonnement hadden. Twaalf maanden later bleek uit een follow-uponderzoek (zonder respons) dat 70% van de studenten in zowel de behandelings- als de controlegroepen een voltijdse betrekking had op het door hen gekozen vakgebied (tabel 4.6). Het leek er dus op dat de webgebaseerde service geen effect had.
Een slimme gegevenswetenschapper aan de universiteit bekeek de gegevens echter wat nauwkeuriger en ontdekte dat slechts 20% van de studenten in de behandelingsgroep ooit op het account was ingelogd na ontvangst van de e-mail. Verder, en enigszins verrassend, van de mensen die zich op de website hadden aangemeld, had slechts 60% een voltijdse baan in het door hen gekozen vakgebied, wat lager was dan het percentage voor mensen die niet inlogden en lager waren dan het tarief voor mensen in de controlevoorwaarde (tabel 4.7).
Hint: deze vraag gaat verder dan het materiaal dat in dit hoofdstuk wordt behandeld, maar gaat in op de problemen die bij experimenten voorkomen. Dit type experimenteel ontwerp wordt soms een aanmoedigingsontwerp genoemd omdat deelnemers worden aangemoedigd om deel te nemen aan de behandeling. Dit probleem is een voorbeeld van wat eenzijdige niet-naleving wordt genoemd (zie hoofdstuk 5 van Gerber and Green (2012) ).
[ ] Na nader onderzoek bleek dat het experiment dat in de vorige vraag werd beschreven, nog ingewikkelder was. Het bleek dat 10% van de mensen in de controlegroep betaalde voor toegang tot de dienst, en zij eindigden met een werkgelegenheidsgraad van 65% (tabel 4.8).
Hint: deze vraag gaat verder dan het materiaal dat in dit hoofdstuk wordt behandeld, maar gaat in op de problemen die bij experimenten voorkomen. Dit probleem is een voorbeeld van wat tweezijdige niet-naleving wordt genoemd (zie hoofdstuk 6 van Gerber and Green (2012) ).
Groep | Grootte | Werkgelegenheidsgraad |
---|---|---|
Verleende toegang tot website | 5000 | 70% |
Geen toegang verleend tot website | 5000 | 70% |
Groep | Grootte | Werkgelegenheidsgraad |
---|---|---|
Toegang verleend tot de website en ingelogd | 1000 | 60% |
Toegang verleend tot de website en nooit ingelogd | 4000 | 72,5% |
Geen toegang verleend tot website | 5000 | 70% |
Groep | Grootte | Werkgelegenheidsgraad |
---|---|---|
Toegang verleend tot de website en ingelogd | 1000 | 60% |
Toegang verleend tot de website en nooit ingelogd | 4000 | 72,5% |
Geen toegang tot de website verleend en ervoor betaald | 500 | 65% |
Geen toegang tot de website verleend en niet ervoor betaald | 4500 | 70,56% |