Key:
[ , ] Berinsky en collega's (2012) evalueert Mechanical Turk voor een deel door het repliceren van drie klassieke experimenten. Repliceren de klassieke Aziatische Disease framing experiment van Tversky and Kahneman (1981) . Doe je resultaten match Tversky en Kahneman's? Doe je resultaten match Berinsky en collega's? What-if-iets leert dit ons over het gebruik van Mechanical Turk voor survey experimenten?
[ , ] In een enigszins tongue-in-cheek paper getiteld "We moeten Break Up", de sociaal-psycholoog Robert Cialdini, een van de auteurs van Schultz et al. (2007) , schreef dat hij het begin van zijn baan als hoogleraar met pensioen ging, omdat in een deel van de uitdagingen waar hij geconfronteerd met het doen van veldexperimenten in een discipline (psychologie), die vooral voert laboratoriumexperimenten (Cialdini 2009) . Lees Cialdini's papier, en schrijf hem een e-mail spoorde hem aan om zijn break-up in het licht van de mogelijkheden van digitale experimenten te heroverwegen. Gebruik specifieke voorbeelden van onderzoek dat zijn problemen aan te pakken.
[ ] Om te bepalen of de kleine aanvankelijke successen lock-in of verdwijnen, Van de Rijt en en collega's (2014) intervenieerde in vier verschillende systemen schenken succes op willekeurig geselecteerde deelnemers, en vervolgens gemeten op de lange termijn gevolgen van deze willekeurige succes. Kunt u denken aan andere systemen waarin u soortgelijke experimenten kon lopen? Evalueer deze systemen op het gebied van vraagstukken van wetenschappelijke waarde, algoritmische verstorende (zie hoofdstuk 2), en ethiek.
[ , ] De resultaten van een experiment kan afhangen van de deelnemers. Maak een experiment en vervolgens uitvoeren op Amazon Mechanical Turk (MTurk) met behulp van twee verschillende wervingsstrategieën. Probeer om het experiment en wervingsstrategieën halen, zodat de resultaten zo verschillend als mogelijk zal zijn. Bijvoorbeeld, kan uw recruitment strategieën om de deelnemers in de ochtend en 's avonds aan te werven of de deelnemers met hoge en lage lonen te compenseren. Dit soort verschillen in recruitment strategie zou kunnen leiden tot verschillende zwembaden van de deelnemers en verschillende experimentele resultaten. Hoe anders heeft uw resultaten blijken? Wat heeft dat te onthullen over het uitvoeren van experimenten op MTurk?
[ , , , ] Stel je voor dat je van plan was de Emotional Contagion studie (Kramer, Guillory, and Hancock 2014) . Met de resultaten van een eerdere waarnemingsstudie door Kramer (2012) het aantal deelnemers beslissen per conditie. Deze twee studies niet passen perfect dus zorg ervoor dat expliciet een lijst van alle aannames die je maakt:
[ , , , ] Geef antwoord hierboven, maar in plaats van de eerdere waarnemingsstudie door Kramer (2012) gebruiken de resultaten uit een eerder experiment door natuurlijke Coviello et al. (2014) .
[ ] Beide Rijt et al. (2014) en Margetts et al. (2011) beide uit te voeren experimenten die het proces van mensen die het ondertekenen van een petitie te bestuderen. Vergelijken en het ontwerp en de bevindingen van deze studies.
[ ] Dwyer, Maki, and Rothman (2015) voerde twee veldexperimenten op de relatie tussen sociale normen en proenvironmental gedrag. Hier is de samenvatting van hun paper:
"Hoe zou de psychologische wetenschap worden gebruikt om proenvironmental gedrag te bevorderen? In twee studies, interventies gericht op het bevorderen van energiebesparing gedrag in de openbare badkamers onderzocht de invloed van beschrijvende normen en persoonlijke verantwoordelijkheid. In Studie 1, het licht staat (dat wil zeggen, aan of uit) werd gemanipuleerd voordat iemand hebt een onbezet openbaar toilet, het signaleren van de descriptieve norm voor die instelling. De deelnemers waren significant meer kans om de lichten uit te schakelen als ze uit wanneer ze ingevoerd. In Studie 2 werd een bijkomende voorwaarde opgenomen waarin de norm van het uitschakelen van het licht werd aangetoond door een lidstaat, maar de deelnemers waren zelf niet verantwoordelijk voor het draaien van het op. Eigen verantwoordelijkheid gemodereerd de invloed van sociale normen op het gedrag; wanneer de deelnemers niet verantwoordelijk voor het inschakelen van het licht waren, de invloed van de norm was verminderd. Deze resultaten geven aan hoe beschrijvende normen en eigen verantwoordelijkheid kan de werkzaamheid van proenvironmental interventies te regelen. "
Lees hun papieren en ontwerpen van een replicatie van de studie 1.
[ , ] Voortbouwend op de vorige vraag, nu het uitvoeren van uw ontwerp.
[ ] Er is aanzienlijke debat over experimenten met deelnemers gerekruteerd uit Amazon Mechanical Turk. Tegelijkertijd is er ook inhoudelijk debat over experimenten met deelnemers gerekruteerd uit undergraduate student bevolking geweest. Schrijf een twee pagina memo vergelijken en contrasterende de Turkers en studenten als onderzoekers deelnemers. Uw vergelijking moet ook een bespreking van zowel de wetenschappelijke en logistieke problemen.
[ ] Jim Manzi boek ongecontroleerde (2012) is een prachtige introductie in de kracht van de experimenten in het bedrijfsleven. In het boek doorgegeven hij dit verhaal:
"Ik was een keer in een ontmoeting met een echte zakelijke genie, een self-made miljardair die een diepe, intuïtieve gewag gemaakt van de kracht van de experimenten hadden. Zijn bedrijf bracht aanzienlijke middelen proberen te grote etalage displays die consumenten en verhoogt de verkoop zou trekken, als conventionele wijsheid zei ze zouden moeten maken. Experts zorgvuldig getest ontwerp na het ontwerp en in de individuele proef beoordeling sessies over een periode van jaren zien geen significant oorzakelijk effect van elke nieuwe display ontwerp op de verkoop. Senior marketing en merchandising executives ontmoeting met de CEO om deze historische testresultaten in zijn geheel te beoordelen. Na de presentatie van alle van de experimentele gegevens, concludeerden zij dat de conventionele wijsheid was verkeerd, dat etalages niet verkoop te stimuleren. Hun aanbevolen actie was om de kosten en inspanningen op dit gebied te verminderen. Dit dramatisch demonstreerde het vermogen van experimenteren met conventionele wijsheid ten val te brengen. De reactie van de CEO's was eenvoudig: 'Mijn conclusie is dat uw ontwerpers zijn niet erg goed.' Zijn oplossing was om het werk in de winkel display design te verhogen en om nieuwe mensen om het te doen. " (Manzi 2012, 158–9)
Welk type validiteit is de bezorgdheid van de CEO?
[ ] Voortbouwend op de vorige vraag, stel je voor dat je op de bijeenkomst waar de resultaten van de experimenten werden besproken. Wat zijn vier vragen die je zou kunnen vragen, één voor elk type van de geldigheid (statistische, bouwen, intern en extern)?
[ ] Bernedo, Ferraro, and Price (2014) bestudeert de zeven jaar effect van de waterbesparing interventie in beschreven Ferraro, Miranda, and Price (2011) (zie figuur 4.10). In deze paper, Bernedo en collega's ook proberen om het mechanisme achter het effect te begrijpen door het vergelijken van het gedrag van de huishoudens die wel en niet verplaatst na de behandeling werd geleverd. Dat wil zeggen, ongeveer, ze proberen om te zien of de behandeling invloed op het huis of de huiseigenaar.
[ ] In een follow-up van Schultz et al. (2007) , Schultz en zijn collega's het uitvoeren van een serie van drie experimenten op het effect van de beschrijvende en injunctive normen op een andere milieu-gedrag (handdoek hergebruik) in twee contexten (een hotel en een timeshare condominium) (Schultz, Khazian, and Zaleski 2008) .
[ ] In antwoord op Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) ontving een reeks lab-experimenten zoals het ontwerp van elektrische wissels bestuderen. Hier is hoe ze beschrijven in de samenvatting:
"In een onderzoek op basis van experiment, elke deelnemer zag een hypothetische elektriciteitsrekening voor een gezin met een relatief hoge gebruik van elektriciteit, die informatie over (a) historisch gebruik, (b) vergelijkingen met de buren, en (c) historisch gebruik met het apparaat afbraak. Deelnemers zagen alle soorten informatie in een van de drie formaten, waaronder (a) tafels, (b) staafdiagrammen, en (c) het pictogram grafieken. We rapporteren over de drie belangrijkste bevindingen. Ten eerste, de consument begrepen elk type elektriciteit gebruiken de informatie van de meest toen het werd gepresenteerd in een tabel, misschien omdat tafels simpele point lezen te vergemakkelijken. Ten tweede, voorkeuren en intenties om elektriciteit te besparen waren de sterkste van de historische informatie gebruik, onafhankelijk van formaat. Ten derde, mensen met een lagere energie geletterdheid begrepen alle informatie minder. "
In tegenstelling tot andere follow-up studies, de belangrijkste uitkomst van interesse in Canfield, Bruin, and Wong-Parodi (2016) wordt gerapporteerd gedrag niet daadwerkelijk gedrag. Wat zijn de sterke en zwakke punten van dit type onderzoek in een breder onderzoek ter bevordering van energiebesparing?
[ , ] Smith and Pell (2003) is een satirische meta-analyse van studies om de doeltreffendheid van parachutes. Zij concluderen:
"Zoals bij vele interventies ter voorkoming van ziekte, de doeltreffendheid van parachutes niet is onderworpen aan strenge evaluatie door RCT. Voorstanders van evidence-based medicine hebben de goedkeuring van de interventies geëvalueerd met behulp van slechts waarnemingsgegevens bekritiseerd. Wij denken dat iedereen zou kunnen profiteren als de meest radicale voorvechters van evidence-based medicine georganiseerd en deelgenomen aan een dubbelblinde, gerandomiseerde, placebo-gecontroleerde, cross-over studie van de parachute. "
Schrijf een opiniestuk geschikt voor een algemene lezen van kranten, zoals The New York Times, met het argument tegen de fetisjering van experimenteel bewijs. Zorg voor specifieke, concrete voorbeelden. Hint: Zie ook Bothwell et al. (2016) en Deaton (2010)
[ , , ] Verschil-in-verschillen schatters van een behandelingseffect nauwkeuriger dan verschillen in het gemiddelde van schatters zijn. Schrijf een memo aan een ingenieur die verantwoordelijk is voor A / B-testen bij een start-up social media bedrijf het uitleggen van de waarde van het verschil-in-verschillen aanpak voor het runnen van een online experiment. De memo moet ook een verklaring van het probleem, wat intuïtie over de voorwaarden waaronder het verschil-in-difference schatter het verschil-in-gemiddelde schatter zal overtreffen, en een eenvoudige simulatie studie.
[ , ] Gary Loveman was een professor aan de Harvard Business School voordat hij de CEO van Harrah's, een van de grootste casino bedrijven ter wereld. Toen hij verhuisde naar Harrah's, Loveman getransformeerd het bedrijf met een frequent flier-achtige loyaliteitsprogramma die enorme hoeveelheden gegevens over het gedrag van klanten verzameld. Op de top van deze always-on meetsysteem, begon het bedrijf actief is experimenten. Zo kunnen ze een experiment om het effect van een coupon voor een gratis hotel overnachting voor klanten met een specifiek gokken patroon evalueren draaien. Hier is hoe Loveman beschreef het belang van het experimenteren met de dagelijkse bedrijfsvoering Harrah's:
"Het is alsof je vrouwen niet lastig vallen, hoef je niet stelen, en je hebt een controle groep. Dit is één van de dingen die je je baan kan verliezen ten Harrah's-niet het runnen van een controlegroep. " (Manzi 2012, 146)
Schrijf een e-mail naar een nieuwe werknemer uit te leggen waarom Loveman denkt dat het zo belangrijk is om een controle groep. Je moet proberen om een voorbeeld-hetzij echt of gemaakt up-to uw punt te illustreren bevatten.
[ , ] Een nieuw experiment is bedoeld om het effect van het ontvangen van SMS-bericht herinneringen op vaccinatie opname te schatten. 150 klinieken, elk met 600 in aanmerking komende patiënten, bereid zijn om deel te nemen. Er is een vaste prijs van 100 dollar voor elke kliniek u om mee te werken, en het kost 1 dollar voor elk SMS-bericht dat u wilt verzenden. Verder zullen alle klinieken die u bezig bent met het resultaat te meten (of iemand kreeg een vaccinatie) gratis. Stel u hebt een budget van 1000 dollar.
[ , ] Een groot probleem met online cursussen is natuurlijk verloop; veel studenten die cursussen beginnen eindigen dropping-out. Stel je voor dat je werkt bij een online leerplatform, en een ontwerper bij het platform heeft een visuele voortgangsbalk die ze denkt dat zal helpen bij het voorkomen van voortijdig schoolverlaten van de cursus gemaakt. U wilt het effect van de voortgangsbalk op de studenten in een grote computational sociale wetenschappen natuurlijk testen. Na de afhandeling van ethische kwesties die zich kunnen voordoen in het experiment, u en uw collega's te krijgen bang dat de cursus niet genoeg studenten om op betrouwbare wijze op te sporen de effecten van de voortgangsbalk zou kunnen hebben. In de berekeningen hieronder kan je dat de helft van de studenten aannemen zal de voortgangsbalk en de andere helft niet ontvangen. Verder kan je ervan uitgaan dat er geen interferentie. Met andere woorden, kun je ervan uitgaan dat de deelnemers alleen worden beïnvloed door de vraag of zij ontvingen de behandeling of controle; ze worden niet beïnvloed door het feit of anderen ontvingen de behandeling of bestrijding (voor een meer formele definitie Zie Gerber and Green (2012) , Ch. 8). Gelieve bijhouden van eventuele aanvullende aannames die je maakt.
[ , ] In een mooi papier, Lewis and Rao (2015) levendig illustreren een fundamentele statistische beperking van zelfs massale experimenten. De papieren die oorspronkelijk had de provocerende titel "Op de Near-onmogelijkheid van het meten van de Keert terug naar Advertising" -Toont hoe moeilijk het is om de return on investment van online advertenties te meten, zelfs met digitale experimenten met miljoenen klanten. Meer in het algemeen, het papier blijkt duidelijk dat het moeilijk is om kleine behandelingseffect te schatten midden luidruchtig uitkomstgegevens. Of diffently gezegd, de krant blijkt dat de geschatte behandeleffecten grote betrouwbaarheidsintervallen zal hebben wanneer de impact-to-standaarddeviatie (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) verhouding klein is. De belangrijke algemene les uit dit document is dat de resultaten van experimenten met kleine effect-to-standaard-deviatie ratio (bijv ROI van advertentiecampagnes) zal onbevredigend zijn. Uw uitdaging zal zijn om een memo te schrijven aan iemand in de marketing afdeling van uw bedrijf evaluting een geplande experiment om de ROI van een advertentie campagne te meten. Memo moet worden ondersteund met grafieken van de resultaten van computersimulaties.
Hier is wat achtergrond informatie die u nodig heeft. Al deze numerieke waarden zijn kenmerkend voor de werkelijke experimenten gerapporteerd in Lewis and Rao (2015) :
ROI, een belangrijke maatstaf voor de online advertentiecampagnes, wordt gedefinieerd als de nettowinst van de campagne (brutowinst van campagne verminderd met de kosten van de campagne) gedeeld door de kosten van de campagne. Bijvoorbeeld een campagne die geen effect heeft op de verkoop zou een ROI van -100% en een campagne waarbij winsten gelijk is aan de kosten zou een ROI van 0 hebben waren hebben gehad.
de gemiddelde omzet per klant is $ 7 met een standaard deviatie van $ 75.
de campagne zal naar verwachting de omzet met $ 0,35 per klant wat overeenkomt met een stijging van de winst van $ 0,175 per klant te verhogen. Met andere woorden, de bruto marge 50%.
de beoogde omvang van het experiment 200.000 mensen, half in de behandelingsgroep en de helft in de controlegroep.
de kosten van de campagne is $ 0,14 per deelnemer.
Schrijf een memo evaluting dit experiment. Zou u de lancering van dit experiment zoals gepland? Zo ja, waarom? Zo neen, welke veranderingen zou je aanbevelen?
Een goede notitie zal dit specifieke geval aan te pakken; beter memo generaliseren dit geval op één manier (bijvoorbeeld hoe de beslissing verandert als functie van de invloed naar standaarddeviatie ratio); en een grote memo zal een volledig gegeneraliseerde resultaat presenteren.
[ , ] Doe hetzelfde als de vorige vraag, maar in plaats van simulatie moet je analytische resultaten te gebruiken.
[ , , ] Doe hetzelfde als de vorige vraag, maar gebruik maken van zowel simulatie en analytische resultaten.
[ , , ] Stel je voor dat je de hierboven met behulp van simulatie, analytische resultaten, of beide-en iemand van de marketingafdeling raadt het gebruik van een verschil-in-verschillen schatter in plaats van een verschil in de manier schatter beschreven memo geschreven (zie paragraaf 4.6.2) . Schrijf een nieuwe kortere memo waarin wordt uitgelegd hoe een 0,4 correlatie tussen de verkoop voor het experiment en de verkoop na het experiment uw conclusie zou veranderen.
[ , ] Met het oog op de effectiviteit van een nieuwe web-based carrière dienst te evalueren, een bureau universitaire carrière diensten die een gerandomiseerde trial controle onder 10.000 studenten het invoeren van hun laatste jaar van school. Een gratis abonnement met unieke log-in informatie werd verzonden via een exclusieve e-mail uitnodiging tot 5.000 van de willekeurig geselecteerde studenten, terwijl de andere 5.000 studenten in de controlegroep en geen abonnement hebben. Twaalf maanden later, een follow-up onderzoek (zonder non-respons) laat zien dat zowel in de behandeling en controle groepen, 70% van de studenten zijn full-time baan vastgezet in hun vakgebied (tabel 4.5). Aldus lijkt de webdienst had geen effect.
Echter, een slimme data wetenschapper aan de universiteit gekeken naar de data een beetje meer op de voet en bleek dat slechts 20% van de studenten in de behandelde groep ooit de rekening ingelogd na ontvangst van de e-mail. Verder, en enigszins verrassend, onder degenen die zich hebben aangemeld bij de website slechts 60% had een fulltime dienstverband vastgezet in hun vakgebied, die lager zijn dan het tarief voor mensen die niet aanmelden en lager dan het tarief voor mensen in was de controle conditie (tabel 4.6).
Hint: Deze vraag gaat verder dan het materiaal dat in dit hoofdstuk, maar pakt problemen vaak voor bij experimenten. Dit type van experimenteel ontwerp wordt ook wel een aanmoediging ontwerp, omdat de deelnemers worden aangemoedigd om deel te nemen in de behandeling. Dit probleem is een voorbeeld van wat genoemd eenzijdig niet-naleving (zie Gerber and Green (2012) , Ch. 5)
[ ] Na verder onderzoek blijkt dat de in het voorgaande beschreven proef betrokken was nog ingewikkelder. Het blijkt dat 10% van de mensen in de controlegroep betaald voor toegang tot de dienst, en ze eindigde met een arbeidsparticipatie van 65% (tabel 4.7).
Hint: Deze vraag gaat verder dan het materiaal dat in dit hoofdstuk, maar pakt problemen vaak voor bij experimenten. Dit probleem is een voorbeeld van wat genoemd tweezijdig non-compliance (zie Gerber and Green (2012) , Ch. 6)
Groep | Grootte | Werkgelegenheidsgraad |
---|---|---|
Toegegeven toegang tot de website | 5000 | 70% |
Geen toegang tot de website verleend | 5000 | 70% |
Groep | Grootte | Werkgelegenheidsgraad |
---|---|---|
Toegegeven toegang tot de website en ingelogd | 1000 | 60% |
Toegegeven toegang tot de website en nooit ingelogd | 4000 | 85% |
Geen toegang tot de website verleend | 5000 | 70% |
Groep | Grootte | Werkgelegenheidsgraad |
---|---|---|
Toegegeven toegang tot de website en ingelogd | 1000 | 60% |
Toegegeven toegang tot de website en nooit ingelogd | 4000 | 72,5% |
Geen toegang tot de website verleend en betaald | 500 | 65% |
Geen toegang tot de website verleend en niet voor te betalen | 4500 | 70,56% |