[ , ] Berinsky en kollegas (2012) het MTurk gedeeltelik geëvalueer deur drie klassieke eksperimente te repliseer. Replikeer die klassieke Asiatiese Siekte-raamwerk-eksperiment deur Tversky and Kahneman (1981) . Stem jou resultate ooreen met Tversky en Kahneman's? Stem jou resultate ooreen met dié Berinsky en kollegas? Wat-as-iets-leer ons dit oor die gebruik van MTurk vir opname eksperimente?
[ , ] In 'n ietwat-in-die-wit papier met die titel "Ons moet breek," het die sosiale sielkundige Robert Cialdini, een van die skrywers van Schultz et al. (2007) , het geskryf dat hy vroegtydig van sy beroep as professor was, gedeeltelik as gevolg van die uitdagings wat hy in die praktyk gedoen het om eksperimente in 'n dissipline (sielkunde) te doen wat hoofsaaklik laboratoriumeksperimente (Cialdini 2009) . Lees Cialdini se referaat en skryf vir hom 'n e-pos wat hom dring om sy breek te heroorweeg in die lig van die moontlikhede van digitale eksperimente. Gebruik spesifieke voorbeelde van navorsing wat sy besorgdheid aanspreek.
[ ] Om vas te stel of klein aanvanklike suksesse inskakel of verdwyn, het Van de Rijt en kollegas (2014) tussen vier verskillende stelsels ingespan om suksesvol te maak op willekeurig gekeurde deelnemers, en dan die langtermyn-impak van hierdie willekeurige sukses gemeet. Kan jy aan ander stelsels dink waarin jy soortgelyke eksperimente kan uitvoer? Evalueer hierdie stelsels in terme van kwessies van wetenskaplike waarde, algoritmiese verwarring (sien hoofstuk 2) en etiek.
[ , ] Die resultate van 'n eksperiment kan afhang van die deelnemers. Skep 'n eksperiment en voer dit dan op MTurk uit deur twee verskillende werwingstrategieë te gebruik. Probeer om die eksperiment en werwingstrategieë te kies sodat die resultate so verskillend moontlik sal wees. Jou werwingstrategieë kan byvoorbeeld wees om die deelnemers in die oggend en die aand te werf of om deelnemers met hoë en lae betaal te vergoed. Hierdie soort verskille in werwingstrategie kan lei tot verskillende poele van deelnemers en verskillende eksperimentele uitkomste. Hoe anders het u uitslae gewys? Wat openbaar dit oor die uitvoer van eksperimente op MTurk?
[ , , ] Stel jou voor dat jy die Emosionele Besmetting eksperiment beplan het (Kramer, Guillory, and Hancock 2014) . Gebruik die resultate van 'n vorige waarnemingsstudie deur Kramer (2012) om die aantal deelnemers in elke toestand te bepaal. Hierdie twee studies pas nie perfek nie, dus maak seker dat u al die aannames wat u maak, eksplisiet lys:
[ , , ] Beantwoord die vorige vraag weer, maar hierdie keer eerder as om die vorige waarnemingsstudie deur Kramer (2012) gebruik, gebruik die resultate van 'n vorige natuurlike eksperiment deur Lorenzo Coviello et al. (2014) .
[ ] Beide Margetts et al. (2011) en van de Rijt et al. (2014) het eksperimente uitgevoer wat die proses bestudeer van mense wat 'n petisie onderteken het. Vergelyk en kontrasteer die ontwerpe en bevindings van hierdie studies.
[ ] Dwyer, Maki, and Rothman (2015) het twee veld eksperimente gedoen oor die verhouding tussen sosiale norme en pro-omgewingsgedrag. Hier is die opsomming van hul referaat:
"Hoe kan sielkundige wetenskap aangewend word om pro-omgewingsgedrag aan te moedig? In twee studies het intervensies gerig op die bevordering van energiebewaringsgedrag in openbare badkamers die invloede van beskrywende norme en persoonlike verantwoordelikheid ondersoek. In Studie 1 is die ligstatus (dws aan of af) gemanipuleer voordat iemand 'n onbesette openbare badkamer betree het wat die beskrywende norm vir daardie instelling aandui. Deelnemers was aansienlik meer geneig om die ligte af te skakel as hulle weg was toe hulle ingeskryf het. In Studie 2 is 'n bykomende voorwaarde ingesluit waarin die norm van die afskakeling van die lig deur 'n konfederaat gedemonstreer is, maar deelnemers was nie self verantwoordelik om dit aan te skakel nie. Persoonlike verantwoordelikheid gemodereer die invloed van sosiale norme op gedrag; toe deelnemers nie verantwoordelik was vir die aanskakel van die lig nie, was die invloed van die norm verminder. Hierdie resultate dui aan hoe beskrywende norme en persoonlike verantwoordelikheid die effektiwiteit van pro-omgewing-intervensies kan reguleer. "
Lees hulle vraestel en ontwerp 'n replikasie van studie 1.
[ , ] Gebou op die vorige vraag, voer nou jou ontwerp uit.
[ ] Daar is wesenlike debat oor eksperimente gedoen met die gebruik van deelnemers wat van MTurk gewerf is. Terselfdertyd is daar ook 'n aansienlike debat oor eksperimente gedoen met die gebruik van deelnemers wat van voorgraadse studentepopulasies gewerf is. Skryf 'n memorandum van twee bladsye wat Turkuërs en voorgraadse studente as navorsingsdeelnemers vergelyk en kontrasteer. U vergelyking moet 'n bespreking van beide wetenskaplike en logistieke kwessies insluit.
[ ] Jim Manzi se boek Uncontrolled (2012) is 'n wonderlike inleiding tot die krag van eksperimentering in besigheid. In die boek het hy die volgende storie herlees:
"Ek was eens in 'n vergadering met 'n ware besigheidsgenie, 'n selfgemaakte miljardêr wat 'n diep, intuïtiewe onderskatting van die krag van eksperimente gehad het. Sy maatskappy het beduidende hulpbronne bestee om groot winkelraamwerke te skep wat verbruikers sal lok en verkope verhoog, aangesien konvensionele wysheid gesê het hulle moet. Experts sorgvuldig getoets ontwerp na ontwerp, en in individuele toets hersiening sessies oor 'n tydperk van jare het steeds geen beduidende oorsaaklike effek van elke nuwe vertoon ontwerp op verkope. Senior bemarkings- en merchandising-bestuurders het met die hoof uitvoerende beampte vergader om hierdie historiese toetsuitslae in toto te hersien. Nadat hulle al die eksperimentele data voorgestel het, het hulle tot die gevolgtrekking gekom dat die konvensionele wysheid verkeerd was - daardie vensters vertoon nie verkope nie. Hul aanbevole aksie was om koste en moeite in hierdie gebied te verminder. Dit het dramaties gedemonstreer die vermoë van eksperimente om konvensionele wysheid om te keer. Die uitvoerende hoof se reaksie was eenvoudig: 'My gevolgtrekking is dat jou ontwerpers nie baie goed is nie.' Sy oplossing was om inspanning in winkelvertoningsontwerp te verhoog en om nuwe mense te kry om dit te doen. " (Manzi 2012, 158–9)
Watter tipe geldigheid is die bekommernis van die hoof uitvoerende beampte?
[ ] Gebaseer op die vorige vraag, dink jy was by die vergadering waar die resultate van die eksperimente bespreek is. Wat is vier vrae wat jy kan vra-een vir elke tipe geldigheid (statisties, konstrueer, intern en ekstern)?
[ ] Bernedo, Ferraro, and Price (2014) het die sewe jaar-effek van die waterbesparende ingryping wat in Ferraro, Miranda, and Price (2011) (sien figuur 4.11). In hierdie artikel het Bernedo en kollegas ook probeer om die meganisme agter die effek te verstaan deur die gedrag van huishoudings wat nie na die behandeling afgelewer is, te vergelyk nie. Dit is, rofweg, hulle het probeer om te sien of die behandeling die huis of huiseienaar beïnvloed het.
[ ] In 'n opvolg van Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) het Schultz en sy kollegas 'n reeks van drie eksperimente uitgevoer oor die effek van beskrywende en injunctive norme op 'n ander omgewingsgedrag (handdoek hergebruik) in twee kontekste ('n hotel en 'n timeshare-woonstel (Schultz, Khazian, and Zaleski 2008) .
[ ] In reaksie op Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) het 'n reeks laboratoriumagtige eksperimente uitgevoer om die ontwerp van elektriese rekeninge te bestudeer. So beskryf hulle dit in abstrakte:
"In 'n opname-gebaseerde eksperiment het elke deelnemer 'n hipotetiese elektrisiteitsrekening vir 'n familie met relatief hoë elektrisiteitsverbruik gesien. Dit bevat inligting oor (a) historiese gebruik, (b) vergelykings met bure, en (c) historiese gebruik met apparaatonderbreking. Deelnemers het alle inligtingstipes in een van drie formate gesien, insluitend (a) tabelle, (b) staafgrafieke en (c) ikoongrafieke. Ons rapporteer oor drie hoof bevindings. Eerstens het verbruikers elke tipe elektrisiteitsgebruiksinligting die meeste verstaan wanneer dit in 'n tafel aangebied is, miskien omdat tafels eenvoudige puntlees vergemaklik. Tweedens, voorkeure en voornemens om elektrisiteit te bespaar, was die sterkste vir die historiese gebruiksinligting, onafhanklik van formaat. Derdens, individue met laer energie geletterdheid het alle inligting minder verstaan. "
In teenstelling met ander opvolgstudies, is die belangrikste uitkoms van belangstelling in Canfield, Bruin, and Wong-Parodi (2016) gedrag, nie werklike gedrag nie. Wat is die sterk en swak punte van hierdie tipe studie in 'n breër navorsingsprogram wat energiebesparing bevorder?
[ , ] Smith and Pell (2003) het 'n satiriese meta-analise van studies aangebied wat die effektiwiteit van valskerms demonstreer. Hulle het afgesluit:
"Soos met baie ingrypings wat bedoel is om siektes te voorkom, is die doeltreffendheid van valskerms nie onderworpe aan streng evaluering deur gebruik te maak van gerandomiseerde beheerde toetse nie. Voorstanders van bewyse gebaseerde medisyne het kritiek gekry op die aanvaarding van intervensies wat geëvalueer word deur slegs observasionele data te gebruik. Ons dink dat almal kan baat as die mees radikale protagoniste van bewyse-gebaseerde medisyne georganiseer en deelgeneem het aan 'n dubbelblinde, gerandomiseerde, placebo-beheerde, crossover-verhoor van die valskerm. "
Skryf 'n op-ed geskik vir 'n koerant vir algemene lesers, soos die New York Times , wat argumenteer teen die fetisasie van eksperimentele bewyse. Verskaf spesifieke, konkrete voorbeelde. Wenk: Sien ook Deaton (2010) en Bothwell et al. (2016) .
[ , , ] Verskil-in-verskille-beramers van 'n behandelingseffek kan meer presies wees as verskil-in-gemiddelde beramers. Skryf 'n memo aan 'n ingenieur wat in beheer is van A / B toets by 'n sosiale media maatskappy wat begin met die verduideliking van die waarde van die verskil-in-verskille benadering vir die uitvoer van 'n aanlyn-eksperiment. Die memo moet 'n verklaring van die probleem insluit, 'n mate van intuïsie oor die omstandighede waaronder die verskil-in-verskil-beramer die verskil-in-gemiddelde beramer sal uitvoer, en 'n eenvoudige simulasie-studie.
[ , ] Gary Loveman was 'n professor aan die Harvard Business School voordat hy die hoof uitvoerende beampte geword van Harrah's, een van die grootste casino-maatskappye in die wêreld. Toe hy na Harrah verhuis het, het Loveman die maatskappy met 'n gereelde lojaliteitsprogram getransformeer wat groot hoeveelhede data oor kliëntgedrag versamel het. Boonop het die maatskappy begin met eksperimente. Hulle kan byvoorbeeld 'n eksperiment uitvoer om die effek van 'n koepon vir 'n gratis hotelnaweek vir kliënte met 'n spesifieke dobbelpatroon te evalueer. Hier is hoe Loveman die belangrikheid van eksperimentering vir Harrah se daaglikse sakepraktyke beskryf het:
"Dit is asof jy nie vroue aantas nie, jy steel nie, en jy moet 'n kontrolegroep hê. Dit is een van die dinge waarmee jy jou werk kan verloor omdat Harrah's nie 'n beheergroep bedryf het nie. " (Manzi 2012, 146)
Skryf 'n e-pos aan 'n nuwe werknemer wat verduidelik waarom Loveman dit so belangrik is om 'n kontrolegroep te hê. U moet probeer om 'n voorbeeld in te sluit - óf eintlik of opgemaak - om u punt te illustreer.
[ , ] 'N Nuwe eksperiment het ten doel om die effek van die ontvangs van SMS-boodskappe op die opname van die inenting te skat. Eenhonderd-en-vyftig klinieke, elk met 600 geskikte pasiënte, is bereid om deel te neem. Daar is 'n vaste koste van $ 100 vir elke kliniek waarmee u wil werk, en dit kos $ 1 vir elke sms-boodskap wat u wil stuur. Verder sal enige klinieke waarmee u werk, die uitslag meet (of iemand 'n inenting ontvang het) gratis. Gestel jy het 'n begroting van $ 1.000.
[ , ] 'N Groot probleem met aanlynkursusse is afslae: baie studente wat kursusse begin, word uiteindelik laat val. Stel jou voor dat jy by 'n aanlyn-leerplatform werk, en 'n ontwerper op die platform het 'n visuele vorderingsbalk geskep wat sy meen help om te verhoed dat studente uit die kursus val. U wil die effek van die vorderingsbalk op studente toets in 'n groot rekenkundige sosiale wetenskap kursus. Nadat u etiese probleme ondervind wat in die eksperiment mag voorkom, word u en u kollegas bekommerd dat die kursus dalk nie genoeg studente het om die effekte van die vorderingsbalk betroubaar op te spoor nie. In die volgende berekeninge kan jy aanvaar dat die helfte van die studente die vorderingsbalk ontvang en die helfte nie. Verder kan jy aanneem dat daar geen inmenging is nie. Met ander woorde, jy kan aanneem dat deelnemers slegs geraak word deur of hulle die behandeling of beheer ontvang het; Hulle word nie bewerkstellig deur of ander mense die behandeling of beheer ontvang het nie (vir 'n meer formele definisie, sien hoofstuk 8 van Gerber and Green (2012) ). Bly op hoogte van enige addisionele aannames wat jy maak.
[ , , ] Stel jou voor dat jy as 'n data wetenskaplike by 'n tegnologie maatskappy werk. Iemand van die bemarkingsafdeling vra vir u hulp om 'n eksperiment te evalueer wat hulle beplan om die opbrengs op belegging (ROI) vir 'n nuwe aanlyn-advertensie veldtog te meet. ROI word gedefinieer as die netto wins uit die veldtog gedeel deur die koste van die veldtog. Byvoorbeeld, 'n veldtog wat geen effek op verkope het nie, sal 'n ROI van -100% hê; 'n veldtog waar wins gegenereer is gelyk aan koste sou 'n ROI van 0 hê; En 'n veldtog waar die wins gegenereer is, is dubbel. Die koste sal 'n ROI van 200% hê.
Voordat jy die eksperiment begin, bied die bemarkingsafdeling jou die volgende inligting aan die hand van hul vroeëre navorsing. Hierdie waardes is tipies van die werklike aanlyn-advertensieveldtogte wat in Lewis en Rao (2015) gerapporteer word.
Skryf 'n memo wat hierdie voorgestelde eksperiment evalueer. Jou memo moet bewyse gebruik van 'n simulasie wat jy skep, en dit moet twee hoofkwessies aanspreek: (1) Sal jy aanbeveel om hierdie eksperiment soos beplan te begin? Indien wel, hoekom? Indien nie, waarom nie? Maak seker dat u duidelik is oor die kriteria wat u gebruik om hierdie besluit te neem. (2) Watter steekproefgrootte sal u aanbeveel vir hierdie eksperiment? Weereens, wees asseblief seker om duidelik te wees oor die kriteria wat u gebruik om hierdie besluit te maak.
'N Goeie memorandum sal hierdie spesifieke saak aanspreek; 'n beter memorandum sal op een manier op hierdie manier van hierdie geval veralgemeen word (bv. wys hoe die besluit verander as 'n funksie van die grootte van die effek van die veldtog); en 'n groot memorandum sal 'n volledig algemene resultate gee. Jou memo moet grafieke gebruik om jou resultate te illustreer.
Hier is twee wenke. Eerstens kon die bemarkingsafdeling u dalk onnodige inligting verskaf het, en hulle kon dalk nie die nodige inligting verskaf nie. Tweedens, as jy R gebruik, wees bewus daarvan dat die rlnorm () -funksie nie die manier werk soos baie mense verwag nie.
Hierdie aktiwiteit sal jou oefen met kraganalise, simulasies skep, en jou resultate met woorde en grafieke kommunikeer. Dit sal jou help om kraganalise vir enige soort eksperiment uit te voer, nie net eksperimente wat ontwerp is om ROI te skat nie. Hierdie aktiwiteit veronderstel dat jy ondervinding het met statistiese toetsing en kraganalise. As jy nie met kragontleding vertroud is nie, beveel ek aan dat jy 'n Power Primer deur Cohen (1992) .
Hierdie aktiwiteit is geïnspireer deur 'n lieflike papier deur RA Lewis and Rao (2015) , wat 'n fundamentele statistiese beperking van selfs massiewe eksperimente illustreer. Hul papier - wat oorspronklik die uitdagende titel "On the Near-Impossibility of Measuring the Returns to Advertising" gehad het, wys hoe moeilik dit is om die opbrengs op belegging van aanlyn-advertensies te meet, selfs met digitale eksperimente wat miljoene kliënte insluit. Meer algemeen illustreer RA Lewis and Rao (2015) 'n fundamentele statistiese feit wat veral belangrik is vir digitale-eeue-eksperimente: dit is moeilik om klein behandelingseffekte te midde van luidrugtelike uitkomsdata te skat.
[ , ] Doen dieselfde as die vorige vraag, maar eerder as simulasie, moet jy analitiese resultate gebruik.
[ , , ] Doen dieselfde as die vorige vraag, maar gebruik beide simulasie en analitiese resultate.
[ , , ] Stel jou voor dat jy die memo wat hierbo beskryf is, geskryf het en iemand van die bemarkingsafdeling verskaf een stuk nuwe inligting: hulle verwag 'n 0.4 korrelasie tussen verkope voor en na die eksperiment. Hoe verander dit die aanbevelings in jou memo? (Wenk: sien afdeling 4.6.2 vir meer oor die verskil-van-middel-beramer en die verskil-in-verskille-beramer.)
[ , ] Ten einde die doeltreffendheid van 'n nuwe webgebaseerde werkverskaffingsprogram te evalueer, het 'n universiteit 'n gerandomiseerde beheerproef onder 10 000 studente wat hul finale skooljaar ingeskryf het, uitgevoer. 'N Gratis inskrywing met unieke inskrywingsinligting is gestuur deur 'n eksklusiewe e-posuitnodiging na 5.000 van die willekeurig gekose studente, terwyl die ander 5,000 studente in die kontrolegroep was en nie 'n intekening gehad het nie. Twaalf maande later het 'n opvolg-opname (met geen reaksie) getoon dat 70% van die studente in voltooide diens in hul gekose veld (tabel 4.6) in beide behandelings- en kontrolegroepe verseker het. Dit blyk dus dat die webgebaseerde diens geen effek gehad het nie.
'N Slim data-wetenskaplike by die universiteit het egter die data 'n bietjie nader gekyk en gevind dat slegs 20% van die studente in die behandelingsgroep ooit ingeteken het nadat hulle die e-pos ontvang het. Verder, en ietwat verrassend, onder diegene wat by die webwerf ingeskryf het, het slegs 60% voltydse indiensneming in hul gekose veld verseker, wat laer was as die koers vir mense wat nie ingeteken het nie en laer as die koers vir mense in die kontrole toestand (tabel 4.7).
Wenk: Hierdie vraag gaan verder as die materiaal wat in hierdie hoofstuk behandel word, maar spreek probleme in wat algemeen voorkom in eksperimente. Hierdie tipe eksperimentele ontwerp word soms 'n bemoedigingsontwerp genoem omdat deelnemers aangemoedig word om deel te neem aan die behandeling. Hierdie probleem is 'n voorbeeld van wat ' n eensydige nie-nakoming genoem word (sien hoofstuk 5 van Gerber and Green (2012) ).
[ ] Na verdere ondersoek het dit geblyk dat die eksperiment wat in die vorige vraag beskryf is, selfs ingewikkelder was. Dit blyk dat 10% van die mense in die kontrolegroep vir toegang tot die diens betaal het, en hulle het 'n indiensnemingskoers van 65% gehad (tabel 4.8).
Wenk: Hierdie vraag gaan verder as die materiaal wat in hierdie hoofstuk behandel word, maar spreek probleme in wat algemeen voorkom in eksperimente. Hierdie probleem is 'n voorbeeld van wat tweeledige nie-nakoming genoem word (sien hoofstuk 6 van Gerber and Green (2012) ).
groep | grootte | Indiensnemingskoers |
---|---|---|
Toegang verleen aan die webwerf | 5000 | 70% |
Nie toegang tot webwerf toegestaan nie | 5000 | 70% |
groep | grootte | Indiensnemingskoers |
---|---|---|
Toegang verleen tot webblad en ingeteken | 1000 | 60% |
Toegang verleen tot webwerf en nooit aangemeld nie | 4000 | 72.5% |
Nie toegang tot webwerf toegestaan nie | 5000 | 70% |
groep | grootte | Indiensnemingskoers |
---|---|---|
Toegang verleen tot webblad en ingeteken | 1000 | 60% |
Toegang verleen tot webwerf en nooit aangemeld nie | 4000 | 72.5% |
Nie toegang tot webwerf gegee en daarvoor betaal nie | 500 | 65% |
Nie toegang tot webwerf gegee nie en het nie daarvoor betaal nie | 4500 | 70,56% |