Celes:
[ , ] Berinsky dhe kolegët (2012) vlerëson turk Mekanike pjesërisht nga përsëritur tri eksperimente klasike. Replikuar klasik aziatike Disease inkuadrim eksperiment me Tversky and Kahneman (1981) . A e rezultatet tuaja ndeshje Tversky dhe Kahneman-së? A e rezultatet tuaja ndeshje Berinsky dhe kolegët? Çfarë-qoftë se çdo gjë, na mëson kjo në lidhje me përdorimin turk mekanike për eksperimente të studimit?
[ , ] Në një letër disi gjuha-në faqe të titulluar "Ne Duhet të ndahemi," psikologu social Robert Kialdini, një nga autorët e Schultz et al. (2007) , shkruante se ai ishte në pension më herët nga puna e tij si profesor, pjesërisht për shkak të sfidave që ai me të cilat përballen duke bërë eksperimente në terren në një disiplinë (psikologji) që kryesisht kryen eksperimente laboratorike (Cialdini 2009) . Lexoni letër Cialdini-së, dhe shkruani atij një e-mail duke i bërë thirrje atij që të rishikojë tij shpërbërjen në dritën e mundësive të eksperimenteve dixhitale. Përdorni shembuj specifike të hulumtimit që adresojnë shqetësimet e tij.
[ ] Me qëllim që të përcaktohet nëse sukseset e vogla fillestare të bllokoj-në apo venitet, van de Rijt dhe dhe kolegët (2014) ka ndërhyrë në katër sisteme të ndryshme fali sukses në pjesëmarrësve të zgjedhur rastësisht, dhe pastaj të matur ndikimet afatgjata të këtij suksesi arbitrar. A mund të mendoni për sistemet e tjera në të cilën ju mund të kandidojë eksperimente të ngjashme? Vlerësojnë këto sisteme për sa i përket çështjeve të vlerës shkencore, ngatërruar algorithmic (shih Kapitullin 2), dhe etikën.
[ , ] Rezultatet e një eksperimenti mund të varet nga pjesëmarrësit. Krijo një eksperiment dhe pastaj të drejtuar atë në Amazon Turk mekanike (MTurk) duke përdorur dy strategji të ndryshme të rekrutimit. Mundohuni të marr strategjitë eksperiment dhe rekrutimit në mënyrë që rezultatet do të jenë aq të ndryshme të jetë e mundur. Për shembull, strategjitë tuaja rekrutimit mund të jenë të rekrutuar pjesëmarrësit në mëngjes dhe në mbrëmje, ose për të kompensuar pjesëmarrësit me pagesë të lartë dhe të ulët. Këto lloje të ndryshimeve në strategjinë e rekrutimit mund të çojë në pishina të ndryshme të pjesëmarrësve dhe rezultateve të ndryshme eksperimentale. Sa e ndryshme e rezultatet tuaja të kthehet? Çfarë do të zbulojë në lidhje me kandidimin eksperimente mbi MTurk?
[ , , , ] Paramendoni se ju jeni duke planifikuar të Emotional studim ngjitjen (Kramer, Guillory, and Hancock 2014) . Përdorni rezultatet nga një studim të mëhershëm vëzhgimor nga Kramer (2012) për të vendosur numrin e pjesëmarrësve në çdo gjendje. Këto dy studime nuk përputhen në mënyrë të përkryer në mënyrë të sigurt në listën në mënyrë të qartë të gjitha supozimet që ju bëjnë:
[ , , , ] Përgjigju në pyetjen më lart, por jo duke përdorur studimin më parë vëzhgimor nga Kramer (2012) përdorin rezultatet nga një eksperiment më parë natyror nga Coviello et al. (2014) .
[ ] Të dy Rijt et al. (2014) dhe Margetts et al. (2011) të dyja të kryejnë eksperimente që studiojnë procesin e njerëzve të firmave të peticionit. Krahasoni dhe kontrast hartimin dhe gjetjet e këtyre studimeve.
[ ] Dwyer, Maki, and Rothman (2015) i kryer dy eksperimente në terren në marrëdhënien midis normave sociale dhe sjellje proenvironmental. Këtu është abstrakte e letrës së tyre:
"Si mund të shfrytëzohen shkenca psikologjike për të inkurajuar sjellje proenvironmental? Në dy studime, ndërhyrjet që synojnë nxitjen e sjelljes konservimit të energjisë në banjo publike ekzaminuar ndikimet e normave përshkruese dhe përgjegjësinë personale. Në Studimin 1, statusi lehta (p.sh., në ose off) është manipuluar para se dikush hyri në një banjo të pabanuar publik, duke sinjalizuar normë përshkruese për atë mjedis. Pjesëmarrësit ishin dukshëm më shumë gjasa të kthehet dritat off në qoftë se ata ishin off kur ata hynë. Në studimin e 2, një kusht shtesë është përfshirë në të cilën norma e kthyer off dritën është demonstruar nga një Konfederatës, por pjesëmarrësit nuk ishin vetë përgjegjës për të kthyer atë në. Përgjegjësia personale moderuar ndikimin e normave shoqërore në sjellje; kur pjesëmarrësit nuk ishin përgjegjës për të kthyer në dritë, ndikimi i normës është zvogëluar. Këto rezultate tregojnë se sa normat dhe përgjegjësi personale përshkruese mund të rregullojë efektivitetin e ndërhyrjeve proenvironmental. "
Lexoni letër e tyre dhe hartimin e një replikimin e studimit 1.
[ , ] Duke u bazuar në pyetjen e mëparshme, tashmë të kryer dizajnit tuaj.
[ ] Ka pasur debate të konsiderueshme në lidhje me eksperimente duke përdorur pjesëmarrës rekrutuar nga Amazon Turk Mekanike. Paralelisht, ka pasur edhe debate të konsiderueshme në lidhje me eksperimente duke përdorur pjesëmarrës rekrutuar nga popullata universitare studentore. Shkruani një memo me dy faqe krahasuar dhe ballafaquar Turkers dhe studentë si hulumtuesit pjesëmarrës. Krahasimi juaj duhet të përfshijë një diskutim të dyja çështjet shkencore dhe logjistike.
[ Libri] Jim Manzi së pakontrolluar (2012) është një hyrje e mrekullueshme në fuqinë e eksperimentimit në biznes. Në libër ai përcolli këtë histori:
"Unë kam qenë një herë në një takim me një gjeni të vërtetë të biznesit, një miliarderi të vetë-bërë që kishte një të thellë, mirëkuptimi intuitiv për fuqinë e eksperimenteve. Kompania e tij kaloi burime të konsiderueshme duke u përpjekur për të krijuar të mëdha tregon dritare dyqan që do të tërheqë konsumatorët dhe rrit shitjet, si urtësi konvencionale thanë ata duhet. Ekspertët testuar me kujdes dizajn pas dizajnit, dhe individuale shqyrtim provë seancat gjatë një periudhe prej vitesh mbahen treguar asnjë efekt të rëndësishëm shkakësore e çdo dizajn të ri ekran në shitje. marketingut dhe Merchandising drejtuesit e lartë u takua me CEO për të shqyrtuar këto rezultate historike e testimit në toto. Pas paraqitjes së të gjitha të dhënat eksperimentale, që arriti në përfundimin se Urtësia konvencionale ishte tregon gabuar-se dritare nuk e përzënë shitjes. Veprimi i tyre rekomandohet ishte për të zvogëluar shpenzimet dhe përpjekje në këtë fushë. Kjo tregoi në mënyrë dramatike aftësinë e eksperimentimit për të përmbysur urtësi konvencionale. Përgjigja e KE-së ishte e thjeshtë: "Përfundimi im është se designers tuaja nuk janë shumë të mira." Zgjidhja e tij ishte për të rritur përpjekjet në hartimin dyqan ekran dhe për të marrë njerëz të rinj për të bërë atë. " (Manzi 2012, 158–9)
Cili lloj i vlefshmërisë është shqetësimi i KE?
[ ] Duke u bazuar në pyetjen e mëparshme, imagjinoni se keni qenë në takimin ku u diskutuan rezultatet e eksperimenteve. Cilat janë katër pyetje që ju mund të kërkoni, një për secilin lloj të vlefshmërisë (statistikore, të ndërtuar, të brendshëm dhe të jashtëm)?
[ ] Bernedo, Ferraro, and Price (2014) studion efektin e shtatë-vjeçar të ndërhyrjes kursimit të ujit të përshkruar në Ferraro, Miranda, and Price (2011) (shih Figurën 4.10). Në këtë letër, Bernedo dhe kolegët gjithashtu të kërkojë për të kuptuar mekanizmin që qëndron pas efekt duke krahasuar sjelljen e familjeve që kanë dhe nuk kanë lëvizur pas trajtimit është dorëzuar. Që është, afërsisht, ata përpiqen për të parë nëse trajtimi ndikuar në shtëpi ose homeowner.
[ ] Në një vazhdim i Schultz et al. (2007) , Schultz dhe kolegët e kryejnë një seri prej tre eksperimente mbi efektin e normave përshkruese dhe të vendimit gjyqësor në një sjellje të ndryshme mjedisore (ripërdorimin peshqir) në dy kontekste (një hotel dhe një godinë timeshare) (Schultz, Khazian, and Zaleski 2008) .
[ ] Në përgjigje të Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) u zhvillua një seri eksperimentesh laboratorike-si për të studiuar dizajnin e faturave elektrike. Ja se si ata e përshkruajnë atë në abstrakte:
"Në një eksperiment sondazh me bazë, çdo pjesëmarrës pa një faturë hipotetik të energjisë elektrike për një familje me përdorimin relativisht të lartë të energjisë elektrike, duke mbuluar informacion në lidhje me: (a) përdorimin historik, (b) krahasimet me fqinjët, dhe (c) përdorimi historike me avari aplikim. Pjesëmarrësit panë të gjitha llojet e informacionit në një nga tre formatet, duke përfshirë (a) tavolina, (b) grafikët bar, dhe (c) grafikët icon. Ne të raportuar për tre gjetjet kryesore. Së pari, konsumatorët kuptohet çdo lloj informacioni të energjisë elektrike të përdorimit më të kur ajo u paraqit në një tavolinë, ndoshta për shkak se tavolina të lehtësuar leximin e thjeshtë pikë. Së dyti, preferencat dhe synimet për të kursyer energji elektrike kanë qenë më të fortë për informacionin përdorim historik, i pavarur nga format. Së treti, individët me shkrim-leximit të ulët të energjisë kuptuar të gjitha informacionet më pak. "
Ndryshe nga studime të tjera të ndjekin-up, rezultati kryesor i interesit në Canfield, Bruin, and Wong-Parodi (2016) është transmetuar sjellje nuk sjellje aktuale. Cilat janë pikat e forta dhe të dobëta të këtij lloji të studimit në një program më të gjerë kërkimor promovuar kursimin e energjisë?
[ , ] Smith and Pell (2003) është një satirike meta-analizë e studimeve të demonstruar efektivitetin e parachutes. Ata arrijnë në përfundimin:
"Ashtu si me shumë ndërhyrje për qëllim për të parandaluar shëndetësor i sëmurë, efektiviteti i parachutes nuk ka qenë subjekt i vlerësimit rigoroz duke përdorur gjykimet randomized kontrolluar. Mbrojtësit e mjekësisë të bazuar në dëshmi kanë kritikuar miratimin e ndërhyrjeve të vlerësuara duke përdorur të dhëna vetëm vëzhgimor. Ne mendojmë se të gjithë mund të përfitojnë në qoftë se protagonistët më radikale të mjekësisë të bazuar në dëshmi të organizuar dhe ka marrë pjesë në një të verbër të dyfishtë, randomized, placebo të kontrolluara, gjyq mbikalesë i parashutë. "
Shkruaj një editorial të përshtatshme për një gazetë të përgjithshme lexuesve, të tilla si The New York Times, duke argumentuar kundër fetishization e provave eksperimentale. Të japë shembuj specifike, konkrete. Hint: Shiko, Bothwell et al. (2016) dhe Deaton (2010)
[ , , ] Diferenca-in-dallimet estimators e një efekt të trajtimit mund të jenë më të saktë se dallimi-në-thotë matësve. Shkruani një memorandum për një inxhinier i ngarkuar me një testim / B në një kompani fillestare media sociale shpjeguar vlerën e qasjes diferenca-ne-dallimet për drejtimin e një eksperiment në internet. Memorandumi duhet të përfshijë një deklaratë të problemit, disa intuitë në lidhje me kushtet në të cilat Vlerësues diferenca-in-ndryshim do të bëj më mirë në Vlerësues diferenca-ne-thotë, dhe një studim të thjeshtë simulim.
[ , ] Gary Loveman ishte një profesor në Harvard Business School para se të bëhej CEO i Harrah, një nga kompanitë më të mëdha kazino në botë. Kur ai u transferua në Harrah, Loveman transformuar kompani me një provë të ngjashme me programin e shpeshta besnikërisë që mbledhura sasi e madhe e të dhënave në lidhje me sjelljen e konsumatorëve. Në krye të këtij sistemi gjithmonë-në e matjes, kompania filloi drejtimin eksperimente. Për shembull, ata mund të kandidojë një eksperiment për të vlerësuar efektin e një kupon për një natë hotel të lirë për konsumatorët me një model të veçantë të lojërave të fatit. Ja se si Loveman përshkruar rëndësinë e eksperimentimit të praktikave të përditshme të biznesit Harrah:
"Është si ju nuk e ngacmojnë gratë, ju nuk vjedhin, dhe ju keni marrë që të ketë një grup kontrolli. Kjo është një nga gjërat që ju mund të humbni punën tuaj për të Harrah's-jo drejtimin e një grup kontrolli. " (Manzi 2012, 146)
Shkruani një email me një punonjës të ri shpjegon pse Loveman mendon se është aq e rëndësishme që të ketë një grup kontrolli. Ju duhet të përpiqen për të përfshirë një shembull-të vërtetë ose të përbërë, për të ilustruar pika juaj.
[ , ] Një eksperiment i ri ka për qëllim për të vlerësuar efektin e marrjes së lajmërimeve mesazh tekst në vaksinimit aspirator. 150 klinika, secila me 600 pacientë të huaj, janë të gatshëm të marrin pjesë. Ka një kosto fikse prej 100 dollarë për çdo klinikë që ju dëshironi për të punuar me të, dhe ajo kushton 1 dollar për çdo mesazh tekst që ju dëshironi të dërgoni. Për më tepër, çdo klinika që ju jeni duke punuar me të do të masë rezultatet (nëse dikush e ka marrë një vaksinim) për të lira. Supozojmë se ju keni një buxhet prej 1000 dollarë.
[ , ] Një problem i madh me kurseve online është tretje; shumë studentë që fillojnë kurset përfundojnë braktisjes. Paramendoni se ju jeni duke punuar në një platformë online të mësuarit, dhe një projektuesi në platformë ka krijuar një bar vizuale progresit që ajo mendon se do të ndihmojë në parandalimin e nxënësve nga braktisjen e kursit. Ju dëshironi për të testuar efektin e shtyllën e përparimit për studentët në një kurs të madhe kompjuterike shkencës social. Pas adresuar ndonjë çështje etike që mund të lindin në eksperiment, ju dhe kolegët tuaj për të marrë shqetësuar që sigurisht nuk mund të ketë nxënës të mjaftueshme për të zbuluar të besueshme efektet e shtyllën e përparimit. Në llogaritjet më poshtë ju mund të supozojmë se gjysma e nxënësve do të marrë shiritin e progresit dhe gjysma jo. Për më tepër, ju mund të supozojmë se nuk ka asnjë ndërhyrje. Me fjalë të tjera, ju mund të supozojmë se pjesëmarrësit janë të prekur vetëm nëse kanë marrë trajtimin ose kontrollin; ata nuk janë të ndikohet nga se njerëz të tjerë morën trajtimin ose kontrollin (për një përkufizim më formale, shih Gerber and Green (2012) , Ch. 8). Ju lutemi të mbajnë gjurmët e çdo supozimet tjera që ju bëni.
[ , ] Në një letër të bukur, Lewis and Rao (2015) gjallërisht ilustruar një kufizim themelor statistikor të eksperimenteve edhe masive. Gazeta-e cila fillimisht kishte titullin provokues "Për Afërt-pamundësinë e matjes së Kthim në Reklamim" -shows se sa e vështirë është për të matur e kthimit të investimeve e reklama online, madje edhe me eksperimente dixhitale përfshin miliona konsumatorëve. Më në përgjithësi, dokumenti tregon qartë se ajo është e vështirë për të vlerësuar efektin e vogla të trajtimit në mes të dhënave të zhurmshme rezultateve. Ose deklaroi diffently, gazeta tregon se efektet e trajtimit vlerësohet do të ketë intervale të mëdha të besimit, kur ndikimi-to-standard-devijimi (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) raporti është i vogël. Mësimi i rëndësishëm i përgjithshëm nga ky dokument është se rezultatet nga eksperimentet me i vogël ndikimi-to-standard-devijimit raport (p.sh., Roi i fushatave ad) do të jetë i pakënaqshëm. Sfida juaj do të jetë për të shkruar një memo për dikë në departamentin e marketingut e kompanisë tuaj evaluting një eksperiment të planifikuar për të matur Roi e një fushatë ad. memo juaj duhet të mbështetet me grafikët e rezultateve të simulimeve kompjuterike.
Ja disa informata që ju mund të kenë nevojë. Të gjitha këto vlera numerike janë tipike të eksperimenteve reale të raportuara në Lewis and Rao (2015) :
Roi, një metrikë kyç për fushatat ad internet, është përcaktuar të jetë fitimi neto nga fushata (fitimit bruto nga kostoja e fushatës minus të fushatës), pjesëtuar me koston e fushatës. Për shembull, një fushatë që nuk kishte efekt mbi shitjet do të ketë një Roi prej -100% dhe një fushatë ku fitimet e krijuara ishin të barabartë me shpenzimet do të ketë një Roi prej 0.
shitjet mesatare për konsumator është 7 $ me devijim standard prej $ 75.
fushata pritet të rritur shitjet nga 0,35 $ për konsumator e cila korrespondon me një rritje të fitimit prej 0.175 $ për konsumator. Me fjalë të tjera, marzhi bruto është 50%.
madhësia e planifikuar e eksperimentit është 200,000 njerëz, gjysma në grupin e trajtimit dhe gjysma në grupin e kontrollit.
kostoja e fushatës është 0.14 $ per pjesëmarrës.
Shkruani një memo evaluting këtë eksperiment. Do të ju rekomandojmë nisur këtë eksperiment siç është planifikuar? Nëse po, pse? Nëse jo, çfarë ndryshimesh do të më sugjeroni?
Një memo e mirë do të trajtojë këtë rast të veçantë; një memo të mirë do të përgjithësuar nga ky rast në një mënyrë (për shembull, tregojnë se si vendim ndryshimet si një funksion të raportit të ndikimit-te-standarde-devijimit); dhe një memo e madhe do të paraqesë një rezultat të përgjithësuar plotësisht.
[ , ] A e njëjtë me pyetjen e mëparshme, por më tepër se sa simulim ju duhet të përdorni rezultatet analitike.
[ , , ] A e njëjtë me pyetjen e mëparshme, por përdorin edhe simulimin dhe rezultatet analitike.
[ , , ] Paramendoni se ju keni shkruar në kujtesën e përshkruar më sipër, ose duke përdorur simulim, rezultatet analitike, ose dy-dhe dikush nga departamenti i marketingut rekomandon përdorimin e një Vlerësues diferenca-ne-dallimet më tepër se një ndryshim në mjetet preventivues (shih seksionin 4.6.2) . Shkruani një memorandum të ri të shkurtër duke shpjeguar se si një 0.4 korrelacion midis shitjeve para eksperimentit dhe shitje pas eksperimentit do të ndryshojë përfundimin tuaj.
[ , ] Për të vlerësuar efektivitetin e një web-bazuar shërbimit të ri në karrierë, një zyrë e shërbimeve karrierës universitare realizuar një gjykim të kontrollit randomized në mesin 10,000 studentë hyjnë në vitin e fundit të shkollës. Një abonim falas me unik informacion të log-in është dërguar me anë të një ftese të veçantë email për 5,000 të studentëve të zgjedhur rastësisht, ndërsa të tjera 5.000 studentë janë në grupin e kontrollit dhe nuk kanë një abonim. Dymbëdhjetë muaj më vonë, një studim follow-up (pa mospërgjigjes) tregon se në të dy grupet e trajtimit dhe kontrollit, 70% e studentëve kanë siguruar punë me kohë të plotë në fushën e tyre të zgjedhur (Tabela 4.5). Kështu, duket se shërbimi web-based nuk kishte efekt.
Megjithatë, një shkencëtar i zgjuar e të dhënave në universitet shikuar në të dhëna pak më nga afër dhe zbuloi se vetëm 20% e nxënësve në grup trajtimit regjistruar ndonjëherë në konsideratë pas marrjes së email. Për më tepër, dhe disi e habitshme, në mesin e atyre që kanë hyrë në faqen e internetit vetëm 60% kishin siguruar punë me kohë të plotë në fushën e tyre të zgjedhur, e cila ishte më e ulët se shkalla e papunësisë për njerëzit që nuk hyni dhe më e ulët se norma për njerëzit në kushti i kontrollit (Tabela 4.6).
Hint: Kjo pyetje shkon përtej materiale të mbuluara në këtë kapitull, por trajton çështje të përbashkëta në eksperimente. Ky lloj i dizajnit eksperimentale është quajtur nganjëherë një dizajn inkurajim për shkak se pjesëmarrësit inkurajohen që të angazhohen në trajtimin. Ky problem është një shembull i asaj që quhet i njëanshëm jo-pajtueshmërisë (shih Gerber and Green (2012) , Ch. 5)
[ ] Pas shqyrtimit të mëtejshëm, rezulton se eksperimenti përshkruar në pyetjen e mëparshme ka qenë edhe më e komplikuar. Ajo rezulton se 10% e njerëzve në grupin e kontrollit paguar për qasje në shërbimet, dhe përfundoi me një shkallë punësimi prej 65% (Tabela 4.7).
Hint: Kjo pyetje shkon përtej materiale të mbuluara në këtë kapitull, por trajton çështje të përbashkëta në eksperimente. Ky problem është një shembull i asaj që quhet dy-njëanshëm jo-pajtueshmërisë (shih Gerber and Green (2012) , Ch. 6)
grup | madhësi | shkalla e punësimit |
---|---|---|
Qasje dhënë në faqen e internetit | 5,000 | 70% |
Nuk lejohet qasje në faqen e internetit | 5,000 | 70% |
grup | madhësi | shkalla e punësimit |
---|---|---|
Jepet akses në faqen e internetit dhe të keni hyrë në | 1000 | 60% |
Dhënë qasje në faqen e internetit dhe nuk i loguar | 4,000 | 85% |
Nuk lejohet qasje në faqen e internetit | 5,000 | 70% |
grup | madhësi | shkalla e punësimit |
---|---|---|
Jepet akses në faqen e internetit dhe të keni hyrë në | 1000 | 60% |
Dhënë qasje në faqen e internetit dhe nuk i loguar | 4,000 | 72.5% |
Nuk lejohet qasje në faqen e internetit dhe të paguar për atë | 500 | 65% |
Nuk lejohet qasje në faqen e internetit dhe nuk ka paguar për atë | 4,500 | 70,56% |