[ , ] Berinsky kaj kolegoj (2012) taksis MTurk en parto replikante tri klasikajn eksperimentojn. Repliku la klasikan eksperimentan eksperimenton de Azia Malsano fare de Tversky and Kahneman (1981) . Ĉu viaj rezultoj kongruas kun Tversky kaj Kahneman? Ĉu viaj rezultoj kongruas kun tiuj Berinsky kaj kolegoj? Kio-se io - ĉu ĉi tio instruas nin pri uzado de MTurk por enketaj eksperimentoj?
[ , ] En iom da lingvo-en-vango papero titolita "Ni Devas Rompi", la socia psikologo Robert Cialdini, unu el la aŭtoroj de Schultz et al. (2007) , skribis, ke li retiriĝis frue de sia laboro kiel profesoro, parte pro la defioj, kiujn li alfrontis fari kampojn eksperimentoj en disciplino (psikologio), kiu ĉefe kondukas al laboratoriaj eksperimentoj (Cialdini 2009) . Legu la paperon de Cialdini kaj skribu al li retpoŝton instigante lin rekonsideri sian rompo en lumo de la eblecoj de ciferecaj eksperimentoj. Uzu specifajn ekzemplojn de esplorado, kiuj traktas siajn zorgojn.
[ ] Por determini ĉu malgrandaj komencaj sukcesoj enfermas aŭ malplenigas, van de Rijt kaj kolegoj (2014) intervenis en kvar malsamajn sistemojn, kiuj donis sukceson al hazarde elektitaj partoprenantoj, kaj tiam mezuris la longtempajn efikojn de ĉi tiu sukceso. Ĉu vi povas pensi pri aliaj sistemoj, en kiuj vi povus ekzekuti similajn eksperimentojn? Taksi ĉi tiujn sistemojn laŭ temoj de scienca valoro, algoritma konflikto (vidu ĉapitro 2) kaj etikon.
[ , ] La rezultoj de eksperimento povas dependi de la partoprenantoj. Krei eksperimenton kaj poste kuri ĝin en MTurk uzante du malsamajn reclutajn strategiojn. Provu elekti la eksperimenton kaj reclutajn strategiojn por ke la rezultoj estos tiel malsamaj kiel eble. Ekzemple, viaj reklamaj strategioj povus varbi partoprenantojn matene kaj vespere aŭ kompensi partoprenantojn kun alta kaj malalta salajro. Ĉi tiuj specoj de diferencoj en reclutiga strategio povus konduki al malsamaj pooloj de partoprenantoj kaj malsamaj eksperimentaj rezultoj. Kiel malsama faris viaj rezultoj? Kion tio malkaŝas pri kuranta eksperimentoj sur MTurk?
[ , , ] Imagu, ke vi planas la eksperimentan Emocian Kontagadon (Kramer, Guillory, and Hancock 2014) . Uzu la rezultojn de pli frua observa studo de Kramer (2012) por decidi la nombron de partoprenantoj en ĉiu kondiĉo. Ĉi tiuj du studoj ne kongruas perfekte, do certigu eksplicite listigi ĉiujn supozojn, kiujn vi faras:
[ , , Respondu la antaŭan demandon denove, sed ĉi-foje anstataŭ uzi la antaŭan observan studon de Kramer (2012) , uzu la rezultojn de pli frua natura eksperimento de Lorenzo Coviello et al. (2014) .
[ ] Ambaŭ Margetts et al. (2011) kaj van de Rijt et al. (2014) realigis eksperimentojn studante la procezon de homoj subskribante peton. Komparu kaj kontrasti la dezajnojn kaj rezultojn de ĉi tiuj studoj.
[ ] Dwyer, Maki, and Rothman (2015) realigis du kampojn de eksperimentoj pri la rilato inter sociaj normoj kaj pro-media konduto. Jen la abstraktaĵo de ilia papero:
"Kiel povus psikologian sciencon esti uzata por kuraĝigi ekologiajn kondutojn? En du studoj, intervenoj direktitaj al promocii konduton pri konservado de energio en publikaj banĉambroj ekzamenis la influojn de priskribaj normoj kaj persona respondeco. En Studo 1, la lumo-statuso (tio estas, sur aŭ ekstere) estis manipulita antaŭ ol iu eniris senatentan publikan banĉambron, signante la priskriban normon por tiu opcio. Partoprenantoj estis multe pli verŝajne turni la lumojn ekstere se ili foriris kiam ili eniris. En Studo 2, aldona kondiĉo estis inkluzivita, en kiu la normo malŝalti la lumon estis pruvita de konfedera, sed partoprenantoj ne respondecis sin turni ĝin. Persona respondeco moderas la influon de sociaj normoj pri konduto; kiam partoprenantoj ne respondecis pri la lumo, la influo de la normo malpliiĝis. Ĉi tiuj rezultoj indikas kiel priskribaj normoj kaj persona respondeco reguligas la efikecon de mediaj intervenoj. "
Legu sian paperon kaj desegnu replikiĝon de studo 1.
[ , ] Konstruante sur la antaŭa demando, nun plenumu vian dezajnon.
[ ] Ekzistis grava debato pri eksperimentoj uzantaj partoprenantojn rekrutitajn de MTurk. Paralele, ankaŭ estis grava debato pri eksperimentoj uzantaj partoprenantojn rekrutitajn de studentaj studentoj. Skribu du-paĝan memoron komparante kaj kontrastas Turkojn kaj studentojn kiel esplorpartoprenantoj. Via komparo devus diskuti pri sciencaj kaj logistikaj aferoj.
[ ] La libro de Jim Manzi Uncontrolled (2012) estas mirinda enkonduko al la potenco de eksperimentado en komerco. En la libro li elsendis la sekvan rakonton:
"Mi iam estis kunveno kun vera komerca genio, memfarita miliardulo, kiu havis profundan intuigan substatigon de la potenco de eksperimentoj. Lia kompanio pasis gravajn rimedojn provante krei grandajn butikajn ekranojn, kiuj altiris konsumantojn kaj pliigis vendojn, kiel konvencia saĝo diris, ke ili devus. Fakuloj atente pruvis dezajnon post dezajno, kaj en individuaj testaj revizioj dum periodo de jaroj konservis neniun signifan kaŭzan efikon de ĉiu nova ekrano-dezajno sur vendoj. Altrangaj merkatistoj kaj komercaj ekzekutivoj kunvenis kun la CEO por revizii ĉi tiujn historiajn provojn en toto. Post prezentado de ĉiuj eksperimentaj datumoj, ili konkludis, ke la konvencia saĝeco estis malĝusta - tiu fenestro-prezentoj ne veturigas vendojn. Ilia rekomendinda ago reduktis kostojn kaj penojn en ĉi tiu regiono. Ĉi tio drame montris la kapablon de eksperimentado por renversi konvenciajn saĝecon. La respondo de la CEO estis simpla: 'Mia konkludo estas, ke viaj diseñadores ne tre bone.' Lia solvo estis pliigi penadon en vendejo kaj desegni novajn homojn fari ĝin. " (Manzi 2012, 158–9)
Kiu tipo de valideco estas la zorgado de la CEO?
[ ] Konstruante la antaŭan demandon, imagu, ke vi estas ĉe la kunveno, kie diskutis la rezultoj de la eksperimentoj. Kio estas kvar demandoj, kiujn vi povus demandi unu por ĉiu tipo de valideco (statistika, konstrua, interna kaj ekstera)?
[ ] Bernedo, Ferraro, and Price (2014) studis la sep-jaran efikon de la akvopara interveno priskribita en Ferraro, Miranda, and Price (2011) (vidu figuron 4.11). En ĉi tiu papero, Bernedo kaj kolegoj ankaŭ serĉis kompreni la mekanismon malantaŭ la efiko komparante la konduton de hejmoj, kiuj havas kaj ne movis post kiam la traktado estis transdonita. Tio estas, malglate, ili provis vidi ĉu la traktado efikis la hejmon aŭ la domposedanton.
[ ] En sekvo al Schultz et al. (2007) , Schultz kaj kolegoj prezentis serion de tri eksperimentoj sur la efiko de priskribaj kaj instruaj normoj pri malsama media konduto (tuko de reuzo) en du kuntekstoj (hotelo kaj tempoparteco) (Schultz, Khazian, and Zaleski 2008) .
[ ] En respondo al Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) funkciis serion de laboratoriaj eksperimentoj por studi la desegnon de elektraj biletoj. Jen kiel ili priskribas ĝin en la abstraktaĵo:
"En enketo bazita eksperimento, ĉiu partoprenanto vidis hipotetikan elektran fakturon por familio kun relative alta elektra uzado, kovrante informojn pri (a) historia uzo, (b) komparoj al najbaroj, kaj (c) historia uzo kun aparato rompo. Partoprenantoj vidis ĉiujn informojn en unu el tri formatoj inkluzive de (tabeloj), (b) trinkejaj grafikaĵoj kaj (c) ikono-grafikaĵoj. Ni raportas pri tri ĉefaj trovoj. Unue, konsumantoj komprenis ĉiun tipon de elektraj-uzaj informoj la plej multajn kiam ĝi estis prezentita en tablo, eble ĉar tabloj faciligas simplan punktan legadon. La dua, la preferoj kaj la intencoj por ŝpari elektron estis la plej fortaj por la historiaj uzaj informoj, sendepende de formato. Tria, individuoj kun pli malalta energia alfabetigo komprenis ĉiujn informojn malpli. "
Kontraste kun aliaj sekvaj studoj, la ĉefa rezulto de intereso en Canfield, Bruin, and Wong-Parodi (2016) estas raportita konduto, ne reala konduto. Kio estas la fortoj kaj malfortoj de ĉi tiu tipo de studo en pli ampleksa esplora programo antaŭeniganta energian ŝparadon?
[ , ] Smith and Pell (2003) prezentis satirikan metan-analizon de studoj montrante la efikecon de paraŝutoj. Ili finis:
"Kiel kun multaj intervenoj destinitaj al malhelpi malsanan sanon, la efikeco de paraŝuto ne estis submetita al rigora takso per uzado de hazardaj kontrolitaj provoj. Advokatoj de evidenteco bazita medicino kritikis la adopton de intervenoj taksitaj per uzado de nur observaj datumoj. Ni pensas, ke ĉiuj povus profiti se la plej radikalaj ĉefroluloj de evidenteco bazita medicino organizis kaj partoprenis en duobla blinda, hazarda, kontrolita kontrolo, kruciĝo-juĝo de la paraŝuto. "
Skribu taŭgaĵon por ĝenerala legado-ĵurnalo, kiel la New York Times , argumentante kontraŭ la fetiĉigo de eksperimenta pruvo. Provizi specifajn, konkretajn ekzemplojn. Konsilo: Vidu ankaŭ Deaton (2010) kaj Bothwell et al. (2016) .
[ , , ] Diferenciaj diferencaj korinklinoj de efika efiko povas esti pli precizaj ol diferencaj-en-mezaj korinklinoj. Skribu memoron al inĝeniero komisiita de provado de A / B ĉe komenca socia amaskomunikilaro, kiu klarigas la valoron de la diferenco-en-diferenca aliro por kuranta enretan eksperimenton. La memoro devus inkluzivi deklaron pri la problemo, iujn intuojn pri la kondiĉoj sub kiuj la diferenc-diferenca taksiilo superas la diferencon-en-mezan takson, kaj simplan simuladon studadon.
[ , ] Gary Loveman estis profesoro ĉe Harvard Business School antaŭ iĝi la CEO de Harrah, unu el la plej grandaj kazinaj kompanioj en la mondo. Kiam li translokiĝis al Harrah, Loveman transformis la kompanion kun ofta avantaĝo de fidelita programo kiu kolektis grandajn kvantojn da datumoj pri klienta konduto. Ĉe ĉi tiu ĉiam-mezurita sistemo, la kompanio komencis kuradi eksperimentojn. Ekzemple, ili povus ekzekuti eksperimenton por taksi la efekton de kupono por libera nokta nokto por klientoj kun specifa vetkuro. Jen kiel Loveman priskribis la gravecon de eksperimentado al la ĉiutagaj komercaj praktikoj de Harrah:
"Estas kiel vi ne persekutadas virinojn, vi ne ŝtelas, kaj vi devas havi kontrolon grupon. Ĉi tio estas unu el la aferoj, kiujn vi povas perdi vian laboron ĉe Harrah's-ne kurante komandan grupon. » (Manzi 2012, 146)
Skribu retpoŝton al nova oficisto klarigante kial Loveman opinias, ke tiel gravas havi grupon pri kontrolo. Vi devas provi inkluzivi ekzemplon - ĉu reala aŭ farita-por ilustri vian punkton.
[ , ] Nova eksperimento celas taksi la efikon ricevi retmesaĝajn mesaĝojn pri vakcinado. Cent kvindek klinikoj, ĉiu kun 600 elekteblaj pacientoj, pretas partopreni. Estas fiksa kosto de $ 100 por ĉiu kliniko, kiun vi volas labori, kaj ĝi kostas $ 1 por ĉiu tekstmesaĝo, kiun vi volas sendi. Pliaj klinikoj, kiujn vi laboras, mezuros la rezulton (ĉu iu ricevis vakcinadon) senpage. Supozu, ke vi havas buĝeton de $ 1,000.
[ , ] Grava problemo kun interretaj kursoj estas eluziĝado: multaj studentoj, kiuj komencas kursojn finiĝas. Imagu, ke vi laboras en reta lernformo, kaj desegnisto ĉe la platformo kreis vida progresan stangon, kiun ŝi pensas helpos malhelpi studentojn forlasi la kurson. Vi volas provi la efikon de la progreso-stango al studentoj en granda komputika socia kurso. Post trakti ajnajn etikajn demandojn, kiuj povus okazi en la eksperimento, vi kaj viaj kolegoj maltrankviliĝu, ke la kurso eble ne havas sufiĉajn studentojn por detekti fidinde la efikojn de la progreso-stango. En la sekvaj ŝtonoj, vi povas supozi, ke duono de la studentoj ricevos la progresan trinkejon kaj duonon ne. Plue, vi povas supozi, ke ne ekzistas interrompo. Alivorte, vi povas supozi, ke partoprenantoj nur tuŝas ĉu ili ricevis la traktadon aŭ kontrolon; ili ne efektivigas ĉu aliaj homoj ricevis la traktadon aŭ kontrolon (por pli formala difino, vidu ĉapitro 8 de Gerber and Green (2012) ). Konservu aŭskulton pri iu ajn aldona supozo, kiun vi faras.
[ , , ] Imagu, ke vi laboras kiel datuma sciencisto ĉe teknika kompanio. Iu el la fako de merkatiko petas vian helpon en taksado de eksperimento, kiun ili planas por mezuri la revenon de investado (ROI) por nova interreta kampanjo. ROI estas difinita kiel la rekta profito de la kampanjo dividita per la kosto de la kampanjo. Ekzemple, kampanjo kiu havis neniun efikon sur vendoj havus ROI de -100%; kampanjo kie profitoj generitaj estis egalaj al kostoj havus ROI de 0; kaj kampanjo, kie profitoj generis, duobligas la koston, havante ROI de 200%.
Antaŭ lanĉi la eksperimenton, la fako de merkatiko provizas al vi la sekvajn informojn bazitajn sur ilia pli frua esplorado (fakte, ĉi tiuj valoroj estas tipaj de la realaj retoj enretaj anoncoj en Lewis kaj Rao (2015) ):
Skribu memoron taksante ĉi tiun proponitan eksperimenton. Via memo devas uzi evidentecon de simulado, kiun vi kreas, kaj ĝi devus trakti du gravajn aferojn: (1) Ĉu vi rekomendas lanĉi ĉi tiun eksperimenton laŭ planita? Se do, kial? Se ne, kial ne? Estu certe esti klara pri la kriterioj, kiujn vi uzas por fari ĉi tiun decidon. (2) Kiun specimenon vi rekomendus por ĉi tiu eksperimento? Denove estu certa esti klara pri la kriterioj, kiujn vi uzas por fari ĉi tiun decidon.
Bona memo respondos ĉi tiun specifan kazon; Pli bona memoro komunigos de ĉi tiu kazo unuflanke (ekz., montru kiel la decido ŝanĝas kiel funkcio de la grandeco de la efiko de la kampanjo); kaj granda memo prezentos plene komunigitan rezulton. Via memo devas uzi grafikojn por helpi ilustri viajn rezultojn.
Jen du aludoj. Unue, la komerca fako povus provizi al vi kelkajn nenecesajn informojn, kaj ili eble malsukcesis provizi al vi iujn necesajn informojn. Due, se vi uzas R, konsciu, ke la funkcio rlnorm () ne funkcias kiel multaj homoj atendas.
Ĉi tiu aktiveco donos al vi praktikon kun potenca analizo, kreante simulacojn kaj komunikante viajn rezultojn per vortoj kaj grafikaĵoj. Ĝi devus helpi vin konduki potencan analizon por ia sperto, ne nur eksperimentoj desegnitaj por taksi ROI. Ĉi tiu agado supozas, ke vi havas iun sperton kun statistika provo kaj potenca analizo. Se vi ne konas la potencan analizon, mi rekomendas, ke vi legis "A Power Primer" de Cohen (1992) .
Ĉi tiu aktiveco estis inspirita de bela papero fare de RA Lewis and Rao (2015) , kiu vividle ilustras fundamentan statistikan limigon de eĉ masivaj eksperimentoj. Ilia papero, kiu origine havis la provokan titolon "Pri la Proksimebleco de Revenado al Reklamado" - montras, kiom malfacile mezuri la revenon pri investado de interretaj anoncoj, eĉ kun ciferecaj eksperimentoj kun milionoj da klientoj. Pli ĝenerale, RA Lewis and Rao (2015) ilustras fundamentan statistikan fakton, kiu estas aparte grava por ciferecaj eksperimentoj: malfacile taksas malgrandajn traktadajn efikojn inter ruida rezulto de datumoj.
[ , ] Tiel same kiel la antaŭa demando, sed prefere ol simulado, vi devus uzi analizajn rezultojn.
[ , , ] Tiel same kiel la antaŭa demando, sed uzu ambaŭ simuladon kaj analitikajn rezultojn.
[ , , ] Imagu, ke vi skribis la memoron priskribitan pli supre, kaj iu el la merkatsekcio provizas unu novan novan informon: ili atendas 0.4-rilaton inter vendoj antaŭ kaj post la eksperimento. Kiel ĉi tio ŝanĝas la rekomendojn en via memo? (Konsilo: vidu sekcion 4.6.2 por pli da la diferenco-de-rimedilo kaj la diferenco-en-diferenca taksiilo.)
[ , ] Por taksi la efikecon de nova retejo bazita en dungado-helpo programo, universitato efektivigis hazardan kontrolon-teston inter 10.000 studentoj enirante en la finjaran jaron. Senpaga abono kun unika ensalutinformado estis sendita per ekskluziva retpoŝta invito al 5,000 el la hazarde elektitaj studentoj, dum la aliaj 5,000 studentoj estis en la grupo de kontrolo kaj ne havis abonon. Dek du monatoj poste, enketo de sekvo (sen neniu respondo) montris, ke en la traktado kaj kontrolo de grupoj, 70% de la studentoj certigis plentempan laboron en sia elektita kampo (tablo 4.6). Tiel, ŝajnis, ke la retejo bazita ne havis efikon.
Tamen inteligenta sciencisto en la universitato rigardis la datumon iom pli proksime kaj trovis, ke nur 20% de la studentoj en la traktadrupo iam ensalutis en la konto post ricevi la retpoŝton. Plue, kaj iom surprize, inter tiuj, kiuj eniris en la retpaĝaron, nur 60% certigis plentempan laboron en sia elektita kampo, kiu estis pli malalta ol la indico por homoj, kiuj ne ensalutis kaj malpli malaltiĝis ol la indico por homoj en la kontrolo-kondiĉo (tablo 4.7).
Konsulto: Ĉi tiu demando superas la materialon kovrita en ĉi tiu ĉapitro, sed traktas problemojn komuna en eksperimentoj. Ĉi tiu tipo de eksperimenta dezajno kelkfoje nomas dezajnon de kuraĝigo ĉar la partoprenantoj estas kuraĝigitaj partopreni la traktadon. Ĉi tiu problemo estas ekzemplo de tio, kio estas nomata unuflanka nekomplikaĵo (vidu ĉapitro 5 de Gerber and Green (2012) ).
[ ] Post plua ekzameno, ĝi rezultis, ke la eksperimento priskribita en la antaŭa demando eĉ pli komplikis. Ĝi rezultis, ke 10% el la homoj en la grupo de kontrolo pagis aliron al la servo, kaj ili finis kun postulata imposto de 65% (tablo 4.8).
Konsulto: Ĉi tiu demando superas la materialon kovrita en ĉi tiu ĉapitro, sed traktas problemojn komuna en eksperimentoj. Ĉi tiu problemo estas ekzemplo de kio estas nomata duflanka nekomplikaĵo (vidu ĉapitro 6 de Gerber and Green (2012) ).
Grupo | Grandeco | Pritraktata dungado |
---|---|---|
Donita aliro al retejo | 5.000 | 70% |
Ne koncedita aliro al retejo | 5.000 | 70% |
Grupo | Grandeco | Pritraktata dungado |
---|---|---|
Donita aliro al retejo kaj ensalutinta | 1,000 | 60% |
Donita aliro al retejo kaj neniam ensalutinta | 4,000 | 72.5% |
Ne koncedita aliro al retejo | 5.000 | 70% |
Grupo | Grandeco | Pritraktata dungado |
---|---|---|
Donita aliro al retejo kaj ensalutinta | 1,000 | 60% |
Donita aliro al retejo kaj neniam ensalutinta | 4,000 | 72.5% |
Ne koncedis aliron al retejo kaj pagis por ĝi | 500 | 65% |
Ne koncedis aliron al retejo kaj ne pagis por ĝi | 4,500 | 70.56% |