[ , ] Berinsky ja tema kolleegid (2012) hindasid MTurkit osaliselt, kopeerides kolme klassikalist katset. Tversky and Kahneman (1981) klassikalist Aasia haiguse raamistikku. Kas teie tulemused vastavad Tverskile ja Kahnemanile? Kas teie tulemused sobivad nende Berinsky ja kolleegidega? Mis-kui midagi, kas see õpetab meid MTurki kasutamise kohta uuringukatsete jaoks?
[ , ] Mõnevõrra põikipuist pealkirjaga "Me peame purunema" sotsiaalse psühholoog Robert Cialdini, üks Schultz et al. (2007) autoritest Schultz et al. (2007) kirjutas, et ta töötas varakult professorina, osaliselt sellepärast, et tema ees seisvad väljakutsed tegid valdkonnas eksperimente distsipliini (psühholoogia), mis viib peamiselt laborikatsetusi (Cialdini 2009) . Lugege Cialdini paberit ja kirjutage talle e-kiri, milles kutsutakse teda üles digitaalsete eksperimentide võimaluste valguses uuesti läbi vaatama. Kasutage konkreetseid näiteid uuringutest, mis käsitlevad tema muret.
[ Van de Rijt ja tema kolleegid (2014) otsustasid, kas väikesed esialgsed õnnestumised lukustuvad või kaduvad, ja sekkusid nelja erinevasse süsteemisse, mis andsid juhuslikult valitud osalejatele edu ja mõõta selle meelevaldse edu pikaajalisi mõjusid. Kas te võite mõelda muudele süsteemidele, kus võiksite käia sarnaseid katseid? Hinnake neid süsteeme teadusliku väärtusega, algoritmiliselt segane (vt peatükk 2) ja eetika küsimustega.
[ , ] Katse tulemused võivad sõltuda osalejatest. Loo katse ja käivitage see MTurkis, kasutades kahte erinevat värbamisstrateegiat. Proovige valida katse- ja värbamisstrateegiad nii, et tulemused oleksid nii erinevad kui võimalik. Näiteks võiksid värbamisstrateegiad olla osalejate värbamine hommikul ja õhtul või osaliste hüvitamine kõrge ja madala palga eest. Sellised erinevused värbamisstrateegias võivad viia osalejate erinevatesse kogumitesse ja erinevatest katsetulemustest. Kuidas erinevad teie tulemused osutuvad? Mida see näitab MTurki katsetuste käivitamisel?
[ , , ] Kujutage ette, et planeerisite emotsionaalse nakkusliku eksperimendi (Kramer, Guillory, and Hancock 2014) . Kasutage Kramer (2012) varasema vaatlusuuringu tulemusi Kramer (2012) et otsustada osalejate arvu igas olukorras. Need kaks uuringut ei sobi ideaalselt, seega tuleb kindlasti loetleda kõik eeldused, mida teete:
[ , , ] Vastus eelmisele küsimusele uuesti, kuid praegu, selle asemel, et kasutada Kramer (2012) varasemat vaatlusuuringut, kasutage Lorenzo Coviello et al. (2014) varasema loomuliku katse tulemusi Lorenzo Coviello et al. (2014) .
[ ] Nii Margetts et al. (2011) ja van de Rijt et al. (2014) tegi eksperimente, kes uurisid petitsiooni allkirjastanud inimeste protsessi. Võrdle ja vastandage nende uuringute kujundused ja järeldused.
[ ] Dwyer, Maki, and Rothman (2015) viisid läbi kaks välikatset sotsiaalsete normide ja keskkonnahoidliku käitumise vahelise seose kohta. Siin on nende paberi kokkuvõte:
"Kuidas võiks psühholoogilist teadust kasutada keskkonnaprobleemide soodustamiseks? Kahes uuringus uuriti riiklikes vannitubades energia säästmise käitumise edendamiseks mõeldud sekkumisi kirjeldavate normide ja isikliku vastutuse mõjudega. Uurimuses 1 manipuleeriti valguse olekut (st sisse või välja), enne kui keegi sisenes avatud ruumi, mis andis selle seade kirjeldava normi. Osalejad olid märgatavalt tõenäolisem, et lülitaks valgust välja, kui need sisselaske ajal välja lülitati. Uuringus 2 lisati täiendav tingimus, milles konfidentsiaalsus näitas valguse väljalülitamise normi, kuid osalejad ise ei pidanud selle sisse lülitama. Isiklik vastutus mõõtis sotsiaalsete normide mõju käitumisele; kui osalejad ei olnud valguse sisselülitamise eest vastutavad, siis normi mõju vähenes. Need tulemused näitavad, kuidas kirjeldavad normid ja isiklik vastutus võivad reguleerida keskkonnaprobleemide tõhusust. "
Loe oma paberit ja kujundage uuringu 1 replikatsioon.
[ , ] Lähtudes eelmisest küsimusest, teostage nüüd oma disain.
[ ] MTurkis värvatud osalejatega on läbi viidud märkimisväärseid arutelusid. Paralleelselt on toimunud ka märkimisväärne arutelu eksperimentide üle, milles kasutati üliõpilaste hõivatud osalejaid. Kirjutage kahe lehekülje memo, mis võrdlevad ja kontrasteerivad Türkereid ja üliõpilasi uurijatena. Teie võrdlus peaks hõlmama nii teaduslikke kui ka logistilisi küsimusi.
[ ] Jim Manzi raamat " Mittekontrollitav (2012) on suurepärane sissejuhatus ettevõtmiste eksperimenteerimisvõimesse. Raamatus avaldas ta järgmise loo:
"Ma olin kord kohtumisel tõelise äri-geniaaliga, isetegemisega miljardäriga, kellel oli sügav ja intuitiivne eksperimentide jõudlus. Tema ettevõte veetis märkimisväärseid ressursse, püüdes luua suurepäraseid poeaknaid, mis meelitaksid tarbijaid ja suurendaksid müüki, nagu tavapärane tarkus osutas. Eksperdid kontrollisid hoolikalt konstruktsiooni pärast projekteerimist ja individuaalsete katse läbivaatusseansside jooksul aastate jooksul, mis ei näidanud olulist põhjuslikku mõju iga uue disaini disaini müügi kohta. Senior turunduse ja turunduse juhid kohtusid tegevjuhiga, et läbi vaadata need ajaloolised testi tulemused. Pärast kõigi eksperimentaalsete andmete esitamist jõudsid nad järeldusele, et tavapärane tarkus oli vale - see aken ei näita müüki. Nende soovituslik tegevus oli vähendada kulusid ja jõupingutusi selles valdkonnas. See näitas märkimisväärselt eksperimenteerimisvõimalusi tavapärase tarkuse tühistamiseks. Juhataja vastus oli lihtne: "Minu järeldus on see, et teie disainerid ei ole väga head." Tema lahendus oli suurendada (Manzi 2012, 158–9) ja uusi inimesi seda tegema. " (Manzi 2012, 158–9)
Milline kehtivus on tegevdirektori mure?
[ ] Eelmisele küsimusele tuginedes kujutage ette, et olete kohtumisel, kus arutati eksperimentide tulemusi. Millised on neli küsimust, mida võiksite küsida - üks igat tüüpi kehtivuse kohta (statistiline, konstrueeritud, sisemine ja välimine)?
[ ] Bernedo, Ferraro, and Price (2014) uuris Ferraro, Miranda, and Price (2011) kirjeldatud vee säästmise sekkumise seitsmeaastast mõju (vt joonis 4.11). Selles raamatus püüdsid Bernedo ja tema kolleegid mõista ka mõju mehhanismi, võrreldades kodumajapidamiste käitumist, kes on pärast ravist kätte toimetanud ja pole seda liikunud. See on umbes, et nad püüdsid näha, kas ravi mõjutas kodu või majaomanikku.
[ ] Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) teostasid Schultz ja tema kolleegid kolm katset kirjeldavate ja ettekirjutatavate normide mõju kohta erinevatele keskkonnakäitumistele (rätikute taaskasutamine) kahes kontekstis (hotell ja osaajalise (Schultz, Khazian, and Zaleski 2008) .
[ ] Vastuseks Schultz et al. (2007) Canfield, Bruin, and Wong-Parodi (2016) elektriakkude disaini uurimiseks läbi laboratestidega seotud katsed. Nii kirjeldavad nad seda abstraktselt:
"Uuringupõhises eksperimendis nägi iga osaleja hüpoteetilisi elektriarveid suhteliselt kõrge elektritarbimisega perekonnale, mis hõlmas teavet a) ajaloolise kasutamise kohta, b) naabrite võrdlemist ja c) ajaloolist kasutamist koos seadmete riketega. Osalejad nägid kõiki teabe tüüpe ühes kolmest vormingust, sealhulgas (a) tabelid, (b) baargraafikud ja (c) ikooni graafikud. Anname aru kolmest peamistest järeldustest. Esiteks mõistavad tarbijad igat liiki elektritarbimise teavet kõige enam, kui see esitati tabelis, võib-olla seetõttu, et tabelid lihtsustavad lihtsat lugemist. Teiseks olid eelistused ja kavatsused elektrienergia säästmiseks ajaloolise kasutuse jaoks kõige tugevamad, vormilt sõltumatud. Kolmandaks, madalama energiaalase kirjaoskusega inimesed mõistsid kogu teabe vähem. "
Erinevalt teistest järgnevatest uuringutest on Canfield, Bruin, and Wong-Parodi (2016) huvides peamine tulemus käitumisest, mitte tegelikust käitumisest. Millised on sellise uuringu tugevused ja nõrkused laiemas energiasäästu edendava uurimisprogrammis?
[ , ] Smith and Pell (2003) esitasid langevarade efektiivsust tõendavate uuringute satiirilist metaanalüüsi. Nad jõudsid järeldusele:
"Nagu paljude sekkumiste puhul, mis on ette nähtud haiguste ennetamiseks, ei ole langevarade efektiivsust rasedate kontrollitud uuringute abil rangelt hinnatud. Tõendusmaterjali toetajad on kritiseerinud sekkumiste vastuvõtmist, mida hinnatakse ainult vaatlusandmete abil. Me arvame, et kõik saavad kasu, kui tõenduspõhise meditsiini kõige radikaalsemad peategelased korraldavad ja osalevad lumelauas topeltpime, randomiseeritud, platseebokontrolliga ja katkendliku katsega. "
Kirjutage laiendatud lugejate ajalehe, näiteks New York Timesi jaoks sobilikud väljavõtted, vaidlustades eksperimentaalsete tõendite fetishiseerimise vastu. Esitage konkreetseid konkreetseid näiteid. Vihje: vt ka Deaton (2010) ja Bothwell et al. (2016) .
[ , , ] Raviefekti erinevad hinnangulised väärtused võivad olla täpsemad kui vahe-keskmised hinnangud. Sisestage alustavale sotsiaalmeediarettevõttele A / B testimise eest vastutava inseneri märkus, milles selgitatakse online-eksperimendi käitamiseks kasutatava vahe-erinevuste meetodi väärtust. Mälestus peaks sisaldama probleemi kirjeldust, mõningat intuitsiooni tingimuste kohta, mille alusel erinevus-erinevus hindaja ületab keskmise erinevuse hindaja ja lihtsa simulatsiooni uuringu.
[ , ] Gary Loveman oli Harvardi ärikooli professor, enne kui ta sai maailma suurimate kasiinode firmade Harrah's tegevdirektoriks. Kui ta kolis Harrahini, muutis Loveman ettevõtet sagedasti levinud sarnase lojaalsusprogrammiga, mis kogus tohutult hulgal andmeid klientide käitumise kohta. Sellel pidevalt mõõdetaval süsteemil alustas ettevõte eksperimente. Näiteks võivad nad käivitada eksperimendi, et hinnata kupongi mõju tasuta hotelli ööl klientidele, kellel on konkreetne hasartmängude muster. Siinkohal kirjeldas Loveman Harrahi igapäevaseid äritavasid eksperimentide tähtsuse kohta:
"See on nagu te ei jälgi naisi, te ei varasta, ja teil peab olema kontrollrühm. See on üks asi, mida saate Harrah'is oma töökoha kaotada - kontrollrühma ei käivitata. " (Manzi 2012, 146)
Kirjutage uuele töötajale e-kiri, milles selgitatakse, miks Loveman arvab, et kontrollrühma on nii tähtis. Te peaksite proovima lisada näite - kas tõeline või tehtud - illustreerib teie punkti.
[ , ] Uue katse eesmärk on hinnata tekstisõnumite meeldetuletamise mõju vaktsineerimisele. Kaksteist viiskümmend kliinikut, kellest igaühel on 600 sobivat patsienti, on valmis osalema. Iga kliiniku jaoks, millega soovite töötada, on püsikulud 100 dollarit ja iga tekstsõnumi eest, mille soovite saata, maksab 1 dollar. Lisaks sellele mõõdavad kliinikud, millega te töötate, tulemust (kas keegi sai vaktsineerimise) tasuta. Oletame, et teil on eelarve 1000 eurot.
[ , ] Interneti-kursuste suur probleem on hõrenemine: paljud õpilased, kes alustavad kursusi, lõpevad. Kujutlege, et töötate veebipõhise õppeplatvormiga ja platvormi disainer on loonud visuaalse edenemisriba, mis tema arvates aitaks õpilastel kursusel kõrvale kukkuda. Tahad testida õpilaste edusammude efekti suurtes arvutuslikes sotsiaalteaduste kursuses. Pärast eksperimendis tekkida võivate eetiliste probleemide lahendamist muretsevad, et teie ja teie kolleegid muretsevad, et kursusel ei pruugi olla piisavalt õpilasi, et usaldusväärselt tuvastada edenemisriba mõju. Järgnevates arvutustes võite eeldada, et pooled õpilastest saavad edenemisriba ja poolel puudub. Lisaks võite eeldada, et pole sekkumisi. Teisisõnu võite eeldada, et osalejaid mõjutab ainult see, kas nad said ravi või kontrolli; neid ei toimu, kas teised inimesed said ravi või kontrolli (ametlikuma määratluse jaoks vt Gerber and Green (2012) peatükk 8). Jälgige kõiki täiendavaid eeldusi, mida teete.
[ , , ] Kujutlege, et töötad tech-ettevõttes andmeteadlasena. Turundusosakonna keegi palub teie abi, et hinnata katse, mida nad kavandavad, et hinnata uue veebireklaamikampaania investeeringutasuvust (ROI). ROI määratletakse kampaania puhaskasumina, mis on jagatud kampaania maksumusega. Näiteks kampaania, mis ei mõjuta müüki, oleks ROI -100%; kampaania, kus kasum võrdub kuludega, oleks ROI 0; ja kampaania, kus kasumit kahekordistatakse, oleks 200% investeeringutasuvus.
Enne eksperimendi käivitamist pakub turundusosakond teile varasemate uuringute põhjal teavet (tegelikult on need väärtused Lewis'is ja Raos (2015) esitatud reaalsete veebikampaaniate puhul tüüpilised):
Kirjutage selle kavandatava katse hindamise memo. Teie memo peaks kasutama tõendeid loodud simulatsioonist ja see peaks käsitlema kaht peamist probleemi: (1) Kas soovitaksite selle eksperimendi käivitamist plaanipäraselt käivitada? Kui jah, siis miks? Kui mitte, siis miks mitte? Kindlasti pidage selgeks kriteeriumide kohta, mida te selle otsuse tegemiseks kasutate. (2) Millist valimit soovid selle eksperimendi jaoks soovitada? Jällegi palun veenduge, et olete selge kriteeriumide kohta, mida te selle otsuse tegemiseks kasutate.
Hea märkus käsitleb seda konkreetset juhtumit; ühel viisil üldiselt sellel juhtumil üldiselt parem memo (nt näidake, kuidas otsus muutub kampaania mõju suuruse funktsioonina); ja suurepärane memo esitab täielikult üldise tulemuse. Teie memo peaks tulemuste illustreerimiseks kasutama graafikuid.
Siin on kaks vihjeid. Esiteks võib turundusosakond anda teile ebavajaliku teabe ja võib-olla ei suutnud teil pakkuda teile vajalikku teavet. Teiseks, kui kasutate R-d, pidage meeles, et funktsioon rlnorm () ei tööta nii, nagu paljud inimesed ootavad.
See tegevus annab teile võimaluse analüüsida jõudu, luua simulatsioone ja edastada tulemusi sõnade ja graafikutega. See peaks aitama teil läbi viia igasuguse eksperimendi võimsuse analüüsi, mitte ainult katseid, mille eesmärk on hinnata ROI-d. See tegevus eeldab, et teil on kogemusi statistilise testimise ja võimsuse analüüsiga. Kui te pole võimendianalüüsiga tuttav, soovitame teil lugeda Cohen (1992) "Power Primer".
Seda tegevust inspireeris RA Lewis and Rao (2015) armas paber RA Lewis and Rao (2015) , mis illustreerib ilmekalt isegi ulatuslike eksperimentide statistilisi piiranguid. Nende paberil, mis algselt oli provokatiivne pealkiri "Reklaamide tagasiside mõõtmise suhteliselt võimatu", näitab, kui raske on veebipõhiste reklaamide investeeringutasuvuse mõõtmine isegi miljoneid kliente hõlmavate digitaalsete eksperimentidega. Üldisemalt on RA Lewis and Rao (2015) illustreerivad fundamentaalset statistilist asjaolu, mis on digitaalajastusega eksperimentide jaoks eriti oluline: raskesti hinnatud tulemuste andmete põhjal on raske hinnata väikseid raviefekte.
[ , ] Tehke sama, mis eelmisele küsimusele, kuid mitte simuleerimiseks, siis peaksite kasutama analüütilisi tulemusi.
[ , , ] Tehke sama, mis eelmine küsimus, kuid kasutage nii simulatsiooni kui ka analüütilist tulemust.
[ , , ] Kujutage ette, et olete kirjutanud ülalkirjeldatud memo, ja turundusosakonna isik pakub ühte uut teavet: nad eeldavad, et müük on enne ja pärast eksperimenti 0,4. Kuidas see muudab teie memo soovitusi? (Näpunäide: vt jaotist 4.6.2, et saada rohkem teavet erinevus-hinna hindaja ja erinevus-erinevuste hindaja.)
[ , ] Uue veebipõhise tööhõive abiprogrammi tõhususe hindamiseks korraldas ülikool randomiseeritud kontrollkatse 10 000 üliõpilasega, kes said oma kooli viimase aasta. Unikaalse sisselogimisandmetega tasuta tellimine saadeti eksklusiivsele e-posti kutsele 5000 juhuslikult valitud õpilastele, ülejäänud 5 000 õpilast olid kontrollrühmas ja neil ei olnud tellimist. Kaksteist kuud hiljem näitas järelkontroll (ilma reageerimiseta), et nii ravi- kui ka kontrollrühmas oli 70% õpilastest valitud töövaldkonnas tagatud täistööajaga töötamise (tabel 4.6). Seega tundus, et veebipõhine teenus ei oma mõju.
Kuid ülikooli intelligentne andmeteadlane uuris andmeid veidi täpsemalt ja leidis, et ainult 20% ravigrupi üliõpilastest on pärast e-kirja saamist sisse loginud. Veelgi enam, mõnevõrra üllatusena oli nende seas, kes sisenesid veebisaidile sisse, ainult 60% oma valitud valdkonnas tagatud täistööajaga töökoha, mis oli madalam kui nende inimeste arv, kes ei sisse loginud ja madalam kui inimeste arv kontrolli tingimustes (tabel 4.7).
Vihje: see küsimus läheb kaugemale käesolevas peatükis käsitletud materjalist, kuid see käsitleb eksperimentides levinud küsimusi. Sellist eksperimentaalset disaini nimetatakse mõnikord julgustusprojektiks, sest osalejaid julgustatakse tegelema raviga. See probleem on näide sellest, mida nimetatakse ühepoolseks mittejärgimiseks (vt Gerber and Green (2012) peatükk 5).
[ ] Pärast täiendavat uurimist selgub, et eelmises küsimuses kirjeldatud katse oli veelgi keerulisem. Selgus, et 10% kontrollgrupi inimestest maksis teenusele juurdepääsu eest ja nad said 65% tööhõive tasemest (tabel 4.8).
Vihje: see küsimus läheb kaugemale käesolevas peatükis käsitletud materjalist, kuid see käsitleb eksperimentides levinud küsimusi. See probleem on näide sellest, mida nimetatakse kahepoolseks mittejärgimiseks (vt Gerber and Green (2012) peatükk 6).
Grupp | Suurus | Tööhõive määr |
---|---|---|
Lubatud juurdepääs veebisaidile | 5000 | 70% |
Veebilehel puudub juurdepääs | 5000 | 70% |
Grupp | Suurus | Tööhõive määr |
---|---|---|
Lubatud juurdepääs veebisaidile ja sisse logitud | 1000 | 60% |
Lubatud juurdepääs veebisaidile ja pole kunagi sisselogitud | 4000 | 72,5% |
Veebilehel puudub juurdepääs | 5000 | 70% |
Grupp | Suurus | Tööhõive määr |
---|---|---|
Lubatud juurdepääs veebisaidile ja sisse logitud | 1000 | 60% |
Lubatud juurdepääs veebisaidile ja pole kunagi sisselogitud | 4000 | 72,5% |
Pole juurdepääsu veebisaidile ja see on selle eest makstud | 500 | 65% |
Veebilehel ei võimaldatud juurdepääsu ega tasu seda | 4500 | 70,56% |