Cheie:
[ . ] Berinsky si colegii (2012) evaluează Mechanical Turk , în parte , prin replicarea trei experimente clasice. Replice din Asia experimentul clasic al bolilor de încadrare de către Tversky and Kahneman (1981) . Do rezultatele meciului Tversky și Kahneman lui? Do rezultatele meci Berinsky si colegii? Ce-ar fi dacă ceva-ne învață despre utilizarea Mechanical Turk pentru experimente sondaj?
[ . ] Într - o lucrare oarecum limba-in-obraz intitulat "Trebuie să Break Up" , psihologul Robert Cialdini socială, unul dintre autorii Schultz et al. (2007) , a scris că el se retrage mai devreme de la locul de muncă ca profesor, in parte din cauza provocărilor cu care sa confruntat face experimente pe teren într - o disciplină (psihologie) , care efectuează în principal , experimente de laborator (Cialdini 2009) . Citește mai hârtie Cialdini lui, și să-l scrie un e-mail, îndemnându-l să-și reconsidere lui break-up în lumina posibilităților de experimente digitale. Utilizați exemple specifice de cercetare care abordează preocupările sale.
[ ] Pentru a determina dacă succesele inițiale mici blocare sau estompează, van de Rijt si colegii (2014) au intervenit în patru sisteme diferite dăruindu succes pe participanți selectați în mod aleatoriu, iar apoi au masurat efectele pe termen lung ale acestui succes arbitrar. Se poate gândi la alte sisteme în care ați putea rula experimente similare? Evalua aceste sisteme în ceea ce privește problemele de valoare științifică, intricate algoritmică (a se vedea capitolul 2), și etică.
[ . ] Rezultatele unui experiment poate depinde de participanți. Creați un experiment și apoi rulați-l pe Amazon Mechanical Turk (MTurk), folosind două strategii diferite de recrutare. Încercați să alegeți strategiile de experiment și de recrutare , astfel încât rezultatele vor fi cât mai diferite. De exemplu, strategiile de recrutare ar putea fi de a recruta participanți dimineața și seara sau pentru a compensa participanților, cu salarii mari și mici. Aceste tipuri de diferențe în strategia de recrutare ar putea conduce la diferite bazine ale participanților și a diferitelor rezultate experimentale. Cât de diferită a transforma rezultatele afară? Ce înseamnă că dezvăluie despre desfășurarea unor experimente pe MTurk?
[ . . . ] Imaginați - vă că planificau emoțională studiu Contagion (Kramer, Guillory, and Hancock 2014) . Utilizați rezultatele dintr - un studiu observational anterior de Kramer (2012) , pentru a decide numărul de participanți în fiecare condiție. Aceste două studii nu se potrivesc perfect astfel încât să fie sigur de a enumera în mod explicit toate ipotezele pe care le faci:
[ . . . ] Răspunde la întrebarea de mai sus, ci mai degrabă decât folosind studiul observațional mai devreme de Kramer (2012) să utilizeze rezultatele dintr - un experiment natural mai devreme de Coviello et al. (2014) .
[ ] Atât Rijt et al. (2014) , Rijt et al. (2014) și Margetts et al. (2011) , ambele efectua experimente care studiază procesul de oameni au semnat o petiție. Compară și proiectarea și rezultatele acestor studii.
[ ] Dwyer, Maki, and Rothman (2015) a efectuat două experimente pe teren cu privire la relația dintre normele sociale și comportamentul proenvironmental. Iată rezumatul a lucrării lor:
"Cum ar putea fi utilizate pentru știință psihologică pentru a încuraja comportamentul proenvironmental? În două studii, intervenții menite să promoveze un comportament de conservare a energiei în băile publice au examinat influențele normelor descriptive și responsabilitatea personală. În Studiul 1, starea de lumină (de exemplu, on sau off) a fost manipulat înainte ca cineva să intrat într-o baie publica neocupat, semnalizare norma descriptiv pentru acea setare. Participantii au fost semnificativ mai probabil pentru a stinge luminile în cazul în care s-au oprit când au intrat. În Studiul 2, o condiție suplimentară a fost inclusă în care norma de stingerea luminii a fost demonstrată printr-un confederal, dar participanții nu au fost ele însele responsabile pentru al porni. Responsabilitatea personală a moderat influența normelor sociale asupra comportamentului; când participanții nu au fost responsabili pentru activarea luminii, influența norma a fost diminuată. Aceste rezultate indică modul în care normele și responsabilitatea personală descriptivă poate reglementa eficiența intervențiilor proenvironmental. "
Citește mai lucrarea lor și a proiecta o replicare de studiu 1.
[ . ] Pornind de la întrebarea anterioară, acum să efectueze design-ul.
[ ] Au existat dezbateri substanțiale cu privire la experimente folosind participanți recrutați din Amazon Mechanical Turk. În paralel, a existat, de asemenea, dezbateri substanțiale despre experimente folosind participanți recrutați din populațiile de studenți de licență. Scrieți o notă de două pagini comparând și contrastând Turkers și studenți în calitate de cercetători participanți. comparația dvs. ar trebui să includă o discuție atât aspectele științifice și logistice.
[ Carte] Jim Manzi Necontrolate (2012) este o introducere minunată în puterea de experimentare în afaceri. În cartea pe care a transmis această poveste:
"Am fost o dată într-o întâlnire cu un geniu de afaceri adevărat, un miliardar self-made, care a avut o understating profundă, intuitivă a puterii de experimente. Compania sa a cheltuit resurse semnificative încercând să creeze ecrane mari pentru ferestre magazin, care ar atrage consumatorii și a vânzărilor crește, astfel cum intelepciunea conventionala au spus ca ar trebui. Experții testat cu atenție de proiectare după proiectare, și în sesiuni individuale de revizuire de testare pe o perioadă de ani menținut care prezintă nici un efect cauzal semnificativ al fiecărui nou design de afișare pe vânzări. Senior de marketing si merchandising directori sa întâlnit cu CEO-ul pentru a revizui aceste rezultate ale testelor istorice in toto. După prezentarea tuturor datelor experimentale, au ajuns la concluzia că înțelepciunea convențională a fost greșită, care afișează fereastra nu conduc vânzări. acțiunea lor a fost recomandat pentru a reduce costurile și efortul în acest domeniu. Acest lucru a demonstrat în mod dramatic capacitatea de experimentare a răsturna înțelepciunea convențională. Răspunsul CEO-ului a fost simplu: "Concluzia mea este că designerii nu sunt foarte bune." Soluția lui a fost de a crește efort în design de afișare magazin, și pentru a obține oameni noi pentru a face acest lucru. " (Manzi 2012, 158–9)
Ce tip de valabilitate este preocuparea de CEO?
[ ] Pornind de la întrebarea anterioară, imaginați-vă că ați fost la reuniunea în cadrul căreia au fost discutate rezultatele experimentelor. Care sunt cele patru întrebări pe care le-ar putea cere, câte unul pentru fiecare tip de valabilitate (statistic, construct, interne și externe)?
[ ] Bernedo, Ferraro, and Price (2014) studiază efectul de șapte ani a intervenției de economisire a apei s-a descris în Ferraro, Miranda, and Price (2011) ( a se vedea figura 4.10). În această lucrare, Bernedo și colegii caută, de asemenea, să înțeleagă mecanismul din spatele efectului prin compararea comportamentului gospodăriilor casnice, care au și nu s-au mutat după tratament a fost livrat. Asta este, în mare, ei încearcă să vadă dacă tratamentul afectat de origine sau de proprietar.
[ ] Într - un follow-up la Schultz et al. (2007) , Schultz si colegii sai efectua o serie de trei experimente privind efectul normelor descriptive și în încetare pe un comportament de mediu diferit (prosop de reutilizare) în două contexte (un hotel si un condominium pe durată limitată) (Schultz, Khazian, and Zaleski 2008) .
[ ] Ca răspuns la Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) a condus o serie de experimente de laborator pentru a studia cum ar fi proiectarea de facturile electrice. Iată cum îl descriu în mod abstract:
"Intr-un experiment pe bază de sondaj, fiecare participant a văzut un proiect de lege ipotetic de energie electrică pentru o familie cu o utilizare relativ ridicat de energie electrică, care acoperă informații cu privire la (a) utilizarea istorică, (b) comparații cu vecinii, și (c) utilizarea istorică, cu defalcare aparat. Participanții au văzut toate tipurile de informații într-unul din cele trei formate, inclusiv (a) tabele, (b) grafice cu bare, și (c) icon grafice. Am un raport pe trei constatări principale. În primul rând, consumatorii înțelege fiecare tip de informație de energie electrică utilizat cel mai mult când a fost prezentat într-un tabel, probabil pentru că tabelele de simplu punct de lectură a facilita. În al doilea rând, preferințele și intențiile de a economisi energie electrică au fost mai puternice pentru informațiile de utilizare istorice, independent de format. În al treilea rând, indivizii cu alfabetizare energetică mai scăzută a înțeles toate informațiile de mai puțin. "
Spre deosebire de alte studii de follow-up, rezultatul de interes principal în Canfield, Bruin, and Wong-Parodi (2016) este raportat un comportament care nu comportamentul real. Care sunt punctele forte și punctele slabe ale acestui tip de studiu într-un program de cercetare mai larg de promovare a economiilor de energie?
[ . ] Smith and Pell (2003) este o satirica meta-analiza a studiilor care demonstrează eficacitatea parașute. Ei concluzie:
"Ca și în cazul multor intervenții menite să prevină sănătatea bolnav, eficacitatea parașutelor nu a fost supusă unei evaluări riguroase, folosind studii clinice randomizate controlate. Avocații de medicina bazată pe dovezi au criticat adoptarea unor intervenții evaluate prin utilizarea de date numai de observatie. Noi credem că toată lumea ar putea beneficia în cazul în care protagoniștii mai radicale ale medicinei bazate pe dovezi organizate și au participat la un studiu dublu-orb, randomizat, controlat cu placebo, studiu încrucișat al parașutei. "
Scrie un op-ed potrivit pentru un public ziar general, cum ar fi The New York Times, argumentând împotriva fetișizarea probelor experimentale. Furnizează exemple specifice, concrete. Sugestie: A se vedea , de asemenea, Bothwell et al. (2016) și Deaton (2010)
[ . . ] Diferență-in-diferente estimatoare ale unui efect de tratament poate fi mai precis decât estimativi difference-in-medie. Scrie un memoriu la un inginer responsabil cu testarea A / B, la o companie de social media start-up explică valoarea abordării diferenței în diferențe pentru desfășurarea unui experiment on-line. Memo ar trebui să includă o declarație a problemei, unele intuiție cu privire la condițiile în care estimatorul diferența-in-diferenta va depasi estimatorul diferenta-in-medie, și un studiu de simulare simplu.
[ . ] Gary Loveman a fost profesor la Harvard Business School inainte de a deveni CEO al Harrah, una dintre cele mai mari companii de cazino din lume. Când sa mutat la Harrah, Loveman a transformat compania cu un program de loialitate frecvent, cum ar fi zburător, care a colectat cantități enorme de date despre comportamentul clienților. Pe partea de sus a acestui sistem de măsurare întotdeauna pe, compania a început să fie difuzate experimente. De exemplu, s-ar putea rula un experiment pentru a evalua efectul unui cupon pentru o noapte de hotel gratuit pentru clienții cu un model de jocuri de noroc specifice. Iată cum s-a descris Loveman importanța experimentare pentru practicile de zi cu zi de afaceri Harrah:
"E ca și cum nu hartuiti femeile, nu furi, și ai să aibă un grup de control. Acesta este unul dintre lucrurile pe care le pot pierde locul de muncă pentru la Harrah's-nu execută un grup de control. " (Manzi 2012, 146)
Scrie un e-mail la un nou angajat care explică de ce Loveman crede că este atât de important să existe un grup de control. Ar trebui să încercați să includă un exemplu, fie real sau format-pentru a ilustra punctul de vedere.
[ . ] Un nou experiment are drept scop de a estima efectul de a primi mesaje text, memento-uri privind absorbția de vaccinare. 150 clinici, fiecare cu 600 de pacienți eligibili, sunt dispuși să participe. Există un cost fix de 100 de dolari pentru fiecare clinica pe care doriți să lucrați, și costă 1 dolar pentru fiecare mesaj text pe care doriți să-l trimiteți. În plus, orice clinici care lucreaza cu va masura rezultatul (daca cineva a primit o vaccinare) gratuit. Să presupunem că aveți un buget de 1000 de dolari.
[ . ] O problemă majoră cu cursuri on-line este de uzură; mulți studenți care încep cursurile sfârșesc prin abandonului. Imaginați-vă că lucrați la o platformă de învățare online și un designer de la platforma a creat o bară de progres vizual pe care ea crede că va ajuta la prevenirea abandonului elevii cursului. Doriți să testați efectul barei de progres asupra elevilor într-o mare de calcul curs de științe sociale. Dupa ce a aborda orice probleme etice care ar putea apărea în experiment, tu și colegii dumneavoastră se îngrijorat de faptul că cursul ar putea să nu aibă suficienți studenți pentru a detecta în mod credibil efectele barei de progres. În calculele de mai jos, se poate presupune că jumătate dintre elevii vor primi bara de progres și jumătate nu. Mai mult, puteți presupune că nu există nici o interferență. Cu alte cuvinte, se poate presupune că participanții nu sunt afectați decât de faptul dacă au primit tratamentul sau controlul; acestea nu sunt efectuate de către alte persoane , dacă au primit tratamentul sau controlul (pentru o definiție mai formală, a se vedea Gerber and Green (2012) , Cap. 8). Vă rugăm să păstrați evidența orice ipoteze suplimentare pe care le face.
[ . ] Într - o lucrare frumoasă, Lewis and Rao (2015) ilustrează clar o limitare statistică fundamentală a experimentelor chiar masive. The-hârtie care a avut inițial titlul provocator "Pe Near-imposibilitatea de măsurare revine la varianta de publicitate" -afișează cât de dificil este de a măsura randamentul investițiilor de anunțuri online, chiar și cu experimente digitale care implică milioane de clienți. Mai mult, în general, hârtia arată în mod clar că este greu de estimat efectul tratamentului redus în mijlocul unor date rezultate zgomotoase. Sau a declarat diffently, lucrarea arată că efectele estimate de tratament vor avea intervale mari de încredere atunci când impactul-to-standard Abaterea (\ (\ frac {\ delta \ bar de {y}} {\ sigma} \)) raportul este mic. Lecția importantă generală din această lucrare este faptul că rezultatele din experimentele cu mici rata de impact a-la-standard deviație (de exemplu, rentabilitatea investiției campaniilor publicitare) vor fi nesatisfacatoare. provocarea ta va fi de a scrie un memoriu la cineva din departamentul de marketing al companiei dvs. evaluting un experiment planificat pentru a măsura ROI unei campanii publicitare. memo-ul ar trebui să fie susținute cu grafice ale rezultatelor simulări pe computer.
Iată câteva informații de fundal pe care ați putea avea nevoie. Toate aceste valori numerice sunt tipice experimentele reale raportate în Lewis and Rao (2015) :
ROI, o valoare cheie pentru campaniile de anunțuri online, este definit ca profitul net din campanie (profitul brut din costul campaniei minus de campanie), împărțit la costul campaniei. De exemplu, o campanie care a avut nici un efect asupra vânzărilor ar avea un ROI de 100% și o campanie în care profiturile generate au fost egale cu costurile ar avea un ROI de la 0.
vânzările medii per client este de $ 7 cu o deviație standard de $ 75 de ani.
campania este de așteptat să crească vânzările cu 0.35 $ per client, ceea ce corespunde unei creșteri a profitului de 0.175 $ per client. Cu alte cuvinte, marja brută este de 50%.
mărimea planificată a experimentului este de 200.000 de oameni, jumătate din grupul de tratament și jumătate din grupul de control.
costul campaniei este de 0,14 $ pentru fiecare participant.
Scrieți o notă evaluting acest experiment. Ați recomanda lansarea acestui experiment cum a fost planificat? Dacă este așa, de ce? Dacă nu, ce schimbări ați recomanda?
Un memoriu bun va aborda acest caz specific; o notă mai bună se va generaliza de la acest caz, într-un singur sens (de exemplu, arată modul în care schimbările de decizie în funcție de raportul de impact-la-standard deviație); și o mare notă va prezenta un rezultat complet generalizat.
[ . ] Face același lucru ca și întrebarea anterioară, ci, mai degrabă decât de simulare pe care ar trebui să folosească rezultatele analitice.
[ . . ] Face același lucru ca și întrebarea anterioară, dar utilizarea atât de simulare și rezultatele analitice.
[ . . ] Imaginați-vă că ați scris memoriul descris mai sus, folosind fie de simulare, rezultatele analitice, sau ambele și cineva de la departamentul de marketing recomandă utilizarea unei estimator de diferenta-in-diferente, mai degrabă decât o diferență în mijloc estimatorul (a se vedea secțiunea 4.6.2) . Scrie o nouă notă mai scurt explicând modul în care o corelație între 0,4 vânzări înainte de experiment și de vânzări după experiment s-ar modifica concluzia.
[ . ] Pentru a evalua eficacitatea unui nou serviciu de carieră bazat pe web, un birou de servicii de carieră universitară a efectuat un studiu randomizat de control între 10.000 de elevi care intra ultimul an de școală. Un abonament gratuit cu informații unice-log a fost trimis printr-o invitație de e-mail exclusiv la 5.000 de studenți selectați în mod aleatoriu, în timp ce alte 5.000 de studenți sunt în grupul de control și nu au un abonament. Douăsprezece luni mai târziu, un studiu de follow-up (cu nici un non-răspuns), arată că, în ambele tratament si grupurile de control, 70% dintre elevi au asigurat locuri de muncă cu normă întreagă în domeniul ales (Tabelul 4.5). Astfel, se pare că serviciul web a avut nici un efect.
Cu toate acestea, un om de știință de date inteligent de la universitatea sa uitat la datele de un pic mai îndeaproape și a constatat că doar 20% dintre elevii din grupul de tratament autentificat vreodată în contul după ce a primit e-mail. În plus, și oarecum surprinzator, printre cei care s-au conectat la site-ul doar 60% a asigurat ocuparea forței de muncă cu normă întreagă în domeniul ales, care a fost mai mică decât rata pentru persoanele care nu au să vă autentificați și mai mică decât rata pentru persoanele din starea de control (Tabelul 4.6).
Sugestie: Această întrebare depășește materialul acoperit în acest capitol, dar abordează probleme comune în experimente. Acest tip de design experimental este uneori numit un design de încurajare pentru că participanții sunt încurajați să se implice în tratamentul. Această problemă este un exemplu de ceea ce se numește o singură față non-conformitate ( a se vedea Gerber and Green (2012) , Cap. 5)
[ ] După o examinare suplimentară, se dovedește că experimentul descris în întrebarea anterioară a fost chiar mai complicată. Se dovedește că 10% dintre persoanele din grupul de control plătit pentru a avea acces la serviciu, și-au încheiat cu o rată de ocupare de 65% (Tabelul 4.7).
Sugestie: Această întrebare depășește materialul acoperit în acest capitol, dar abordează probleme comune în experimente. Această problemă este un exemplu de ceea ce se numește două fețe non-conformitate ( a se vedea Gerber and Green (2012) , Cap. 6)
grup | mărimea | Rata de angajare |
---|---|---|
Accesul acordat site | 5000 | 70% |
Nu a acordat accesul la site-ul web | 5000 | 70% |
grup | mărimea | Rata de angajare |
---|---|---|
A acordat accesul la site-ul și autentificat | 1.000 | 60% |
A acordat accesul la site-ul și niciodată autentificat | 4.000 | 85% |
Nu a acordat accesul la site-ul web | 5000 | 70% |
grup | mărimea | Rata de angajare |
---|---|---|
A acordat accesul la site-ul și autentificat | 1.000 | 60% |
A acordat accesul la site-ul și niciodată autentificat | 4.000 | 72,5% |
Nu a acordat accesul la site-ul și a plătit pentru ea | 500 | 65% |
Nu a acordat accesul la site-ul și nu a plătit pentru ea | 4.500 | 70.56% |