Valjanost odnosi na to koliko su rezultati eksperimenta podržava više opći zaključak.
Nijedan eksperiment nije savršen, a istraživači su razvili opsežan rječnik kako bi opisali moguće probleme. Valjanost se odnosi na opseg u kojem rezultati nekog eksperimenta podupiru neke općenitije zaključke. Društvenici su smatrali korisnim podijeliti valjanost u četiri glavne vrste: validnost statističkih zaključaka, unutarnju valjanost, konstruirati valjanost i vanjsku valjanost (Shadish, Cook, and Campbell 2001, chap. 2) . Ovladavanje ovim konceptima pružit će vam mentalni kontrolni popis za kritiku i poboljšanje dizajna i analize eksperimenta te će vam pomoći komunicirati s drugim istraživačima.
Zaključivanje statističkih zaključaka oko toga je li statistička analiza eksperimenta ispravno provedena. U kontekstu Schultz et al. (2007) , takvo bi se pitanje moglo usredotočiti na to jesu li ispravno izračunali svoje vrijednosti \(p\) . Statistička načela trebaju dizajnirati i analizirati eksperimente izvan opsega ove knjige, ali nisu se temeljno promijenili u digitalnom dobu. Ono što se promijenilo je, međutim, podatkovna okolina u digitalnim eksperimentima stvorila nove mogućnosti poput korištenja metoda učenja strojeva za procjenu heterogenosti učinaka liječenja (Imai and Ratkovic 2013) .
Interni centar za valjanost oko toga jesu li eksperimentalni postupci ispravno izvedeni. Vraćajući se na eksperiment Schultz et al. (2007) , pitanja o unutarnjoj valjanosti mogla bi se usredotočiti na randomizaciju, isporuku liječenja i mjerenje ishoda. Na primjer, možda biste bili zabrinuti da pomoćnici u istraživanju nisu pouzdano pročitali električne brojila. Zapravo, Schultz i njegovi kolege bili su zabrinuti zbog ovog problema, i oni su imali uzorak brojila koji su dvaput pročitali; na sreću, rezultati su bili u biti identični. Općenito, izgleda da Schultz i kolege eksperimenti imaju visoku unutarnju valjanost, ali to nije uvijek slučaj: složeno polje i online eksperimenti često se pojavljuju u problemima koji zapravo daju pravo liječenje pravim ljudima i mjerenje ishoda za sve. Srećom, digitalno doba može smanjiti zabrinutost zbog interne valjanosti jer je sada lakše osigurati da se liječenje isporučuje onima koji ga trebaju primiti i mjeriti ishode za sve sudionike.
Izgradite vrijednosne centre oko podudaranja između podataka i teorijskih konstrukata. Kao što je objašnjeno u 2. poglavlju, konstrukti su apstraktni pojmovi o kojima društveni znanstvenici razmišljaju. Nažalost, ovi apstraktni pojmovi nemaju uvijek jasne definicije i mjerenja. Vraćanje u Schultz et al. (2007) , tvrdnja da injunktivne društvene norme smanjuju potrošnju električne energije zahtijeva da istraživači oblikuju tretman koji bi manipulirao "zabranjivim društvenim normama" (npr. Emoticon) i mjeri "korištenje električne energije". U analognim eksperimentima, mnogi istraživači oblikovali su vlastite tretmane i mjerili vlastite ishode. Ovaj pristup osigurava da, koliko je to moguće, eksperimenti odgovaraju apstraktnim konstrukcijama koje se proučavaju. U digitalnim eksperimentima u kojima istraživači partneru s tvrtkama ili vladama dostavljaju tretmane i koriste uvijek sustave podataka za mjerenje ishoda, utakmica između eksperimenta i teorijskih konstrukcija može biti manje uska. Dakle, očekujem da će konstruktna valjanost biti veća zabrinutost u digitalnim eksperimentima nego u analognim eksperimentima.
Konačno, vanjska valjanost usredotočuje se na to da li se rezultati ovog eksperimenta mogu generalizirati u drugim situacijama. Vraćanje u Schultz et al. (2007) , moglo bi se postaviti pitanje može li se ta ista ideja - pružiti ljudima informacije o njihovoj uporabi energije u odnosu na njihove vršnjake i signal nalogodavnih normi (npr. Emoticon) - smanjiti potrošnju energije ako se to učinilo na drugačiji način u drugom okruženju. Za većinu dobro osmišljenih i dobro vođenih eksperimenata najteže je rješavati zabrinutost zbog vanjske valjanosti. Te su se rasprave o vanjskoj valjanosti često odnosile samo na skupinu ljudi koji su sjedili u sobi pokušavajući zamisliti što bi se dogodilo da su postupci bili učinjeni na drugačiji način ili na drugom mjestu ili s različitim sudionicima , Srećom, digitalno doba omogućuje istraživačima da se presele iznad tih podataka bez špekulacija i procjenjuju vanjsku valjanost empirijski.
Budući da su rezultati Schultz et al. (2007) bili su tako uzbudljivi, tvrtka Opower koja je udružila s komunalnim poduzećima u Sjedinjenim Državama kako bi proširila terapiju. Na temelju dizajna Schultz et al. (2007) , Opower je izradio prilagođene izvještaje o kućnoj energiji koji su imali dva glavna modula: jedan koji pokazuje potrošnju električne energije kućanstva u odnosu na susjede s emoticonom i jedan koji daje savjete za smanjenje potrošnje energije (slika 4.6). Zatim, u suradnji s istraživačima, Opower je pokrenuo randomizirane kontrolirane pokuse kako bi procijenio utjecaj tih izvješća o kućnoj energiji. Iako su tretmani u tim eksperimentima obično bili isporučeni fizički - obično putem staromodne pužne pošte - ishod je mjeren pomoću digitalnih uređaja u fizičkom svijetu (npr., Mjerači snage). Nadalje, radije nego ručno prikupljanje ovih informacija s istraživačkim asistentima koji posjećuju svaku kuću, Opowerovi eksperimenti su svi učinjeni u partnerstvu sa elektroprivrednim tvrtkama koje omogućavaju istraživačima pristup očitanjima snage. Dakle, ovi djelomično digitalni eksperimenti na terenu bili su izvedeni masovnim mjerama pri niskim promjenjivim troškovima.
U prvom skupu eksperimenata koji obuhvaćaju 600.000 kućanstava s 10 različitih mjesta, Allcott (2011) utvrdio da je izvješće o kućnoj energiji smanjilo potrošnju električne energije. Drugim riječima, rezultati iz mnogo većeg, geografski različitog istraživanja bili su kvalitativno slični rezultatima Schultz et al. (2007) . Nadalje, u daljnjim istraživanjima koja uključuju osam milijuna dodatnih kućanstava s 101 različita mjesta, Allcott (2015) ponovno je utvrdio da je izvješće o kućnoj energiji dosljedno smanjilo potrošnju električne energije. Ovaj mnogo veći skup eksperimenata također je pokazao zanimljiv novi uzorak koji ne bi bio vidljiv ni u jednom eksperimentu: veličina učinka odbijena je u kasnijim pokusima (slika 4.7). Allcott (2015) nagađao je da se taj pad dogodio jer je tijekom vremena tretman primijenjen na različite vrste sudionika. Konkretnije, korisnici s više ekološki fokusiranih kupaca bili su vjerojatniji u usvajanju programa ranije, a njihovi kupci bili su više odgovarajući na liječenje. Budući da su programi s manje ekološki orijentiranim korisnicima usvojili program, njegova učinkovitost se smanjila. Dakle, baš kao što slučajna provjera u eksperimentima osigurava da su tretman i kontrolna skupina slični, randomizacija na istraživačkim mjestima osigurava da se procjene mogu generalizirati iz jedne skupine sudionika u opću populaciju (razmislite o poglavlju 3 o uzorkovanju). Ako se istraživačka mjesta ne uzorkuju slučajno, onda generalizacija - čak i iz savršeno osmišljenog i provedenog eksperimenta - može biti problematična.
Zajedno, ova 111 eksperimenta - 10 u Allcott (2011) i 101 u Allcott (2015) sudjelovalo je oko 8,5 milijuna domaćinstava iz cijelog SAD-a. Oni dosljedno pokazuju da Home Energy Reports smanjuju prosječnu potrošnju električne energije, rezultat koji podržava izvorne rezultate Schultza i kolega iz 300 domova u Kaliforniji. Osim samo repliciranja tih izvornih rezultata, pokusni eksperimenti također pokazuju da veličina učinka ovisi o lokaciji. Ovaj skup eksperimenata također ilustrira još dvije općenite točke o djelomično digitalnim eksperimentima na terenu. Prvo, istraživači će moći empirijski odgovoriti na zabrinutost zbog vanjske valjanosti kada je trošak pokretanja eksperimenata nizak, a to se može dogoditi ako se ishod već mjeri uvijek na podatkovnom sustavu. Stoga, sugerira da bi istraživači trebali biti u potrazi za drugim zanimljivim i važnim ponašanjima koja se već bilježe, a zatim dizajnirati eksperimente na vrhu ove postojeće mjerne infrastrukture. Drugo, ovaj skup eksperimenata podsjeća nas da eksperimenti na digitalnom polju nisu samo on-line; sve više očekujem da će oni biti posvuda s mnogim ishodima mjerenim senzorima u izgrađenom okolišu.
Četiri vrste valjanosti - statističke zaključke valjanosti, unutarnje valjanosti, konstruirati valjanost i vanjsku valjanost - pružaju mentalni kontrolni popis kako bi istraživači procijenili da li rezultati određenog eksperimenta podupiru općenitije zaključke. U usporedbi s analognim dobnim eksperimentima, u digitalnim dobnim eksperimentima, treba biti lakše rješavati vanjsku valjanost empirijski, a također bi trebalo biti lakše osigurati unutarnju valjanost. S druge strane, pitanja konstrukcijske valjanosti vjerojatno će biti veća u digitalnim dobnim eksperimentima, posebice eksperimentima na digitalnom polju koji uključuju partnerstva s tvrtkama.