Valjanost odnosi na to koliko su rezultati eksperimenta podržava više opći zaključak.
Ne eksperiment je savršen, a znanstvenici su razvili opsežan vokabular za opisivanje mogućih problema. Valjanost odnosi se na mjeru u kojoj su rezultati pojedinog eksperimenta podržava neke više opći zaključak. Socijalni znanstvenici su otkrili da je korisno podijeliti valjanost u četiri glavne vrste: statističke valjanosti zaključka, unutarnje valjanosti, konstruirati valjanost i vanjska valjanost (Shadish, Cook, and Campbell 2001, Ch 2) . Mastering tih pojmova će Vam pružiti mentalnu popis za kritikom i poboljšanje dizajna i analizu eksperimenta, a to će vam pomoći komunicirati s drugim istraživačima.
Statistički valjanosti zaključka vrti oko li statistička analiza pokusa je učinio ispravno. U kontekstu Schultz et al. (2007) , kao što je pitanje može usredotočiti na li oni računaju svojim p-vrijednosti ispravno. Statistička analiza je izvan opsega ove knjige, ali mogu reći da statistički načela potrebna za dizajniranje i analizu eksperimenata nisu promijenili u digitalnom dobu. Međutim, druga sredina podataka u digitalnim eksperimentima ne stvaraju nove statističke mogućnosti (primjerice, korištenjem metoda strojnog učenja procijeniti heterogenost učinaka tretmana (Imai and Ratkovic 2013) ) i novih računalnih izazova (npr blokiranja u masovnim eksperimentima (Higgins, Sävje, and Sekhon 2016) ).
Unutarnja valjanost vrti oko da li su eksperimentalni postupci izvode ispravno. Povratka u eksperimentu Schultz et al. (2007) , pitanja o internoj valjanosti bi se mogla usredotočiti oko randomizacije, isporuku liječenja, te mjerenje ishoda. Na primjer, možda ćete biti zabrinuti da znanstveni novaci nisu pročitali električne metara pouzdano. U stvari, Schultz i kolege su bili zabrinuti o ovom problemu, a imali su uzorak metara čitaju dva puta; Srećom, rezultati su u biti identični. Općenito, Schultz i eksperiment kolega izgleda da ima visoku unutarnju valjanost, ali to nije uvijek slučaj; Kompleks polje i on-line eksperimenti često naiđete na probleme zapravo isporuku pravi tretman pravim ljudima i mjerenje ishoda za sve. Srećom, digitalno doba može pomoći smanjiti zabrinutost zbog unutarnje valjanosti, jer to olakšava kako bi se osiguralo da je tretman se isporučuje kao dizajniran za one koji su trebali da ga primi i za mjerenje rezultata za sve sudionike.
Construct valjanosti centre oko utakmice između podataka i teorijskih konstrukata. Kao što je objašnjeno u poglavlju 2, konstrukti su apstraktni pojmovi koje sociolozi razlog o tome. Nažalost, ti apstraktni pojmovi ne moraju uvijek jasne definicije i mjerenja. Povrat na Schultz et al. (2007) , tvrdnja da zabranu društvene norme mogu smanjiti potrošnju električne energije zahtijeva istraživače dizajnirati tretman koji će manipulirati "zabranu društvene norme" (npr emotikon) i za mjerenje "potrošnju električne energije". U analognih pokusa, mnogi istraživači kreirali vlastite tretmane i mjeriti svoje rezultate. Ovaj pristup osigurava da se, koliko god je to moguće, eksperimenti odgovaraju apstraktnih konstrukti se proučava. U digitalnim eksperimentima gdje su istraživači u suradnji s tvrtkama ili vlada kako bi isporučio tretmane i koristite uvijek na sustavima podataka za mjerenje rezultata, utakmica između eksperimenta i teorijskih konstrukata može biti manje čvrsto. Prema tome, očekujem da valjanosti konstrukta imaju tendenciju da će biti veći problem u digitalnim eksperimenata nego analogni eksperimenata.
Konačno, vanjska valjanost vrti oko li rezultati ovog eksperimenta bi generalizirati na druge situacije. Povrat na Schultz et al. (2007) , moglo bi se pitati, hoće li to isti podaci ideja koje osiguravaju se ljudi o njihovom korištenju energije u odnosu na svoje vršnjake i signal privremene norme (npr emotikon) Smanjite korištenje energije ako je to učinjeno na drugačiji način drugačija postavka? Za većinu dobro osmišljen i dobro izvoditi eksperimente, zabrinutost vanjske valjanosti je najteže riješiti. U prošlosti, ove rasprave o vanjskoj valjanosti često su bili samo hrpa ljudi sjedi u sobi pokušavajući zamisliti što bi se dogodilo da su postupci učinili na drugačiji način, ili na nekom drugom mjestu ili s drugim ljudima. Srećom, digitalno doba omogućuje istraživačima da se presele izvan tih podataka bez nagađanja i procijeniti vanjsku valjanost empirijski.
Zbog rezultatima Schultz et al. (2007) bili su tako uzbudljivo, tvrtka pod nazivom Opower udružio s komunalnih usluga u SAD-u za implementaciju tretman šire. Na temelju dizajnu Schultz et al. (2007) , Opower stvorili prilagođene energije u kući izvještava da su imali dva glavna modula, jedan koji prikazuje kućanstva korištenja električne odnosu na svoje susjede s emotikon i jedan koji pruža savjete za snižavanje potrošnje energije (slika 4.6). Zatim, u suradnji sa znanstvenicima, Opower ran randomiziranih kontroliranih pokusa procijeniti utjecaj energije u kući Reports. Iako su tretmani u tim eksperimentima su obično isporučuje fizički-obično kroz starinski pošta-ishod je mjerena pomoću digitalnih uređaja u fizičkom svijetu (npr power metara). Umjesto da ručno prikupljanje tih podataka znanstvenih novaka koji posjećuju svaku kuću, a Opower eksperimenti su sve učinjeno u suradnji s energetskih tvrtki omogućuju istraživačima pristup čitanja snage. Dakle, ti eksperimenti djelomično digitalne terenu bili su na masovno na niskim varijabilnog troška.
U prvoj skupini eksperimenata koji uključuju 600.000 kućanstava služili za 10 komunalnih poduzeća širom Sjedinjenih Država, Allcott (2011) je utvrdio Home Energy Report spušta potrošnju struje od 1,7%. Drugim riječima, rezultati iz mnogo veće, geografski raznolike studije su kvalitativno slični rezultatima Schultz et al. (2007) . No, veličina učinka manja: u Schultz et al. (2007) su kućanstva u opisnom i injective normama stanju (onaj s emotikon) smanjena njihova korištenja električne 5%. Točan razlog za tu razliku je nepoznat, ali Allcott (2011) nagađa da prima rukom emotikon kao dio studije pod pokroviteljstvom sveučilišta možda imaju veći utjecaj na ponašanje nego primati tiskani emotikon kao dio izvješća masovno proizvedene iz energetska tvrtka.
Nadalje, u kasnijim istraživanjima, Allcott (2015) izvijestio je o dodatnih 101 eksperimenata koji uključuju dodatnih 8 milijuna kućanstava. U tim narednih 101 eksperimenata Home Energy Report i dalje uzrokuje ljude da smanje potrošnju električne energije, ali posljedice su još manji. Točan razlog za ovaj pad nije poznat, ali Allcott (2015) nagađa da je djelotvornost izvještaja čini se da opada s vremenom, jer to je zapravo primjenjuje na različite vrste sudionika. Točnije, komunalije u više sredine područja su više vjerojatno usvojiti program ranije i njihovi kupci su više osjetljiv na liječenje. Kao komunalije s manje kupaca okoliša donijela program, njegova djelotvornost pojavio opadati. Dakle, baš kao randomizacije u pokusima osigurava da je liječenje i kontrolna skupina su slične, randomizacije u istraživačkim mjestima osigurava da se procjene mogu generalizirati iz jedne grupe učesnika na više opće populacije (prisjetite poglavlju 3. o uzorkovanju). Ako istraživanja nalazišta nisu uzorkovani slučajno, onda generalizacija-čak i od savršeno osmišljen i provodi se eksperiment može biti problematično.
Zajedno, ovi 111 eksperimenti-10 u Allcott (2011) i 101 u Allcott (2015) -involved oko 8,5 milijuna kućanstava iz cijelog SAD-a. Oni su dosljedno pokazuju da je Home Energy Izvješća smanjiti prosječnu potrošnju struje, što je rezultat koji podržava izvorne rezultate Schultz i kolege iz 300 domova u Kaliforniji. Osim samo replicira ove izvorne rezultate praćenja eksperimenti pokazuju da je veličina učinka ovisi o lokaciji. Za ove pokuse također ilustrira još dva opća točaka o pokusima djelomično digitalnih polja. Prvo, znanstvenici će moći empirijski adresa brige o vanjskoj valjanosti, kada je cijena radi eksperimente je nizak, a to se može dogoditi ako je ishod već se mjeri pomoću uvijek na podacima sustava. Dakle, to ukazuje na to da istraživanje treba biti na izgled-out za druge zanimljive i važne ponašanja koje se već snimljene, a zatim dizajn pokusa na vrhu ove postojeće mjerne infrastrukture. Drugo, taj niz eksperimenata nas podsjeća da su pokusi na digitalnom polju nisu samo online; sve očekujem da će biti posvuda s mnogim ishodima mjerena senzorima u izgrađenom okolišu.
Četiri vrste valjanosti zaključka važenja-statističke, unutarnje valjanosti, konstrukt valjanosti, vanjsku valjanost-mentalna popis kako bi znanstvenici procijeniti da li su rezultati iz određenog eksperimenta podržava više opći zaključak. U odnosu na dobne eksperimenata analogne, u dobi eksperimentima digitalnih to bi trebalo biti lakše rješavanje vanjske valjanosti empirijski i to bi trebalo biti lakše da se osigura unutarnje valjanosti. S druge strane, pitanje valjanosti konstrukta vjerojatno će biti veći izazov u dobi eksperimentima digitalne (iako to nije bio slučaj s Opower eksperimenata).