Valjanost odnosi se na to koliko su rezultati eksperimenta podržavaju više generalni zaključak.
Nijedan eksperiment nije savršen, a istraživači su razvili obiman rečnik koji opisuje moguće probleme. Važnost se odnosi na stepen do kojeg rezultati određenog eksperimenta podržavaju neki opštiji zaključak. Socijalnim nau ~ (Shadish, Cook, and Campbell 2001, chap. 2) bilo korisno podeliti validnost na ~ etiri glavne vrste: statisti ~ ka validnost va'enja, interna validnost, konstruktivna validnost i vanjska validnost (Shadish, Cook, and Campbell 2001, chap. 2) . Upravljanje ovim konceptima obezbediće vam mentalnu listu za kritiku i poboljšanje dizajna i analize eksperimenta, a to će vam pomoći da komunicirate sa drugim istraživačima.
Statistički zaključci o validnosti zaključili su da li je statistička analiza eksperimenta ispravno obavljena. U kontekstu Schultz et al. (2007) , takvo pitanje bi moglo biti usredsređeno na to da li su ispravno izračunali svoje vrijednosti \(p\) . Statistički principi treba da dizajniraju i analiziraju eksperimente koji su izvan okvira ove knjige, ali nisu u suštini promijenili u digitalnom dobu. Međutim, ono što se promenilo jeste da je okruženje podataka u digitalnim eksperimentima stvorilo nove mogućnosti kao što su korištenje metoda učenja metoda za procjenu heterogenosti efekata liječenja (Imai and Ratkovic 2013) .
Interna validnost centara oko toga da li su eksperimentalne procedure bile ispravne. Vraćajući se na eksperiment Schultz et al. (2007) , pitanja o internoj validnosti mogla bi se usredsrediti na randomizaciju, isporuku lečenja i merenje ishoda. Na primer, možda biste bili zabrinuti da istraživački asistenti pouzdano nisu pročitali električne brojilo. Zapravo, Schultz i kolege bili su zabrinuti zbog ovog problema, a imali su uzorke brojila dva puta pročitani; Na sreću, rezultati su sasvim identični. Uopšte, izgleda da eksperiment Schultz-a i kolega ima veliku unutrašnju validnost, ali ovo nije uvijek slučaj: složena terena i online eksperimenti često se postavljaju u probleme koji stvarno pružaju pravi tretman pravim ljudima i merenje ishoda za sve. Srećom, digitalno doba može pomoći u smanjenju zabrinutosti u pogledu interne validnosti, jer je sada lakše osigurati da se lečenje isporučuje onima koji bi trebalo da ga primaju i da mere rezultate za sve učesnike.
Izgraditi centre validnosti oko meča između podataka i teorijskih konstrukcija. Kao što je razmatrano u 2. poglavlju, konstrukti su apstraktni koncepti koje društvene nauke misle. Nažalost, ovi apstraktni koncepti nemaju uvijek jasne definicije i mjerenja. Vraćajući se na Schultz et al. (2007) , tvrdnja da su odredbene društvene norme mogle smanjiti potrošnju električne energije zahtijevaju od istraživača da dizajniraju tretman koji bi manipulirao sa "uvjetnim društvenim normama" (npr. Emotikonom) i merilo "korištenja električne energije". U analognim eksperimentima, mnogi istraživači su projektovali sopstvene tretmane i mjerili sopstvene ishode. Ovaj pristup osigurava da, koliko god je to moguće, eksperimenti odgovaraju apstraktnim konstruktima koji se proučavaju. U digitalnim eksperimentima u kojima istraživači sarađuju sa kompanijama ili vladama da isporučuju tretmane i koriste sisteme podataka koji se uvek koriste za merenje ishoda, utakmica između eksperimenta i teorijskih konstrukcija može biti manje tijesna. Stoga, očekujem da će konstruktivna validnost imati tendenciju da bude veća zabrinutost u digitalnim eksperimentima nego u analognim eksperimentima.
Na kraju, spoljašnja validnost centrira oko toga da li rezultati ovog eksperimenta mogu biti generalizovani u drugim situacijama. Vraćajući se na Schultz et al. (2007) , može se zapitati da li će ista ista ljudima koja pružaju informacije o njihovoj upotrebi energije u odnosu na svoje vršnjake i signal odredbenih normi (npr. Emotikon) - smanjiti potrošnju energije ako bi se to uradilo na drugi način u drugom okruženju. Za većinu dobro dizajniranih i dobro eksperimentalnih eksperimenata, najteži su zabrinuti zabrinutost oko vanjske važnosti. U prošlosti ove rasprave o vanjskoj važnosti često nisu uključivale samo grupu ljudi koji su sjedili u prostoriji pokušavajući da zamisle šta bi se dogodilo ako su postupci učinjeni na različit način, ili na drugom mjestu, ili sa različitim učesnicima . Na sreću, digitalno doba omogućava istraživačima da pređu ove špekulacije bez podataka i empirijski procenjuju vanjsku validnost.
Zato što su rezultati Schultz et al. (2007) bili su tako uzbudljivi, kompanija pod nazivom Opower se udružila sa komunalnim službama u Sjedinjenim Državama kako bi se terapija širio šire. Na osnovu dizajna Schultz et al. (2007) , Opower je kreirao prilagođene Home Energy Reports koji su imali dva glavna modula: jedan pokazuje potrošnju električne energije u domaćinstvu u odnosu na svoje susjede sa emotikonom i jedan koji daje savjete za smanjenje potrošnje energije (slika 4.6). Zatim, u saradnji sa istraživačima, Opower je pokrenuo randomizirane kontrolisane eksperimente kako bi procijenio utjecaj ovih izvještaja o kućnoj energiji. Iako su tretmani u ovim eksperimentima obično isporučeni fizički - obično pomoću staromodne pošte za puževe - ishod je meren pomoću digitalnih uređaja u fizičkom svetu (npr. Brojila snage). Nadalje, umesto da ručno prikupljaju ove informacije pomoćnicima istraživača koji posjećuju svaku kuću, eksperimenti Opower-a su urađeni u partnerstvu sa elektroprivrednim kompanijama, omogućavajući istraživačima pristup pristupnim saznanjima. Dakle, ovi parcijalno eksperimenti sa digitalnim poljima su bili pokrenuti u velikoj mjeri pri niskim varijabilnim troškovima.
U prvom setu eksperimenata koji uključuju 600.000 domaćinstava sa 10 različitih lokacija, Allcott (2011) utvrdio da je Izvještaj o kućnom energetiku smanjio potrošnju električne energije. Drugim rečima, rezultati iz mnogo veće, geografski raznovrsnije studije bili su kvalitativno slični rezultatima Schultz et al. (2007) . Dalje, u naknadnim istraživanjima koja uključuju osam miliona dodatnih domaćinstava sa 101 različite lokacije, Allcott (2015) ponovo utvrdio da je Izvještaj o energetskoj efikasnosti dosledno smanjio potrošnju električne energije. Ovaj mnogo veći skup eksperimenata otkrio je i zanimljiv novi obrazac koji se ne bi vidio u bilo kom pojedinačnom eksperimentu: veličina efekta je opala u kasnijim eksperimentima (slika 4.7). Allcott (2015) pretpostavio da se ovaj pad dogodio jer se tokom vremena tretman primenjivao na različite tipove učesnika. Preciznije, komunalne usluge sa više ekološko orijentisanih kupaca su verovatnije usvojile program ranije, a njihovi korisnici su više odgovarali na tretman. Pošto su uslužni programi sa manje ekološko usmjerenih kupaca usvojili program, djelotvornost je izgleda opala. Stoga, baš kao što randomizacija u eksperimentima osigurava sličnu i kontrolnu grupu slična, randomizacija na istraživačkim lokacijama osigurava da procjene mogu biti generalizovane od jedne grupe učesnika do opšte populacije (razmislite o poglavlju 3 o uzorkovanju). Ako istraživačke lokacije nisu slučajno uzorkovane, onda generalizacija - čak i iz savršeno dizajniranog i sprovedenog eksperimenta - može biti problematična.
Zajedno, ovih 111 eksperimenata -10 u Allcott (2011) -u Allcott (2011) i 101 u Allcott (2015) -invollo je oko 8,5 miliona domaćinstava iz cijelog Sjedinjenih Država. Oni dosledno pokazuju da Home Energy Reports smanjuju prosječnu potrošnju električne energije, što je rezultat koji podržava originalne nalaze Schultza i kolega iz 300 kuća u Kaliforniji. Posle samo replikacije ovih prvobitnih rezultata, eksperimenti koji se nadovezuju takođe pokazuju da se veličina efekta razlikuje po lokaciji. Ovaj skup eksperimenata takođe ilustruje još dve opštije tačke o delimično digitalnim eksperimentima na polju. Prvo, istraživači će moći empirijski rješavati zabrinutost o vanjskoj validnosti kada je trošak pokretanja eksperimenata nizak, a to se može dogoditi ako se ishod već meri putem sustava podataka. Stoga, sugeriše da istraživači treba da budu u potrazi za drugim interesantnim i važnim ponašanjima koja se već beleže, a zatim dizajniraju eksperimente iznad postojeće mjerne infrastrukture. Drugo, ovaj set eksperimenata nas podsjeća da eksperimenti digitalnog polja nisu samo online; sve više očekujem da će biti svuda sa mnogim ishodima merenim senzorima u izgrađenom okruženju.
Četiri vrste validnosti - statistička validnost zaključka, interna validnost, konstruktivna validnost i vanjska validnost - pružaju mentalnu listu za pomoć istraživačima da procijene da li rezultati iz određenog eksperimenta podržavaju generalniji zaključak. U poređenju sa eksperimentima analognog doba, u eksperimentima sa digitalnim vremenom, trebalo bi lakše adresirati vanjsku validnost empirijski, a takođe bi bilo lakše osigurati interno validnost. S druge strane, pitanja izgradnje validnosti će verovatno biti izazovna u digitalnim eksperimentima, posebno eksperimentima na digitalnom terenu koji uključuju partnerstva sa kompanijama.