Валидност се односи на то колико су резултати експеримента подржавају више општи закључак.
Ниједан експеримент није савршен, а истраживачи су развили обиман речник који описује могуће проблеме. Валидити се односи на степен до којег резултати одређеног експеримента подржавају неки општији закључак. Социјалним нау ~ никима је било корисно поделити валидност на ~ етири главне врсте: статисти ~ ка валидност (Shadish, Cook, and Campbell 2001, chap. 2) интерна валидност, конструктивна валидност и вањска валидност (Shadish, Cook, and Campbell 2001, chap. 2) . Оспособљавање ових концепата обезбедиће вам менталну листу за критику и побољшање дизајна и анализе експеримента, и то ће вам помоћи да комуницирају са другим истраживачима.
Статистички закључци о валидности закључили су да ли је статистичка анализа експеримента исправно обављена. У контексту Schultz et al. (2007) , такво питање може бити усредсређено на то да ли су исправно израчунали своје \(p\) вредности. Статистички принципи треба да дизајнирају и анализирају експерименте који су изван оквира ове књиге, али се у дигиталном добу углавном нису променили. Међутим, оно што се променило јесте да је окружење података у дигиталним експериментима створило нове могућности као што су кориштење метода учења метода за процјену хетерогености ефеката лијечења (Imai and Ratkovic 2013) .
Интерна валидност центара око тога да ли су експерименталне процедуре биле исправне. Враћајући се на експеримент Schultz et al. (2007) , питања о интерној валидности могу се усредсредити на рандомизацију, испоруку лечења и мерење исхода. На пример, можда бисте били забринути да истраживачки асистенти поуздано нису прочитали електричне бројило. Заправо, Сцхултз и колеге су били забринути због овог проблема и имали су узорке бројила два пута прочитани; На срећу, резултати су сасвим идентични. Генерално, експеримент Сцхултз-а и колега изгледа да има велику унутрашњу валидност, али ово није увек случај: сложено поље и онлине експерименти често се постављају у проблеме који стварно пружају прави третман правим људима и мерење исхода за све. Срећом, дигитално доба може помоћи у смањењу забринутости у погледу интерне валидности, јер је сада лакше осигурати да се третман испоручује онима који би требало да га примају и да измери резултате за све учеснике.
Изградити центре валидности око меча између података и теоријских конструкција. Као што је разматрано у другом поглављу, конструкти су апстрактни концепти које друштвене науке мисле. Нажалост, ови апстрактни концепти немају увијек јасне дефиниције и мјерења. Враћајући се на Schultz et al. (2007) , тврдња да су законске одредбе о социјалним стандардима могу смањити потрошњу електричне енергије од истраживача да пројектују третман који би манипулисао са "увјетним друштвеним нормама" (нпр. Емотиконом) и за мерење "кориштења електричне енергије". У аналогним експериментима, многи истраживачи су пројектовали сопствене третмане и мјерили сопствене исходе. Овај приступ осигурава да, колико год је то могуће, експерименти одговарају апстрактним конструктима који се проучавају. У дигиталним експериментима где истраживачи сарађују са компанијама или владама да пружају третмане и користе увек системе података за мерење исхода, утакмица између експеримента и теоријских конструкција може бити мање заоштрена. Стога, очекујем да ће конструктивна валидност имати тенденцију да буде већа забринутост у дигиталним експериментима него у аналогним експериментима.
На крају, спољна валидност се центрира око тога да ли резултати овог експеримента могу бити генерализовани у другим ситуацијама. Враћајући се на Schultz et al. (2007) , могло се запитати да ли ће иста иста идеја која ће људима пружати информације о њиховој употреби енергије у односу на њихове вршњаке и сигнал одредбених норми (нпр. Емотикон) - смањити потрошњу енергије ако би се то урадило на други начин у другом окружењу. За већину добро дизајнираних и добро експерименталних експеримената, најтеже се решавају забринутости о вањској важности. У прошлости ове расправе о вањској важности често нису укључивале само групу људи који су сједили у просторији покушавајући да замисле шта би се догодило ако су поступци извршени на различите начине, или на другом мјесту или са различитим учесницима . Срећом, дигитално доба омогућава истраживачима да пређу ове шпекулације без података и емпиријски процењују вањску валидност.
Зато што су резултати Schultz et al. (2007) били су тако узбудљиви, компанија под називом Оповер се удружила са комуналним службама у Сједињеним Државама како би се третман ширио шире. На основу дизајна Schultz et al. (2007) , Оповер је креирао прилагођене Хоме Енерги Репортс који су имали два главна модула: један који показује потрошњу електричне енергије домаћинства у односу на своје сусједе са емотиконом и један који даје савјете за смањење потрошње енергије (слика 4.6). Затим, у сарадњи са истраживачима, Оповер је покренуо рандомизиране контролисане експерименте како би процијенио утјецај ових извјештаја о кућној енергији. Иако су третмани у овим експериментима обично испоручени физички - обично преко старомодне поште за пужеве - исход је мерен помоћу дигиталних уређаја у физичком свету (нпр. Мерилима снаге). Даље, уместо да ручно скупљате ове информације са истраживачким сарадницима који посјећују сваку кућу, експерименти Оповер-а су урађени у партнерству са електропривредним компанијама, омогућавајући истраживачима да приступе читању снаге. Према томе, ови парцијално експерименти са дигиталним пољима су били покренути у великој мјери при ниским варијабилним трошковима.
У првом сету експеримената који укључују 600.000 домаћинстава са 10 различитих локација, Allcott (2011) утврдио да је Извјештај о Allcott (2011) енергетику смањио потрошњу електричне енергије. Другим речима, резултати из много веће, географски разноврсније студије били су квалитативно слични резултатима Schultz et al. (2007) . Даље, у накнадним истраживањима која укључују осам милиона додатних домаћинстава са 101 различите локације, Allcott (2015) поново утврдио да је Извјештај о Allcott (2015) енергији доследно смањио потрошњу електричне енергије. Овако много већи скуп експеримената открио је и занимљив нови образац који се не би видио ни у једном експерименту: величина ефекта је опала у каснијим експериментима (слика 4.7). Allcott (2015) претпоставио да се овај пад догодио јер се током времена третман примењивао на различите типове учесника. Прецизније, комуналне услуге са више еколошко оријентисаних купаца су вероватније усвојили програм раније, а њихови корисници су били више одговорни на третман. Пошто су услужни програми са мањим потрошачима који су усмјерени на животну средину усвојили програм, чини се да је његова ефикасност опала. Стога, баш као што рандомизација у експериментима осигурава сличну и контролну групу слична, рандомизација на истраживачким локацијама осигурава да процјене могу бити генерализоване од једне групе учесника до опште популације (размислите о поглављу 3 о узорковању). Ако истраживачке локације нису случајно узорковане, онда генерализација - чак и из савршено дизајнираног и спроведеног експеримента - може бити проблематична.
Заједно, ових 111 експеримената-10 у Allcott (2011) -у Allcott (2011) и 101 у Allcott (2015) -инволле су око 8,5 милиона домаћинстава из цијелог Сједињених Држава. Они доследно показују да Хоме Енерги Репортс смањују просечну потрошњу електричне енергије, што је резултат који подржава оригиналне налазе Сцхултза и колега из 300 кућа у Калифорнији. После само репликације ових првобитних резултата, експерименти који следе, такође показују да се величина ефекта разликује по локацији. Овај скуп експеримената такође илуструје још две општије тачке о делимично дигиталним експериментима на пољу. Прво, истраживачи ће моћи да емпиријски решавају забринутост о спољној важности када је трошак експеримената који се покрећу низак, а то може да се деси ако се исход већ мери путем система података који се увек користи. Због тога, сугерише да истраживачи треба да буду у потрази за другим интересантним и важним понашањима која се већ бележе, а затим дизајнирају експерименте изнад постојеће мјерне инфраструктуре. Друго, овај сет експеримената нас подсјећа да експерименти дигиталног поља нису само онлине; све више очекујем да ће бити свуда са многим исходима мереним сензорима у изграђеном окружењу.
Четири врсте валидности - статистичка валидност закључка, интерна валидност, конструктивна валидност и вањска валидност - пружају менталну листу за помоћ истраживачима да процијене да ли резултати из одређеног експеримента подржавају генералнији закључак. У поређењу са експериментима аналогног доба, у експериментима са дигиталним временом, требало би лакше адресирати вањску валидност емпиријски, а такође би било лакше осигурати интерно валидност. С друге стране, проблеми изградње валидности ће вероватно бити изазовнији у експериментима дигиталног доба, посебно експериментима на дигиталном терену који укључују партнерства са компанијама.