Валидност се односи на то колико су резултати експеримента подржавају више општи закључак.
Не експеримент је савршен, а истраживачи су развили обимну вокабулар да опише могућих проблема. Важност односи у оној мери у којој су резултати одређеног експеримента подршке још мало општи закључак. Друштвене научници су открили да је корисно да подели валидност на четири основна типа: Статистички важења закључак, интерну валидност, изградити валидност, и спољна ваљаност (Shadish, Cook, and Campbell 2001, Ch 2) . Мастеринг ове концепте ће вам пружити ментални списак за критикују и побољшање дизајна и анализе експеримента, а то ће вам помоћи да комуницира са другим истраживачима.
Статистички валидност закључак центри око тога да ли је статистичка анализа експеримента је исправно урадити. У контексту Schultz et al. (2007) питање може фокусирати на томе да ли су правилно обрачунат своје п-вредности. Статистичка анализа је изван опсега ове књиге, али могу да кажем да су статистички принципи који су потребни за пројектовање и анализу експерименте не мења у дигиталном добу. Међутим, различити окружење података у дигиталном експериментима не ствара нове статистичке могућности (на пример, коришћењем методе учења машина за процену хетерогеност ефеката лечења (Imai and Ratkovic 2013) и нових рачунарских изазова (на пример, блокирање у масивним експериментима (Higgins, Sävje, and Sekhon 2016) ).
Интерна валидност центри око тога да ли су експерименталне процедуре правилно изводе. Враћајући се у експерименту Schultz et al. (2007) , питања о унутрашњој ваљаности могао центру око рандомизације, испоруку третмана, и мерење резултата. На пример, можда забринут да ли су асистената није поуздано чита бројила. У ствари, Сцхултз и колеге били забринути о овом проблему и да су имали узорак метара читају два пута; на срећу, резултати су у суштини идентични. У принципу, Сцхултз и експеримент колега изгледа да имају високу интерну валидност, али то није увек случај; комплексно поље и онлине експерименти често наилазе на проблеме заправо испоручују прави третман на правим људима и мерење резултата за свакога. Срећом, дигитално доба може да помогне у смањењу забринутост због интерне важности јер је тако лакше да се осигура да се третман испоручује као дизајниран тако да они који треба да их прими и да се измери резултате за све учеснике.
Изградити валидност центара широм утакмице између података и теоријских конструкција. Као што је објашњено у Поглављу 2, конструкти су апстрактни појмови који социолози разлог због. На жалост, ови апстрактни концепти немају увек јасне дефиниције и мерења. Враћајући се Schultz et al. (2007) , тврдња да доношење привремене друштвене норме могу да смање потрошњу електричне енергије захтева истраживачима да дизајнирају третман који би манипулише "ослобађајуће друштвене норме" (нпр емотикон) и да се измери "употреба електричне енергије". У аналогним експериментима, многи истраживачи дизајниран своје третмане и мери своје резултате. Овакав приступ обезбеђује да, колико је то могуће, експерименти се подудара са апстрактне конструкције се проучава. У дигиталним експериментима у којима истраживачи партнер са компанијама или владама да испоручи третмане и користе увек на системима података за мерење резултата, меч између експеримента и теоријских конструкција може бити мање блиски. Тако, ја очекујем да ће валидност конструкција имају тенденцију да буду већи проблем у дигиталним експериментима од аналогних експеримената.
Коначно, спољни валидност центри око тога да ли ће резултати овог експеримента генерализовати и на друге ситуације. Враћајући се Schultz et al. (2007) , могло би се питати, ће тај исти народ идеа-пружање информација о њиховом коришћењу енергије у односу на вршњаке и сигнал ослобађајуће норми (нпр, емотикон) -редуце потрошње енергије, ако је то учињено на другачији начин у друга подешавања? За већину добро дизајниран и добро изводити експерименте, забринутост због спољног важности су најтеже да се обрати. У прошлости, те расправе о спољном важности су често били само гомила људи који седе у просторији Покушавам да замислим шта би се догодило да су процедуре урађено на другачији начин, или на неком другом месту, или са различитим људима. Срећом, дигитално доба омогућава истраживачима да превазиђе ове податке без спекулација и процене спољну исправност емпиријски.
Јер резултатима из Schultz et al. (2007) тако узбудљиво, компанија по имену Оповер партнерство са предузећа у Сједињеним Америчким Државама да шире развити третман. На основу дизајну Schultz et al. (2007) , Оповер креирали прилагођене Хоме Енерги извештаје да су два главна модула, један који приказује домаћинства потрошње електричне енергије у односу на своје суседе са емотикон и једну пружање савета за смањење коришћења енергије (слика 4.6). Затим, у сарадњи са истраживачима, Оповер ран насумично контролисане експерименте да се процени утицај Хоме Енерги извештаја. Иако су третмани у овим експериментима су типично испоручено физички-обично преко старог кова снаил маил-резултат је мерена помоћу дигиталних уређаја у физичком свету (на пример, моћи метара). Уместо да ручно прикупљања информација са стручних сарадника који посећују сваку кућу, експерименти Оповер су све урађено у сарадњи са енергетским компанијама омогућавају истраживачима да приступе очитавања струје. Тако, ови делимично дигитални теренски експерименти су покренути на масовно по ниској варијабилних трошкова.
У првом сету експеримената који укључују 600.000 домаћинстава је служио за 10 комуналних предузећа широм Сједињених Америчких Држава, Allcott (2011) Хоме Енерги Извештај смањена потрошња електричне енергије за 1,7%. Другим речима, резултати из много већу, више географски разнолике студије су квалитативно слични резултатима из Schultz et al. (2007) . Али, величина ефекат је био мањи: у Schultz et al. (2007) у описно и ињецтиве нормама стање (онај са емотикона) смањила своју потрошње електричне енергије за 5%. Прецизан разлог за ову разлику је непозната, али Allcott (2011) да је примио руком писани емотикон као део студије под покровитељством универзитет може имати већи утицај на понашање од пријема штампани емотикон као део масовне произвела извештај из а а Повер Цомпани.
Даље, у каснијим истраживањима, Allcott (2015) на додатних 101 експериментима који укључују додатних 8 милиона домаћинстава. У овим наредних 101 експериментима Хоме Енерги Извештај је наставио да изазове људе да смање потрошњу електричне енергије, али су ефекти били још мањи. Прецизан разлог за овај пад није познат, али Allcott (2015) да је ефикасност извештаја чинило се да опада током времена, јер је заправо примењују на различите врсте учесника. Прецизније, предузећа у више енвиронменталистичких области чешће су усвојити програм раније и њихови клијенти били су много осетљивије на лечење. Као предузећа која имају мање купаца животне средине усвојен програм, њена ефикасност изгледа да опада. Тако, баш као што насумичног у експериментима осигурава да је лечење и контролна група су сличне, насумичног у истраживачким локацијама омогућава да се процене могу генерализовати из једне групе учесника у више општој популацији (да врати у поглављу 3 о узорковања). Ако истраживања сајтови нису узоркује случајно, онда генерализација-чак и из сасвим осмишљен и изведен експеримент-може бити проблематично.
Заједно, ови експерименти 111-10 у Allcott (2011) и 101 у Allcott (2015) -инволвед око 8,5 милиона домаћинстава широм Сједињених Држава. Они стално показују да дом буде енергетски извештаји смањи просечну потрошњу електричне енергије, а резултат који подржава оригиналне налазе Сцхултз и колеге из 300 домова у Калифорнији. Иза само реплицирање ове оригиналне резултате, за праћење експерименти показују да је величина ефекта варира у зависности од локације. Овај сет експеримената такође илуструје још два опште тачке у вези са делимично дигиталних пољским огледима. Прво, истраживачи ће моћи да емпиријски адреса забринутост због спољног важности када су трошкови ради експерименте је ниска, а то може да се догоди ако је исход већ се мери систем увек на подацима. Стога, он предлаже да истраживање треба да буде на потрази за другим интересантним и важних понашања која су већ евидентиране, а затим дизајн експеримената на врху ове постојеће мерне инфраструктуре. Друго, овај сет експеримената нас подсећа да дигитални теренски експерименти нису само мрежи; све Очекујем да ће бити свуда са многим резултатима мерено сензора у изграђеном окружењу.
Четири врсте важења-статистички важења закључка, унутрашње ваљаности, изградити ваљаност, спољни Трајност пружају ментални списак да помогне истраживачима проценити да ли су резултати из одређеног експеримента подржавају више општи закључак. У поређењу са аналогним експеримената старости, у дигиталном добу експериментима би требало да буде лакше да се бави спољну валидност емпиријски и то би требало да буде лакше да се обезбеди интерну валидност. С друге стране, питање валидности конструкта ће вероватно бити већи изазов у дигиталном добу експериментима (иако то није био случај са експериментима Оповер).