La validesa es refereix a la quantitat dels resultats d'un experiment donen suport a una conclusió més general.
Cap experiment és perfecte i els investigadors han desenvolupat un ampli vocabulari per descriure possibles problemes. La validesa es refereix a la mesura en què els resultats d'un experiment en particular suposen una conclusió més general. Els científics socials han resultat útil dividir la validesa en quatre tipus principals: validesa de conclusió estadística, validesa interna, validesa de constructe i validesa externa (Shadish, Cook, and Campbell 2001, chap. 2) . Dominar aquests conceptes us proporcionarà una llista de comprovació mental per criticar i millorar el disseny i l'anàlisi d'un experiment, i us ajudarà a comunicar-se amb altres investigadors.
La validesa de conclusió estadística es centra en si l'anàlisi estadística de l'experiment s'ha fet correctament. En el context de Schultz et al. (2007) , aquesta pregunta pot centrar-se en si han calculat correctament els seus valors \(p\) . Els principis estadístics necessaris per dissenyar i analitzar experiments queden fora de l'abast d'aquest llibre, però no han canviat fonamentalment en l'era digital. Tanmateix, el que ha canviat és que l'entorn de dades en experiments digitals ha generat noves oportunitats com l'ús de mètodes d'aprenentatge automàtic per estimar la heterogeneïtat dels efectes del tractament (Imai and Ratkovic 2013) .
La validesa interna es centra en si els procediments experimentals s'han realitzat correctament. Tornant a l'experiment de Schultz et al. (2007) , les preguntes sobre la validesa interna podrien centrar-se en l'assignació al'atzar, el lliurament del tractament i la mesura dels resultats. Per exemple, potser li preocupa que els assistents de recerca no llegeixin els comptadors elèctrics d'una manera fiable. De fet, Schultz i els seus col·legues estaven preocupats per aquest problema, i tenien una mostra de dos metres llegits dues vegades; afortunadament, els resultats eren essencialment idèntics. En general, l'experiència de Schultz i col·legues sembla tenir una gran validesa interna, però no sempre és així: el camp complex i els experiments en línia sovint es troben en problemes que realment ofereixen el tractament adequat per a les persones adequades i mesuren els resultats per a tothom. Afortunadament, l'edat digital pot ajudar a reduir les preocupacions sobre la validesa interna ja que ara és més fàcil assegurar-se que el tractament es lliuri als que se suposa que la reben i per mesurar els resultats per a tots els participants.
Construeix centres de validesa al voltant del partit entre les dades i les construccions teòriques. Tal com es descriu al capítol 2, les construccions són conceptes abstractes que motiven els científics socials. Malauradament, aquests conceptes abstractes no sempre tenen definicions clares i mesures. Tornant a Schultz et al. (2007) , l'afirmació que les normes socials cautelars poden disminuir l'ús d'electricitat requereix que els investigadors dissenyin un tractament que manipuli les "normes socials cautelars" (per exemple, un emoticon) i per mesurar "l'ús d'electricitat". En experiments analògics, molts investigadors van dissenyar els seus propis tractaments i van mesurar els seus propis resultats. Aquest enfocament garanteix que, tant com sigui possible, els experiments coincideixin amb les construccions abstractes que s'estan estudiant. En experiments digitals on els investigadors es relacionen amb empreses o governs per oferir tractaments i utilitzar sempre sistemes de dades per mesurar els resultats, la coincidència entre l'experiment i les construccions teòriques pot ser menys estret. Per tant, espero que la validesa de la construcció tendeixi a ser una gran preocupació en els experiments digitals que en els experiments analògics.
Finalment, la validesa externa es centra en si els resultats d'aquest experiment es poden generalitzar a altres situacions. Tornant a Schultz et al. (2007) , es podria preguntar si aquesta mateixa idea proporcionava a la gent informació sobre el seu ús energètic en relació amb els seus companys i un senyal de normes cautelars (per exemple, un emoticon): reduiria l'ús d'energia si es fes d'una manera diferent en un entorn diferent. Per als experiments més ben dissenyats i ben dirigits, les preocupacions sobre la validesa externa són les més difícils d'abordar. En el passat, aquests debats sobre validesa externa sovint no eren més que un grup de persones assegudes en una sala intentant imaginar què passaria si els procediments s'haguessin realitzat de manera diferent, o en un altre lloc, o amb diferents participants . Afortunadament, l'edat digital permet als investigadors superar aquestes especulacions lliures de dades i avaluar empíricament la validesa externa.
Perquè els resultats de Schultz et al. (2007) van ser tan emocionants, una empresa anomenada Opower es va associar amb serveis públics als Estats Units per desplegar el tractament més àmpliament. Basat en el disseny de Schultz et al. (2007) , Opower va crear informes d'energia domèstics personalitzats que tenien dos mòduls principals: un que mostra l'ús d'electricitat d'una llar respecte als seus veïns amb un emoticon i un punt per reduir l'ús d'energia (figura 4.6). Després, en col·laboració amb investigadors, Opower va executar experiments controlats aleatoris per avaluar l'impacte d'aquests informes d'energia domèstica. Tot i que els tractaments en aquests experiments es van administrar normalment físicament, normalment a través del correu caracol passat de moda, el resultat es va mesurar utilitzant dispositius digitals en el món físic (p. Ex., Mesuradors). A més, en comptes de recollir manualment aquesta informació amb els assistents de recerca visitant cada casa, els experiments d'Opower es van fer en col·laboració amb empreses d'energia que permetien als investigadors accedir a les lectures de potència. Així, aquests experiments de camps parcialment digitals es van executar a gran escala a baix cost variable.
En un primer conjunt d'experiments en què participen 600.000 llars de 10 llocs diferents, Allcott (2011) trobar que l'Informe d'energia domèstica va reduir el consum d'electricitat. En altres paraules, els resultats de l'estudi molt més ampli i geogràficament diferent van ser qualitativament similars als resultats de Schultz et al. (2007) . A més, en investigacions posteriors que incloïen vuit milions de llars addicionals de 101 llocs diferents, Allcott (2015) tornar a trobar que l'Informe d'energia domèstica va rebaixar constantment el consum d'electricitat. Aquest conjunt d'experiments molt més gran també va revelar un nou patró interessant que no seria visible en cap experiment: la mida de l'efecte va disminuir en els experiments posteriors (figura 4.7). Allcott (2015) especular que aquest descens passava perquè, amb el temps, el tractament s'aplicava a diferents tipus de participants. Més concretament, els usuaris amb clients més centrats en el medi ambient probablement adoptessin el programa anteriorment, i els seus clients responien més al tractament. Com que els serveis públics amb clients menys orientats al medi ambient van adoptar el programa, la seva eficàcia va disminuir. Així, igual que l'assignació aleatòria en experiments assegura que el grup de tractament i control és similar, l'assignació aleatoritzada en llocs de recerca assegura que les estimacions es poden generalitzar des d'un grup de participants fins a una població més general (vegeu el capítol 3 sobre el mostreig). Si els llocs de recerca no es mostren aleatòriament, la generalización, fins i tot d'un experiment perfectament dissenyat i conduït, pot ser problemàtic.
Junts, aquests 111 experiments-10 a Allcott (2011) i 101 a Allcott (2015) implicar prop de 8,5 milions de llars de tots els Estats Units. Mostren constantment que els Informes d'Energia a casa redueixen el consum mitjà d'electricitat, un resultat que recolza els descobriments originals de Schultz i col·legues de 300 habitatges a Califòrnia. Més enllà de replicar aquests resultats originals, els experiments de seguiment també mostren que la mida de l'efecte varia segons la ubicació. Aquest conjunt d'experiments també il·lustra dos punts més generals sobre experiments de camps parcialment digitals. En primer lloc, els investigadors podran abordar empíricament les preocupacions sobre la validesa externa quan el cost d'execució d'experiments sigui baix, i això pot ocórrer si el resultat ja s'està mesurant mitjançant un sistema de dades sempre activat. Per tant, suggereix que els investigadors haurien d'estar a la recerca d'altres comportaments interessants i importants que ja s'estan registrant, i després dissenyar experiments al cim d'aquesta infraestructura de mesura existent. En segon lloc, aquest conjunt d'experiments ens recorda que els experiments en camp digital no només estan en línia; cada vegada més, espero que estiguin a tot arreu amb molts resultats mesurats per sensors en l'entorn construït.
Els quatre tipus de validez de validesa-validesa interna, validesa interna i validez externa-proporcionen una llista de comprovació mental per ajudar els investigadors a avaluar si els resultats d'un experiment en particular donen suport a una conclusió més general. En comparació amb experiments d'edat analògica, en experiments en edat digital, hauria de ser més senzill abordar empíricament la validesa externa, i també hauria de ser més fàcil garantir la validesa interna. D'altra banda, els problemes de validesa de la construcció probablement seran més desafiadors en experiments en edat digital, especialment experiments en camp digital que impliquen associacions amb empreses.