4.4.1 Validesa

Aquesta traducció va ser creat per un ordinador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Validesa

La validesa es refereix a la quantitat dels resultats d'un experiment donen suport a una conclusió més general.

Cap experiment és perfecte, i els investigadors han desenvolupat un extens vocabulari per descriure els possibles problemes. La validesa fa referència al grau en què els resultats d'un experiment en particular donen suport a una conclusió més general. Els científics socials han trobat que és útil per a dividir validesa en quatre tipus principals: validesa conclusió estadística, la validesa interna, validesa de constructe i la validesa externa (Shadish, Cook, and Campbell 2001, Ch 2) . El domini d'aquests conceptes li proporcionarà una llista mental de la crítica i la millora del disseny i l'anàlisi d'un experiment, i que l'ajudarà a comunicar-se amb altres investigadors.

Estadística validesa conclusió gira entorn de si l'anàlisi estadística de l'experiment s'ha realitzat correctament. En el context de Schultz et al. (2007) tal pregunta podria centrar-se en si calculen els seus valors de p correctament. L'anàlisi estadística està més enllà de l'abast d'aquest llibre, però puc dir que els principis estadístics necessaris per dissenyar i analitzar experiments no han canviat en l'era digital. No obstant això, el diferent entorn de dades en experiments digitals no crear noves oportunitats estadístiques (per exemple, l'ús de mètodes d'aprenentatge automàtic per estimar la heterogeneïtat dels efectes del tractament (Imai and Ratkovic 2013) ) i els nous reptes computacionals (per exemple, el bloqueig dels experiments massius (Higgins, Sävje, and Sekhon 2016) ).

La validesa interna se centra al voltant de si els procediments experimentals es van realitzar correctament. Tornant a l'experiment de Schultz et al. (2007) , les preguntes sobre la validesa interna podria centrar-se en l'aleatorització, el lliurament del tractament, i el mesurament dels resultats. Per exemple, vostè podria estar preocupat que els assistents d'investigació no van llegir els mesuradors d'electricitat fiable. De fet, Schultz i els seus col·legues estaven preocupats per aquest problema i que tenia una mostra de metres llegit dues vegades; Afortunadament, els resultats van ser essencialment idèntics. En general, Schultz i els seus col·legues 'experiment sembla tenir una alta validesa interna, però això no és sempre el cas; complex camp i experiments en línia sovint tenen problemes en realitat el lliurament d'un tractament adequat a les persones adequades i el mesurament dels resultats per a cada un. Afortunadament, l'era digital pot ajudar a reduir les preocupacions sobre la validesa interna, ja que fa que sigui més fàcil per assegurar que el tractament es lliura com dissenyat per a aquells que se suposa que el reben i per mesurar els resultats per a tots els participants.

La construcció de centres de validesa en tot el partit entre les dades i les construccions teòriques. Com es va discutir en el capítol 2, les construccions són conceptes abstractes que els científics socials sobre la raó. Malauradament, aquests conceptes abstractes no sempre tenen les definicions i els mesuraments clares. Tornant a Schultz et al. (2007) , l'afirmació que per mandat judicial les normes socials poden reduir el consum d'electricitat requereix que els investigadors dissenyar un tractament que podria manipular "les normes socials de cessació" (per exemple, una icona gestual) i per mesurar "l'ús d'electricitat". En experiments anàlegs, molts investigadors van dissenyar els seus propis tractaments i van mesurar els seus propis resultats. Aquest enfocament garanteix que, tant com sigui possible, els experiments concorden amb els constructes abstractes sent estudiats. En experiments digitals on els investigadors associar-se amb empreses o governs per lliurar tractaments i utilitzar sempre-en els sistemes de dades per mesurar els resultats, el partit entre l'experiment i els constructes teòrics pot ser menys atapeït. Per tant, espero que la validesa de constructe tendirà a ser una preocupació més gran en els experiments digitals que analògiques experiments.

Finalment, la validesa externa gira entorn de si els resultats d'aquest experiment es generalitzar a altres situacions. Tornant a Schultz et al. (2007) , un pot demanar, ho farà aquesta mateixa idea la gent que proporcionen informació sobre el seu consum d'energia en relació amb els seus parells i un senyal de normes cautelars (per exemple, una icona gestual) -reduir el consum d'energia si s'ha fet d'una manera diferent en un entorn diferent? Per a la majoria ben dissenyat i experiments ben dirigit, les preocupacions sobre la validesa externa són els més difícils de tractar. En el passat, aquests debats sobre la validesa externa eren amb freqüència només un grup de persones assegudes en una habitació tractant d'imaginar el que hauria passat si els procediments es van realitzar d'una manera diferent, o en un lloc diferent, o amb diferents persones. Afortunadament, l'era digital permet als investigadors anar més enllà d'aquestes especulacions sense dades i avaluar empíricament la validesa externa.

A causa que els resultats de Schultz et al. (2007) eren tan emocionant, una empresa anomenada Opower es va associar amb empreses de serveis públics als Estats Units per implementar el tractament més àmpliament. Basat en el disseny de Schultz et al. (2007) , Opower creada per a requisits particulars Informes Energia a la Llar que tenia dos mòduls principals, una que mostra el consum d'electricitat d'una llar respecte als seus veïns amb una emoticona i un que proporciona consells per reduir el consum d'energia (Figura 4.6). Després, en col·laboració amb investigadors, Opower va córrer a l'atzar experiments controlats per avaluar l'impacte dels informes d'energia de la llar. Tot i que els tractaments en aquests experiments van ser lliurades físicament, generalment, generalment a través de cargol passada de moda per correu el resultat es va mesurar utilitzant dispositius digitals en el món físic (per exemple, mesuradors de potència). En lloc de recollir manualment aquesta informació amb els assistents d'investigació que visiten cada casa, els experiments Opower tots van ser fets en col·laboració amb les companyies elèctriques que permetin als investigadors accedir a les lectures de potència. Per tant, aquests experiments de camp parcialment digitals es van realitzar a una escala massiva de baix cost variable.

Figura 4.6: Els informes d'Energia a la Llar en Allcott (2011) tenia un mòdul de comparació social i un mòdul d'acció Passos.

En una primera sèrie d'experiments amb 600.000 llars ateses per 10 empreses de serveis públics al voltant dels Estats Units, Allcott (2011) va trobar que l'Informe de l'Energia Inici reduir el consum d'electricitat en un 1,7%. En altres paraules, els resultats de l'estudi molt més gran, més diversa geogràficament van ser qualitativament similars als resultats de Schultz et al. (2007) . No obstant això, la mida de l'efecte va ser menor: en Schultz et al. (2007) les llars de la condició de normes descriptiu i injectiva (la que té la icona gestual) van reduir el seu consum d'electricitat en un 5%. La raó exacta d'aquesta diferència és desconeguda, però Allcott (2011) especulat de rebre una emoticona escrita a mà com a part d'un estudi patrocinat per una universitat podria tenir un efecte més gran sobre el comportament de rebre una emoticona impresa com a part d'un informe produït en sèrie a partir d'una l'elèctrica.

A més, en la investigació posterior, Allcott (2015) va informar sobre altres 101 experiments addicionals que impliquen un addicional de 8 milions de llars. En aquests propers 101 experiments de l'Informe de l'Energia Inici continuar causant la gent a reduir el seu consum d'electricitat, però els efectes van ser encara més petit. La raó exacta d'aquesta disminució no és coneguda, però Allcott (2015) va especular que l'eficàcia de l'informe sembla estar disminuint amb el temps ja que en realitat s'està aplicant als diferents tipus de participants. Més específicament, els serveis públics a les zones més ambientalistes eren més propensos a adoptar el programa anterior i els seus clients eren més sensibles al tractament. A mesura que els serveis públics amb els clients menys Ambiental adoptat el programa, la seva efectivitat va aparèixer a declinar. Per tant, igual que l'assignació a l'atzar en els experiments s'assegura que el grup de tractament i control són similars, l'assignació a l'atzar en els llocs d'investigació assegura que les estimacions es poden generalitzar a partir d'un un grup de participants a una població més general (pensin en el capítol 3 sobre el mostreig). Si els llocs d'investigació no es prendran mostres a l'atzar, a continuació, la generalització, fins i tot des d'un perfectament dissenyat i portat a terme l'experiment, pot ser problemàtic.

En conjunt, aquests experiments 111-10 a Allcott (2011) i 101 en Allcott (2015) -involved al voltant de 8,5 milions de llars de tot Estats Units. Ells mostren consistentment que els Informes Home Energy reduir el consum mitjà d'electricitat, un resultat que confirma els resultats originals de Schultz i els seus col·legues de 300 habitatges a Califòrnia. Més enllà de simplement replicar aquests resultats originals, els experiments de seguiment també mostren que la magnitud de l'efecte varia segons la ubicació. Aquest conjunt d'experiments també il·lustra dos punts més generals sobre els experiments de camp parcialment digitals. En primer lloc, els investigadors podran empíricament les preocupacions sobre la validesa externa quan el cost de funcionament dels experiments és baixa, i això pot passar si el resultat ja està sent mesurat per un sistema de dades sempre. Per tant, es suggereix que la investigació ha d'estar en el lloc d'observació per altres comportaments interessants i importants que ja s'estan gravant, i després dissenyar experiments a la part superior d'aquesta infraestructura de mesurament existent. En segon lloc, aquest conjunt d'experiments ens recorda que els experiments de camp digitals no són només en línia; cada vegada que espero que van a estar a tot arreu amb molts resultats mesurats pels sensors en l'entorn construït.

Els quatre tipus de validesa de les conclusions de validesa estadística, la validesa interna, validesa de constructe, validesa externa proporcionarà una llista de control mental per ajudar els investigadors a avaluar si els resultats d'un experiment en particular donen suport a una conclusió més general. En comparació amb els experiments era analògica, en els experiments era digital hauria de ser més fàcil d'abordar empíricament la validesa externa i hauria de ser més fàcil per assegurar la validesa interna. D'altra banda, les qüestions de validesa de constructe probablement serà més difícil en els experiments era digital (encara que això no va ser el cas dels experiments Opower).