La validità si riferisce a quanto i risultati di un esperimento supportano una conclusione più generale.
Nessun esperimento è perfetta, e ricercatori hanno sviluppato un ampio vocabolario per descrivere possibili problemi. Validità si riferisce alla misura in cui i risultati di un particolare esperimento supportano qualche conclusione più generale. I sociologi hanno trovato utile dividere validità in quattro tipologie principali: validità conclusione statistiche, validità interna, costruire la validità, e la validità esterna (Shadish, Cook, and Campbell 2001, Ch 2) . Padroneggiare questi concetti vi fornirà una lista di controllo mentale per criticare e migliorare la progettazione e l'analisi di un esperimento, e vi aiuterà a comunicare con altri ricercatori.
Statistica validità conclusione ruota attorno se l'analisi statistica della esperimento è stato fatto correttamente. Nel contesto di Schultz et al. (2007) come domanda potrebbe centrare se calcolate correttamente i loro valori di p. L'analisi statistica è oltre la portata di questo libro, ma posso dire che i principi statistici necessari per progettare e analizzare gli esperimenti non sono cambiate nell'era digitale. Tuttavia, il diverso ambiente di dati in esperimenti digitali non creare nuove opportunità di statistica (ad esempio, utilizzando metodi di apprendimento automatico per stimare l'eterogeneità degli effetti del trattamento (Imai and Ratkovic 2013) ) e le nuove sfide computazionali (ad esempio, il blocco a massicci esperimenti (Higgins, Sävje, and Sekhon 2016) ).
Validità interna ruota attorno se le procedure sperimentali sono state eseguite correttamente. Tornando all'esperimento di Schultz et al. (2007) , le domande circa la validità interna potrebbe essere imperniata attorno alla randomizzazione, la consegna del trattamento, e la misurazione dei risultati. Ad esempio, si potrebbe essere preoccupato del fatto che gli assistenti di ricerca non ha letto il contatori elettrici in modo affidabile. In realtà, Schultz e colleghi erano preoccupati per questo problema e avevano un campione di metri leggere due volte; Fortunatamente, i risultati sono stati sostanzialmente identici. In generale, Schultz e sperimentare colleghi sembra avere alta validità interna, ma questo non è sempre il caso; campo complesso ed esperimenti online spesso incontrano problemi in realtà che forniscono il giusto trattamento per le persone giuste e di misurazione dei risultati per tutti. Fortunatamente, l'era digitale può contribuire a ridurre le preoccupazioni circa la validità interna, perché rende più facile per garantire che il trattamento viene fornito come progettato per coloro che si suppone di riceverlo e di misurare i risultati per tutti i partecipanti.
Costruire centri di validità in tutto il match tra i dati ei costrutti teorici. Come discusso nel capitolo 2, costrutti sono concetti astratti che gli scienziati sociali ragione circa. Purtroppo, questi concetti astratti non sempre hanno definizioni chiare e misure. Tornando al Schultz et al. (2007) , l'affermazione che ingiuntivo norme sociali possono abbassare l'uso di energia elettrica richiede ai ricercatori di progettare un trattamento che potrebbe manipolare "norme sociali ingiuntivi" (ad esempio, un emoticon) e per misurare "l'uso di energia elettrica". Negli esperimenti analogici, molti ricercatori hanno progettato i propri trattamenti e misurati i propri risultati. Questo approccio garantisce che, per quanto possibile, gli esperimenti corrispondono costrutti astratti fase di studio. Negli esperimenti digitali in cui i ricercatori collaborare con aziende o governi per fornire trattamenti e utilizzare sempre attiva sistemi di dati per misurare i risultati, la corrispondenza tra l'esperimento e costrutti teorici può essere meno stretto. Quindi, mi aspetto che la validità di costrutto tenderà ad essere una preoccupazione più grande in esperimenti digitali che analogici esperimenti.
Infine, la validità esterna centri intorno se i risultati di questo esperimento sarebbe generalizzare ad altre situazioni. Tornando al Schultz et al. (2007) , si potrebbe chiedere, sarà questa stessa gente idea-che fornisce informazioni sul loro consumo di energia in relazione ai loro coetanei e un segnale di norme ingiuntivi (ad esempio, un emoticon) consumo di energia -Ridurre se è stato fatto in un modo diverso in una diversa impostazione? Per la maggior parte ben progettato e gli esperimenti ben gestito, le preoccupazioni circa la validità esterna sono le più difficili da affrontare. In passato, questi dibattiti sulla validità esterna sono stati spesso solo un gruppo di persone sedute in una stanza cercando di immaginare cosa sarebbe successo se le procedure sono state fatte in un modo diverso, o in un luogo diverso, o con persone diverse. Fortunatamente, l'era digitale consente ai ricercatori di andare oltre queste speculazioni senza dati e valutare la validità esterna empiricamente.
Poiché i risultati di Schultz et al. (2007) erano così eccitante, una società denominata Opower partnership con utility negli Stati Uniti per distribuire il trattamento più ampiamente. Sulla base del disegno di Schultz et al. (2007) , Opower creato su misura Home Segnalazioni di energia che aveva due moduli principali, uno che mostra l'utilizzo di energia elettrica relativa di una famiglia per i suoi vicini con una emoticon e uno che fornisce suggerimenti per ridurre il consumo di energia (Figura 4.6). Poi, in collaborazione con i ricercatori, Opower corse randomizzati esperimenti controllati per valutare l'impatto delle relazioni Home Energy. Anche se i trattamenti in questi esperimenti sono stati generalmente consegnati fisicamente di solito attraverso vecchio stile lumaca posta il risultato è stata misurata utilizzando dispositivi digitali nel mondo fisico (ad esempio, contatori di potenza). Invece di raccogliere manualmente queste informazioni con gli assistenti di ricerca che visitano ogni casa, gli esperimenti Opower sono stati tutti fatti in collaborazione con le società elettriche che permettono ai ricercatori di accedere alle letture di potenza. Così, questi esperimenti sul campo in parte digitali sono stati eseguiti in larga scala a basso costo variabile.
In una prima serie di esperimenti che coinvolgono 600.000 famiglie servite da 10 aziende di servizi pubblici in giro per gli Stati Uniti, Allcott (2011) ha trovato il Rapporto Home Energy ha abbassato il consumo di elettricità del 1,7%. In altre parole, i risultati molto più grande, studio più geograficamente vario sono qualitativamente simili ai risultati di Schultz et al. (2007) . Ma, l'entità dell'effetto era più piccola: in Schultz et al. (2007) le famiglie nella condizione descrittiva e iniettiva norme (quello con l'emoticon) ridotto il loro consumo di energia elettrica del 5%. Il motivo preciso per questa differenza è sconosciuta, ma Allcott (2011) ipotizzato che la ricezione di un emoticon scritto a mano, come parte di uno studio promosso da un'università potrebbe avere un effetto maggiore sul comportamento di ricezione di un emoticon stampato come parte di un rapporto di massa prodotta da un società elettrica.
Inoltre, in ricerca successiva, Allcott (2015) ha riferito di ulteriori 101 esperimenti che coinvolgono altri 8 milioni di famiglie. In questi prossimi 101 esperimenti del Rapporto Home Energy ha continuato a indurre la gente a ridurre il loro consumo di energia elettrica, ma gli effetti erano ancora più piccolo. Il motivo preciso per questo declino non è nota, ma Allcott (2015) ha ipotizzato che l'efficacia del rapporto sembrava essere in declino nel corso del tempo perché è stato effettivamente applicato a diversi tipi di partecipanti. Più in particolare, le utenze in zone più ambientaliste avevano più probabilità di adottare il programma precedente ed i loro clienti erano più sensibili al trattamento. Come utilities con i clienti meno ambientali adottato il programma, la sua efficacia è apparso a diminuire. Così, proprio come la randomizzazione in esperimenti assicura che il gruppo di trattamento e il controllo sono simili, la randomizzazione in siti di ricerca assicura che le stime possono essere generalizzate da un un gruppo di partecipanti a una popolazione più generale (ripensare a Capitolo 3 su campionamento). Se i siti di ricerca non vengono raccolte in modo casuale, quindi generalizzazione, anche da un perfettamente progettato e condotto esperimento può essere problematico.
Insieme, questi esperimenti 111-10 a Allcott (2011) e 101 in Allcott (2015) -involved circa 8,5 milioni di famiglie provenienti da ogni parte degli Stati Uniti. Essi dimostrano costantemente che le relazioni Home Energy ridurre il consumo medio di energia elettrica, un risultato che supporta i risultati originali di Schultz e colleghi di 300 case in California. Al di là di appena replicare questi risultati originali, gli esperimenti di follow-up mostrano anche che la dimensione dell'effetto varia a seconda posizione. Questa serie di esperimenti illustra anche due ulteriori punti generali su esperimenti sul campo in parte digitali. In primo luogo, i ricercatori saranno in grado di affrontare le preoccupazioni circa empiricamente validità esterna quando il costo di gestione di esperimenti è bassa, e questo può verificarsi se l'esito è già stato misurato da un sistema sempre-sui dati. Pertanto, si suggerisce che la ricerca dovrebbe essere alla ricerca-out per altri comportamenti interessanti e importanti che vengono già registrati, e poi progettare esperimenti in cima a questa infrastruttura di misurazione esistente. In secondo luogo, questa serie di esperimenti ci ricorda che gli esperimenti sul campo digitali non sono solo on-line; Mi aspetto sempre che essi saranno in tutto il mondo con molti risultati misurati da sensori nell'ambiente costruito.
I quattro tipi di validità-statistico validità conclusione, validità interna, costruiscono la validità, la validità-fornire una lista di controllo esterno mentale per aiutare i ricercatori a valutare se i risultati di un particolare esperimento supportano una conclusione più generale. Rispetto agli esperimenti età analogici, negli esperimenti era digitale dovrebbe essere più facile da affrontare validità esterna empiricamente e dovrebbe essere più facile per garantire la validità interna. D'altra parte, le questioni di validità di costrutto sarà probabilmente più impegnativo in esperimenti nell'era digitale (anche se questo non era il caso con gli esperimenti Opower).