La validità si riferisce a quanto i risultati di un esperimento supportano una conclusione più generale.
Nessun esperimento è perfetto e i ricercatori hanno sviluppato un ampio vocabolario per descrivere possibili problemi. La validità si riferisce alla misura in cui i risultati di un particolare esperimento supportano alcune conclusioni più generali. Gli scienziati sociali hanno trovato utile dividere la validità in quattro tipi principali: validità statistica finale, validità interna, validità costruttiva e validità esterna (Shadish, Cook, and Campbell 2001, chap. 2) . La padronanza di questi concetti ti fornirà una checklist mentale per criticare e migliorare la progettazione e l'analisi di un esperimento e ti aiuterà a comunicare con altri ricercatori.
La validità della conclusione statistica si basa sul fatto che l'analisi statistica dell'esperimento sia stata eseguita correttamente. Nel contesto di Schultz et al. (2007) , una domanda del genere potrebbe incentrarsi sul fatto che abbiano calcolato correttamente i loro valori \(p\) . I principi statistici necessari per progettare e analizzare gli esperimenti vanno oltre lo scopo di questo libro, ma non hanno cambiato radicalmente nell'era digitale. Ciò che è cambiato, tuttavia, è che l'ambiente dei dati negli esperimenti digitali ha creato nuove opportunità come l'utilizzo di metodi di machine learning per stimare l'eterogeneità degli effetti del trattamento (Imai and Ratkovic 2013) .
La validità interna si incentra sul fatto che le procedure sperimentali siano state eseguite correttamente. Tornando all'esperimento di Schultz et al. (2007) , le domande sulla validità interna potrebbero incentrarsi sulla randomizzazione, sull'erogazione del trattamento e sulla misurazione dei risultati. Ad esempio, potresti essere preoccupato che gli assistenti di ricerca non abbiano letto i contatori elettrici in modo affidabile. In effetti, Schultz e colleghi erano preoccupati per questo problema, e avevano un campione di metri letti due volte; fortunatamente, i risultati sono stati essenzialmente identici. In generale, l'esperimento di Schultz e colleghi sembra avere un'alta validità interna, ma questo non è sempre il caso: esperimenti di campo e online complessi spesso si imbattono in problemi che forniscono effettivamente il trattamento giusto alle persone giuste e misurano i risultati per tutti. Fortunatamente, l'era digitale può aiutare a ridurre le preoccupazioni sulla validità interna perché ora è più facile assicurare che il trattamento venga consegnato a coloro che dovrebbero riceverlo e misurare i risultati per tutti i partecipanti.
Costruisci punti di validità attorno alla corrispondenza tra i dati e i costrutti teorici. Come discusso nel capitolo 2, i costrutti sono concetti astratti su cui ragionano gli scienziati sociali. Sfortunatamente, questi concetti astratti non hanno sempre definizioni e misurazioni chiare. Ritornando a Schultz et al. (2007) , l'affermazione secondo cui le norme sociali ingiuntive possono ridurre il consumo di elettricità richiede ai ricercatori di progettare un trattamento che manipolerebbe "norme sociali ingiuntive" (ad esempio, un'emoticon) e misurerà "l'uso di elettricità". In esperimenti analogici, molti ricercatori hanno progettato i propri trattamenti e misurato i propri risultati. Questo approccio garantisce che, per quanto possibile, gli esperimenti corrispondano ai costrutti astratti studiati. Negli esperimenti digitali in cui i ricercatori collaborano con aziende o governi per fornire trattamenti e utilizzare sistemi di dati sempre attivi per misurare i risultati, la corrispondenza tra l'esperimento e i costrutti teorici può essere meno stretta. Quindi, mi aspetto che la validità del costrutto tenderà ad essere una preoccupazione più grande negli esperimenti digitali che negli esperimenti analogici.
Infine, la validità esterna si incentra sul fatto che i risultati di questo esperimento possano essere generalizzati ad altre situazioni. Ritornando a Schultz et al. (2007) , ci si potrebbe chiedere se questa stessa idea - fornire alle persone informazioni sul loro consumo energetico in relazione ai loro coetanei e un segnale di norme ingiuntive (ad esempio, un'emoticon) - ridurrebbe l'utilizzo di energia se fosse fatto in un modo diverso in un contesto diverso. Per la maggior parte degli esperimenti ben progettati e ben gestiti, le preoccupazioni sulla validità esterna sono le più difficili da affrontare. In passato, questi dibattiti sulla validità esterna spesso non coinvolgevano altro che un gruppo di persone sedute in una stanza cercando di immaginare cosa sarebbe successo se le procedure fossero state fatte in un modo diverso, o in un posto diverso, o con partecipanti diversi . Fortunatamente, l'era digitale consente ai ricercatori di andare oltre queste speculazioni senza dati e valutare empiricamente la validità esterna.
Perché i risultati di Schultz et al. (2007) erano così eccitanti, una società chiamata Opower ha collaborato con le utility negli Stati Uniti per distribuire il trattamento più ampiamente. Basato sul progetto di Schultz et al. (2007) , Opower ha creato Home Energy Reports personalizzati con due moduli principali: uno che mostra l'utilizzo di elettricità di una famiglia rispetto ai suoi vicini con un'emoticon e uno che fornisce suggerimenti per ridurre il consumo di energia (figura 4.6). Quindi, in collaborazione con i ricercatori, Opower ha condotto esperimenti controllati randomizzati per valutare l'impatto di questi rapporti sull'energia domestica. Anche se i trattamenti in questi esperimenti sono stati tipicamente erogati fisicamente, di solito attraverso la posta tradizionale di lumache, il risultato è stato misurato utilizzando dispositivi digitali nel mondo fisico (ad esempio, misuratori di potenza). Inoltre, invece di raccogliere manualmente queste informazioni con gli assistenti di ricerca che visitavano ogni casa, gli esperimenti di Opower sono stati fatti in collaborazione con le compagnie elettriche che consentono ai ricercatori di accedere alle letture di potenza. Pertanto, questi esperimenti sul campo parzialmente digitali sono stati eseguiti su vasta scala a basso costo variabile.
In una prima serie di esperimenti che coinvolgono 600.000 famiglie di 10 siti diversi, Allcott (2011) rilevato che il rapporto sull'energia domestica ha ridotto il consumo di elettricità. In altre parole, i risultati di uno studio molto più ampio e geograficamente diversificato erano qualitativamente simili ai risultati di Schultz et al. (2007) . Inoltre, in una ricerca successiva che ha coinvolto otto milioni di famiglie in più da 101 siti diversi, Allcott (2015) nuovamente riscontrato che il rapporto sull'energia domestica ha costantemente ridotto il consumo di elettricità. Questa serie di esperimenti molto più ampia ha anche rivelato un nuovo modello interessante che non sarebbe stato visibile in nessun singolo esperimento: la dimensione dell'effetto è diminuita negli esperimenti successivi (figura 4.7). Allcott (2015) ipotizzato che questo declino si verificasse perché, nel tempo, il trattamento veniva applicato a diversi tipi di partecipanti. Più in particolare, le utility con clienti più attenti all'ambiente erano più propense ad adottare il programma prima e i loro clienti erano più reattivi al trattamento. Poiché i programmi di utilità con clienti meno attenti all'ambiente hanno adottato il programma, la sua efficacia è sembrata diminuire. Quindi, proprio come la randomizzazione negli esperimenti assicura che il gruppo di trattamento e controllo siano simili, la randomizzazione nei siti di ricerca assicura che le stime possano essere generalizzate da un gruppo di partecipanti a una popolazione più generale (ripensate al capitolo 3 sul campionamento). Se i siti di ricerca non vengono campionati casualmente, allora la generalizzazione, anche da un esperimento perfettamente progettato e condotto, può essere problematica.
Insieme, questi 111 esperimenti-10 in Allcott (2011) e 101 in Allcott (2015) coinvolto circa 8,5 milioni di famiglie da tutti gli Stati Uniti. Dimostrano costantemente che i report sull'energia domestica riducono il consumo medio di elettricità, un risultato che supporta le scoperte originali di Schultz e colleghi di 300 case in California. Oltre a replicare semplicemente questi risultati originali, gli esperimenti di follow-up mostrano anche che la dimensione dell'effetto varia in base alla posizione. Questo insieme di esperimenti illustra anche due punti più generali sugli esperimenti di campo parzialmente digitale. In primo luogo, i ricercatori saranno in grado di affrontare empiricamente le preoccupazioni sulla validità esterna quando il costo dell'esecuzione degli esperimenti è basso, e ciò può verificarsi se il risultato è già stato misurato da un sistema di dati sempre attivo. Pertanto, suggerisce che i ricercatori dovrebbero essere alla ricerca di altri comportamenti interessanti e importanti che sono già stati registrati, e quindi progettare esperimenti in aggiunta a questa infrastruttura di misura esistente. In secondo luogo, questa serie di esperimenti ci ricorda che gli esperimenti sul campo digitale non sono solo online; sempre più mi aspetto che saranno ovunque con molti risultati misurati dai sensori nell'ambiente costruito.
I quattro tipi di validità validità statistica-validità, validità interna, validità costruttiva e validità esterna forniscono una checklist mentale per aiutare i ricercatori a valutare se i risultati di un particolare esperimento supportano una conclusione più generale. Rispetto agli esperimenti sull'età analogica, negli esperimenti sull'era digitale, dovrebbe essere più facile indirizzare empiricamente la validità esterna, e dovrebbe essere anche più facile garantire la validità interna. D'altra parte, le questioni di validità del costrutto saranno probabilmente più impegnative negli esperimenti sull'era digitale, in particolare esperimenti sul campo digitale che prevedono collaborazioni con aziende.