Fai la tua esperimento più umano, sostituendo gli esperimenti con gli studi non sperimentali, affinando i trattamenti, e la riduzione del numero dei partecipanti.
Il secondo consiglio che mi piacerebbe offrire sulla progettazione di esperimenti digitali riguarda l'etica. Come dimostra l'esperimento Restivo e van de Rijt sui barnstars in Wikipedia, una riduzione dei costi significa che l'etica diventerà una parte sempre più importante della progettazione della ricerca. Oltre ai quadri etici che guidano la ricerca sui soggetti umani che descriverò nel capitolo 6, i ricercatori che progettano esperimenti digitali possono anche attingere a idee etiche provenienti da una fonte diversa: i principi etici sviluppati per guidare esperimenti che coinvolgono animali. In particolare, nel loro fondamentale libro Principles of Humane Experimental Technique , Russell and Burch (1959) proposto tre principi che dovrebbero guidare la ricerca sugli animali: sostituire, perfezionare e ridurre. Mi piacerebbe proporre che queste tre R possano anche essere usate - in una forma leggermente modificata - per guidare la progettazione di esperimenti umani. In particolare,
Per rendere concrete queste tre R e mostrare come possono potenzialmente portare a un design sperimentale migliore e più umano, descriverò un esperimento sul campo online che ha generato un dibattito etico. Poi, descriverò come le tre R suggeriscono cambiamenti concreti e pratici alla progettazione dell'esperimento.
Uno degli esperimenti sul campo digitale più eticamente dibattuto è stato condotto da Adam Kramer, Jamie Guillroy e Jeffrey Hancock (2014) ed è stato definito "Emotional Contagion". L'esperimento si è svolto su Facebook ed è stato motivato da un mix di domande pratiche A quel tempo, il modo dominante con cui gli utenti interagivano con Facebook era il News Feed, un insieme di aggiornamenti di stato di Facebook gestito dagli algoritmi di Facebook. Alcuni critici di Facebook avevano suggerito che, poiché il News Feed ha messaggi per lo più positivi - amici che mostrano la loro ultima festa - potrebbe far sì che gli utenti si sentano tristi perché le loro vite sembravano meno eccitanti in confronto. D'altra parte, forse l'effetto è esattamente l'opposto: forse vedere il tuo amico divertirsi potrebbe farti sentire felice. Per affrontare queste ipotesi in competizione e per far progredire la nostra comprensione di come le emozioni di una persona siano influenzate dalle emozioni dei suoi amici, Kramer e colleghi hanno condotto un esperimento. Hanno collocato circa 700.000 utenti in quattro gruppi per una settimana: un gruppo "ridotto alla negatività", per il quale i post con parole negative (ad esempio "triste") sono stati bloccati casualmente dall'apparire nel feed delle notizie; un gruppo "positività ridotta" per il quale i post con parole positive (ad es. "felici") sono stati casualmente bloccati; e due gruppi di controllo. Nel gruppo di controllo per il gruppo "ridotto alla negatività", i post sono stati casualmente bloccati alla stessa velocità del gruppo "ridotto alla negatività" ma senza riguardo per il contenuto emotivo. Il gruppo di controllo per il gruppo "positività ridotta" è stato costruito in modo parallelo. Il progetto di questo esperimento illustra che il gruppo di controllo appropriato non è sempre uno senza modifiche. Piuttosto, a volte, il gruppo di controllo riceve un trattamento per creare il confronto preciso richiesto da una domanda di ricerca. In tutti i casi, i post che erano stati bloccati dal feed di notizie erano ancora disponibili per gli utenti attraverso altre parti del sito Web di Facebook.
Kramer e colleghi hanno scoperto che per i partecipanti alla condizione di riduzione della positività, la percentuale di parole positive nei loro aggiornamenti di stato diminuiva e la percentuale di parole negative aumentava. D'altra parte, per i partecipanti alla condizione di riduzione della negatività, la percentuale di parole positive è aumentata e quella delle parole negative è diminuita (figura 4.24). Tuttavia, questi effetti erano piuttosto piccoli: la differenza tra parole positive e negative tra trattamenti e controlli era di circa 1 su 1.000 parole.
Prima di discutere le questioni etiche sollevate da questo esperimento, vorrei descrivere tre problemi scientifici utilizzando alcune delle idee di prima nel capitolo. Innanzitutto, non è chiaro in che modo i dettagli reali dell'esperimento si colleghino alle affermazioni teoriche; in altre parole, ci sono domande sulla validità del costrutto. Non è chiaro che i conteggi delle parole positive e negative siano in realtà un buon indicatore dello stato emotivo dei partecipanti perché (1) non è chiaro che le parole che le persone postano siano un buon indicatore delle loro emozioni e (2) non sia chiaro che la particolare tecnica di analisi del sentimento utilizzata dai ricercatori è in grado di inferire in modo affidabile le emozioni (Beasley and Mason 2015; Panger 2016) . In altre parole, potrebbe esserci una cattiva misura di un segnale distorto. In secondo luogo, la progettazione e l'analisi dell'esperimento non ci dice nulla su chi è stato maggiormente colpito (cioè non c'è analisi dell'eterogeneità degli effetti del trattamento) e quale potrebbe essere il meccanismo. In questo caso, i ricercatori hanno avuto molte informazioni sui partecipanti, ma sono stati trattati essenzialmente come widget nell'analisi. Terzo, la dimensione dell'effetto in questo esperimento era molto piccola; la differenza tra il trattamento e le condizioni di controllo è di circa 1 su 1.000 parole. Nel loro articolo, Kramer e colleghi affermano che un effetto di queste dimensioni è importante perché ogni giorno centinaia di milioni di persone accedono al loro feed di notizie. In altre parole, sostengono che anche se gli effetti sono piccoli per ogni persona, sono grandi in termini aggregati. Anche se dovessi accettare questa argomentazione, non è ancora chiaro se un effetto di queste dimensioni sia importante per quanto riguarda la questione scientifica più generale sulla diffusione delle emozioni (Prentice and Miller 1992) .
Oltre a queste domande scientifiche, pochi giorni dopo che questo articolo è stato pubblicato negli Atti dell'Accademia Nazionale delle Scienze , c'è stata un'enorme protesta da parte sia dei ricercatori che della stampa (descriverò le argomentazioni in questo dibattito in modo più dettagliato nel capitolo 6 ). Le questioni sollevate in questo dibattito hanno indotto la rivista a pubblicare una rara "espressione editoriale preoccupante" sull'etica e il processo di revisione etica per la ricerca (Verma 2014) .
Dato questo background sul contagio emotivo, vorrei ora mostrare che le tre R possono suggerire concreti miglioramenti pratici per studi reali (qualunque cosa tu possa personalmente pensare all'etica di questo particolare esperimento). La prima R è sostituita : i ricercatori dovrebbero cercare di sostituire gli esperimenti con tecniche meno invasive e rischiose, se possibile. Ad esempio, piuttosto che eseguire un esperimento controllato randomizzato, i ricercatori avrebbero potuto sfruttare un esperimento naturale . Come descritto nel capitolo 2, gli esperimenti naturali sono situazioni in cui accade qualcosa nel mondo che si avvicina all'assegnazione casuale di trattamenti (ad esempio, una lotteria per decidere chi sarà arruolato nell'esercito). Il vantaggio etico di un esperimento naturale è che il ricercatore non deve fornire trattamenti: l'ambiente fa questo per te. Ad esempio, quasi in concomitanza con l'esperimento Emotional Contagion, Lorenzo Coviello et al. (2014) stavano sfruttando quello che si potrebbe definire un esperimento naturale Contagio emotivo. Coviello e colleghi hanno scoperto che le persone pubblicano più parole negative e meno parole positive nei giorni in cui piove. Pertanto, utilizzando la variazione casuale del tempo, sono stati in grado di studiare l'effetto dei cambiamenti nel News Feed senza la necessità di intervenire. Era come se il tempo stesse facendo il loro esperimento per loro. I dettagli della loro procedura sono un po 'complicati, ma il punto più importante per i nostri scopi qui è che utilizzando un esperimento naturale, Coviello e colleghi sono stati in grado di conoscere la diffusione delle emozioni senza la necessità di eseguire il proprio esperimento.
La seconda delle tre R si raffina : i ricercatori dovrebbero cercare di perfezionare i loro trattamenti per renderli il più innocui possibile. Ad esempio, piuttosto che bloccare contenuti che fossero positivi o negativi, i ricercatori avrebbero potuto aumentare il contenuto che era positivo o negativo. Questo miglioramento del design avrebbe cambiato il contenuto emotivo delle notizie dei partecipanti, ma avrebbe affrontato una delle preoccupazioni espresse dai critici: che gli esperimenti avrebbero potuto far perdere ai partecipanti importanti informazioni nel loro feed di notizie. Con il design utilizzato da Kramer e colleghi, è probabile che un messaggio importante sia bloccato come uno che non lo è. Tuttavia, con un design potenziato, i messaggi che sarebbero stati spostati sarebbero quelli meno importanti.
Infine, la terza R è ridotta : i ricercatori dovrebbero cercare di ridurre il numero di partecipanti al loro esperimento al minimo necessario per raggiungere il loro obiettivo scientifico. Negli esperimenti analogici, ciò è avvenuto naturalmente a causa degli alti costi variabili dei partecipanti. Ma negli esperimenti digitali, in particolare quelli a costo variabile zero, i ricercatori non devono affrontare un limite di costo per le dimensioni del loro esperimento e questo potrebbe portare a esperimenti inutilmente grandi.
Ad esempio, Kramer e colleghi potrebbero aver utilizzato informazioni pre-trattamento sui loro partecipanti, come il comportamento di post-trattamento prima del trattamento, per rendere più efficiente la loro analisi. Più specificamente, piuttosto che confrontare la proporzione di parole positive nelle condizioni di trattamento e controllo, Kramer e colleghi avrebbero potuto confrontare il cambiamento nella proporzione di parole positive tra condizioni; un approccio che a volte viene chiamato design misto (figura 4.5) e talvolta chiamato stimatore di differenze nelle differenze. Cioè, per ogni partecipante, i ricercatori potrebbero aver creato un punteggio di cambiamento (comportamento post-trattamento \(-\) pre-trattamento) e poi confrontato i punteggi dei cambiamenti dei partecipanti nelle condizioni di trattamento e controllo. Questo approccio delle differenze nelle differenze è statisticamente più efficiente, il che significa che i ricercatori possono ottenere la stessa sicurezza statistica usando campioni molto più piccoli.
Senza avere i dati grezzi, è difficile sapere esattamente quanto sarebbe stato più efficiente uno stimatore differenza-differenze in questo caso. Ma possiamo guardare ad altri esperimenti correlati per un'idea approssimativa. Deng et al. (2013) riportato che utilizzando una forma dello stimatore delle differenze nelle differenze, erano in grado di ridurre la varianza delle loro stime di circa il 50% in tre diversi esperimenti online; risultati simili sono stati riportati da Xie and Aurisset (2016) . Questa riduzione della varianza del 50% significa che i ricercatori del Contagio emotivo potrebbero essere stati in grado di dimezzare il loro campione se avessero usato un metodo di analisi leggermente diverso. In altre parole, con un piccolo cambiamento nell'analisi, a 350.000 persone sarebbe stata risparmiata la partecipazione all'esperimento.
A questo punto, ti starai chiedendo perché ai ricercatori dovrebbe importare se 350.000 persone si trovassero in un contagio emotivo inutilmente. Ci sono due caratteristiche peculiari del Contagio emotivo che rendono appropriata l'eccessiva dimensione, e queste caratteristiche sono condivise da molti esperimenti sul campo digitale: (1) c'è incertezza sul fatto che l'esperimento possa causare danni ad almeno alcuni partecipanti e (2) partecipazione non era volontario Sembra ragionevole cercare di mantenere gli esperimenti che hanno queste caratteristiche il più piccolo possibile.
Per essere chiari, il desiderio di ridurre le dimensioni del tuo esperimento non significa che non si debbano eseguire esperimenti di grandi dimensioni a costo zero. Significa solo che i tuoi esperimenti non dovrebbero essere più grandi del necessario per raggiungere il tuo obiettivo scientifico. Un modo importante per assicurarsi che un esperimento sia opportunamente dimensionato è condurre un'analisi di potenza (Cohen 1988) . Nell'era analogica, i ricercatori in genere eseguivano l'analisi del potere per assicurarsi che il loro studio non fosse troppo piccolo (cioè sottodotato). Ora, tuttavia, i ricercatori dovrebbero fare analisi di potenza per assicurarsi che il loro studio non sia troppo grande (cioè troppo potente).
In conclusione, i tre principi R sostituiscono, perfezionano e riducono la fornitura che possono aiutare i ricercatori a sviluppare l'etica nei loro progetti sperimentali. Naturalmente, ognuna di queste possibili modifiche a Emotional Contagion introduce dei compromessi. Ad esempio, le prove degli esperimenti naturali non sono sempre così pulite come quelle degli esperimenti randomizzati e il potenziamento del contenuto potrebbe essere stato logisticamente più difficile da implementare rispetto al blocco del contenuto. Quindi, lo scopo di suggerire questi cambiamenti non era quello di indovinare le decisioni di altri ricercatori. Piuttosto, è stato per illustrare come le tre R potrebbero essere applicate in una situazione realistica. In effetti, la questione dei trade-off si manifesta continuamente nel design della ricerca e, nell'era digitale, questi compromessi coinvolgeranno sempre più considerazioni etiche. Più avanti, nel capitolo 6, offrirò alcuni principi e schemi etici che possono aiutare i ricercatori a comprendere e discutere questi compromessi.