I dati non rappresentativi sono negativi per le generalizzazioni out-of-sample, ma possono essere abbastanza utili per i confronti all'interno dei campioni.
Alcuni scienziati sociali sono abituati a lavorare con dati che provengono da un campione casuale probabilistico di una popolazione ben definita, come tutti gli adulti in un particolare paese. Questo tipo di dati è chiamato dati rappresentativi perché il campione "rappresenta" la popolazione più ampia. Molti ricercatori premiano i dati rappresentativi e ad alcuni dati rappresentativi è sinonimo di scienza rigorosa mentre i dati non rappresentativi sono sinonimo di sciatteria. Al limite estremo, alcuni scettici sembrano credere che non si possa imparare nulla dai dati non rappresentativi. Se fosse vero, ciò sembrerebbe limitare seriamente ciò che può essere appreso dalle grandi fonti di dati perché molti di essi non sono rappresentativi. Fortunatamente, questi scettici hanno solo parzialmente ragione. Vi sono alcuni obiettivi di ricerca per i quali i dati non rappresentativi non sono chiaramente adatti, ma ce ne sono altri per i quali potrebbe essere davvero utile.
Per comprendere questa distinzione, consideriamo un classico scientifico: lo studio di John Snow sull'epidemia di colera del 1853-54 a Londra. A quel tempo, molti medici credevano che il colera fosse causato da "aria cattiva", ma Snow riteneva che si trattasse di una malattia infettiva, forse diffusa da acqua potabile legata alle acque reflue. Per testare questa idea, Snow ha approfittato di quello che potremmo definire un esperimento naturale. Ha confrontato i tassi di colera delle famiglie servite da due diverse compagnie idriche: Lambeth e Southwark e Vauxhall. Queste società servivano case simili, ma differivano in un modo importante: nel 1849 - pochi anni prima dell'inizio dell'epidemia - Lambeth spostò il punto di immissione a monte del principale scarico di liquami a Londra, mentre Southwark e Vauxhall lasciarono il tubo di aspirazione a valle del scarico di liquami. Quando Snow confrontò i tassi di mortalità per il colera nelle famiglie servite dalle due società, scoprì che i clienti di Southwark e Vauxhall, la società che forniva acqua contaminata ai liquami, avevano 10 volte più probabilità di morire di colera. Questo risultato fornisce forti prove scientifiche per l'argomento di Snow sulla causa del colera, anche se non si basa su un campione rappresentativo di persone a Londra.
I dati di queste due società, tuttavia, non sarebbero l'ideale per rispondere a una domanda diversa: quale era la prevalenza del colera a Londra durante l'epidemia? Per quella seconda domanda, che è anche importante, sarebbe molto meglio avere un campione rappresentativo di persone provenienti da Londra.
Come illustra il lavoro di Snow, ci sono alcune domande scientifiche per le quali i dati non rappresentativi possono essere abbastanza efficaci e ce ne sono altri per i quali non è adatto. Un modo semplice per distinguere questi due tipi di domande è che alcune domande riguardano i confronti all'interno del campione e alcune riguardano generalizzazioni fuori dal campione. Questa distinzione può essere ulteriormente illustrata da un altro studio classico in epidemiologia: il British Doctors Study, che ha svolto un ruolo importante nel dimostrare che il fumo provoca il cancro. In questo studio, Richard Doll e A. Bradford Hill hanno seguito per circa 25.000 medici di sesso maschile per diversi anni e hanno confrontato i loro tassi di mortalità in base alla quantità che hanno fumato all'inizio dello studio. Doll and Hill (1954) trovò una forte relazione esposizione-risposta: più le persone fumavano molto, più era probabile che morissero per cancro al polmone. Naturalmente, non sarebbe saggio stimare la prevalenza del cancro al polmone tra tutti i britannici sulla base di questo gruppo di medici maschi, ma il confronto all'interno del campione fornisce ancora prove che il fumo provoca il cancro ai polmoni.
Ora che ho illustrato la differenza tra i confronti all'interno del campione e le generalizzazioni fuori campione, sono necessari due avvertimenti. In primo luogo, ci sono naturalmente domande sulla misura in cui una relazione che tiene all'interno di un campione di medici britannici si terrà anche all'interno di un campione di donne, medici britannici o operai britannici o operaie tedesche o molti altri gruppi. Queste domande sono interessanti e importanti, ma sono diverse dalle domande sulla misura in cui possiamo generalizzare da un campione a una popolazione. Si noti, ad esempio, che probabilmente si sospetta che il rapporto tra fumo e cancro riscontrato nei medici maschi inglesi sarà probabilmente simile in questi altri gruppi. La tua capacità di eseguire questa estrapolazione non deriva dal fatto che i medici britannici maschi sono un campione casuale probabilistico di qualsiasi popolazione; piuttosto, deriva da una comprensione del meccanismo che collega il fumo e il cancro. Quindi, la generalizzazione da un campione alla popolazione da cui è tratto è un problema in gran parte un problema statistico, ma le domande sulla trasportabilità del modello trovato in un gruppo in un altro gruppo sono in gran parte un problema non (Pearl and Bareinboim 2014; Pearl 2015) .
A questo punto, uno scettico potrebbe far notare che la maggior parte dei modelli sociali sono probabilmente meno trasportabili tra i gruppi rispetto alla relazione tra fumo e cancro. E sono d'accordo. La misura in cui dovremmo aspettarci che i modelli siano trasportabili è in definitiva una questione scientifica che deve essere decisa in base a teoria e prove. Non si dovrebbe presumere automaticamente che i modelli siano trasportabili, ma non si dovrebbe presupporre che non saranno trasportabili. Queste domande un po 'astratte sulla transportabilità ti saranno familiari se hai seguito i dibattiti su quanto i ricercatori possono imparare sul comportamento umano studiando studenti universitari (Sears 1986, [@henrich_most_2010] ) . Nonostante questi dibattiti, tuttavia, sarebbe irragionevole dire che i ricercatori non possono imparare nulla dallo studio degli studenti universitari.
Il secondo avvertimento è che la maggior parte dei ricercatori con dati non rappresentativi non sono così attenti come Snow o Doll e Hill. Quindi, per illustrare cosa può andare storto quando i ricercatori cercano di fare una generalizzazione fuori dal campione da dati non rappresentativi, vorrei parlarvi di uno studio delle elezioni parlamentari tedesche del 2009 di Andranik Tumasjan e colleghi (2010) . Analizzando più di 100.000 tweet, hanno scoperto che la percentuale di tweet che menzionava un partito politico corrispondeva alla percentuale di voti che il partito ha ricevuto nelle elezioni parlamentari (figura 2.3). In altre parole, sembrava che i dati di Twitter, che erano essenzialmente gratuiti, potessero sostituire le tradizionali indagini sull'opinione pubblica, che sono costose a causa della loro enfasi sui dati rappresentativi.
Dato ciò che probabilmente già sai su Twitter, dovresti essere immediatamente scettico su questo risultato. I tedeschi su Twitter nel 2009 non erano un campione probabilistico casuale di elettori tedeschi, ei sostenitori di alcune parti potevano twittare di politica molto più spesso dei sostenitori di altre parti. Pertanto, sembra sorprendente che tutti i possibili pregiudizi che potreste immaginare si annullerebbero in qualche modo in modo che questi dati riflettessero direttamente gli elettori tedeschi. Infatti, i risultati in Tumasjan et al. (2010) si è rivelato troppo bello per essere vero. Un documento di follow-up di Andreas Jungherr, Pascal Jürgens e Harald Schoen (2012) ha sottolineato che l'analisi originale aveva escluso il partito politico che aveva effettivamente ricevuto più messaggi su Twitter: il Partito dei Pirati, un piccolo partito che combatte la regolamentazione del governo di Internet. Quando il Partito dei pirati è stato incluso nell'analisi, le citazioni su Twitter diventano un terribile predittore dei risultati elettorali (figura 2.3). Come illustrato in questo esempio, l'uso di fonti di dati di grandi dimensioni non rappresentative per eseguire generalizzazioni fuori campione può andare molto male. Inoltre, dovresti notare che il fatto che ci fossero 100.000 tweet era sostanzialmente irrilevante: molti dati non rappresentativi sono ancora non rappresentativi, un tema su cui tornerò nel capitolo 3 quando discuterò dei sondaggi.
Per concludere, molte grandi fonti di dati non sono esempi rappresentativi di alcune popolazioni ben definite. Per le domande che richiedono la generalizzazione dei risultati dal campione alla popolazione da cui è stato tratto, questo è un problema serio. Ma per domande sui confronti all'interno dei campioni, i dati non rappresentativi possono essere potenti, a condizione che i ricercatori siano chiari sulle caratteristiche del loro campione e sostengano le affermazioni sulla transportabilità con prove teoriche o empiriche. In realtà, la mia speranza è che le grandi fonti di dati consentiranno ai ricercatori di effettuare più confronti all'interno di campioni in molti gruppi non rappresentativi, e la mia ipotesi è che le stime di molti gruppi faranno di più per progredire nella ricerca sociale di una singola stima da un caso probabilistico campione.