Les dades no representatius són dolentes per a generalizacions fora de la mostra, però poden ser molt útils per a les comparacions dins de la mostra.
Alguns científics socials estan acostumats a treballar amb dades provinents d'una mostra aleatòria probabilística d'una població ben definida, com ara tots els adults d'un país determinat. Aquest tipus de dades s'anomena dades representatives perquè l'exemple "representa" la població més gran. Molts investigadors reconeixen dades representatives, i per a algunes dades representatives són sinònims de ciències rigoroses mentre que les dades no representatius són sinònimes de descuido. En el més extrem, alguns escèptics semblen creure que no es pot aprendre res a partir de dades no representatives. Si és vertader, això sembla limitar severament el que es pot aprendre a partir de grans fonts de dades perquè molts d'ells no són representatius. Afortunadament, aquests escèptics només són parcialment correctes. Hi ha certs objectius de recerca per als quals les dades no representatives no són ben adaptades, però hi ha altres que podrien ser realment útils.
Per entendre aquesta distinció, considerem un clàssic científic: l'estudi de John Snow del brot de còlera de 1853-54 a Londres. En aquella època, molts metges creien que el còlera era causat per un "aire dolent", però Snow va creure que era una malaltia infecciosa, potser propagada per aigua potable en aigües residuals. Per posar a prova aquesta idea, Snow va aprofitar el que ara anomenaríem un experiment natural. Compara els percentatges de còlera de les llars ateses per dues companyies d'aigua diferents: Lambeth i Southwark & Vauxhall. Aquestes empreses van servir a famílies similars, però van diferir d'una manera important: en 1849-uns pocs anys abans de l'inici de l'epidèmia-Lambeth va moure el seu punt d'admissió aigües amunt de la principal depuració d'aigües residuals a Londres, mentre que Southwark i Vauxhall van deixar la seva canonada d'entrada aigües avall abocament d'aigües residuals Quan Snow va comparar les taxes de mortalitat del còlera a les llars ateses per les dues companyies, va descobrir que els clients de Southwark & Vauxhall -la companyia que provava clients d'aigua contaminada amb les aigües residuals- tenien 10 vegades més probabilitats de morir del còlera. Aquest resultat proporciona evidència científica sòlida per l'argument de Snow sobre la causa del còlera, tot i que no es basa en una mostra representativa de persones a Londres.
Tanmateix, les dades d'aquestes dues companyies no serien ideals per respondre una pregunta diferent: quina era la prevalença del còlera a Londres durant el brot? Per a aquesta segona pregunta, que també és important, seria molt millor tenir una mostra representativa de persones de Londres.
Tal com il·lustra el treball de Snow, hi ha algunes preguntes científiques per a les quals les dades no representatives poden ser molt efectives i hi ha altres per a les quals no és adequat. Una forma crua de distingir aquests dos tipus de preguntes és que algunes preguntes són sobre comparacions dins de la mostra i algunes sobre generalizacions fora de la mostra. Aquesta distinció pot ser il·lustrada amb un altre estudi clàssic en epidemiologia: el British Doctors Study, que va tenir un paper important a l'hora de demostrar que fumar causa càncer. En aquest estudi, Richard Doll i A. Bradford Hill van seguir aproximadament 25.000 metges homes durant diversos anys i van comparar les taxes de mortals en funció de la quantitat que van fumar quan va començar l'estudi. Doll and Hill (1954) trobar una forta relació d'exposició-resposta: com més persones fumaven, més probabilitats de morir per càncer de pulmó. Per descomptat, no seria aconsellable estimar la prevalença del càncer de pulmó entre tots els britànics a partir d'aquest grup de metges, però la comparació dins de la mostra encara proporciona evidència que el tabaquisme produeix càncer de pulmó.
Ara que he il·lustrat la diferència entre les comparacions dins de la mostra i les generalizacions fora de la mostra, hi ha dues advertències en ordre. Primer, naturalment, hi ha dubtes sobre fins a quin punt una relació que es troba dins d'una mostra de metges britànics masculins també tindrà una mostra de dones, metges britànics o treballadors britànics o treballadors de fàbrica alemanya o molts altres grups. Aquestes preguntes són interessants i importants, però són diferents de les preguntes sobre l'extensió en què podem generalitzar d'una mostra a una població. Tingueu en compte, per exemple, que probablement sospiteu que la relació entre el tabaquisme i el càncer que es trobava en metges britànics masculins probablement serà similar en aquests altres grups. La vostra capacitat per fer aquesta extrapolació no prové del fet que els metges britànics masculins són una mostra aleatòria probabilística de qualsevol població; més aviat, prové de la comprensió del mecanisme que vincula el tabaquisme i el càncer. Per tant, la generalització d'una mostra a la població de la qual es dibuixa és una qüestió fonamentalment estadística, però les preguntes sobre la transportabilitat del patró que es troben en un grup a un altre grup són en gran part un tema no (Pearl and Bareinboim 2014; Pearl 2015) .
En aquest punt, un escèptic podria assenyalar que la majoria dels patrons socials són probablement menys transportables entre grups que la relació entre el tabaquisme i el càncer. I estic d'acord. L'abast en què hauríem d'esperar que els patrons siguin transportables és en definitiva una qüestió científica que s'ha de decidir sobre la base de la teoria i l'evidència. No s'hauria d'assumir automàticament que els patrons siguin transportables, però tampoc no s'hauria d'assumir que no seran transportables. Aquestes qüestions una mica abstractes sobre la transportabilitat us seran familiars si heu seguit els debats sobre quants investigadors poden aprendre sobre el comportament humà mitjançant l'estudi dels estudiants de pregrau (Sears 1986, [@henrich_most_2010] ) . Malgrat aquests debats, però, seria poc raonable dir que els investigadors no poden aprendre res des de l'estudiantat d'estudiants de pregrau.
La segona advertència és que la majoria dels investigadors amb dades no representatius no són tan acurats com Snow o Doll i Hill. Així doncs, per il·lustrar què pot passar quan els investigadors intenten fer una generalització fora de la mostra de dades no representatives, m'agradaria explicar-vos sobre un estudi sobre les eleccions parlamentàries alemanyes d'Andranik Tumasjan i els seus col·legues (2010) . Analitzant més de 100.000 tweets, van trobar que la proporció de tweets que esmentaven un partit polític coincidien amb la proporció de vots que el partit va rebre en les eleccions parlamentàries (figura 2.3). Dit d'una altra manera, sembla que les dades de Twitter, essencialment gratuïtes, podrien substituir les enquestes d'opinió pública tradicionals, que són cares per la seva èmfasi en les dades representatives.
Donat el que probablement ja sapigueu sobre Twitter, hauria de ser immediatament escèptic d'aquest resultat. Els alemanys a Twitter el 2009 no eren una mostra aleatòria probabilística de votants alemanys, i els partidaris d'alguns partits podrien tweetar sobre la política molt més sovint que els partidaris d'altres partits. Per tant, sembla sorprenent que tots els possibles prejudicis que es podrien imaginar d'alguna manera anul·larien perquè aquestes dades reflectissin directament els votants alemanys. De fet, els resultats a Tumasjan et al. (2010) va resultar ser massa bo per ser veritat. Un treball de seguiment d'Andreas Jungherr, Pascal Jürgens i Harald Schoen (2012) assenyalar que l'anàlisi original havia exclòs al partit polític que havia rebut la majoria de les mencions a Twitter: el Partit Pirata, un partit petit que lluita contra la regulació governamental d'Internet. Quan el Partit Pirata va ser inclòs en l'anàlisi, les esmentades de Twitter es converteixen en un terrible predictor dels resultats de les eleccions (figura 2.3). Tal com mostra aquest exemple, l'ús de grans fonts de dades no representatives per fer generalizacions fora de mostra pot anar molt malament. A més, heu de tenir en compte que el fet que hi haguessin 100.000 tweets era bàsicament irrellevant: moltes dades no representatives encara no són representatives, un tema que tornaré al capítol 3 quan parlo d'enquestes.
Per concloure, moltes grans fonts de dades no són mostres representatives d'una població ben definida. Per a preguntes que requereixen generalitzar resultats de la mostra a la població de la qual es va dibuixar, es tracta d'un problema greu. Però per a preguntes sobre comparacions dins de la mostra, les dades no representatives poden ser poderoses, sempre que els investigadors siguin clars sobre les característiques de la seva mostra i recolzen afirmacions sobre la transportabilitat amb proves teòriques o empíriques. De fet, la meva esperança és que les grans fonts de dades permetin als investigadors fer més comparacions dins de la mostra en molts grups no representatius, i la meva idea és que les estimacions de molts grups diferents faran més per avançar en la investigació social que una estimació única d'una prova aleatòria mostra.