Ikke-repræsentative data er dårlige for generaliseringer uden for stikprøven, men kan være ganske nyttige til sammenligninger inden for stikprøven.
Nogle socialforskere er vant til at arbejde med data, der kommer fra en probabilistisk tilfældig prøve fra en veldefineret befolkning, som for eksempel alle voksne i et bestemt land. Denne type data kaldes repræsentative data, fordi prøven "repræsenterer" den større befolkning. Mange forskere pris repræsentative data, og til nogle repræsentative data er synonymt med streng videnskab, mens ikke-repræsentative data er synonymt med slumring. I de mest ekstreme tilfælde synes nogle skeptikere at tro på, at intet kan læres af ikke-repræsentative data. Hvis det er sandt, synes dette at begrænse det, der kan læres af store datakilder, fordi mange af dem er ikke repræsentative. Heldigvis er disse skeptikere kun delvist rigtige. Der er visse forskningsmål, for hvilke ikke-repræsentative data tydeligvis ikke er velegnede, men der er andre, som det faktisk kan være ganske nyttigt.
For at forstå denne sondring, lad os overveje en videnskabelig klassiker: John Snows undersøgelse af 1853-54-koleraudbruddet i London. På det tidspunkt troede mange læger, at kolera var forårsaget af "dårlig luft", men Sne troede på, at det var en smitsom sygdom, som måske spredtes af spildevandslak. For at teste denne ide tog sne ud af det, vi måske nu kalder et naturligt eksperiment. Han sammenlignede kolera satser for husholdninger betjent af to forskellige vandvirksomheder: Lambeth og Southwark & Vauxhall. Disse virksomheder tjente lignende husstande, men de var forskellige på en vigtig måde: i 1849 - et par år før epidemien begyndte - flyttede Lambeth indtagspunktet opstrøms for den største kloakafladning i London, mens Southwark & Vauxhall forlod deres indsugningsrør nedstrøms fra spildevand udledning. Da sne sammenlignede dødsraterne fra kolera i husholdninger, der blev betjent af de to selskaber, fandt han, at Southwark & Vauxhall-kunderne - selskabet, der leverede afløbsspildevand - var 10 gange mere tilbøjelige til at dø af kolera. Dette resultat giver stærkt videnskabeligt bevis for Snes argument om årsagen til kolera, selvom den ikke er baseret på en repræsentativ stikprøve af mennesker i London.
Dataene fra disse to virksomheder ville imidlertid ikke være ideelle til at besvare et andet spørgsmål: Hvad var forekomsten af kolera i London under udbruddet? For det andet spørgsmål, hvilket også er vigtigt, ville det være meget bedre at have en repræsentativ stikprøve af mennesker fra London.
Som Sne's arbejde illustrerer, er der nogle videnskabelige spørgsmål, hvor ikke-repræsentative data kan være ret effektive, og der er andre, som det ikke er velegnet til. En rå måde at skelne mellem disse to slags spørgsmål er, at nogle spørgsmål drejer sig om stikprøve sammenligninger, og nogle handler om generelle generaliseringer uden for stikprøven. Denne sondring kan illustreres yderligere af et andet klassisk studie i epidemiologi: The British Doctors Study, som spillede en vigtig rolle i at demonstrere, at rygning forårsager cancer. I dette studie fulgte Richard Doll og A. Bradford Hill cirka 25.000 mandlige læger i flere år og sammenlignede deres dødsrater baseret på det beløb, de røg, da undersøgelsen begyndte. Doll og Hill (1954) fandt et stærkt eksponerings-responssammenhæng: jo tungere folk røget, desto mere sandsynligt var de at dø af lungekræft. Det ville selvfølgelig være uklogt at estimere forekomsten af lungekræft blandt alle britiske folk baseret på denne gruppe af mandlige læger, men sammenligningen mellem prøverne giver stadig tegn på, at rygning forårsager lungekræft.
Nu hvor jeg har illustreret forskellen mellem sammenligninger inden for stikprøve og generaliseringer uden for stikprøven, er to advarsler i orden. For det første er der naturligvis spørgsmål om, i hvilket omfang et forhold, der ligger inden for en stikprøve af mandlige britiske læger, også vil indeholde en prøve af kvindelige, britiske læger eller mandlige britiske fabriksarbejdere eller kvindelige tyske fabriksarbejdere eller mange andre grupper. Disse spørgsmål er interessante og vigtige, men de adskiller sig fra spørgsmål om, i hvilket omfang vi kan generalisere fra en prøve til en befolkning. Bemærk, at du formentlig har mistanke om, at forholdet mellem rygning og kræft, der blev fundet hos mandlige britiske læger, sandsynligvis vil være ens i disse andre grupper. Din evne til at gøre denne ekstrapolering kommer ikke ud fra, at mandlige britiske læger er en probabilistisk tilfældig prøve fra enhver befolkning; Det kommer snarere fra en forståelse af mekanismen, der forbinder rygning og kræft. Således er generaliseringen fra en prøve til den befolkning, hvorfra der er tegnet, et stort set et statistisk problem, men spørgsmål om transportabiliteten af mønster fundet i en gruppe til en anden gruppe er stort set et ikke-statistisk problem (Pearl and Bareinboim 2014; Pearl 2015) .
På dette tidspunkt kan en skeptiker påpege, at de fleste sociale mønstre sandsynligvis er mindre transportable over grupper end forholdet mellem rygning og kræft. Og jeg er enig. I hvilket omfang vi bør forvente, at mønstre kan transporteres, er i sidste ende et videnskabeligt spørgsmål, der skal afgøres ud fra teori og bevis. Det bør ikke automatisk antages, at mønstre vil kunne transporteres, men det må heller ikke antages, at de ikke kan transporteres. Disse lidt abstrakte spørgsmål om transportabilitet vil være kendt for dig, hvis du har fulgt debatten om, hvor meget forskere kan lære om menneskelig adfærd ved at studere bachelorstuderende (Sears 1986, [@henrich_most_2010] ) . På trods af disse debatter vil det imidlertid være urimeligt at sige, at forskere ikke kan lære noget af at studere bachelorstuderende.
Den anden advarsel er, at de fleste forskere med ikke-repræsentative data ikke er så forsigtige som Sne eller Dukke og Hill. For at illustrere hvad der kan gå galt, når forskere forsøger at lave en generalisering uden for repræsentation fra ikke-repræsentative data, vil jeg gerne fortælle dig om en undersøgelse af det tyske parlamentarisk 2009 af Andranik Tumasjan og kolleger (2010) . Ved at analysere mere end 100.000 tweets fandt de, at andelen tweets, der nævner et politisk parti, matchede den andel stemmer, partiet modtog i parlamentsvalget (figur 2.3). Det viste sig med andre ord, at Twitter-data, som i det væsentlige var gratis, kunne erstatte traditionelle opinionsundersøgelser, som er dyre på grund af deres vægt på repræsentative data.
Givet hvad du sikkert allerede ved om Twitter, skal du straks være skeptisk over for dette resultat. Tyskere på Twitter i 2009 var ikke en probabilistisk tilfældig stikprøve af tyske vælgere, og tilhængere af nogle partier kan måske tweetere om politik meget oftere end tilhængere af andre parter. Således forekommer det overraskende, at alle de mulige forstyrrelser, som man kunne forestille sig, på en eller anden måde ville annullere, så disse data ville være direkte reflekterende over for tyske vælgere. Faktisk er resultaterne i Tumasjan et al. (2010) viste sig at være for godt til at være sandt. Et opfølgningsoplæg af Andreas Jungherr, Pascal Jürgens og Harald Schoen (2012) påpegede, at den oprindelige analyse havde udelukket det politiske parti, der rent faktisk havde fået de mest omtalte på Twitter: Piratpartiet, en lille parti, der bekæmper offentlig regulering af internettet. Når Piratpartiet blev medtaget i analysen, bliver Twitter-navne en forfærdelig forudsigelse for valgresultatet (figur 2.3). Som dette eksempel illustrerer, kan det være meget forkert at bruge ikke-repræsentative store datakilder til at udføre generelle generaliseringer. Du skal også bemærke, at det faktum, at der var 100.000 tweets, var stort set irrelevant: masser af ikke-repræsentative data er stadig ikke repræsentative, et tema, som jeg vender tilbage til i kapitel 3, når jeg diskuterer undersøgelser.
Til konklusion er mange store datakilder ikke repræsentative prøver fra nogle veldefinerede populationer. For spørgsmål, der kræver generalisering af resultater fra prøven til befolkningen, hvorfra den blev tegnet, er dette et alvorligt problem. Men for spørgsmål om stikprøve sammenligninger kan ikke-repræsentative data være magtfulde, så længe forskere er klare over egenskaberne af deres stikprøve og støtte krav om transportabilitet med teoretiske eller empiriske beviser. Faktisk er mit håb, at store datakilder vil gøre det muligt for forskere at foretage flere stikprøve sammenligninger i mange ikke-repræsentative grupper, og mit gæt er, at estimater fra mange forskellige grupper vil gøre mere for at fremme social forskning end et enkelt skøn fra en probabilistisk tilfældig prøve.