Ikke-representative data er dårlige for generelle generaliseringer utenom prøven, men kan være ganske nyttige for sammenligninger mellom prøver.
Noen samfunnsvitenskapsmenn er vant til å jobbe med data som kommer fra et probabilistisk tilfeldig utvalg fra en veldefinert befolkning, for eksempel alle voksne i et bestemt land. Denne typen data kalles representativ data fordi prøven "representerer" den større befolkningen. Mange forskere pris representativ data, og til noen representative data er synonymt med streng vitenskap mens ikke-representativ data er synonymt med sloppiness. På de mest ekstreme, synes noen skeptikere å tro at ingenting kan læres av ikke-representativ data. Hvis det er sant, ser dette ut til å begrense det som kan læres av store datakilder fordi mange av dem er ikke representative. Heldigvis er disse skeptikene bare delvis rett. Det er visse forskningsmål som ikke-representativ data tydeligvis ikke er velegnet til, men det er andre som det faktisk kan være ganske nyttig.
For å forstå dette skillet, la oss vurdere en vitenskapelig klassiker: John Snows studie av 1853-54 kolerautbrudd i London. På den tiden trodde mange leger at kolera var forårsaket av "dårlig luft", men Snø trodde at det var en smittsom sykdom, som kanskje spredte seg av avløpsvann. For å teste denne ideen tok snø seg fordel av det vi nå kan kalle et naturlig eksperiment. Han sammenlignet kolera-tallene for husholdninger som ble betjent av to forskjellige vannforetak: Lambeth og Southwark & Vauxhall. Disse selskapene tjente lignende husholdninger, men de endte på en viktig måte: i 1849 - noen få år før epidemien begynte - flyttet Lambeth inntakspunktet oppstrøms fra hovedavløpet i London, mens Southwark & Vauxhall forlot sitt inntaksledning nedstrøms fra avløpsavløp. Da snø sammenlignet dødsratene fra kolera i husholdninger som ble betjent av de to selskapene, fant han at kunder i Southwark & Vauxhall - selskapet som leverte avløpsvannet til vann - var 10 ganger mer sannsynlig å dø av kolera. Dette resultatet gir sterk vitenskapelig bevis for Snøs argument om årsaken til kolera, selv om den ikke er basert på et representativt utvalg av mennesker i London.
Dataene fra disse to selskapene ville imidlertid ikke være ideelle for å svare på et annet spørsmål: Hva var utbredelsen av kolera i London under utbruddet? For det andre spørsmålet, som også er viktig, ville det være mye bedre å få et representativt utvalg av mennesker fra London.
Som snøens arbeid illustrerer, er det noen vitenskapelige spørsmål for hvilke ikke-representative data kan være ganske effektive, og det er andre som det ikke passer godt til. En grov måte å skille disse to typer spørsmålene på er at noen spørsmål handler om innsamlingssammenligninger, og noen handler om generelle generaliseringer utenom prøven. Dette skillet kan illustreres ytterligere ved en annen klassisk studie i epidemiologi: British Doctors Study, som spilte en viktig rolle i å demonstrere at røyking forårsaker kreft. I denne studien fulgte Richard Doll og A. Bradford Hill ca. 25 000 mannlige leger i flere år og sammenlignet deres dødsrate basert på mengden de røykt da studien begynte. Doll and Hill (1954) fant et sterkt eksponeringsresponsforhold: jo mer folk røykt, desto mer sannsynlig skulle de dø av lungekreft. Selvfølgelig vil det være uklokt å estimere utbredelsen av lungekreft blant alle britiske folk basert på denne gruppen mannlige leger, men sammenligningen mellom prøver gir fortsatt bevis på at røyking forårsaker lungekreft.
Nå som jeg har illustrert forskjellen mellom sammenligninger mellom prøver og generelle generaliseringer, er to advarsler i orden. For det første er det naturlig spørsmål om hvorvidt et forhold som holder i et utvalg av mannlige britiske leger, også vil inneholde et utvalg av kvinnelige, britiske leger eller mannlige britiske fabrikkarbeidere eller kvinnelige tyske fabrikkarbeidere eller mange andre grupper. Disse spørsmålene er interessante og viktige, men de er forskjellige fra spørsmål om hvorvidt vi kan generalisere fra et utvalg til en befolkning. Legg merke til at du for eksempel mistenker at forholdet mellom røyking og kreft som ble funnet hos mannlige britiske leger, sannsynligvis vil være lik i disse andre gruppene. Din evne til å gjøre denne ekstrapoleringen kommer ikke fra det faktum at mannlige britiske leger er et probabilistisk tilfeldig utvalg fra enhver populasjon; snarere kommer det fra en forståelse av mekanismen som forbinder røyking og kreft. Dermed er generaliseringen fra en prøve til befolkningen derfra tegnet et stort sett et statistisk problem, men spørsmål om transportbarhet av mønster funnet i en gruppe til en annen gruppe er i stor grad et ikke-statistisk problem (Pearl and Bareinboim 2014; Pearl 2015) .
På dette tidspunktet kan en skeptiker påpeke at de fleste sosiale mønstre er sannsynligvis mindre transportable over grupper enn forholdet mellom røyking og kreft. Og jeg er enig. I hvilken grad vi bør forvente at mønstre skal transporteres, er det til slutt et vitenskapelig spørsmål som må avgjøres basert på teori og bevis. Det skal ikke automatisk antas at mønstre blir transportable, men det skal heller ikke antas at de ikke kan transporteres. Disse litt abstrakte spørsmålene om transportbarhet vil være kjent for deg hvis du har fulgt debattene om hvor mye forskere kan lære om menneskelig atferd ved å studere studenter (Sears 1986, [@henrich_most_2010] ) . Til tross for disse debattene vil det imidlertid være urimelig å si at forskere ikke kan lære noe fra å studere studenter.
Den andre advarselen er at de fleste forskere med ikke-representativ data ikke er så forsiktige som Snø eller Dukke og Høyd. For å illustrere hva som kan gå galt når forskere forsøker å gjøre en generalisering utenfor representativitet fra ikke-representative data, vil jeg gjerne fortelle deg om en studie av det tyske parlamentarisk 2009 av Andranik Tumasjan og kolleger (2010) . Ved å analysere mer enn 100 000 tweets fant de at andelen tweets som nevner et politisk parti, stemte overens med andelen stemmer som partiet mottok i parlamentsvalget (figur 2.3). Det viste seg med andre ord at Twitter-data, som egentlig var gratis, kunne erstatte tradisjonelle opinionsundersøkelser, som er dyre på grunn av deres vekt på representativ data.
Gitt hva du sikkert allerede vet om Twitter, bør du umiddelbart være skeptisk til dette resultatet. Tyskere på Twitter i 2009 var ikke en probabilistisk tilfeldig utvalg av tyske velgere, og tilhørere av noen partier kan snakke om politikk mye oftere enn supportere til andre partier. Således virker det overraskende at alle mulige forstyrrelser som du kan forestille deg, ville på en eller annen måte avbryte slik at disse dataene ville være direkte reflekterende av tyske velgerne. Faktisk er resultatene i Tumasjan et al. (2010) viste seg å være for godt til å være sant. Et oppfølgingspapir av Andreas Jungherr, Pascal Jürgens og Harald Schoen (2012) påpekte at den opprinnelige analysen hadde utelukket det politiske partiet som faktisk hadde mottatt de mest nevnte på Twitter: Piratpartiet, en liten fest som bekjemper regjeringens regelverk av Internett. Når Piratpartiet ble tatt med i analysen, blir Twitter nevnt en forferdelig prediktor for valgresultatene (figur 2.3). Som dette eksempelet illustrerer, kan det være veldig galt å bruke ikke-representative store datakilder for å utføre generaliseringer utenom prøven. Du bør også legge merke til at det faktum at det var 100 000 tweets, var i utgangspunktet irrelevant. Mange ikke-representative data er fortsatt ikke-representative, et tema som jeg kommer tilbake til i kapittel 3 når jeg diskuterer undersøkelser.
Til slutt er mange store datakilder ikke representative prøver fra noen veldefinerte populasjoner. For spørsmål som krever generalisering av resultater fra prøven til befolkningen fra hvilken den ble tegnet, er dette et alvorlig problem. Men for spørsmål om sammenligninger mellom prøver, kan ikke-representative data være kraftige, så lenge forskere er klare om egenskapene til prøven deres og støtte krav om transportbarhet med teoretisk eller empirisk bevis. Faktisk er mitt håp at store datakilder vil gjøre det mulig for forskere å gjøre flere sammenlikninger i utvalg i mange ikke-representative grupper, og min gjetning er at estimater fra mange forskjellige grupper vil gjøre mer for å fremme sosial forskning enn et enkelt estimat fra en probabilistisk tilfeldig prøve.