Icke-representativa data är dåliga för generaliseringar utanför urvalet, men kan vara ganska användbara för jämförelser mellan prov.
Vissa sociala forskare är vana vid att arbeta med data som kommer från ett probabilistiskt slumpmässigt urval från en väldefinierad befolkning, till exempel alla vuxna i ett visst land. Denna typ av data kallas representativ data eftersom provet "representerar" den större befolkningen. Många forskareprisrepresentativa data och vissa representativa data är synonymt med sträng vetenskap medan icke representativa data är synonymt med slumparti. I de mest extrema fallen verkar vissa skeptiker tro att ingenting kan läras av icke-representativa uppgifter. Om det är sant, verkar det här allvarligt begränsa vad som kan läras från stora datakällor eftersom många av dem är ickerepresentativa. Lyckligtvis är dessa skeptiker bara delvis rätt. Det finns vissa forskningsmål för vilka icke-representativa uppgifter tydligt inte är väl lämpade, men det finns andra som det kan vara ganska användbart för.
För att förstå denna skillnad, låt oss överväga en vetenskaplig klassiker: John Snows studie av kolerautbrott i 1853-54 i London. Vid den tidpunkten trodde många läkare att kolera orsakades av "dålig luft", men Snow trodde att det var en smittsam sjukdom som kanske spreds av avloppsvattent dricksvatten. För att testa denna idé utnyttjade Snow vad vi nu kan kalla ett naturligt experiment. Han jämförde kolerahalten av hushåll som betjänades av två olika vattenföretag: Lambeth och Southwark & Vauxhall. Dessa företag betjänade liknande hushåll, men de skilde sig på ett viktigt sätt: 1849-några år innan epidemin började-Lambeth flyttade sin intagspunkt uppströms från den huvudsakliga avloppsavloppet i London, medan Southwark & Vauxhall lämnade sina inloppsrör i närheten av avloppsavlopp. När Snow jämförde dödsräntorna från kolera i hushållen som tjänstgjordes av de två företagen fann han att kunderna i Southwark & Vauxhall - företaget som gav kunderna avloppsvattnat vatten - var 10 gånger mer benägna att dö av kolera. Detta resultat ger starkt vetenskapligt bevis för Snows argument om orsaken till kolera, även om det inte är baserat på ett representativt urval av människor i London.
Uppgifterna från dessa två företag skulle emellertid inte vara idealiska för att svara på en annan fråga: vad var förekomsten av kolera i London under utbrottet? För den andra frågan, vilket också är viktigt, skulle det vara mycket bättre att få ett representativt urval av människor från London.
Som Snows arbete illustrerar finns det några vetenskapliga frågor för vilka icke-representativa data kan vara ganska effektiva och det finns andra som det inte är väl lämpat för. Ett oerhört sätt att skilja dessa två sorts frågor är att vissa frågor handlar om jämförelser mellan samplar och vissa handlar om generaliseringar som inte är i urvalet. Denna distinktion kan ytterligare illustreras av en annan klassisk studie i epidemiologi: British Doctors Study, som spelade en viktig roll för att visa att rökning orsakar cancer. I denna studie följde Richard Doll och A. Bradford Hill cirka 25 000 manliga läkare i flera år och jämförde deras dödsräntor baserat på det belopp som de röktes när studien började. Doll and Hill (1954) hittade ett starkt exponerings-förhållande: ju mer folk röka, desto mer troliga skulle de dö av lungcancer. Naturligtvis skulle det vara oklokt att uppskatta förekomsten av lungcancer bland alla brittiska människor baserat på denna grupp manliga läkare, men jämförelsen mellan prov ger fortfarande bevis för att rökning orsakar lungcancer.
Nu när jag har illustrerat skillnaden mellan in-sample jämförelser och generaliseringar utanför urvalet, är två avgöranden i ordning. För det första finns det naturliga frågor om i vilken utsträckning ett förhållande som innehar ett urval av manliga brittiska läkare också kommer att innehålla ett urval av kvinnliga, brittiska läkare eller manliga brittiska fabriksarbetare eller kvinnliga tyska fabriksarbetare eller många andra grupper. Dessa frågor är intressanta och viktiga, men de skiljer sig från frågor om hur mycket vi kan generalisera från ett prov till en befolkning. Lägg märke till att du förmodligen misstänker att förhållandet mellan rökning och cancer som hittades hos manliga brittiska läkare kommer förmodligen att likna i dessa andra grupper. Din förmåga att göra denna extrapolering kommer inte utifrån det faktum att manliga brittiska läkare är ett probabilistiskt slumpmässigt urval från någon befolkning; Det kommer snarare från en förståelse av mekanismen som förbinder rökning och cancer. Sålunda är generaliseringen från ett prov till befolkningen från vilken det är en stor del en statistisk fråga, men frågor om transportförmågan hos mönster som finns i en grupp till en annan grupp är i stor utsträckning en icke-statistisk fråga (Pearl and Bareinboim 2014; Pearl 2015) .
Vid denna tidpunkt kan en skeptiker påpeka att de flesta sociala mönster är troligen mindre transporterbara över grupper än förhållandet mellan rökning och cancer. Och jag håller med om. I vilken utsträckning vi borde förvänta oss att mönster ska transporteras är i sista hand en vetenskaplig fråga som måste beslutas baserat på teori och bevis. Det bör inte automatiskt antas att mönster kommer att kunna transporteras, men det bör inte antas att de inte kommer att kunna transporteras. Dessa lite abstrakta frågor om transportbarhet kommer att vara bekant för dig om du har följt debatterna om hur mycket forskare kan lära sig om mänskligt beteende genom att studera grundutbildade studenter (Sears 1986, [@henrich_most_2010] ) . Trots dessa debatter är det dock orimligt att säga att forskare inte kan lära sig någonting från att studera studenter.
Det andra tillvägagångssättet är att de flesta forskare med icke-representativa data inte är så försiktiga som Snow or Doll and Hill. Så, för att illustrera vad som kan gå fel när forskare försöker göra en out-of-sample-generalisering från icke-representativa data, skulle jag vilja berätta om en studie av det tyska riksdagsvalet 2009 av Andranik Tumasjan och kollegor (2010) . Genom att analysera mer än 100 000 tweets fann de att andelen tweets som nämnde ett politiskt parti matchade andelen röster som partiet fick i riksdagsvalet (figur 2.3). Det visade sig med andra ord att Twitter-data, som var väsentligen gratis, kunde ersätta traditionella opinionsundersökningar, vilka är dyra på grund av deras betoning på representativa data.
Med tanke på vad du förmodligen redan vet om Twitter, borde du genast vara skeptisk till detta resultat. Tyskare på Twitter år 2009 var inte ett probabilistiskt slumpmässigt urval av tyska väljare, och anhängare av vissa partier kan diskutera politiken mycket oftare än andra partis anhängare. Således verkar det förvånande att alla möjliga företeelser som du kan föreställa dig på något sätt skulle avbryta så att dessa uppgifter skulle återspeglas direkt av tyska väljare. Faktum är att resultaten i Tumasjan et al. (2010) visade sig vara för bra för att vara sant. Ett uppföljande papper av Andreas Jungherr, Pascal Jürgens och Harald Schoen (2012) påpekade att den ursprungliga analysen hade uteslutit det politiska partiet som faktiskt hade fått flest anmärkningar på Twitter: Piratpartiet, en liten fest som bekämpar regeringens reglering av Internet. När piratpartiet ingick i analysen blir Twitter nämnder en fruktansvärd prediktor av valresultat (figur 2.3). Såsom det här exemplet illustrerar kan det vara mycket fel att använda icke-representativa stora datakällor för att göra generaliseringar som inte är representativa. Du bör också märka att det faktum att det fanns 100 000 tweets var i grunden irrelevant: massor av icke representativa data är fortfarande icke-representativ, ett tema som jag återkommer till i kapitel 3 när jag diskuterar undersökningar.
Sammanfattningsvis är många stora datakällor inte representativa prover från någon väldefinierad population. För frågor som kräver generaliserande resultat från provet till befolkningen från vilket det drogs, är detta ett allvarligt problem. Men för frågor om jämförelser mellan sammankomster kan icke-representativa data vara kraftfulla, så länge som forskare är tydliga om egenskaperna hos deras prov och stödanspråk på transportbarhet med teoretiskt eller empiriskt bevis. Faktum är att jag hoppas att stora datakällor gör det möjligt för forskare att göra mer jämförelser mellan olika grupper i många icke-representativa grupper och min gissning är att uppskattningar från många olika grupper kommer att göra mer för att främja social forskning än en enda uppskattning från en probabilistisk slumpmässig slump prov.