Nisu reprezentativni podaci loši za out-of-uzorak generalizacije, ali mogu biti vrlo korisni za usporedbu unutar uzorka.
Neki su društveni znanstvenici navikli raditi s podacima koji dolaze iz probabilističkog slučajnog uzorka iz dobro definirane populacije, kao što su svi odrasli pojedinci u određenoj zemlji. Ova vrsta podataka naziva se reprezentativnim podacima jer uzorak "predstavlja" veću populaciju. Mnogi istraživači nagrađuju reprezentativne podatke, a nekim, reprezentativnim podacima je sinonim za rigoroznu znanost, dok su nereprezentativni podaci sinonim za neurednost. Na krajnjoj razini, čini se da neki skeptici vjeruju da se ništa ne može naučiti iz neizrečenih podataka. Ako je istina, to bi činilo da ogromno ograničava ono što se može naučiti iz velikih izvora podataka, jer mnogi od njih nisu reprezentativni. Srećom, ovi skeptici su samo djelomično u pravu. Postoje određeni ciljevi istraživanja za koje nedostajući podaci očito nisu prikladni, ali postoje i drugi za koje bi mogli biti vrlo korisni.
Da bismo razumjeli ovu razliku, razmotrimo znanstvenu klasiku: John Snowov studij o epidemiji kolere 1853-54 u Londonu. U to je vrijeme mnogi liječnici vjerovali da je kolera uzrokovana "lošim zrakom", no Sni je vjerovao da je to zarazna bolest, možda proširena pitkom vodom. Da bi se testirala ova ideja, Sni je iskoristio ono što sada možemo nazvati prirodnim eksperimentom. Usporedio je kolere stope kućanstava koje su služile dvije različite tvrtke za vodu: Lambeth i Southwark & Vauxhall. Te su tvrtke služile sličnim kućanstvima, ali su se razlikovale na jedan važan način: 1849. - nekoliko godina prije početka epidemije - Lambeth je preselio svoju točku usisavanja uzvodno od glavnog ispusta otpadnih voda u Londonu, dok su Southwark & Vauxhall napustili svoju usisnu cijev nizvodno od ispuštanje kanalizacije. Kada je Snow usporedio stope smrtnosti od kolere u kućanstvima koje su služile dvije tvrtke, otkrio je da su kupci tvrtke Southwark & Vauxhall, tvrtke koja je pružala kupcima kanaliziranu vodu, imala 10 puta veću vjerojatnost da će umrijeti od kolere. Ovaj rezultat daje snažan znanstveni dokaz za Sjeverni argument o uzroku kolere, iako se ne temelji na reprezentativnom uzorku ljudi u Londonu.
Podaci iz ove dvije tvrtke, međutim, ne bi bili idealni za odgovaranje na drugačije pitanje: koja je bila pojava kolere u Londonu tijekom izbijanja? Za to drugo pitanje, koje je također važno, bilo bi puno bolje imati reprezentativni uzorak ljudi iz Londona.
Kao što Snowov rad ilustrira, postoje neka znanstvena pitanja za koja nedostajući podaci mogu biti vrlo učinkoviti i postoje i drugi za koje nije prikladan. Jedan neprobojni način razlikovanja ove dvije vrste pitanja je da se neka pitanja odnose na usporedbe unutar uzorka, a neke su o generalizacijama izvan uzorka. Ova se razlika može dodatno ilustrirati još jednim klasičnim studijama u epidemiologiji: Britanskom liječničkom studiju, koja je odigrala važnu ulogu u dokazivanju da pušenje uzrokuje rak. U ovoj studiji, Richard Doll i A. Bradford Hill pratili su približno 25.000 muških liječnika nekoliko godina i usporedili njihove stope smrtnosti na temelju iznosa koji su pušili kad je studija započela. Doll and Hill (1954) pronašao je snažan odnos izloženosti i odgovora: što je više ljudi pušilo, to je vjerojatnije da će umrijeti od raka pluća. Naravno, bilo bi pametno procijeniti učestalost raka pluća među svim britanskim ljudima na temelju ove skupine muških liječnika, ali usporedba unutar uzorka još uvijek dokazuje da pušenje uzrokuje rak pluća.
Sada kada sam ilustrirala razliku između usporedbi unutar uzorka i općih uzoraka, dva su upozorenja u redu. Prvo, postoji prirodno pitanje o tome u kojoj mjeri odnos koji se nalazi u uzorku muških britanskih liječnika također će se nalaziti u uzorku žena, britanskih liječnika ili muških britanskih tvornica ili ženskih tvorničkih radnika ili mnogih drugih skupina. Ova su pitanja zanimljiva i važna, ali se razlikuju od pitanja o mjeri u kojoj možemo generalizirati od uzorka do stanovništva. Napominjemo, na primjer, da vjerojatno sumnjate da će odnos između pušenja i raka koji je pronađen kod muških britanskih liječnika vjerojatno sličan u tim drugim skupinama. Vaša sposobnost da izvadite tu ekstrapolaciju ne proizlazi iz činjenice da su muški britanski liječnici probabilistički slučajni uzorak iz bilo koje populacije; naprotiv, dolazi iz razumijevanja mehanizma koji povezuje pušenje i rak. Dakle, generalizacija iz uzorka do populacije iz koje je izvučena uvelike je statističko pitanje, ali pitanja o transportabilnosti uzorka pronađenih u jednoj grupi u drugu skupinu uglavnom su nekstatistička pitanja (Pearl and Bareinboim 2014; Pearl 2015) .
U ovom trenutku, skeptik bi mogao ukazati na to da je većina društvenih obrazaca vjerojatno manje transportabilna po skupinama od odnosa između pušenja i raka. I slažem se s tim. Količina u kojoj bi trebalo očekivati da se uzorci mogu transportirati u konačnici je znanstveno pitanje koje se mora odlučiti na temelju teorije i dokaza. Ne bi se trebalo automatski pretpostaviti da će uzorci biti transportable, ali niti treba pretpostaviti da neće biti transportable. Ta će vam donekle apstraktna pitanja o transportu biti poznata ako ste slijedili rasprave o tome koliko istraživača može naučiti o ljudskom ponašanju studiranjem preddiplomskih studenata (Sears 1986, [@henrich_most_2010] ) . Unatoč ovim raspravama, bilo bi nerazumno reći da istraživači ne mogu naučiti ništa od studiranja preddiplomskih studenata.
Drugi upozorenje je da većina istraživača s nereprezentativnim podacima nije tako oprezna kao Snijeg ili Doll i Hill. Stoga, da bismo ilustrirali što može poći po zlu, kada istraživači pokušavaju napraviti općenitu izjavu iz nereprezentativnih podataka, želio bih vam reći o studiji njemačkih parlamentarnih izbora za Andranik Tumasjan i kolege (2010) . Analizom više od 100.000 tweetova, otkrili su da udio tweeta koji spominju političku stranku odgovara udjelu glasova koje je stranka primila na parlamentarnim izborima (slika 2.3). Drugim riječima, činilo se da podaci o Twitteru, koji su u osnovi bili besplatni, mogu zamijeniti tradicionalna istraživanja javnog mnijenja, koja su skupe zbog naglašavanja reprezentativnih podataka.
S obzirom na ono što vjerojatno već znate o Twitteru, odmah biste trebali biti skeptični za ovaj rezultat. Nijemci na Twitteru u 2009 nisu probabilistički slučajni uzorak njemačkih birača, a pristaše nekih stranaka mogu cvrkutati oko politike puno češće nego navijači drugih stranaka. Dakle, čini se da je iznenađujuće da bi sve moguće predrasude koje ste mogli zamisliti nekako otkazali, tako da bi ti podaci izravno odražavali njemačke birače. Zapravo, rezultati u Tumasjan et al. (2010) pokazalo se previše dobro da bude istinito. Prateći rad Andreasa Jungherra, Pascal Jürgens i Harald Schoen (2012) istaknuo je kako je izvorna analiza isključila političku stranku koja je zapravo primila najviše spomena na Twitteru: Pirata, mala stranka koja se bori protiv vladinog propisa Interneta. Kada je piratska strana uključena u analizu, Twitter spominje postaje strašan prediktor izbornih rezultata (slika 2.3). Kao što ovaj primjer ilustrira, upotreba neizrečenih velikih izvora podataka za izuzimanje uzoraka generalizacije može biti vrlo pogrešna. Također, trebali biste primijetiti da je činjenica da je bilo 100 tisuća tweetova bila u osnovi nevažna: mnogi nepredstavljeni podaci još uvijek nisu reprezentativni, tema na koju ću se vratiti u trećem poglavlju kad razgovaram o anketama.
Za zaključak, mnogi veliki izvori podataka nisu reprezentativni uzorci nekih dobro definiranih populacija. Za pitanja koja zahtijevaju generaliziranje rezultata iz uzorka stanovništvu iz koje je izvučeno, to je ozbiljan problem. No, za pitanja o usporedbama unutar uzorka, nereprezentativni podaci mogu biti snažni, pod uvjetom da su istraživači jasni o svojstvima njihovog uzorka i podržavaju tvrdnje o transportu s teorijskim ili empirijskim dokazima. Zapravo, nadam se da će veliki izvori podataka omogućiti istraživačima da više usporedbe unutar uzorka u mnogim neprespresivnim skupinama, a pretpostavljam da će procjene mnogih različitih skupina učiniti više za unapređivanje društvenog istraživanja od jedne procjene s probabilističke slučajne uzorak.