Nestandardni podaci su loši za generalizaciju izvan uzorka, ali mogu biti prilično korisni za upoređivanje unutar uzorka.
Neki sociolozi su navikli da rade sa podacima koji potiču iz probabilističkog slučajnog uzorka iz dobro definisane populacije, kao što su svi odrasli u određenoj zemlji. Ova vrsta podataka se naziva reprezentativnim podacima jer uzorak "predstavlja" veću populaciju. Mnogi istraživači nagrađuju reprezentativne podatke, a za neke reprezentativne podatke sinonim za rigoroznu nauku, dok su nestandardni podaci sinonim za neugodnost. Na najekstremniji način, čini se da neki skeptici veruju da se ništa ne može naučiti iz ne-predstavničkih podataka. Ako je istina, izgleda da bi ovo ozbiljno ograničilo ono što se može naučiti iz velikih izvora podataka, jer mnogi od njih nisu predstavnici. Srećom, ovi skeptici su samo delimično u pravu. Postoje određeni istraživački ciljevi za koje su nepristupačni podaci očigledno nedovoljno odgovarajući, ali postoje i drugi za koje bi to moglo biti prilično korisno.
Da bismo razumeli ovu razliku, uzmemo u obzir naučni klasik: studija John Snowa o izbijanju kolere 1853-54 u Londonu. U to vreme mnogi lekari verovali su da je kolera uzrokovana "lošim vazduhom", ali sneg je verovao da je to zarazna bolest, možda se širi pitkom vodom od kanalizacije. Da bi testirao ovu ideju, Snou je iskoristio ono što sada možemo nazvati prirodnim eksperimentom. Upoređivao je stope kolere domaćinstava koje posluju dve različite vodne kompanije: Lambeth i Southwark & Vauxhall. Ove kompanije poslužile su sličnim domaćinstvima, ali su se razlikovale na jedan važan način: 1849. - nekoliko godina prije početka epidemije - Lambeth je pomerio svoju ulaznu tačku uzvodno od glavnog ispusta otpadnih voda u Londonu, dok su Southwark & Vauxhall napustili ulaznu vodu nizvodno od ispuštanje otpadnih voda. Kada je Snej uporedio stope smrtnosti sa kolere u domaćinstvima kojima su služili ova dva preduzeća, utvrdio je da su klijenti kompanije Southwark & Vauxhall, kompanije koja je pružala potrošačima vode od kanalizacije, 10 puta više verovatno umrla od kolere. Ovaj rezultat daje snažne naučne dokaze za argument Sneža o uzroku kolere, iako nije zasnovan na reprezentativnom uzorku ljudi u Londonu.
Međutim, podaci iz ove dve kompanije ne bi bili idealni za odgovor na drugo pitanje: koja je bila količina kolere u Londonu tokom epidemije? Za to drugo pitanje, što je takođe važno, bilo bi mnogo bolje imati reprezentativni uzorak ljudi iz Londona.
Kao što ilustruje Snežni rad, postoje neka naučna pitanja za koja nepredstavljivi podaci mogu biti vrlo efikasni i postoje i drugi za koje nije adekvatno. Jedan grub način da se razlikuju ova dva pitanja jeste da su neka pitanja u vezi sa poređenjima uzorka, a neke su u vezi sa generalizacijama van uzorka. Ova razlika može dalje ilustrovati još jedna klasična studija u epidemiologiji: britanska studija lekara, koja je igrala važnu ulogu u demonstraciji da pušenje uzrokuje rak. U ovoj studiji, Richard Doll i A. Bradford Hill su pratili oko 25.000 doktora muškaraca već nekoliko godina i upoređivali su stopu smrtnosti na osnovu količine koju su pušili kad je studija počela. Doll i Hill (1954) pronašli su snažnu vezu između ekspozicije i reakcije: što je više ljudi pušilo, to je verovatnije da će umreti od karcinoma pluća. Naravno, ne bi bilo pametno procijeniti rasprostranjenost karcinoma pluća među svim britanskim ljudima baziranim na ovoj grupi muških doktora, ali upoređivanje unutar uzorka i dalje dokazuje da pušenje uzrokuje rak pluća.
Sada kada sam ilustrovao razliku između upoređivanja unutar uzorka i generalizacijom izvan uzorka, dva upozorenja su u redu. Prvo, naravno postoje pitanja o tome koliko će odnos koji se nalazi u uzorku muškaraca britanskih lekara zadržati u uzorku žena, britanskih lekara ili muških britanskih fabričkih radnika ili ženskih nemačkih fabričkih radnika ili mnogih drugih grupa. Ova pitanja su zanimljiva i važna, ali se razlikuju od pitanja o tome koliko možemo generalizovati iz uzorka na populaciju. Primjetite, na primjer, da vjerojatno sumnjate da će odnos između pušenja i raka koji je pronađen kod muških britanskih lijekova verovatno sličan u ovim drugim grupama. Vaša sposobnost da izvršite ovu ekstrapolaciju ne dolazi iz činjenice da su muški britanski lekari probabilistički slučajni uzorak iz bilo koje populacije; Pre svega, dolazi od razumevanja mehanizma koji povezuje pušenje i rak. Dakle, generalizacija iz uzorka na populaciju iz koje je izvučena je u velikoj mjeri statistički problem, ali pitanja vezana za prenosivost uzorka pronađenih u jednoj grupi u drugu grupu su u velikoj mjeri (Pearl and Bareinboim 2014; Pearl 2015) pitanje (Pearl and Bareinboim 2014; Pearl 2015) .
U ovom trenutku, skeptik može ukazati na to da većina društvenih obrasca verovatno manje prenosiva u grupi od odnosa između pušenja i raka. I slažem se. U kojoj mjeri treba očekivati da se obrasci mogu prenijeti, na kraju je naučno pitanje koje treba odlučiti na osnovu teorije i dokaza. Ne treba automatski pretpostaviti da će obrasci biti prenosivi, ali ne treba pretpostaviti da oni neće biti pokretljivi. Ova donekle apstraktna pitanja o transportu će vam biti poznata ako ste pratili rasprave o tome koliko istraživači mogu saznati o ljudskom ponašanju proučavajući studente na dodiplomskim studijama (Sears 1986, [@henrich_most_2010] ) . Uprkos ovim debatama, bilo bi nerazumno reći da istraživači ne mogu ništa naučiti od studiranja studenata na dodiplomskim studijama.
Druga opomena je da većina istraživača sa nestandardnim podacima nije toliko oprezna kao Snow, Doll i Hill. Dakle, da bih ilustrovao šta može išlo naroto kada istraživači pokušaju da uobliče generalizaciju iz ne-predstavničkih podataka, hteo bih da vam kažem o studiji o izborima u Nemačkoj iz 2009. godine od Andranika Tumasjana i kolega (2010) . Analizirajući više od 100.000 tweetova, utvrdili su da je udeo tweetova koji pominju političku partiju odgovarali procentu glasova koje je stranka primila na parlamentarnim izborima (slika 2.3). Drugim rečima, pokazalo se da su podaci iz Twittera, koji su u suštini bili besplatni, mogli zameniti tradicionalna istraživanja javnog mnjenja, koja su skupa zbog naglaska na reprezentativnim podacima.
S obzirom na to što verovatno već znate o Twitter-u, odmah bi trebalo biti skeptičan za ovaj rezultat. Nemci na Twitter-u 2009. nisu bili probabilistički slučajni uzorak nemačkih birača, a pristalice nekih partija bi mogle čvršće tvitati o politici mnogo češće nego pristalice drugih stranaka. Stoga, čini se da je iznenađujuće što bi sve moguće predrasude koje biste mogli zamisliti nekako otkazati tako da bi ti podaci bili direktno odražavajući nemačke birače. Zapravo, rezultati u Tumasjan et al. (2010) pokazao se previše dobro da bi bio istinit. Sledeći članak Andreas Jungherr, Pascal Jürgens i Harald Schoen (2012) istakao je da je izvorna analiza isključila političku partiju koja je zapravo primila najviše pomena na Twitteru: Piratska stranka, mala stranka koja se bori protiv vladine regulacije Interneta. Kada je Piratska stranka uključena u analizu, Twitter pominje postaje strašan prediktor izbornih rezultata (slika 2.3). Kako ovaj primjer ilustruje, korištenje nereprezentativnih velikih izvora podataka koji se obavljaju bez generalizacije mogu biti vrlo pogrešni. Takođe, trebali biste primetiti da je činjenica da je bilo 100.000 tweetova u suštini irelevantno: puno ne-zastupnijih podataka je i dalje ne-reprezentativno, tema koju ću se vratiti u 3. poglavlju kada se raspravljam o istraživanjima.
Da zaključimo, mnogi veliki izvori podataka nisu reprezentativni uzorci iz nekog dobro definisanog stanovništva. Za pitanja koja zahtijevaju generalizaciju rezultata iz uzorka na populaciju iz koje je izvučena, ovo je ozbiljan problem. Međutim, za pitanja o poređenju uzorka, neistavljajući podaci mogu biti moćni, sve dok su istraživači jasni u vezi sa karakteristikama njihovog uzorka i podrţavaju tvrdnje o prenosljivosti sa teoretskim ili empirijskim dokazima. Zapravo, nadam se da će veliki izvori podataka omogućiti istraživačima da uporede više uzoraka u mnogim neprogresivnim grupama, a pretpostavljam da će procjene iz različitih grupa učiniti više za unapređenje društvenih istraživanja nego samo jedna procjena iz probabilističkih slučajnih uzorak.