Nestreprezentativni podatki so slabi za posplošene vzorce, vendar so lahko zelo koristni za primerjave v vzorcu.
Nekateri socialni znanstveniki so navajeni, da delajo s podatki, ki izhajajo iz verjetnostnega naključnega vzorca iz natančno opredeljenega prebivalstva, kot so vsi odrasli v določeni državi. Ta vrsta podatkov se imenuje reprezentativnih podatkov, saj vzorec "predstavlja" večje število prebivalcev. Mnogi raziskovalci pripisujejo reprezentativne podatke, nekateri reprezentativni podatki pa so sinonim za strogo znanost, medtem ko so nestandardni podatki sinonim za nenavadnost. Na skrajnem skrajnem mnenju nekateri skeptiki verjamejo, da se iz nereprezentativnih podatkov ni mogoče naučiti ničesar. Če je res, se zdi, da to močno omejuje, kaj se lahko naučijo iz velikih virov podatkov, ker so mnogi nereprezentativni. Na srečo so ti skeptiki le delno prav. Obstajajo nekateri raziskovalni cilji, za katere nestandardni podatki očitno niso primerni, vendar obstajajo še drugi, za katere bi lahko bil dejansko zelo koristen.
Da bi razumeli to razliko, razmislimo o znanstveni klasiki: študiji John Snowa o izbruhu kolere 1853-54 v Londonu. V tistem času so mnogi zdravniki verjeli, da je bila kolera posledica "slabega zraka", vendar je Snow menil, da je to nalezljiva bolezen, ki se morda razširi s pitno vodo. Da bi preizkusil to idejo, je Snow izkoristil tisto, kar bi zdaj lahko rekli naravni eksperiment. Primerjal je deleže kolere v gospodinjstvih, ki jih uporabljajo dve različni vodni družbi: Lambeth in Southwark & Vauxhall. Ta podjetja so služila podobnim gospodinjstvom, vendar so se razlikovale na en pomemben način: leta 1849 - nekaj let pred začetkom epidemije - Lambeth je preselil svojo vstopno točko v smeri proti glavnemu odvajanju odplak v Londonu, medtem ko sta Southwark & Vauxhall zapustila vstopno cev v smeri toka od odvajanje odplak. Ko je Snow primerjal smrtne stopnje s kolere v gospodinjstvih, ki so jih služila obema podjetjema, je ugotovil, da so kupci podjetja Southwark & Vauxhall, ki je strankam zagotavljal odjemalce z odplakami iz čistilnih naprav, 10-krat bolj verjetno umrla zaradi kolere. Ta rezultat daje močne znanstvene dokaze za trditev Snowa o vzroku kolere, čeprav ne temelji na reprezentativnem vzorcu ljudi v Londonu.
Vendar podatki iz teh dveh družb ne bi bili primerni za odgovor na drugo vprašanje: kakšna je bila razširjenost kolere v Londonu med izbruhom? Za to drugo vprašanje, ki je prav tako pomembno, bi bilo bolje, da bi imeli reprezentativni vzorec ljudi iz Londona.
Kot ponazarja delo Snowa, obstaja nekaj znanstvenih vprašanj, za katere so lahko nepredstavljivi podatki precej učinkoviti in obstajajo drugi, za katere ni primeren. Eden surov način za razlikovanje teh dveh vprašanj je, da se nekatera vprašanja nanašajo na primerjave znotraj vzorca, nekatere pa so o splošnih posploških vzorcih. To razliko lahko dodatno ponazori še ena klasična študija epidemiologije: British Doctors Study, ki je imela pomembno vlogo pri dokazovanju, da kajenje povzroča raka. V tej študiji sta Richard Doll in A. Bradford Hill več let spremljala približno 25.000 moških zdravnikov in primerjala njihovo stopnjo smrtnosti glede na količino, ki so jo kadili med začetkom študije. Doll in Hill (1954) ugotovili močno razmerje med izpostavljenostjo in odzivom: bolj ljudje so kadili, bolj verjetno je, da umrejo zaradi pljučnega raka. Seveda bi bilo nesmiselno oceniti razširjenost pljučnega raka med vsemi britanskimi ljudmi, ki temeljijo na tej skupini moških zdravnikov, vendar primerjava znotraj vzorcev še vedno dokazuje, da kajenje povzroča pljučni rak.
Zdaj, ko sem ilustriral razliko med primerjavami znotraj vzorca in posplošenimi vzorci, sta dve opozorili v redu. Prvič, seveda obstajajo vprašanja o tem, v kakšnem obsegu bo razmerje, ki ga ima v vzorcu moških britanskih zdravnikov, tudi v vzorcu žensk, britanskih zdravnikov ali moških britanskih delavcev tovarn ali ženskih nemških tovarn ali številnih drugih skupin. Ta vprašanja so zanimiva in pomembna, vendar se razlikujejo od vprašanj o tem, do kakšne mere lahko posplošimo iz vzorca na populacijo. Obvestite, na primer, da verjetno sumite, da bo razmerje med kajenjem in rakom, ki ga najdemo pri moških britanskih zdravnikov, v teh drugih skupinah verjetno podobno. Vaša sposobnost, da naredite to ekstrapolacijo, ne izhaja iz dejstva, da so moški britanski zdravniki verjetnostni naključni vzorec vseh prebivalcev; ampak izhaja iz razumevanja mehanizma, ki povezuje kajenje in rak. Tako posploševanje z vzorca na populacijo, iz katerih je sestavljen, je v veliki meri statistično vprašanje, vendar se sprašuje o prevoznost vzorca najdemo v eni skupini, v drugo skupino, je v veliki meri nonstatistical vprašanje (Pearl and Bareinboim 2014; Pearl 2015) .
Na tej točki bi lahko skeptik poudaril, da je večina družbenih vzorcev verjetno manj prenosljiva v skupinah kot razmerje med kajenjem in rakom. In se strinjam. V kolikšnem obsegu moramo pričakovati, da bodo vzorci lahko prenosljivi, je navsezadnje znanstveno vprašanje, o katerem je treba odločati na podlagi teorije in dokazov. Samodejno ne bi smeli predvidevati, da bodo vzorci lahko premični, ne pa tudi domnevati, da jih ne bodo prenašali. Ta nekoliko abstraktna vprašanja o prenosljivosti vam bodo znana, če boste sledili razpravam o tem, koliko raziskovalcev se lahko naučijo o človekovem vedenju s študijem dodiplomskih študentov (Sears 1986, [@henrich_most_2010] ) . Kljub tem razpravam pa bi bilo nerazumno reči, da raziskovalci ne morejo ničesar naučiti pri študiju dodiplomskih študentov.
Druga opozorilo je, da večina raziskovalcev z neregistriranimi podatki ni tako previdna kot Snow, Doll in Hill. Torej, če želim ponazoriti, kaj se lahko zgodi, ko raziskovalci poskušajo posplošiti posplošitev iz nereprezentativnih podatkov, bi rad povedal o študiji o nemških parlamentarnih volitvah leta 2009, ki jih je opravil Andranik Tumasjan in sodelavci (2010) . Z analizo več kot 100.000 tweetov so ugotovili, da je delež tweetov, ki omenjajo politično stranko, ustrezal deležu glasov, ki jih je stranka prejela na parlamentarnih volitvah (slika 2.3). Z drugimi besedami, zdelo se je, da bi podatki Twittera, ki so bili v bistvu brezplačni, nadomestili tradicionalna javna mnenja, ki so draga zaradi njihovega poudarka na reprezentativnih podatkih.
Glede na to, kar verjetno že poznate o Twitterju, morate takoj biti skeptični glede tega rezultata. Nemci na Cvrkutati leta 2009 niso bili verjetnostni naključni vzorec nemških volivcev, navijači nekaterih strank pa bi lahko tweetali o politiki veliko bolj pogosto kot pristaši drugih strank. Tako se zdi presenetljivo, da bi vse morebitne pristranskosti, ki bi si lahko predstavljali, nekako preklicali, tako da bi ti podatki neposredno odražali nemške volivce. Dejstvo je, da so rezultati v Tumasjan et al. (2010) izkazalo za preveč dobro, da bi bilo resnično. Nadaljnji članek Andreas Jungherr, Pascal Jürgens in Harald Schoen (2012) poudaril, da je izvirna analiza izključila politično stranko, ki je dejansko prejela največ omenjenih na Twitterju: Piratska stranka, majhna stranka, ki se bori proti vladni ureditvi na internetu. Ko je bila v analizo vključena Piratska stranka, omemba Twitterja postane grozljiv napovedovalec rezultatov volitev (slika 2.3). Kot ponazarja ta primer, lahko uporaba nestandardnih velikih podatkovnih virov za posplošitev posamičnih vzorcev zelo napačno. Prav tako bi morali opozoriti, da je bilo dejstvo, da je bilo 100.000 tweetov, v bistvu nepomembno: veliko neregistativnih podatkov še vedno ni reprezentativno, temo, ki se bom vrnil v 3. poglavju, ko bom razpravljal o raziskavah.
Če zaključimo, mnogi veliki viri podatkov niso reprezentativni vzorci iz nekaterih dobro definiranih populacij. Za vprašanja, ki zahtevajo posploševanje rezultatov iz vzorca na populacijo, iz katere je bila sestavljena, je to resna težava. Toda za vprašanja o primerjavi znotraj vzorca so lahko nestandardni podatki močni, če so raziskovalci jasno o značilnostih svojega vzorca in podpirajo trditve o prenosljivosti s teoretičnimi ali empiričnimi dokazi. Pravzaprav, upam, da bodo veliki viri podatkov omogočili raziskovalcem, da v številnih nereprezentativnih skupinah naredijo več primerjav v vzorcu, in mislim, da bodo ocene iz številnih različnih skupin naredile več za pospeševanje družbenih raziskav kot za eno oceno iz verjetnostnih naključnih vzorec.