Mitte-representatiivsed andmed on proovide üldistuste mittetäielikud, kuid need võivad olla kasulikud proovide võrdlemisel.
Mõned sotsiaalteadlased on harjunud töötama andmetega, mis pärinevad tõenäoliselt juhuslikust valimistest täpselt määratletud elanikkonnast, nagu näiteks kõik täiskasvanud konkreetses riigis. Selliseid andmeid nimetatakse representatiivseteks andmeteks, sest proov "esindab" suuremat rahvastikku. Paljud teadlased auhindu esindavad andmed ja mõned tüüpilised andmed on sünonüümiks ranguse teaduse, samas kui mitte representatiivsed andmed on sünonüümid lohukusest. Kõige äärmuslikumalt näib, et mõned skeptikud usuvad, et mitte-repressiivsetest andmetest ei saa midagi õppida. Kui see on tõsi, tundub see, et suurte andmeallikate põhjal võib see oluliselt piirata, sest paljud neist pole esinduslikud. Õnneks on need skeptikud ainult osaliselt õiged. On olemas teatavad uurimisalased eesmärgid, mille puhul mitterepresentatiivsed andmed ei ole ilmselt sobivad, kuid on ka teisi, mille jaoks see võib tegelikult olla kasulik.
Selle eristuse mõistmiseks vaatleme teaduslikku klassikalist: John Snowi uurimus 1853.-514. Aasta koolerahaiguse kohta Londonis. Sel ajal uskusid paljud arstid, et koolerat põhjustas "halb õhk", kuid Lume arvas, et tegemist on nakkushaigusega, mis võib ulatuda kanalisatsiooniga joogiveega. Selle idee testimiseks kasutas Snow ära seda, mida me nüüd võiksime nimetada loomulikuks katseks. Ta võrreldi kahe erineva veemajandusettevõtte poolt teenindatavate kodumajapidamiste kooleraagedust: Lambeth ja Southwark & Vauxhall. Need ettevõtted teenisid sarnaseid leibkondi, kuid need erinesid ühelt olulisel määral: 1849. aastal - paar aastat enne epideemia algust-Lambeth kolis oma sisselaskepunkti Londoni põhiliste reoveepuhastite ülesvoolu, samas kui Southwark & Vauxhall jättis oma sisselasketoru allavoolu reovee ärajuhtimine. Kui Snow võrdles kaht ettevõtet teenivate kodumajapidamistes esineva koolera suremust, leidis ta, et Southwark & Vauxhalli kliendid, kes pakuvad klientidele kanalisatsiooni, on 10-kordse tõenäosusega surema koolerast. See tulemus annab tugevaid teaduslikke tõendeid lumi argumentide kohta koolera põhjuste kohta, kuigi see ei põhine Londoni inimeste esinduslikul valimil.
Kuid nende kahe ettevõtte andmed ei oleks ideaalseks vastamiseks teistsugusele küsimusele: milline oli koolera levimus Londoni haiguspuhangu ajal? Selle teise küsimuse puhul, mis on samuti tähtis, oleks palju paremini esindatud Londonis asuvatest inimestest.
Nagu näitab Lumi töö, on mõned teaduslikud küsimused, mille puhul mittesepresentatiivsed andmed võivad olla üsna tõhusad ja on ka teisi, mille jaoks see sobib hästi. Nende kahe küsimuse eristamiseks on üks toores viis, et mõned küsimused on seotud proovide võrdlemisega, mõned neist on väljavõtteid hõlmavate üldistuste kohta. Seda eristamist saab veelgi illustreerida muu klassikaline epidemioloogia-uuring: briti arstide uuring, mis mängis olulist rolli suitsetamisest põhjustatud vähki demonstreerides. Selles uuringus järgisid Richard Doll ja A. Bradford Hill mitmeid aastaid ligikaudu 25 000 meessoost arsti ja võrdlesid oma surmajuhtumeid selle põhjal, kui nad uuringu alguses suitsetasid. Doll and Hill (1954) leidis tugevat kokkupuute-vastuse suhet: mida rohkem suitsetati inimesi, seda tõenäolisemalt surid nad kopsuvähki. Loomulikult oleks mõistlik hinnata kõigi meessoost arstide grupis levinud kopsuvähki kõigile Briti inimestele, kuid võrdlemine näitab, et suitsetamine põhjustab kopsuvähki.
Nüüd, kui olen illustreerinud erinevust proovide võrdlemise ja valimi üldistuste vahel, on kaks ettevaatlust õiges järjekorras. Esiteks on loomulikult küsitav, kui suures ulatuses suhtub Briti meeste briti arstide valimis sisalduv suhe ka naistest, Briti arstidest või meestest pärit briti tehaste töötajatelt või naissoost Saksa tehase töötajatelt või paljudest teistest rühmadest. Need küsimused on huvitavad ja olulised, kuid need erinevad küsimustest selle kohta, millises ulatuses me saame üldistada proovist elanikkonnani. Pange tähele, et näiteks arvate, et tõenäoliselt kahtlustate, et suitsetamise ja vähise suhe, mis leiti mees-Briti arstide seas, on tõenäoliselt sarnases nendes teistes gruppides. Teie võime seda ekstrapoleerimist teha ei tulene sellest, et mehed Briti arstid on tõenäoliselt juhuslik valim igas elanikkonnast; pigem tuleneb see mehhanismi arusaamisest, mis seob suitsetamist ja vähki. Seega generalisatsiooni proovi elanikkonnast, mis on koostatud on suuresti statistilise küsimus, kuid küsimusi transporditavad muster leitud ühest rühmast teise rühma on suuresti nonstatistical küsimus (Pearl and Bareinboim 2014; Pearl 2015) .
Selles punktis võib skeptik märkida, et enamik sotsiaalseid mustreid on gruppidesse tõenäoliselt vähem transporditavad kui suhe suitsetamise ja vähi vahel. Ja ma olen nõus. Mil määral peaksime eeldama, et mustrid oleksid transporditavad, on lõppkokkuvõttes teaduslik küsimus, mis tuleb otsustada teooria ja tõendite alusel. Ei tohiks automaatselt eeldada, et mustrid on transporditavad, kuid samuti ei tohiks eeldada, et need ei ole transporditavad. Need mõnevõrra abstraktsed transporditavuse küsimused on teile tuttavad, kui olete järginud arutelude teemal, kui palju teadlasi saab õppida üliõpilaste õppimise kohta inimeste käitumise kohta (Sears 1986, [@henrich_most_2010] ) . Hoolimata nendest aruteludest oleks siiski mõistlik öelda, et teadlased ei saa õppida bakalaureuseõppe üliõpilasi.
Teine ettekujutus on selles, et enamus teadlasi, kellel ei ole representatiivseid andmeid, ei ole nii ettevaatlikud kui lumi või nukk ja mägi. Seega, illustreerides seda, mis võib valesti minna, kui teadlased proovivad mitte-representatiivsetest andmetest mitte-proovi üldistamist, tahaksin teile rääkida Andraniki Tumasjani ja tema kolleegide 2009. aasta saksa parlamendivalimiste uuringust (2010) . Analüüsides rohkem kui 100 000 tweetsit, leidsid nad, et erakonnast koosnevate tweetite osakaal ühtivad parlamendivalimistel osalenud häälte osakaaluga (joonis 2.3). Teisisõnu ilmnes, et Twitteri andmed, mis olid sisuliselt vabad, võiksid asendada tavapäraseid avaliku arvamuse küsitlusi, mis on kallid, kuna nad rõhutavad tüüpilisi andmeid.
Võttes arvesse seda, mida te ilmselt Twitterist juba teate, peaksite selle tulemuse saamiseks viivitamatult skeptilised. Sakslased Twitteris 2009. aastal ei olnud tõenäoliselt juhuslik valim sakslaste valijatest ja mõne partei toetajad võiksid poliitikat rohkem kuulata kui teiste osapoolte toetajad. Seega tundub üllatav, et kõik võimalikud eelarvamused, mida võite ette kujutada, võivad kuidagi tühistada, nii et need andmed oleksid Saksa valijatele otseselt peegeldavad. Tegelikult on tulemused Tumasjan et al. (2010) osutus liiga heaks, et olla tõsi. Andreas Jungherri, Pascal Jürgensi ja Harald Schoeni (2012) järelkontrolli dokument tõi välja, et esialgne analüüs jätab välja selle erakonna, kes oli tegelikult Twitteris kõige rohkem maininud: piraatide partei, väike partei, mis võitleb valitsuse reguleerimisega Internetti. Kui analüüsi kaasati piraatide partei, hakkab Twitter mainima valimiste tulemuste kohutavat ennustajat (joonis 2.3). Nagu see näide illustreerib, võib mitterepresentatiivsete suurte andmeallikate kasutamine proovide üldistuste tegemiseks olla väga vale. Samuti peaksite märkima, et asjaolu, et seal oli 100 000 tweeti, oli põhimõtteliselt ebaoluline: paljud mitterepresentatiivsed andmed ei ole endiselt esinduslikud, teema, millele ma vaatan uuringute arutamisel 3. peatükis.
Kokkuvõtteks võib öelda, et paljud suured andmeallikad ei ole representatiivsed proovid mõnest täpselt määratletud elanikkonnast. Küsimuste puhul, mis nõuavad valimilt üldistatud tulemusi elanikkonnale, kust see välja tõi, on see tõsine probleem. Kuid küsimuste puhul, mis puudutavad proovi võrdlemist, võivad mitterepresentatiivsed andmed olla võimsad, kui teadlased on oma proovi tunnuste kohta selged ja toetavad väiteid transporditavuse kohta teoreetiliste või empiiriliste tõenditega. Tegelikult loodan, et suured andmeallikad võimaldavad teadlastel teha mitmesugustes mitterepresentatiivsetes gruppides rohkem proovide võrdlemist, ja arvan, et paljudest erinevatest rühmadest pärit hinnangud teevad rohkem sotsiaalsete uuringute edenda mist kui tõenäosusliku juhusliku valim.