Nonrepresentative dati ir slikti izlases veida vispārinājumiem, taču tie var būt diezgan noderīgi, salīdzinot paraugus.
Daži sociālie zinātnieki ir pieraduši strādāt ar datiem, kas iegūti no varbūtības izlases parauga no precīzi definētas iedzīvotāju grupas, piemēram, visi pieaugušie konkrētā valstī. Šāda veida datus sauc par reprezentatīviem datiem, jo izlase "pārstāv" lielāko iedzīvotāju skaitu. Daudzi pētnieki piešķir reprezentatīvus datus, un daži reprezentatīvi dati ir sinonīms stingrajai zinātnei, savukārt nereprezentatīvie dati ir sinonīms sloppinessi. Visnežēlīgākā, šķiet, ka daži skeptiķi uzskata, ka neko nevar iegūt no nereprezentatīviem datiem. Ja tas ir taisnība, tas, šķiet, nopietni ierobežo to, ko var uzzināt no lieliem datu avotiem, jo daudzi no tiem nav pārstāvēti. Par laimi, šie skeptiķi ir tikai daļēji labi. Ir daži pētniecības mērķi, kuriem nav reprezentatīvi dati, acīmredzami nav piemēroti, bet ir arī citi, kuriem tas patiešām varētu būt diezgan noderīgi.
Lai saprastu šo atšķirību, apsveram zinātnisku klasiķi: John Snow pētījumu par 1853-54. Gadsimta holēras uzliesmojumu Londonā. Tajā laikā daudzi ārsti uzskatīja, ka holēru izraisa "slikts gaiss", bet Snovs uzskatīja, ka tā bija infekcijas slimība, varbūt izplatījusies ar notekūdeņiem saturošu dzeramo ūdeni. Lai pārbaudītu šo ideju, Sniegs izmantoja to, ko mēs tagad varētu nosaukt par dabīgu eksperimentu. Viņš salīdzināja mājsaimniecību holēras rādītājus, kurus apkalpo divi dažādi ūdens uzņēmumi: Lambeth un Southwark & Vauxhall. Šie uzņēmumi kalpoja līdzīgām mājsaimniecībām, taču tie būtiski atšķīrās: 1849. gadā - dažus gadus pirms epidēmijas sākuma - Lambeth pārcēla savu ieplūdes vietu augšpus Londonas galvenajām notekūdeņu novadīšanas vietām, bet Southwark & Vauxhall atstāja savu ieplūdes cauruli lejup pa straumi no notekūdeņu novadīšana. Kad Snovs salīdzināja mirstības rādītājus no holēras mājsaimniecībās, kuras apkalpo abi uzņēmumi, viņš konstatēja, ka Southwark & Vauxhall klienti, kas sniedz klientiem notekūdeņu piesārņoto ūdeni, 10 reizes biežāk miruši no holēras. Šis rezultāts sniedz spēcīgu zinātnisku pierādījumu Snoena argumentam par holēras cēloni, lai arī tas nav balstīts uz reprezentatīvu cilvēku paraugu Londonā.
Tomēr šo divu uzņēmumu dati nebūtu ideāli, ja atbildētu uz citu jautājumu: kāda bija holēras izplatība Londonā slimības uzliesmojuma laikā? Attiecībā uz šo otro jautājumu, kas ir arī svarīgs, būtu daudz labāk par reprezentatīvu cilvēku paraugu ņemšanu no Londonas.
Kā parādīts Sniega darbā, ir daži zinātniski jautājumi, par kuriem nereprezentatīvie dati var būt diezgan efektīvi, un ir arī citi, kuriem tas nav piemērots. Neapstrādāts veids, kā atšķirt šos divu veidu jautājumus, ir tas, ka daži jautājumi attiecas uz paraugu salīdzinājumu, un daži attiecas uz nepilnīgi izlases vispārinājumiem. Šo atšķirību vēl vairāk ilustrē cits klasisks epidemioloģijas pētījums: Britu ārstu pētījums, kam bija nozīmīga loma, lai pierādītu, ka smēķēšana izraisa vēzi. Šajā pētījumā Richard Doll un A. Bradforga Hils vairākus gadus sekoja aptuveni 25 000 vīriešu ārstu un salīdzināja viņu mirstības rādītājus, pamatojoties uz summu, ko viņi smēķēja pētījuma sākumā. Leļļu un kalnu (1954) konstatēja spēcīgu iedarbību un atbildes reakciju: jo vairāk cilvēki smēķējuši, jo lielāka iespēja, ka viņi mirs no plaušu vēža. Protams, nebūtu prātīgi novērtēt plaušu vēža izplatību starp visiem Lielbritānijas iedzīvotājiem, pamatojoties uz šo vīriešu dzimuma ārstu grupu, taču salīdzinājums paraugā joprojām liecina par to, ka smēķēšana izraisa plaušu vēzi.
Tagad, kad esmu parādījusi atšķirību starp paraugu salīdzinājumiem un izlases vispārinājumu, ir divi brīdinājumi. Pirmkārt, pastāv dabiski jautājumi par to, cik lielā mērā attiecības, kas ietilpst britu ārstu vīriešu izlasē, ietvers arī sieviešu, britu ārstu vai britu britu rūpnīcas darbinieku vai sieviešu vācu rūpnīcas darbinieku vai daudzu citu grupu izlasē. Šie jautājumi ir interesanti un svarīgi, taču tie atšķiras no jautājumiem par to, cik lielā mērā mēs varam vispārināt no parauga uz iedzīvotāju. Pievērsiet uzmanību, piemēram, ka jums, iespējams, ir aizdomas, ka saikne starp smēķēšanu un vēzi, kas tika konstatēta vīriešu britu ārstiem, visticamāk būs līdzīga šajās citās grupās. Jūsu spēja veikt šo ekstrapolāciju nav saistīta ar faktu, ka vīriešu britu ārsti ir varbūtīgs izlases paraugs no jebkura populācijas; Drīzāk tas izriet no izpratnes par mehānismu, kas saista smēķēšanu un vēzi. Tādējādi vispārinājums no parauga iedzīvotāju, no kuras tiek sastādīts, ir lielā mērā statistikas jautājums, bet jautājumi par transportējamības modelī, atrasti vienā grupas uz citu, ir lielā mērā nonstatistical jautājums (Pearl and Bareinboim 2014; Pearl 2015) .
Šajā brīdī skeptiķis var norādīt, ka lielākā daļa sociālo modeļu, iespējams, ir mazāk pārvietojami dažādās grupās nekā attiecības starp smēķēšanu un vēzi. Un es piekrītu. Ciktāl mums vajadzētu sagaidīt modeļu transportēšanu, galu galā ir zinātnisks jautājums, par kuru jāpieņem lēmums, pamatojoties uz teoriju un pierādījumiem. Nevajadzētu automātiski pieņemt, ka modeļi būs pārvietojami, taču nevajadzētu pieņemt, ka tie nebūs pārvietojami. Šie nedaudz abstraktie jautājumi par pārvietojamību jums būs pazīstami, ja jūs sekojat debatēm par to, cik daudz pētnieku var uzzināt par cilvēka uzvedību, studējot maģistrantiem (Sears 1986, [@henrich_most_2010] ) . Neraugoties uz šīm debatēm, nebūtu saprātīgi teikt, ka pētnieki nevar mācīties no studentu studijām.
Otrais brīdinājums ir tāds, ka lielākā daļa pētnieku, kuriem nav reprezentatīvu datu, nav tik uzmanīgi kā Sniegs vai Doll un Hill. Tātad, lai ilustrētu to, kas var notikt nepareizi, kad pētnieki mēģina padarīt nepareizu vispārinājumu no nereprezentatīviem datiem, es vēlētos jums pastāstīt par Andranika Tumasjana un kolēģu 2009. gada Vācijas parlamenta vēlēšanu pētījumu (2010) . Analizējot vairāk nekā 100 000 tweets, viņi atklāja, ka tvītu skaits, kas minēja politisko partiju, atbilstu partijai saņemto balsu īpatsvaram parlamenta vēlēšanās (2.3. Attēls). Citiem vārdiem sakot, izrādījās, ka Čivināt dati, kas būtībā bija brīvi, varētu aizstāt tradicionālos sabiedriskās domas aptaujas, kas ir dārgas, jo tiek uzsvērti reprezentatīvie dati.
Ņemot vērā to, ko jūs, iespējams, jau pazīstat par čivināt, jums nekavējoties būtu jāuztraucas par šo rezultātu. Vācieši uz čivināt 2009.gadā nebija varbūtīgi nejauši izvēlēti Vācijas vēlētāji, un dažu partiju atbalstītāji varētu daudz vairāk pievērst uzmanību politikai nekā citu partiju atbalstītāji. Tādējādi šķiet pārsteidzoši, ka visi iespējamie aizspriedumi, kurus jūs varētu iedomāties, kaut kādā veidā varētu tikt atcelti, lai šie dati būtu tieši atspoguļoti Vācijas vēlētājiem. Patiesībā rezultāti Tumasjan et al. (2010) izrādījās pārāk labi, lai būtu patiesība. Andreas Jungherr, Pascal Jürgens un Harald Schoen (2012) sekojošais dokuments norādīja, ka sākotnējā analīzē tika izslēgta politiskā partija, kas faktiski saņēma visvairāk pieminējumus par čivināt: pirate partija - neliela partija, kas cīnās pret valdības regulējumu no interneta. Kad pirate partija tika iekļauta analīzē, minētie čivināt kļūst par drausmīgu vēlēšanu rezultātu prognozi (2.3. Attēls). Kā parādīts šajā piemērā, izmantojot neprepresentatīvus lielus datu avotus, lai veiktu nepilnīgu paraugu vispārinājumus, var būt ļoti nepareizi. Turklāt jums vajadzētu ņemt vērā, ka fakts, ka bija 100 000 tweets, būtībā nebija būtisks: daudzi nereprezentatīvi dati joprojām nav reprezentatīvi, tēma, uz kuru es atgriezīšos 3. nodaļā, kad apspriežos apsekojumus.
Noslēgumā, daudzi lieli datu avoti nav reprezentatīvi paraugi no dažām precīzi noteiktiem iedzīvotājiem. Jautājumiem, kas prasa vispārējus rezultātus no parauga iedzīvotājiem, no kuriem tas tika sagatavots, tas ir nopietna problēma. Bet, ja rodas jautājumi par paraugu salīdzināšanu, dati, kas nav reprezentatīvi, var būt spēcīgi, ja vien pētnieki ir skaidri informēti par sava parauga raksturlielumiem un apgalvo par transportējamību ar teorētiskiem vai empīriskiem pierādījumiem. Patiesībā es ceru, ka lielie datu avoti ļaus pētniekiem vairāk salīdzināt paraugus daudzās nereprezentatīvās grupās, un es domāju, ka dažādu grupu aprēķini vairāk veicinās sociālo pētījumu veikšanu nekā vienīgi varbūtības izlases veidā paraugs.