Neprezentatyvūs duomenys yra blogi, kai nėra apklausiamų apibendrinimų, tačiau gali būti labai naudingi palyginimų pavyzdžių palyginimui.
Kai kurie socialiniai mokslininkai pripratę dirbti su duomenimis, gaunamais iš tikėtinos atsitiktinės imties iš gerai apibrėžtos populiacijos, tokios kaip visi suaugusieji konkrečioje šalyje. Šie duomenų tipai vadinami tipiniais duomenimis, nes atranka "atstovauja" didesnę populiaciją. Daugelis mokslininkų skiria reprezentatyvius duomenis, o kai kurie reprezentatyvūs duomenys yra sinonimiški griežtam mokslui, o nereprezentatyvūs duomenys yra sinonimiški slopinimui. Labiausiai kraštutiniu atveju kai kurie skeptikai, atrodo, mano, kad nieko negalima išmokti iš nereprezentatyvių duomenų. Jei tai tiesa, atrodo, kad tai labai riboja tai, ko galima išmokti iš didelių duomenų šaltinių, nes daugelis iš jų yra nereprezentatyvūs. Laimei, šie skeptikai yra tik iš dalies teisūs. Yra tam tikrų mokslinių tyrimų tikslų, dėl kurių nereprezentatyvūs duomenys akivaizdžiai nėra tinkami, tačiau yra ir kitų, kurie iš tikrųjų gali būti labai naudingi.
Norėdami suprasti šį skirtumą, pažvelkime į mokslinę klasiką: John Snow'o tyrimą apie 1853-54 m. Choleros protrūkį Londone. Tuo metu daugelis gydytojų manė, kad cholerą sukėlė "blogas oras", bet Sniegas manė, kad tai buvo infekcinė liga, galbūt plinta per nutekamuosius gardus. Norėdami išbandyti šią idėją, Sniegas pasinaudojo tuo, ką galėtume pavadinti natūraliu eksperimentu. Jis palygino cholesterijų skaičių namų ūkiuose, kuriuos aptarnauja dvi skirtingos vandens bendrovės: "Lambeth" ir "Southwark & Vauxhall". Šios kompanijos tarnavo panašiems namų ūkiams, tačiau jie labai skiriasi: 1849 m. - prieš kelerius metus iki epidemijos prasidėjo - "Lambeth" perkelia savo įsiurbimo vietą virš upelio iš pagrindinės nuotekų išleidimo vietos Londone, o "Southwark & Vauxhall" paliko savo įleidimo vamzdį pasroviui nuo nuotekų išleidimas. Kai Sniegas palygino abiejų kompanijų aptarnaujamų namų ūkių mirtingumą nuo choleros, jis nustatė, kad "Southwark & Vauxhall" klientai, kurie tiekia vartotojus nutekamuoju vandeniu, buvo 10 kartų labiau linkę mirti nuo choleros. Šis rezultatas pateikia tvirtus mokslinius įrodymus, kad Sno yra argumentas dėl choleros priežasties, nors jis nėra pagrįstas reprezentatyviu žmonių pavyzdžiu Londone.
Tačiau šių dviejų bendrovių duomenys nebūtų idealūs atsakant į kitu klausimą: kokia buvo choleros paplitimas Londono protrūkio metu? Dėl šio antrojo klausimo, kuris taip pat yra svarbus, daug geriau būtų turėti reprezentatyvų žmonių iš Londono atranką.
Kaip parodė Sniego darbas, yra keletas mokslinių klausimų, dėl kurių nereprezentatyvūs duomenys gali būti gana veiksmingi, o kiti yra netinkami. Vienintelis būdas atskirti šiuos dviejų tipų klausimus yra tai, kad kai kurie klausimai yra apie palyginimus tarp pavyzdžių, o kai kurie - apie nepasirinktų apibendrinimų. Šį skirtumą galima iliustruoti dar viena klasikinė epidemiologijos studija: Britų gydytojų studija, kuri atliko svarbų vaidmenį parodant, kad rūkymas sukelia vėžį. Šiame tyrime Richardas Dollas ir A. Bradfordo Hillas jau keletą metų lankė maždaug 25 000 vyrų gydytojų ir palygino jų mirtingumo rodiklius, atsižvelgdamas į sumą, kurią jie rūkė tyrimo pradžioje. "Doll and Hill" (1954) Nustatė stiprų santykį su sąlyga ir reakcija: kuo labiau rūkyti žmonės, tuo didesnė tikimybė, kad jie miršta nuo plaučių vėžio. Žinoma, būtų neprotinga apskaičiuoti plaučių vėžio paplitimą tarp visų britų žmonių, pagrįstų šia vyrų gydytojų grupe, tačiau atlikus palyginimą vis dar yra įrodymų, kad rūkymas sukelia plaučių vėžį.
Dabar, kai aš parodė skirtumą tarp mėginių palyginimų ir nepasirinktų apibendrinimų, yra dvi atsargos. Pirma, yra natūralių klausimų apie tai, kokiu mastu santykius, kurie vyksta biseksualių gydytojų vyrų imtyje, taip pat turės moterys, britų gydytojai ar berniukų berniukų gamyklos darbuotojai ar moterys, kuriose dirba Vokietijos gamyklos darbuotojai ar daugelis kitų grupių. Šie klausimai yra įdomūs ir svarbūs, tačiau jie skiriasi nuo klausimų apie tai, kokiu mastu mes galime apibendrinti iš imties į gyventojus. Pavyzdžiui, atkreipkite dėmesį, kad jūs tikriausiai įtariate, kad santykiai tarp rūkymo ir vėžio, kurie buvo nustatyti berniukų vyrams, greičiausiai bus panašūs į šias kitas grupes. Jūsų sugebėjimas atlikti šią ekstrapoliaciją nėra susijęs su tuo, kad berniukų gydytojai yra tikimybinė atsitiktinė atranka iš bet kurios gyventojų grupės; greičiau tai paaiškėja iš mechanizmo, kuris susieja rūkymą ir vėžį. Taigi, apibendrinimai iš imties į populiaciją, iš kurio renkama, yra iš esmės statistinis klausimas, tačiau klausimai apie modelio perkėlimą iš vienos grupės į kitą grupę iš esmės yra (Pearl and Bareinboim 2014; Pearl 2015) klausimas (Pearl and Bareinboim 2014; Pearl 2015) .
Šiuo metu skeptikas gali atkreipti dėmesį į tai, kad dauguma socialinių modelių greičiausiai yra mažiau gabenami grupėmis nei tarp rūkymo ir vėžio. Ir aš sutinku. Kiek mums reikėtų tikėtis, kad modeliai bus gabenami, galiausiai yra mokslinis klausimas, į kurį turi būti atsižvelgta remiantis teorija ir įrodymais. Negalima automatiškai daryti prielaidos, kad modeliai bus gabenami, tačiau neturėtų būti daroma prielaida, kad jie nebus gabenami. Šie šiek tiek abstraktaus klausimai apie gabenimą bus jums žinomi, jei atliksite diskusijas apie tai, kiek mokslininkai gali sužinoti apie žmogaus elgesį, studijuodami bakalauro studijas (Sears 1986, [@henrich_most_2010] ) . Nepaisant šių diskusijų, būtų nepagrįsta pasakyti, kad mokslininkai negali išmokti nieko iš studijų bakalauro studentų.
Antrasis įspėjimas yra tai, kad dauguma tyrėjų, neturinčių reprezentacinių duomenų, nėra tokie pat atsargūs kaip Sniegas ar Doll ir Hill. Taigi, siekiant parodyti, kas gali nutikti, kai mokslininkai bando apibendrinti duomenis iš nereprezentatyvių duomenų, norėčiau papasakoti apie 2009 m. Vokietijos parlamento rinkimų tyrimą, kurį atliko Andranik Tumasjan ir jo kolegos (2010) . Analizuodama daugiau kaip 100 tūkstančių tweets, jie nustatė, kad tweets, nurodydamas politinę partiją, proporcingai susiejo partijos gautus rezultatus parlamento rinkimuose (2.3 pav.). Kitaip tariant, pasirodė, kad "Twitter" duomenys, kurie iš esmės buvo nemokami, galėtų pakeisti tradicines viešosios nuomonės apklausas, kurios yra brangios dėl jų dėmesio tipiniams duomenims.
Atsižvelgdami į tai, ką jūs tikriausiai jau žinote apie "Twitter", turėtumėte nedelsiant būti skeptiškai vertinami dėl šio rezultato. 2009 m. Vokiečiai "Twitter" nebuvo tikimybinė atsitiktinė vokiečių rinkėjų atranka, o kai kurių partijų rėmėjai gali daug dažniau skaityti apie politiką nei kitų partijų rėmėjai. Taigi atrodo nuostabu, kad visi galimi įsikišimai, kuriuos galėjote įsivaizduoti, kažkaip atšaukiami, kad šie duomenys būtų tiesiogiai atspindintys vokiečių rinkėjus. Iš tiesų, Tumasjan et al. (2010) pasirodė pernelyg gerai, kad būtų tiesa. Andreas Jungherr, Pascal Jürgens ir Harald Schoen (2012) Tęsinys parodė, kad pirminė analizė atmetė politinę partiją, kuri iš tikrųjų daugiausia paminėjo "Twitter": "Pirate Party" - maža partija, kovojanti su vyriausybės reguliavimu internete. Kai "Piratų partija" buvo įtraukta į analizę, "Twitter" paminėjimas tampa siaubingu rinkimų rezultatų prognozavimu (2.3 pav.). Kaip parodė šis pavyzdys, naudojant nereprezentatyvius didelius duomenų šaltinius, kad būtų galima atlikti nepasirinktų apibendrinimų, gali būti labai klaidinga. Be to, turėtumėte pastebėti, kad faktas, kad buvo 100 000 tweets, iš esmės buvo nereikšmingas: daug nereprezentatyvių duomenų vis dar nėra reprezentatyvūs, tema, kurią grįšiu 3 skyriuje, kai aptariu apklausas.
Apibendrinant galima teigti, kad daugelis didelių duomenų šaltinių nėra tipiniai tam tikrų gerai apibrėžtų gyventojų mėginiai. Klausimams, kurie reikalauja apibendrinti mėginio rezultatus gyventojams, iš kurių jis buvo parengtas, tai yra rimta problema. Tačiau klausimams, susijusiems su mėginių palyginimu, neprepresentiniai duomenys gali būti veiksmingi, jei mokslininkai aiškiai supranta jų imties charakteristikas ir pateikia teiginius apie gabenimą su teoriniais ar empiriniais įrodymais. Tiesą sakant, tikiuosi, kad dideli duomenų šaltiniai leis mokslininkams atlikti daugiau palyginimų tarp pavyzdžių daugybėje nereprezentacinių grupių, ir aš manau, kad daugelio skirtingų grupių vertinimai dar labiau paskatins socialinius mokslinius tyrimus nei tikėtinas atsitiktinės atrankos pavyzdys