Ang hindi pangkaraniwang data ay masama para sa mga generalized out-of-sample, ngunit maaaring lubos na kapaki-pakinabang para sa mga paghahambing sa loob-sample.
Ang ilang mga social siyentipiko ay bihasa sa nagtatrabaho sa data na nanggagaling mula sa isang probabilistic random na sample mula sa isang mahusay na tinukoy na populasyon, tulad ng lahat ng mga matatanda sa isang partikular na bansa. Ang ganitong uri ng data ay tinatawag na kinatawan ng data dahil ang sample ay "kumakatawan" sa mas malaking populasyon. Maraming mga mananaliksik ang nag-aalok ng kinatawan ng data, at sa ilan, ang kinatawan ng data ay magkasingkahulugan ng mahigpit na agham samantalang ang hindi pangkalahatan na data ay magkasingkahulugan ng sloppiness. Sa pinakamatinding, ang ilang mga may pag-aalinlangan ay tila naniniwala na walang maaaring matutunan mula sa di-naghahatid na data. Kung totoo, ito ay tila malubhang limitasyon kung ano ang matututunan mula sa mga malalaking pinagmumulan ng data sapagkat marami sa kanila ay hindi kumakatawan. Sa kabutihang palad, ang mga skeptiko ay bahagyang tama lamang. May mga tiyak na layunin sa pananaliksik kung saan ang hindi pangkaraniwang data ay malinaw na hindi angkop na angkop, ngunit may mga iba pa kung saan maaaring talagang kapaki-pakinabang ito.
Upang maintindihan ang pagkakaiba na ito, isaalang-alang natin ang isang klasikong siyentipiko: ang pag-aaral ni John Snow ng 1853-54 cholera outbreak sa London. Noong panahong iyon, maraming doktor ang naniniwala na ang kolera ay sanhi ng "masamang hangin," ngunit naniwala si Snow na ito ay isang nakakahawang sakit, marahil ay kumalat sa tubig na dumi sa alkantarilya. Upang subukan ang ideya na ito, sinamantala ni Snow ang tinatawag nating natural na eksperimento. Inihambing niya ang mga rate ng kolera ng mga kabahayan na pinaglilingkuran ng dalawang magkakaibang mga kumpanya ng tubig: Lambeth and Southwark & Vauxhall. Ang mga kumpanyang ito ay nagsilbi sa katulad na mga sambahayan, ngunit nagkakaiba sila sa isang mahalagang paraan: noong 1849-ilang taon bago magsimula ang epidemya-inilipat ng Lambeth ang punto ng paggamit nito sa agos mula sa pangunahing paglabas ng dumi sa alkantarilya sa London, samantalang ang Southwark at Vauxhall ay umalis sa kanilang paggamit ng tubo sa ibaba ng agos mula sa paglabas ng dumi sa alkantarilya. Nang ihambing ni Snow ang mga rate ng kamatayan mula sa cholera sa mga kabahayan na pinaglilingkuran ng dalawang kumpanya, nalaman niya na ang mga customer ng Southwark at Vauxhall-ang kumpanya na nagbibigay ng mga customer ng dumi sa tubig na dumi sa tubig-ay 10 beses na mas malamang na mamatay mula sa kolera. Ang resulta ay nagbibigay ng matibay na pang-agham na ebidensya para sa argumento ni Snow tungkol sa sanhi ng kolera, kahit na ito ay hindi batay sa isang kinatawan na sample ng mga tao sa London.
Gayunpaman, ang data mula sa dalawang mga kumpanya ay hindi perpekto para sa pagsagot sa ibang tanong: ano ang pagkalat ng kolera sa London sa panahon ng pagsiklab? Para sa ikalawang tanong na mahalaga rin, mas mabuti na magkaroon ng isang kinatawan na sampol ng mga tao mula sa London.
Tulad ng inilalarawan ng trabaho ni Snow, may ilang mga pang-agham na tanong kung saan ang hindi pangkaraniwang data ay maaaring maging epektibo at may iba pa kung saan ito ay hindi angkop. Ang isang krudo na paraan upang makilala ang dalawang uri ng mga tanong na ito ay ang ilang mga katanungan ay tungkol sa mga halimbawa ng paghahambing sa loob at ang ilan ay tungkol sa mga pangkalahatang pagkakaloob ng mga sample. Ang pagkakaiba na ito ay maaaring higit pang inilarawan sa pamamagitan ng isa pang klasikong pag-aaral sa epidemiology: ang British Doctors Study, na nilalaro ng isang mahalagang papel sa pagpapakita na ang paninigarilyo ay nagiging sanhi ng kanser. Sa pag-aaral na ito, sinimulan ni Richard Doll at A. Bradford Hill ang humigit-kumulang 25,000 lalaki na mga doktor sa loob ng ilang taon at inihambing ang kanilang mga rate ng kamatayan batay sa halaga na kanilang pinababa kapag nagsimula ang pag-aaral. Ang Doll at Hill (1954) nakatagpo ng isang malakas na relasyon sa pagtugon-tugon: ang mas maraming tao ay pinausukan, mas malamang na sila ay mamatay mula sa kanser sa baga. Siyempre, hindi maalam ang pagtatantya ng pagkalat ng kanser sa baga sa lahat ng mga taong British batay sa grupong ito ng mga male doctor, ngunit ang paghahambing sa loob ng sample ay nagbibigay pa rin ng katibayan na ang paninigarilyo ay nagiging sanhi ng kanser sa baga.
Ngayon na inilalarawan ko ang pagkakaiba sa pagitan ng mga paghahambing sa loob-sample at mga generalization ng out-of-sample, ang dalawang caveat ay nasa order. Una, may mga natural na katanungan tungkol sa lawak na kung saan ang isang relasyon na humahawak sa isang sample ng mga male British na doktor ay magkakaroon din ng isang sample ng babae, British na doktor o lalaki na manggagawa sa pabrika ng British o babaeng manggagawa sa pabrika ng Aleman o maraming iba pang mga grupo. Ang mga tanong na ito ay kawili-wili at mahalaga, ngunit ang mga ito ay naiiba mula sa mga tanong tungkol sa lawak na kung saan maaari naming gawing pangkalahatan mula sa isang sample sa isang populasyon. Pansinin, halimbawa, na maaaring maghinala ka na ang kaugnayan sa pagitan ng paninigarilyo at kanser na natagpuan sa lalaki na mga doktor sa Britanya ay maaaring magkatulad sa iba pang mga grupo na ito. Ang iyong kakayahang gawin ang ekstrapolasyon na ito ay hindi nagmumula sa katotohanan na ang mga lalaki na doktor ng Britanya ay isang probabilistikong random na sample mula sa anumang populasyon; sa halip, ito ay mula sa pag-unawa sa mekanismo na nag-uugnay sa paninigarilyo at kanser. Kaya, ang pagsasalamin mula sa isang sample sa populasyon mula sa kung saan ay iginuhit ay isang pangunahing isyu sa istatistika, ngunit ang mga katanungan tungkol sa transportability ng pattern na natagpuan sa isang grupo sa isa pang grupo ay higit sa lahat isang hindi istatistika isyu (Pearl and Bareinboim 2014; Pearl 2015) .
Sa puntong ito, ang isang may pag-aalinlangan ay maaaring ituro na ang karamihan sa mga pattern ng panlipunan ay marahil ay mas madaling maibiyahe sa mga pangkat kaysa sa kaugnayan sa paninigarilyo at kanser. At sumasang-ayon ako. Ang lawak kung saan dapat naming asahan ang mga pattern na maaaring transportable ay sa huli isang pang-agham na tanong na dapat na pagpapasyahan batay sa teorya at katibayan. Hindi dapat awtomatiko itong ipagpalagay na ang mga pattern ay mapapakinabangan, ngunit hindi rin dapat ipagpalagay na hindi sila sasakay. Ang mga medyo mahirap unawain na mga tanong tungkol sa transportability ay pamilyar sa iyo kung sinunod mo ang mga debate tungkol sa kung magkano ang mga mananaliksik ay maaaring matuto tungkol sa pag-uugali ng tao sa pamamagitan ng pag-aaral sa mga undergraduate na mag-aaral (Sears 1986, [@henrich_most_2010] ) . Sa kabila ng mga debate na ito, gayunpaman, hindi makatuwiran na sabihin na ang mga mananaliksik ay hindi maaaring matuto ng anumang bagay mula sa pag-aaral ng mga undergraduate na mag-aaral.
Ang pangalawang caveat ay na ang karamihan sa mga mananaliksik na may di-naghahatid na data ay hindi maingat tulad ng Snow o Doll at Hill. Kaya, upang ilarawan kung ano ang maaaring magkamali kapag sinubukan ng mga mananaliksik na gumawa ng isang out-of-sample generalisation mula sa hindi pangkalahatan na data, nais kong sabihin sa iyo ang tungkol sa isang pag-aaral ng 2009 Aleman parliamentary na halalan ni Andranik Tumasjan at mga kasamahan (2010) . Sa pag-aaral ng higit sa 100,000 tweet, natagpuan nila na ang proporsiyon ng mga tweet na binabanggit ang isang partidong pampulitika na tumutugma sa proporsiyon ng mga boto na natanggap ng partido sa parlyamentaryo na halalan (figure 2.3). Sa ibang salita, lumilitaw na ang data ng Twitter, na kung saan ay mahalagang libre, ay maaaring palitan ang mga tradisyonal na pampublikong opinyon survey, na kung saan ay mahal dahil sa kanilang diin sa data ng kinatawan.
Given kung ano ang malamang na alam mo tungkol sa Twitter, dapat kaagad na maging may pag-aalinlangan sa resulta na ito. Ang mga Germans sa Twitter noong 2009 ay hindi isang probabilistic random na sample ng mga Aleman na botante, at ang mga tagasuporta ng ilang partido ay maaaring mag-tweet tungkol sa pulitika nang mas madalas kaysa sa mga tagasuporta ng ibang mga partido. Kaya, tila kamangha-mangha na ang lahat ng mga posibleng biases na maaari mong isipin sa anumang paraan kanselahin upang ang data na ito ay direktang mapanimdim ng mga Aleman na botante. Sa katunayan, ang mga resulta sa Tumasjan et al. (2010) naging masyadong magandang upang maging totoo. Ang isang follow-up na papel ni Andreas Jungherr, Pascal Jürgens, at Harald Schoen (2012) nagpahayag na ang orihinal na pagsusuri ay hindi kasama ang partidong pampulitika na talagang nakatanggap ng pinakamaraming pagbanggit sa Twitter: ang Pirate Party, isang maliit na partido na nakikipaglaban sa regulasyon ng gobyerno ng Internet. Kapag isinama ang Pirate Party sa pag-aaral, ang pagbanggit sa Twitter ay nagiging isang kahila-hilakbot na predictor ng mga resulta ng halalan (figure 2.3). Tulad ng inilalarawan ng halimbawang ito, ang paggamit ng mga hindi pangkalahatan na mga mapagkukunang datos upang gumawa ng out-of-sample na mga generalization ay maaaring maging napaka mali. Gayundin, dapat mong mapansin na ang katotohanan na mayroong 100,000 tweet ay karaniwang walang kaugnayan: maraming hindi pangkatawan na data ay hindi pa kinatawan, isang tema na ibabalik ko sa kabanata 3 kapag talakayin ko ang mga survey.
Upang tapusin, maraming malalaking data pinagkukunan ay hindi kinatawan ng mga halimbawa mula sa ilang mga natukoy na populasyon. Para sa mga tanong na nangangailangan ng pangkalahatang mga resulta mula sa sample sa populasyon mula sa kung saan ito ay inilabas, ito ay isang malubhang problema. Ngunit para sa mga tanong tungkol sa mga paghahambing sa loob-sample, ang mga di-nagpapahayag na datos ay maaaring maging malakas, hangga't malinaw ang mga mananaliksik tungkol sa mga katangian ng kanilang sample at suporta sa mga claim tungkol sa transportability sa teoretiko o empirical na katibayan. Sa katunayan, ang aking pag-asa ay ang malaking mga pinagmumulan ng data ay magbibigay-daan sa mga mananaliksik na gumawa ng higit pang mga sample na paghahambing sa maraming mga di-naghahatid na grupo, at ang aking hula ay ang mga pagtatantya mula sa maraming iba't ibang mga grupo ay magkakaroon ng higit pa upang isulong ang panlipunang pananaliksik kaysa sa isang solong pagtatantya mula sa isang probabilistic random sample.