Ang datos nga dili representante dili maayo alang sa out-of-sample nga mga pangkatibuk-an, apan mahimo nga mapuslanon alang sa mga sampol sa panig-ingnan.
Ang ubang sosyal nga mga siyentipiko naanad sa pagtrabaho sa mga datos nga naggikan sa usa ka probabilistic random sample gikan sa usa ka maayo nga tin-aw nga populasyon, sama sa tanang mga hamtong sa usa ka partikular nga nasud. Kini nga matang sa datos gitawag nga representatibo nga datos tungod kay ang sample "nagrepresentar" sa mas dako nga populasyon. Daghang mga tigdukiduki ang nagdaot sa datos nga representatibo, ug sa uban, ang mga datos sa representatibo parehas sa hugot nga siyensya samtang ang dili representasyon nga datos sama sa sloppiness. Sa labing tumang kalisud, ang pipila nga mga maduhaduha daw nagtuo nga walay bisan unsa nga makat-unan gikan sa dili paghulagway nga datos. Kon matuod, kini ingon og grabe nga limitahan kung unsa ang makat-unan gikan sa dagkong mga tinubdan sa datos tungod kay kadaghanan kanila dili representante. Maayo na lang, kining mga maduhaduhaon husto lamang. Adunay mga tumong sa pagpanukiduki diin ang mga datos nga dili representante klaro nga dili haom, apan adunay uban nga mahimo nga kini mapuslanon gayud.
Aron masabtan kini nga kalainan, atong hisgotan ang usa ka siyentipiko nga klasiko: ang pagtuon ni John Snow sa 1853-54 cholera outbreak sa London. Niadtong panahona, daghang doktor ang nagtuo nga ang kolera gipahinabo sa "dili maayo nga hangin," apan si Snow nagtuo nga kini usa ka makatakod nga sakit, tingali nga mikaylap sa tubig nga mainom nga hugaw. Aron masulayan kini nga ideya, gipahimuslan ni Snow ang unsay mahimo naton nga gitawag karon nga natural nga eksperimento. Gitandi niya ang rate sa kolera sa mga panimalay nga giserbi sa duha ka nagkalainlain nga kompanya sa tubig: Lambeth ug Southwark & Vauxhall. Kini nga mga kompaniya nagsilbi sa sama nga mga panimalay, apan kini nagkalahi sa usa ka importante nga paagi: sa 1849-pipila ka mga tuig sa wala pa magsugod ang epidemya-ang Lambeth mibalhin sa iyang pag-inom sa ibabaw nga bahin sa suba gikan sa mayor nga sewage discharge sa London, samtang ang Southwark & Vauxhall mibiya sa tubo sa ubos nga gikan sa pag-discharge sa dumi. Sa dihang gitandi ni Snow ang kamatayon sa cholera sa mga panimalay sa duha ka kompaniya, nakita niya nga ang mga kustomer sa Southwark ug Vauxhall-ang kompaniya nga naghatag sa mga kustomer nga dunay tubig nga nahugawan sa tubig-10 ka pilo nga mas lagmit nga mamatay sa cholera. Kini nga resulta naghatag og lig-on nga siyentipikong ebidensya sa panaglalis ni Snow mahitungod sa hinungdan sa cholera, bisan wala kini gibase sa usa ka representante nga sample sa mga tawo sa London.
Ang datos gikan niining duha ka mga kompaniya, hinoon, dili maayo alang sa pagtubag sa usa ka lain nga pangutana: unsa ang pagkaylap sa cholera sa London atol sa pag-outbreak? Alang sa ikaduhang pangutana, nga importante usab, mas maayo nga adunay usa ka representante nga sampol sa mga tawo gikan sa London.
Ingon sa gipakita sa buhat ni Snow, adunay pipila ka mga siyentipiko nga mga pangutana diin ang dili hain nga representasyon mahimong epektibo ug adunay uban nga dili maayo niini. Ang usa ka mahilas nga paagi sa pag-ila niining duha ka matang sa mga pangutana mao nga ang pipila ka mga pangutana mahitungod sa mga sampol sa panig-ingnan ug ang uban kabahin sa dili kasagaran nga mga pagkalangkit. Kini nga kalainan mahimong dugang nga gihulagway sa laing klasikal nga pagtuon sa epidemiology: ang British Doctors Study, nga adunay mahinungdanong papel sa pagpakita nga ang pagpanigarilyo maoy hinungdan sa kanser. Niini nga pagtuon, si Richard Doll ug A. Bradford Hill misunod sa gibana-bana nga 25,000 nga mga lalaki nga mga doktor sulod sa pipila ka mga tuig ug gitandi ang ilang mga kamatayon sumala sa kantidad nga ilang gipasigarbo sa dihang nagsugod ang pagtuon. Ang Doll ug Hill (1954) nakakaplag sa usa ka lig-on nga pagkakita-tubag nga relasyon: ang mas daghan nga mga tawo nga manabako, mas lagmit nga sila mamatay gikan sa kanser sa baga. Siyempre, dili maalamon ang pagbanabana sa pagkaylap sa kanser sa baga taliwala sa tanang mga tawo sa Britanya nga gipasukad niining grupo sa mga lalaki nga mga doktor, apan ang pagtandi sa sulod-sample nagpakita nga ang pagpanabako hinungdan sa kanser sa baga.
Karon nga akong gihulagway ang kalainan tali sa sulod-sa-pagkomparar nga mga pagtandi ug out-of-sample nga pangkalahatan, duha nga mga caveat ang gikinahanglan. Una, adunay mga natural nga mga pangutana mahitungod sa gidak-on nga ang usa ka relasyon nga naghupot sa usa ka sample sa mga lalaki nga mga doktor sa Britanya usab maghupot sulod sa usa ka sample sa babaye, British nga mga doktor o lalaki nga mga pabrika sa pabrika sa Britanya o babaye nga mga mamumuong pabrika sa Germany o daghang uban pang mga grupo. Kini nga mga pangutana makaiikag ug mahinungdanon, apan lahi kini sa mga pangutana mahitungod sa gidak-on nga mahimo natong ipanglantaw gikan sa usa ka sample ngadto sa usa ka populasyon. Pananglitan, pananglitan, nga tingali nagduda ka nga ang relasyon tali sa pagpanabako ug kanser nga nakit-an sa lalaki nga mga doktor sa Britanya tingali susama sa ubang mga grupo. Ang imong abilidad sa paghimo niini nga ekstrapolasyon wala magagikan sa kamatuoran nga ang lalaki nga mga doktor sa Britanya usa ka probabilistic random sample gikan sa bisan unsang populasyon; hinoon, kini nagagikan sa pagsabut sa mekanismo nga nagsumpay sa panigarilyo ug kanser. Sa ingon, ang pag-generalisasyon gikan sa usa ka sample ngadto sa populasyon nga gikuha usa ka dakong isyu sa istatistiks, apan ang mga pangutana mahitungod sa transportability sa sumbanan nga nakit-an sa usa ka grupo ngadto sa laing pundok kasagaran usa ka nonstatistical nga isyu (Pearl and Bareinboim 2014; Pearl 2015) .
Niini nga punto, ang usa ka maduhaduhaon mahimong magpasabut nga kadaghanan sa sosyal nga mga sumbanan tingali dili kaayo madala sa mga grupo gawas sa relasyon tali sa pagtabako ug kanser. Ug ako miuyon. Ang gidak-on nga angay natong gipaabot nga mga sumbanan nga mapangulohan sa katapusan usa ka siyentipikong pangutana nga kinahanglang hukman pinasukad sa teorya ug ebidensya. Kinahanglan nga dili kini awtomatik nga hunahunaon nga ang mga sumbanan mahimong maagian, apan dili kinahanglan nga kini ipaabut nga sila dili mapasaylo. Ang mga pamilyar nga mga pangutana kabahin sa transportability pamilyar nimo kung gisunod nimo ang mga debate kon unsa ka daghang mga tigdukiduki ang makakat-on mahitungod sa kinaiya sa tawo pinaagi sa pagtuon sa mga estudyante sa undergraduate (Sears 1986, [@henrich_most_2010] ) . Bisan pa niini nga mga debate, hinoon, dili makatarunganon nga isulti nga ang mga tigdukiduki dili makat-on bisan unsa gikan sa pagtuon sa mga estudyante sa undergraduate.
Ang ikaduha nga caveat mao nga ang kadaghanan sa mga tigdukiduki nga dunay dili naghulagway nga datos dili sama ka mabinantayon sama sa Snow o Doll ug Hill. Busa, aron ihulagway kung unsa ang sayop kon ang mga tigdukiduki mosulay sa paghimo sa usa ka out-of-sample nga pagtandi gikan sa dili representante nga datos, gusto kong isulti kanimo mahitungod sa usa ka pagtuon sa 2009 nga parlamentaryo sa parlamenaryo ni Andranik Tumasjan ug mga kauban (2010) . Pinaagi sa pag-analisar sa sobra sa 100,000 nga mga tweets, ilang nakita nga ang gidaghanon sa mga tweet nga naghisgot sa usa ka partido sa politika nagtumbas sa gidaghanon sa mga boto nga nadawat sa partido sa parliamentary election (numero 2.3). Sa laing pagkasulti, kini nagpakita nga ang datos sa Twitter, nga sa tinuud libre, makapuli sa tradisyonal nga mga survey sa opinyon sa publiko, nga mahal tungod sa ilang pagpasiugda sa datos sa representante.
Gihatag kung unsa ang imong nahibal-an mahitungod sa Twitter, kinahanglan nga dali ka nga magduhaduha niini nga resulta. Ang mga Germans sa Twitter sa 2009 dili usa ka probabilistic random nga sample sa mga German nga botante, ug ang mga tigpaluyo sa pipila ka mga partido mahimo nga mag-tweet mahitungod sa politika mas kanunay kaysa sa mga tigpaluyo sa ubang mga partido. Busa, daw natingala nga ang tanan nga posible nga mga bias nga imong mahanduraw sa bisan unsa nga kanselahon aron kini nga data mahimong direkta nga magpakita sa mga botante nga German. Sa pagkatinuod, ang resulta sa Tumasjan et al. (2010) nga maayo kaayo nga tinuod. Ang usa ka follow-up nga papel ni Andreas Jungherr, Pascal Jürgens, ug Harald Schoen (2012) nagpahayag nga ang orihinal nga pag-analisa wala maglakip sa partido politikal nga nakadawat sa labing gihisgutan sa Twitter: ang Pirate Party, gamay nga partido nga nakig-away sa regulasyon sa gobyerno sa Internet. Sa diha nga gilakip ang Pirate Party sa pagtuki, ang Twitter naghubit nahimong usa ka makalilisang nga prediktor sa mga resulta sa eleksyon (numero 2.3). Sama sa gipakita niini nga panig-ingnan, ang paggamit sa dili mga representante nga mga tinubdan sa datos sa paghimo sa out-of-sample nga mga heneralisasyon mahimong sayop kaayo. Usab, imong mahibal-an nga ang kamatuoran nga adunay 100,000 nga mga tweets ang wala'y kalabutan: daghan nga wala magpresentar nga data wala gihulagway, usa ka tema nga akong ibalik sa kapitulo 3 sa dihang ako maghisgot sa mga survey.
Sa pagtapos, daghang mga tinubdan sa datos dili mga representante nga mga sampol gikan sa pipila ka mga tukmang populasyon. Alang sa mga pangutana nga nagkinahanglan sa paghatag sagol sa mga resulta gikan sa sample ngadto sa populasyon nga gigikanan niini, usa kini ka seryoso nga problema. Apan alang sa mga pangutana mahitungod sa mga sampol sa sulod-sampol, ang mga dili representasyon nga datos mahimong gamhanan, samtang ang mga tigdukiduki klaro sa mga kinaiya sa ilang sample ug pagsuporta sa mga pag-angkon mahitungod sa transportability nga adunay teoretiko o empirical nga ebidensya. Sa pagkatinuod, ang akong paglaum mao nga ang dagkong mga tinubdan sa datos makatabang sa mga tigdukiduki sa paghimo og labaw pa sa mga sampol nga mga pagtandi sa daghang mga dili nagpresentar nga mga grupo, ug ang akong pagtag-an mao nga ang mga pagbanabana gikan sa daghang nagkalain nga mga pundok mas daghan ang makahimo sa pagpauswag sa social research kaysa sa usa ka pagbanabana gikan sa probabilistic random sample.