Data nonrepresentatif ora apik kanggo generalizations out-of-sample, nanging bisa uga migunani kanggo banding ing-sampel.
Sawetara èlmuwan sosial wis biasa nggarap data sing diwiwiti saka sampel acak probabilistik saka populasi sing ditemtokake kanthi jelas, kayata kabeh wong diwasa ing negara tartamtu. Data iki diarani data perwakilan amarga sampel "nggambarake" populasi sing luwih gedhe. Akeh peneliti entuk hadiah data perwakilan, lan kanggo sawetara, data perwakilan sinonim karo ilmu sing ketat lan data nonrepresentative sinonim karo sloppiness. Ing paling ekstrem, sawetara skeptis nganggep yen ora bisa dipetik saka data nonrepresentative. Yen bener, iki bakal mbatesi apa sing bisa dipelajari saka sumber data amba amarga akeh sing ora representasine. Begjanipun, skeptics iki mung sebagian sing bener. Ana tujuan riset tartamtu kanggo data nonrepresentative sing cetha ora cocok, nanging ana uga sing bisa dadi cukup migunani.
Kanggo mangerteni bédané iki, ayo nimbang klasik ilmiah: sinau babagan John Snow ing 1853-54 wabah cholera ing London. Ing wektu kuwi, akeh dokter percaya yen kolera disebabake "hawa sing ora becik," nanging Salju percaya yen iku minangka penyakit infèksi, sing bisa nyebarake banyu ngombé. Kanggo nyoba gagasan iki, Snow njupuk kauntungan saka apa sing saiki bisa kasebut eksperimen alami. Dheweke mbandhingake tingkat kolera saka rumah tangga sing dianakake dening rong perusahaan banyu sing beda: Lambeth and Southwark & Vauxhall. Perusahaan-perusahaan iki dadi rumah tangga sing padha, nanging beda-beda ing salah sawijining cara sing penting: ing taun 1849 - sawetara taun sadurunge wabah wiwit-Lambeth ngalih titik intake hulu saka discharge utama kotor ing London, déné Southwark & Vauxhall ninggalaké pipa intake saka hilir limbah discharge. Nalika salju ngandhut angka kematian akibat kolera ing rumah tangga sing dianakake dening perusahaan kasebut, dheweke nemokake manawa pelanggan Southwark & Vauxhall-perusahaan sing nyedhiyakake pelanggan sewage-sewage banyu-10 persen luwih gedhe tinimbang mati saka kolera. Hasil iki nyedhiyakake bukti ilmiah sing kuwat kanggo pitakonan Snow babagan penyebab cholera, sanajan ora adhedhasar sampel wakil wong ing London.
Nanging data saka loro perusahaan kasebut ora becik kanggo njawab pitakonan sing beda: apa prevalensi kolera ing London nalika wabah? Kanggo pitakonan sing kapindho, sing uga penting, bakal luwih apik kanggo duwe sampel wakil wong saka London.
Minangka karya Snow kang nggambarake, ana sawetara pitakonan ilmiah sing data nonrepresentative bisa cukup efektif lan ana liyane sing ora cocok banget. Salah siji cara kritis kanggo mbedakake rong jinis pitakonan iki yaiku sawetara pitakonan babagan babagan-sampel banding lan sawetara babagan umum-metu sampel. Bédané iki bisa luwih digambaraké kanthi studi klasik liyane ing epidemiologi: Studi Dokter Inggris, sing nduwe peran penting ing nduduhake udud sing nyebabake kanker. Ing panliten iki, Richard Doll lan A. Bradford Hill ngetutake kira-kira 25.000 dokter lanang sajrone pirang-pirang taun lan mbandhingake tingkat kematian sing didhasarake ing jumlah sing diobong nalika panaliten diwiwiti. Boneka lan bukit (1954) nemokake sesambungan cahya-respon sing kuat: wong sing luwih gedhé asap, luwih cenderung padha mati saka kanker paru-paru. Mesthi, mesthi ora bener kanggo ngira-ngira prevalensi kanker paru-paru antarane kabeh wong Inggris adhedhasar klompok dokter lanang, nanging perbandingan ing sampel isih menehi bukti yen rokok nyebabake kanker paru-paru.
Saiki aku wis nggambarake prabandhingan antarane bandingake-sampel lan publikasi metu-sampel, loro-lomba sing dipateni. Kaping pisanan, ana pitakonan alami babagan jangkahane sing ana ing sampel dokter Inggris lanang uga bakal ditahan ing sampel wanita, dokter Inggris utawa buruh pabrik Inggris laki-laki utawa buruh pabrik wanita Jerman utawa akeh liyane. Pitakonan iki menarik lan penting, nanging beda saka pitakonan babagan ombone sing bisa umumake saka sampel menyang populasi. Kabar, umpamane, sing mbokmenawa curiga yen hubungan antarane udud lan kanker sing ditemokake ing dokter Inggris lanang mesthi bakal padha karo kelompok liyane. Kemampuan kanggo nindakake ekstrapolasi kasebut ora teka saka fakta yen dokter Inggris lanang iku sampel acak probabilistik saka populasi manawa; Mangkene, saka mangerteni mekanisme sing ngubungake rokok lan kanker. Mangkono, generalisasi saka sampel menyang populasi sing ditarik iku minangka masalah statistik, nanging pitakonan babagan transportability pola sing ditemokake ing siji klompok menyang klompok liya minangka masalah nonstatistik (Pearl and Bareinboim 2014; Pearl 2015) .
Ing titik kasebut, skeptik bisa nuduhaké menawa pola sosial sing paling mbokmenawa kurang bisa diangkut ngliwati kelompok kajaba hubungan antara udud lan kanker. Lan aku setuju. Ing ngendi wae, kita kudu ngira pola sing bisa diangkut pungkasane dadi pitakonan ilmiah sing kudu diputus adhedhasar teori lan bukti. Sampeyan ora kudu kanthi otomatis pola kasebut bakal diangkut, nanging uga kudu dianggep ora bakal ditransfer. Pitakonan kaya iki abstrak babagan transportability bakal kenal karo sampeyan yen sampeyan wis ngetung debat babagan jumlah peneliti bisa sinau babagan prilaku manungsa kanthi sinau mahasiswa (Sears 1986, [@henrich_most_2010] ) . Sanajan perdebatan kasebut, ora ana alesan kanggo ngandhakake yen peneliti ora bisa sinau apa-apa saka sinau mahasiswa.
Kaveat nomer loro yaiku sing paling peneliti karo data nonrepresentative ora kaya Snow utawa Doll lan Hill. Dadi, kanggo ilustrasi apa sing bisa kelakon nalika panaliti nyoba nggawe generalisasi metu saka sampel saka data nonrepresentatif, aku arep menehi pitutur babagan pamilihan 2009 Pemilihan Parlemen Jerman dening Andranik Tumasjan lan kolega (2010) . Kanthi nganalisa luwih saka 100.000 tweets, padha nemokake yen proporsi tweets sing nyebutake partai politik cocok karo proporsi partai sing ditampa ing pemilihan parlemen (angka 2.3). Ing tembung liya, data Twitter, sing ateges gratis, bisa ngganti survey pendapat umum, sing larang amarga penekanan ing data perwakilan.
Given apa sing mungkin wis ngerti babagan Twitter, sampeyan kudu langsung dadi mamang hasil iki. Jerman ing Twitter ing taun 2009 ora minangka sampel acak probabilis pemilih Jerman, lan panyengkuyung saka sawetara partai bisa nlusur babagan politik luwih asring tinimbang pendukung pihak liya. Mangkono, misale mangkene nggumunake yen kabeh kemungkinan bias sing bisa mbayangake bakal entek mbatalake supaya data iki bakal langsung nuduhake pemilih Jerman. Ing kasunyatan, asil ing Tumasjan et al. (2010) dadi apik banget. A paper follow by Andreas Jungherr, Pascal Jürgens, lan Harald Schoen (2012) nudhuhake yen analisis asli ngecualekake partai politik sing wis bener-bener nampa paling akeh ing Twitter: Partai Pirate, partai cilik sing nglawan peraturan pemerintah saka Internet. Nalika Partai Pirate disedhiyakake ing analisis kasebut, Twitter nyathet dadi prediksi sing elek saka asil pemilu (angka 2.3). Contone, tuladhane iki nuduhake, nggunakake sumber data gedhe sing ora ana hubungane kanggo nggawe generalisasi out-sample bisa dadi salah banget. Uga, sampeyan kudu sok dong mirsani yen kasunyatan bilih ana 100,000 tweets sing ora ana hubungane: akeh data nonrepresentatif sing isih non-wakil, tema sing bakal dakwaca ing bab 3 nalika aku ngrembug survey.
Kanggo nyimpulake, akeh sumber data gedhe sing ora perwakilan sampel saka sawetara populasi sing wis ditemtokake. Kanggo pitakonan sing mbutuhake asil umum saka sampel menyang populasi saka sing ditarik, iki masalah serius. Nanging kanggo pitakon babagan perbandingan-sampel, data nonrepresentatif bisa kuat, sauntara panaliti nemtokake karakteristik sampel lan ndhukung klaim babagan transportasi kanthi bukti teoretis utawa empiris. Ing kasunyatan, pangarep-arepku yaiku yen sumber data gedhe bakal ngidini para panaliti nemtokake bandhingane sampel sajrone akeh non-wakil, lan panemuku yen perkiraan saka akeh kelompok liyane bakal nindakake panaliten sosial luwih saka siji perkiraan saka acak probabilistik sampel.