Data Nonrepresentative anu goréng pikeun kaluar-of-sampel Generalisasi, tapi tiasa rada mangpaat pikeun babandingan dina-sampel.
Sababaraha élmuwan sosial biasa gawé bareng data nu asalna tina sampel acak probabilistik ti populasi well-dihartikeun, kayaning kabeh dewasa di nagara nu tangtu. Jenis ieu data disebut data wawakil sabab sampel "ngawakilan" populasi nu leuwih gede. Loba peneliti hadiah data wawakil, sareng ka sababaraha, data wawakil nyaéta sinonim jeung sains rigorous sedengkeun data nonrepresentative mangrupakeun sinonim jeung sloppiness. Di paling ekstrim, sababaraha skeptics sigana yakin yén euweuh bisa diajar tina data nonrepresentative. Lamun leres, ieu sigana bakal nepi parah ngawatesan naon bisa diajar tina sumber data badag sabab loba di antarana anu nonrepresentative. Untungna, skeptics ieu ngan sawaréh katuhu. Aya gol panalungtikan tangtu pikeun anu data nonrepresentative jelas teu weleh cocog, tapi aya batur keur nu eta bisa sabenerna jadi rada mangpaat.
Ngartos bedana ieu, hayu urang nganggap hiji Palasik ilmiah: Ulikan John Salju urang tina wabah 1853-54 kolera di London. Wanoh, loba dokter dipercaya yén kolera ieu disababkeun ku "hawa goréng" tapi Salju dipercaya yén ieu hiji kasakit inféksi, sugan nyebarkeun ku cai nginum kokotor-laced. Pikeun nguji gagasan ieu, Salju nyokot kauntungan tina naon ayeuna urang bisa nelepon hiji percobaan alam. Anjeunna dibandingkeun ongkos kolera rumahtangga dilayanan ku dua pausahaan cai béda: Lambeth na Southwark & Vauxhall. pausahaan ieu dilayanan rumahtangga sarupa, tapi aranjeunna differed dina hiji jalan penting: di 1849-sababaraha taun saméméh wabah mimitian-Lambeth dipindahkeun titik asupan na hulu ti ngurangan kokotor utama di London, sedengkeun Southwark & Vauxhall ditinggalkeun pipe asupan maranéhanana hilir ti ngurangan kokotor. Nalika Salju dibandingkeun ongkos maot ti kolera dina rumahtangga dilayanan ku dua pausahaan, anjeunna manggihan yén konsumén of Southwark & Vauxhall-pausahaan nu ieu nyadiakeun konsumén kokotor-tainted cai-éta 10 kali leuwih gampang maot ti kolera. hasilna ieu nyadiakeun bukti ilmiah kuat pikeun argumen Salju urang ngeunaan ngabalukarkeun kolera, sanajan eta henteu dumasar kana sampel wawakil urang di London.
Data ti dua pausahaan ieu kitu, teu bakal jadi idéal pikeun ngawalon hiji sual béda: naon nu Prévalénsi kolera di London salila wabah nu? Pikeun anu pertanyaan kadua, nu penting oge, eta bakal leuwih hadé mun boga sampel wawakil urang ti London.
Salaku karya Salju urang illustrates, aya sababaraha patarosan ilmiah pikeun nu data nonrepresentative tiasa rada efektif tur aya batur pikeun anu teu ogé cocog. Hiji cara atah keur ngabedakeun dua rupa ieu tina patarosan téh boga sawatara patarosan anu ngeunaan babandinganana dina-sampel sarta sababaraha téh ngeunaan kaluar-of-sampel Generalisasi. bedana kieu bisa salajengna gambar ku ulikan Palasik sejen di epidemiology: nu Dokter Britania Study, nu dicoo peran penting dina demonstrating yen roko ngabalukarkeun kanker. Dina ulikan ieu, Richard boneka jeung A. Bradford Hill dituturkeun kira 25,000 dokter jalu pikeun sababaraha taun sarta dibandingkeun ongkos maot maranéhanana dumasar kana jumlah anu aranjeunna smoked nalika nalungtik dimimitian. Boneka na Hill (1954) kapanggih hubungan paparan-response kuat: beuki beurat jalma smoked, anu leuwih gampang éta mun maot tina kanker paru. Tangtu, bakal unwise keur estimasi Prévalénsi kanker paru diantara sakabeh jalma Britania dumasar kana grup ieu dokter jalu, tapi nu ngabandingkeun dina-sampel masih nyadiakeun bukti yén udud ngabalukarkeun kanker paru.
Ayeuna mah geus gambar beda antara babandinganana dina-sampel sarta kaluar-of-sampel Generalisasi, dua caveats aya dina urutan. Kahiji, aya sacara alami patarosan ngeunaan extent ka mana hubungan nu nyepeng dina sampel dokter Britania jalu ogé bakal tahan dina sampel bikang, dokter Inggris atanapi buruh pabrik Britania jalu atanapi buruh pabrik Jerman bikang atawa loba grup lianna. patarosan ieu metot jeung penting, tapi aranjeunna béda ti patarosan ngeunaan extent nu bisa generalize tina sampel ka populasi. Bewara, contona, nu meureun nyangka yén hubungan antawis nu udud jeung kanker anu kapanggih dina dokter Britania jalu baris meureun jadi sarupa di ieu grup lianna. pangabisa anjeun pikeun ngalakukeun extrapolation ieu teu datangna tina kanyataan yen dokter Britania jalu anu sampel acak probabilistik tina populasi wae; rada, datang ti hiji pamahaman mékanisme nu numbu udud jeung kanker. Ku kituna, generalisasi tina sampel ka populasi ti mana dicokot téh sakitu legana hiji masalah statistical, tapi patarosan ngeunaan transportability tina pola kapanggih dina salah sahiji group ka grup sejen nyaeta sakitu legana hiji masalah nonstatistical (Pearl and Bareinboim 2014; Pearl 2015) .
Dina tahap ieu, skeptic a bisa nunjuk kaluar nu paling pola sosial anu sigana mah kurang transportable sakuliah Grup batan hubungan antawis nu udud jeung kanker. Na kuring satuju. Extent nu urang kudu nyangka pola janten transportable téh pamustunganana pertanyaan ilmiah nu geus jadi mutuskeun dumasar kana tiori tur bukti. Sakuduna teu otomatis jadi dianggap yén pola bakal transportable tapi atawa kedah eta dianggap yén maranéhna moal bisa transportable. Ieu patarosan rada abstrak ngeunaan transportability bakal wawuh ka anjeun lamun anjeun geus dituturkeun dina debat ngeunaan sabaraha peneliti bisa ngalenyepan kabiasaan manusa ku diajar siswa sarjana (Sears 1986, [@henrich_most_2010] ) . Sanajan debat ieu kitu, nya bakal jadi alesan disebutkeun yen peneliti moal bisa neuleuman nanaon da diajar siswa sarjana.
The caveat kadua anu paling peneliti kalawan data nonrepresentative henteu sakumaha ati sakumaha Salju atawa boneka na Hill. Ku kituna, pikeun ngagambarkeun kumaha bisa balik salah lamun peneliti coba nyieun hiji generalisasi kaluar-of-sampel tina data nonrepresentative, Abdi hoyong ngabejaan Anjeun tentang hiji ulikan ngeunaan pamilihan Jerman parlemén 2009 ku Andranik Tumasjan sareng kolega Anjeun (2010) . Ku analisa leuwih ti 100.000 tweets, maranéhna manggihan yén proporsi tweets mentioning hiji partéy pulitik loyog proporsi undian anu katilu nampi dina pamilihan parlemén (inohong 2.3). Dina basa sejen, eta mucunghul yén data Twitter, nu éta dasarna bébas, bisa ngaganti survey pendapat umum tradisional nu mahal kusabab tekenan maranéhanana dina data wawakil.
Dibikeun kumaha Anjeun meureun geus nyaho ngeunaan Twitter, Anjeun kudu geuwat jadi skeptis tina hasil ieu. Germans on Twitter taun 2009 éta teu sampel acak probabilistik pamilih Jerman, sarta ngarojong tina sababaraha pihak bisa tweet tentang politik leuwih sering ti ngarojong pihak séjén. Ku kituna, sigana heran kabeh tina biases mungkin yen bisa Anjeun ngabayangkeun bakal kumaha bae ngabolaykeun kaluar ku kituna data ieu bakal langsung reflective pamilih Jerman. Kanyataanna, hasil di Tumasjan et al. (2010) tétéla jadi teuing alus janten leres. A nurutan-up kertas ku Andreas Jungherr, Pascal Jürgens, sarta Harald Schoen (2012) adzab kaluar yén analisis aslina sempet kaasup partéy pulitik anu kungsi sabenerna narima paling nyebutkeun on Twitter: nu bajak Partéi, pihak leutik nu gelut Perda pamaréntah tina Internet. Nalika Partéy bajak ieu kaasup dina analisis, Twitter nyebutkeun janten prediktor dahsyat hasil pemilu (inohong 2.3). Salaku conto ieu illustrates, ngagunakeun sumber data badag nonrepresentative ulah kaluar-of-sampel Generalisasi bisa balik pisan salah. Ogé, anjeun kedah aya bewara yen kanyataan yen aya 100.000 tweets éta dasarna nyimpang: kavling data nonrepresentative masih nonrepresentative, tema nu kuring gé balik deui ka dina bab 3 lamun kuring ngabahas survey.
Dicindekkeun, loba sumber data badag henteu sampel wawakil ti sababaraha populasi well-tangtu. Pikeun patarosan anu meryogikeun hasil generalizing tina sampel ka populasi ti mana eta ieu digambar, ieu masalah serius. Tapi pikeun patarosan ngeunaan babandinganana dina-sampel, data nonrepresentative tiasa kuat, jadi salami peneliti anu jelas ngeunaan ciri tina sampel sarta rojongan maranéhna klaim ngeunaan transportability kalawan bukti teoritis atanapi empiris. Kanyataanna, harepan abdi anu sumber data badag bakal ngaktipkeun peneliti sangkan leuwih babandinganana dina-sampel dina loba grup nonrepresentative, sarta tatarucingan abdi yen taksiran tina loba grup béda bakal ngalakukeun leuwih maju ieu panalungtikan sosial ti estimasi tunggal ti acak probabilistik sampel.