Takrorlanmagan ma'lumotlar namunadan tashqari umumlashmalar uchun yomondir, ammo ular ichida taqqoslash uchun juda foydali bo'lishi mumkin.
Ba'zi ijtimoiy olimlar ma'lum bir mamlakatda barcha katta yoshdagilar kabi yaxshi aniqlangan aholi tomonidan yuzaga kelishi mumkin bo'lgan tasodifiy namunali ma'lumotlardan foydalanishga o'rganishadi. Ushbu turdagi ma'lumotlar vakillik ma'lumoti deb ataladi, chunki namuna "katta" aholini ifodalaydi. Ko'pgina tadqiqotchilar vakillik ma'lumotlarini sovg'a qiladi va ba'zi ma'lumotlarga ko'ra, vakolatga ega ma'lumotlar ishonchli ilm-fan bilan sinonimga ega, biroq nodematsiz ma'lumotlar ma'ruza bilan bog'liq. Ba'zi skeptiklar, noqonuniy ma'lumotlardan hech narsa o'rganmasligiga ishonishadi. Agar haqiqat bo'lsa, bu katta ma'lumot manbalaridan o'rganilishi mumkin bo'lgan narsalarni cheklash kabi ko'rinadi, chunki ularning ko'pchiligi vakillikka ega emas. Yaxshiyamki, bu shubhalar faqat qisman to'g'ri. Nominal ma'lumotlarning aniq mos bo'lmagan aniq tadqiqot maqsadlari mavjud, ammo boshqalar uchun u aslida juda foydali bo'lishi mumkin.
Ushbu farqni tushunish uchun keling, ilmiy klassikani ko'rib chiqaylik: Jon Snowning Londonda 1853-54 yillardagi xoler epidemiyasi haqidagi tadqiqotlari. O'sha paytda ko'plab shifokorlar kolxozga "yomon havo" sabab bo'lganiga ishonishgan, biroq "qor" bu yuqumli kasallik, ehtimol, kanalizatsiya bilan qoplangan ichimlik suvi bilan tarqaldi, deb hisoblashdi. Ushbu g'oyani sinash uchun, Kar endi tabiiy tajriba deb atashimiz mumkin bo'lgan narsadan foydalandi. U Lambeth va Southwark & Vauxhall kompaniyalari ikki xil suv xo'jaligi kompaniyalari tomonidan xizmat ko'rsatadigan uy xo'jaliklarining vahima stavkalarini solishtirgan. Ushbu kompaniyalar shu kabi uy xo'jaliklarida xizmat qildilar, ammo ular bir-biridan farq qildilar: 1849 yilda - epidemiya boshlanganidan bir necha yil oldin - Lambeth Londonning asosiy kanalizatsiya quvvati oqimini yuqoriga chiqdi, Janubiywark & Vauxhall esa o'z quvurlarini quyi oqimdan kanalizatsiya dezinfektsiyasi. Qor, ikkala kompaniya tomonidan xizmat ko'rsatgan uy xo'jaliklarida o'lim hollarini qiynash bilan solishtirganda, u "Southwark & Vauxhall" ning mijozlariga kanalizatsiya qilingan suvni etkazib bergan kompaniya mijozlarini xoleradan halok bo'lish ehtimoliga qaraganda 10 barobar ko'proq ekanini aniqladi. Bu natija, qarning vaboning sababi haqida qor bilan bog'liq munozarali uchun kuchli ilmiy dalillarni beradi, garchi u Londondagi odamlarning namunali namunasiga asoslanmagan bo'lsa ham.
Biroq, bu ikki firma ma'lumotlari boshqa savollarga javob berish uchun ideal emas: mast bo'lish davrida Londonda vabo tarqalishi qanday edi? Ikkinchidan, bu muhim ahamiyatga ega bo'lgan ikkinchi savol uchun Londondagi odamlarning namunali namunasiga ega bo'lish juda yaxshi bo'ladi.
Qorning ishi tasvirlanganidek, ba'zi bir ilmiy savollar mavjud, ular uchun nopronimativ ma'lumotlar juda samarali bo'lishi mumkin va boshqalar uchun u yaxshi mos kelmaydi. Ushbu ikki turdagi savollarni ajratib olishning xam yo'llaridan biri, ba'zi savollar masalalar bo'yicha taqqoslashlar, ayrimlari esa namunadan tashqari umumlashmalar haqida. Ushbu farqni epidemiologiyadagi boshqa klassik tadqiqotlar bilan ham ifodalash mumkin: Britaniyadagi shifokorlarning tekshiruvi sigaretaning saratonga olib kelishi haqida muhim rol o'ynagan. Ushbu tadqiqotda Richard Doll va A. Bradford Hill bir necha yil davomida taxminan 25 ming erkak shifokorga murojaat qilishdi va o'lim ko'rsatkichlarini o'rganish boshlanganda chekish miqdoriga qarab taqqosladilar. Doll and Hill (1954) kuchli sezuvchanlik bilan munosabat munosabatlarini aniqladi: o'ta og'ir odamlarda sigaret chekish o'pka saratonidan o'lish ehtimoli ko'proq. Albatta, ushbu guruhda erkak shifokorlar guruhiga asoslangan barcha ingliz xalqlari orasida o'pka saratoni tarqalishini taxmin qilish oqilona bo'lmaydi, biroq ich ichidagi taqqoslash, chekish o'pka saratoniga sabab bo'lganligini isbotlaydi.
Keling, namunadagi taqqoslashlar va namunalardan tashqari umumlashtirilishlar o'rtasidagi farqni ko'rsatganimdek, ikkita ogohlantirish bor. Birinchidan, erkak britaniyalik shifokorlarning namunalari ichida tutgan munosabatlar, shuningdek, ayollar, ingliz shifokorlari yoki ingliz fabrika ishchilari yoki ayol nemis fabrikasi ishchilari yoki boshqa ko'plab guruhlarning namunalari bo'yicha tabiiy ravishda bog'liq savollar mavjud. Bu savollar qiziqarli va muhimdir, ammo ular misoldan aholiga qanchalik umumlashtira oladigan masalalardan farq qiladi. Misol uchun, erkak britaniyalik shifokorlardagi sigaret va saraton o'rtasidagi munosabatlar, ehtimol, bu boshqa guruhlarda o'xshash bo'lishi mumkinligiga shubha bilan qarash mumkin. Ushbu ekstrapolyatsiyani qilish qobiliyatingiz erkak britaniyalik shifokorlar har qanday populyatsiyadan mumkin bo'lgan tasodifiy namuna ekanligidan kelib chiqmaydi; Aksincha, bu chekish va saraton bilan bog'liq mexanizmni tushunishdan kelib chiqadi. Shunday qilib, namunadan aholi soniga umumlashtirish, asosan, statistik muammodir, biroq guruhdagi boshqa guruhga ko'chirilgan modelni ko'chirish masalalari ko'p jihatdan statistika muammosidir (Pearl and Bareinboim 2014; Pearl 2015) .
Shu nuqtada, skeptik, aksariyat ijtimoiy naqshlarning sigaret va saraton o'rtasidagi munosabatlardan ko'ra guruhlar orasida kamroq ko'chma bo'lishi mumkinligini ko'rsatishi mumkin. Men ham roziman. Naqshlarni ko'chirishni kutishimiz kerak bo'lgan daraja, oxir-oqibatda, nazariya va dalillarga asoslangan holda hal qilinishi kerak bo'lgan ilmiy savoldir. Avtotransport vositalarining ko'chirilishi avtomatik tarzda qabul qilinmasligi kerak, lekin ularni ko'chirish mumkin emas deb taxmin qilish kerak emas. Ko'chirishga oid ba'zi bir mavhum savollarga siz talabalarni o'qib, odamlarning xulq-atvori haqida qancha tadqiqotchini bilib olishlari haqidagi bahslarga rioya qilgan bo'lsangiz (Sears 1986, [@henrich_most_2010] ) . Biroq, bu tortishuvlarga qaramay, tadqiqotchilar litsenziya talabalarini o'rganishdan hech narsa o'rgana olmaydilar.
Ikkinchi ogohlantirish shundan iboratki, ko'pchilik tadqiqotchilar o'zlarining ma'lumotlariga ega bo'lmaganlar Snow yoki Doll va Hill kabi ehtiyot bo'lishmaydi. Tadqiqotchilar misli ko'rilmagan ma'lumotlarni umumlashtirmaslikka harakat qilsalar, nima uchun noto'g'ri bo'lishi mumkinligini tasvirlash uchun men sizlarga 2009 yilgi Nemis parlamentida o'tkazilgan saylovlar haqida Andranik Tumasjan va uning hamkasblari (2010) haqida ma'lumot berishni istardim. 100 mingdan ziyod tvitlarni tahlil qilib, ular siyosiy partiyalar haqida yozgan tweetlarning nisbati parlament saylovlarida olingan ovozlarning nisbatlariga mos kelishini aniqladilar (2.3-rasm). Boshqa so'zlar bilan aytganda, asosan bepul bo'lgan Twitterdagi ma'lumotlar an'anaviy jamoatchilik fikrini o'rganish o'rnini egallashi mumkin edi.
Twitter-da ehtimol siz allaqachon bilgan narsalarni nazarda tutgan holda, darhol ushbu natijaga shubha bilan qarashingiz kerak. 2009 yilda Twitterdagi nemislar nemis saylovchilarining tasodifiy tasodifiy tanlovi bo'lmagani va ayrim partiyalar tarafdorlari boshqa partiyalar tarafdorlariga qaraganda siyosat haqida tez-tez tilga olinishlari mumkin edi. Shunday qilib, siz tasavvur qilishingiz mumkin bo'lgan barcha ehtimolliklar, bu ma'lumotlar nemis saylovchilarining bevosita aks ettirishi uchun bekor qilinishini hayratga soladi. Aslida, Tumasjan et al. (2010) haqiqat bo'lish uchun juda yaxshi bo'ldi. Andreas Jungherr, Paskal Jurjens va Xarald Schoen (2012) tomonidan tayyorlangan kuzatuv xati, aslida, Twitterda eng ko'p eslatilgan siyosiy partiyani asl tahlildan chetda qoldirganligini ta'kidladi: Pirate Party, hukumatni tartibga solish bilan kurashuvchi kichik partiya Internet tarmog'i. Qaroqchilar partiyasi tahlilga kiritilganda, Twitterda qayd etilgan natijalar saylov natijalarining dahshatli yordayishiga aylanadi (2.3-rasm). Ushbu misolda tasvirlanganidek, misol uchun namunali umumlashtiruvlarni bajarish uchun nodermatsiz katta ma'lumot manbalarini qo'llash juda noto'g'ri bo'lishi mumkin. Bundan tashqari, 100,000 ta tweet mavjudligi aslida befoyda ekanini payqashingiz kerak: ko'p bo'lmagan nodavlat ma'lumotlar hali ham nodavlat emas, tadqiqotlarni muhokama qilayotganda men 3-bobga qaytib boradigan mavzu.
Xulosa qilish kerakki, ko'pgina katta ma'lumot manbalari ma'lum aniq aholi vakillari vakillaridan iborat emas. Yalpi natijalarni talab qiladigan masalalar uchun u olingan namunadan aholiga, bu jiddiy muammo. Biroq, namunadagi taqqoslashlar haqidagi savollar uchun, tadqiqotchilar o'zlarining namunaviy xarakteristikalari va ularning nazariy va ampirik dalillarga ega bo'lishi haqidagi da'volarni qo'llab-quvvatlayotgan ekanligi sababli nodematsiz ma'lumotlar kuchli bo'lishi mumkin. Darhaqiqat, umid qilamanki, katta ma'lumot manbalari tadqiqotchilarga ko'plab vakilatsiz guruhlarda ko'proq taqqoslashni taqozo etadi va mening taxminimcha, ko'plab guruhlardan olingan taxminlarga ko'ra, ijtimoiy tadqiqotlar natijalarini tasodifiy tasodifiy namuna.