Agar yaxshi ma'lumotlar bilan yaxshi savol birlashtirish bo'lsa oddiy hisoblash qiziqarli bo'lishi mumkin.
Garchi u murakkab tilda yozilgan bo'lsa-da, ko'pgina ijtimoiy tadqiqotlar haqiqatdan ham narsalarni sanaydi. Katta ma'lumotli davrda, tadqiqotchilar hozirgacha har qachongidan ko'proq narsani hisoblashlari mumkin, ammo bu ular faqatgina hisobga olishni boshlash kerak degani emas. Buning o'rniga, tadqiqotchilar quyidagi savollarni berishlari kerak: Nima uchun hisoblash arziydi? Bu butunlay subjektiv masalaga o'xshab ko'rinishi mumkin, lekin ba'zi umumiy naqshlar mavjud.
Ko'pincha talabalar o'zlarining hisob-kitoblarini izlanishlari bilan shunday deyishadi: Men bundan oldin hech kim hisoblanmagan biror narsani hisoblayman. Misol uchun, talaba ko'plab kishilar muhojirlarni o'rganganini va ko'pchilik egizaklarni o'rganganini aytishadi, ammo hech kim migrant egizaklarni o'rganmagan. Mening tajribamga ko'ra, men motivatsiya yo'q deb hisoblagan bu strategiya odatda yaxshi izlanishga olib kelmaydi. Yo'qolgan holda motivatsiya - u erda teshik borligini va uni to'ldirish uchun juda qattiq ishlayman. Lekin har bir teshikni to'ldirish kerak emas.
Yo'qotishlarsiz harakat qilishning o'rniga men muhimroq yoki qiziqarli (yoki umuman ikkalasi) bo'lgan tadqiqotga oid savollarni izlashni yanada yaxshi strategiya deb o'ylayman. Bu ikkala shartni biroz aniqlash qiyin, ammo muhim tadqiqotlar haqida o'ylashning bir usuli, siyosatchilarning muhim qarorga aylantirishi yoki o'lchanishi. Masalan, ishsizlik darajasini o'lchash muhim ahamiyatga ega, chunki u siyosat qarorlarini boshqaradigan iqtisodiyotning ko'rsatkichidir. Umuman olganda, menimcha, tadqiqotchilar muhim narsalarni yaxshi tushunishadi. Shunday qilib, men ushbu bo'limning qolgan qismida hisoblash qiziqarli deb hisoblayman, deb o'ylayman. Tadqiqotchilar har bir holatda tezda hisoblanmaydilar; Aksincha, ular ijtimoiy tizimlarning qanday ishlashi haqida ko'proq umumiy fikrga ega bo'lgan muhim tushunchalarni ochib bergan juda aniq sharoitlarda hisoblashardi. Boshqacha qilib aytganda, ushbu maxsus hisoblashni qiziqarli qilish juda ko'p narsa ma'lumotlarning o'zi emas, balki bu umumiy g'oyalardan kelib chiqadi.
Oddiy hisoblash qobiliyatining bir misolidan Genri Farber (2015) Nyu-York shahridagi taksi haydovchilarining xatti-harakatini o'rganishadi. Garchi bu guruh tabiiy ravishda qiziqarli bo'lmasa-da, bu mehnat iqtisodiyotida ikki raqobatlashadigan nazariyani sinab ko'rish uchun strategik tadqiqot maydonchasidir . Farberning tadqiqotlari uchun taksi haydovchilarining ish muhiti haqida ikkita muhim jihat bor: (1) soatlik ish haqi kundan-kunga o'zgarib turadi, qisman ob-havo kabi omillarga bog'liq va (2) ish ularning qarorlari asosida har kuni o'zgarishi mumkin. Bu xususiyatlar soatlab ish haqi va ish soatlari o'rtasidagi munosabatlar haqida qiziqarli savol tug'diradi. Iqtisodiyotda neoklassik modellar, taksi haydovchilarining soatlik ish haqi yuqori bo'lgan kunlarda ko'proq ishlashlarini taxmin qiladi. Shu bilan bir qatorda, xatti-harakatlarning iqtisod modellaridan farqli o'laroq, aksincha. Agar haydovchilar ma'lum bir daromadni aniqlasalar, kuniga 100 AQSh dollarini aytsalar va bu maqsadga erishilmaguncha ishlashsa, haydovchilar kundan kamroq vaqt ishlaydilar. Misol uchun, agar siz maqsadli kassir bo'lsangiz, yaxshi kunlarda (soatiga 25 dollar) va yomon kunda (soatiga 20 dollar) besh soat ishlashingiz mumkin. Shunday qilib, haydovchilar soatlik ish haqining yuqoriligi (neoklasik modellar tomonidan taxmin qilinganidek) yoki undan past soatda soatlab ish haqi bilan ko'proq soatni ishlayaptimi (xatti-harakatlarning iqtisodiy modellari bo'yicha taxmin qilingan)?
Bu savolga javob berish uchun Farber 2009-2013 yillar mobaynida Nyu-York shahridagi taksi idoralari tomonidan olib borilgan har bir taksiga ma'lumotlarni keltirdi, hozirgi kunda bu ma'lumotlar ommaviydir. Ushbu ma'lumot - elektron hisoblagich yordamida shahardan taksi foydalanishni talab qiladi - har bir sayohat haqida ma'lumotni o'z ichiga oladi: boshlash vaqti, boshlanish joyi, tugash vaqti, so'nggi manzil, tariflar va uchi (agar maslahat kredit karta bilan to'langan bo'lsa) . Ushbu taksi metr ma'lumotidan foydalanib, Farber ko'plab haydovchilar neoklassik nazariyaga muvofiq ish haqi yuqori bo'lgan kunlarda ko'proq ishlayotganligini aniqladi.
Ushbu asosiy topilma bilan bir qatorda, Farber ham heterojenlik va dinamikani yaxshiroq tushunish uchun ma'lumotlarning hajmini ishlatishga muvaffaq bo'ldi. U, vaqt o'tishi bilan yangi drayvlar asta-sekin yuqori ish haqi kunlarida ko'proq soat ishlashni o'rgandilar (masalan, neoklassik model taxmin qilishni o'rganishadi). Va maqsadli ishchilar kabi ko'proq harakat qiladigan yangi haydovchilar taksi haydovchisidan chiqib ketish ehtimoli ko'proq. Hozirgi haydovchilarning kuzatilgan xatti-harakatlarini tushuntirishga yordam beradigan ikkita bu nozik kashfiyotlar faqat ma'lumotlar to'plamining o'lchami tufayli yuzaga kelgan. Qisqa vaqt ichida kam sonli taksi haydovchisidan qog'oz parchalarini ishlatgan ilgari tadqiqotlar (Camerer et al. 1997) .
Farberning tadqiqotlari katta ma'lumot manbalaridan foydalangan holda, tadqiq qilish uchun eng yaxshi senariyga yaqin edi, chunki shahar tomonidan to'plangan ma'lumotlar Farber to'playdigan ma'lumotlarga juda yaqin edi (Farberning umumiy ma'lumot bo'yicha ish haqi va qo'shimcha maslahatlar - shahar ma'lumotlari faqat kredit kartasi orqali to'langan pullarni o'z ichiga oladi). Biroq, ma'lumotlarning o'zi etarli emas edi. Farber tadqiqotining kaliti ma'lumotlarga qiziqarli savol tug'dirdi. Bu savol shu savolga javob bermadi.
Gari King, Jenifer Pan va Molli Roberts (2013) Xitoy hukumati tomonidan onlayn tsenzura bo'yicha olib borilgan tadqiqotlar natijalaridan ikkinchi misol. Biroq, bu holatda tadqiqotchilar o'zlarining katta ma'lumotlarini to'plashlari kerak edi va ularning ma'lumotlarining to'liq bo'lmaganligi bilan shug'ullanish kerak edi.
Shoh va uning hamkasblari Xitoyda ijtimoiy axborot vositalarining o'n minglab odamlarni qamrab oladigan yirik davlat apparati tomonidan tsenzura qilinishiga sabab bo'lgan edi. Tadqiqotchilar va fuqarolar, bu tsenzorlar qanday tarkibni o'chirib tashlash kerakligi haqida qanday fikrda ekanini bilishmaydi. Xitoylik olimlar aslida qaysi xabar turlari o'chirilishi mumkinligi haqida ziddiyatli taxminlar mavjud. Ba'zilar, tsenzorlar davlatni tanqid qiluvchi postlarga e'tibor berishadi, boshqalari esa norozilik kabi jamoaviy xatti-harakatlarni rag'batlantiradigan postlarga e'tibor berishadi deb o'ylashadi. Ushbu taxminlardan qaysi biri to'g'ri ekanligini aniqlash tadqiqotchilar Xitoyni va tsenzura bilan shug'ullanadigan boshqa avtoritar hukumatlarni qanday tushunishini anglatadi. Shuning uchun Shoh va uning hamkasblari nashr etilgan va keyinchalik nashr etilgan va hech qachon o'chirilmagan xabarlar bilan o'chirib tashlangan xabarlarni taqqoslashni xohlashdi.
Bu xabarlar Kollektsiya yig'ish turli sahifa tegishli xabarlar tartibini aniqlash va keyinchalik o'chirildi qaysi ko'rish uchun bu xabarlar revisiting bilan 1000 dan ortiq Xitoy ijtimoiy media saytlari-har emaklay ajoyib muhandislik feat ishtirok. keng ko'lamli veb-emaklay bilan bog'liq normal muhandislik muammolarini tashqari, ushbu loyiha ko'p tsenzura xabarlar kam 24 soat ichida pastga olinadi, chunki u juda tez bo'lishi kerak qo'shiladi muammo bor edi. Boshqa so'zlar bilan aytganda, bir-sekin gusenitsali tsenzura qilingan xabarlar ko'p sog'indim edi. Bundan tashqari, brauzerlarning ijtimoiy media saytlari o'rganish javoban o'z siyosatini o'zgartirishi aks holda to'sib yoki qolmasin aniqlash bo'yin tovlaganlik esa barcha bu ma'lumotlarni yig'ish kerak edi.
Katta muhandislik bo'yicha topshiriqni bajarish vaqtida King va uning hamkasblari 85 ta turli xil mavzular bo'yicha taxminan 11 mln. Misol uchun, yuqori sezuvchanlik mavzusi Ai Weiwei, dissident san'atkor; O'rtacha sezuvchanlik mavzusi - Xitoy valyutasining qadriga yetishi va qadrsizlanishi va past sezuvchanlik mavzusi - Jahon kubogi. Ushbu 11 million postning 2 millionga yaqini tsenzura qilingan. Afsuski, Shoh va uning hamkasblari o'rta va past sezgir mavzulardagi xabarlarga qaraganda, juda nozik mavzulardagi postlarni faqat biroz ko'proq tsenzura qilishgan. Boshqacha qilib aytadigan bo'lsak, Xitoy senzuralari Ai Veyveyni Jahon Kubogi haqida eslatgan lavozimda eslatib o'tadigan postni senzirovka qilish ehtimoli haqida. Ushbu topilmalar hukumatning nozik masalalar bo'yicha barcha lavozimlarni senzura qilish haqidagi fikrini qo'llab-quvvatlamaydi.
Biroq, mavzu bo'yicha tsenzura stavkasini oddiy hisoblash yanglish bo'lishi mumkin. Misol uchun, hukumat Ai Weiwei-ni qo'llab-quvvatlovchi postlarni senzura qilishi mumkin, ammo u tanqidiy postlarni tark etishi mumkin. Ko'proq diqqat xabarlardan farqlash uchun, tadqiqotchilar har bir xabarga tuyg'usiga o'lchash uchun zarur. Afsuski, ko'p ishlarga qaramay, oldindan mavjud bo'lgan lug'atlardan foydalanishni his qilishni to'liq avtomatlashtirilgan usullari hali ko'p holatlarda juda yaxshi emas (2001 yil 11 sentyabrda, 2.3.9-bobda tasvirlangan emotsional vaqt jadvalini yaratadigan muammolarni ko'rib chiqing). Demak, Shoh va uning hamkasblari 11 million ijtimoiy media lavozimiga (1) davlatni tanqid qilishlariga, (2) davlatni qo'llab-quvvatlashga yoki (3) hodisalar haqida noto'g'ri yoki faktik hisobotlarga ega bo'lishlari kerakligini aniqlashlari kerak edi. Bu katta ish kabi tovushlar, lekin ular ma'lumotlar fan keng tarqalgan, lekin ijtimoiy fan nisbatan kam kuchli trik yordamida uni hal: o'rganish nazorat; 2.5-rasmga qarang.
Birinchidan, odatda preprocessing deb nomlangan bir qadamda, tadqiqotchilar ijtimoiy media postlarini hujjat muddatli matritsaga aylantirdilar , bu erda har bir hujjat uchun bir qator va postda muayyan so'z (masalan, norozilik yoki trafik) . So'ngra, tadqiqotchi yordamchilari guruhi bir nechta postning mohiyatini belgilab qo'ydi. Keyinchalik, ular qo'l yozuvi bilan bog'liq bo'lgan ma'lumotlardan foydalangan holda, kompyuterning o'ziga xos xususiyatlariga qarab, kompyuterning ta'lim modelini yaratishi mumkin edi. Va nihoyat, ular 11 million postning fikrini taxmin qilish uchun ushbu modelni qo'lladilar.
Shunday qilib, 11 million postni qo'lda o'qish va etiketlashdan ko'ra - bu logistik jihatdan imkonsiz bo'lar edi - Shoh va uning hamkasblari qo'llaridagi kam sonli lavhalarni belgilab olishdi va so'ngra barcha postlarning his-tuyg'ularini baholash uchun boshqariladigan o'rganishni qo'lladilar. Ushbu tahlilni yakunlaganidan so'ng, ular bir-biridan ajablanadigan postni o'chirish ehtimoli davlatni tanqid qiladimi yoki davlatni qo'llab-quvvatlayotgani bilan aloqasi yo'q degan xulosaga kelishdi.
Oxir-oqibat, Shoh va uning hamkasblari uch turdagi postlarni muntazam ravishda tsenzura qilishgan: pornografiya, senzura tanqidchilari va jamoaviy harakat salohiyatiga ega bo'lganlar (masalan, keng miqyosli noroziliklarga olib kelishi mumkin bo'lgan). Silinib yuborilgan ko'p sonli postlarni va silinmaydigan xabarlarni kuzatish orqali King va uning hamkasblari tsenzorlar qanday qilib ko'rishni va hisoblashni bilib olishlarini bilishdi. Bundan tashqari, ushbu kitob davomida yuzaga keladigan mavzuni oldindan belgilash, ularning natijalarini qo'lda etiketlasa va qolganlarini belgilash uchun kompyuterni o'rganish modelini yaratishda qo'llanilgan o'qituvchi yondashuv raqamli davrda ijtimoiy tadqiqotlarda juda keng tarqalgan bo'lib chiqadi . Siz 3-bobda (Savol berish) va 5 (Ommaviy hamkorlikni yaratish) 2.5-rasmga juda o'xshash rasmlarni ko'rasiz; bu bir nechta bobda keltirilgan juda oz fikrlardan biridir.
Ushbu misollar - Nyu-Yorkdagi taksi haydovchilarining ish yuritish va Xitoy hukumatining ijtimoiy axborot vositalarida tsenzura qilish ishlari katta ma'lumot manbalarini nisbatan oddiy hisoblash ba'zi hollarda qiziqarli va muhim tadqiqotlarga olib kelishi mumkinligini ko'rsatmoqda. Har ikkala holatda ham, tadqiqotchilar katta ma'lumot manbasiga qiziqarli savollar berishlari kerak edi; ma'lumotlar o'zi etarli emas edi.