Ko'plab odamlardan katta ma'lumot manbai bo'lgan bir nechta odamdan so'rov ma'lumotlarini birlashtirish uchun taxminiy modeldan foydalanishni so'ragan.
So'rovni va katta ma'lumot manbalarini birlashtirishning boshqa usullaridan biri men so'rovni kuchaytirishga chaqiradigan jarayondir. Tadqiqotchi so'rov natijalarini kichik hajmdagi ma'lumotni katta ma'lumot manbai bilan birlashtirib, ikkala ma'lumotlar manbai bilan mumkin bo'lmay qoladigan o'lchovlarni yoki o'lchamlarni ishlab chiqarish uchun birlashtiruvchi modeldan foydalanadi. Kuchli mamlakatlarning rivojlanishiga yordam berishi mumkin bo'lgan ma'lumotlarni to'plashni istagan Joshua Blumenstokning ishi kuchli tarzda so'ralgan. O'tmishda bunday ma'lumotni yig'uvchi tadqiqotchilar umuman olganda ikkita yondashuvdan birini tanlashlari kerak edi: namuna so'rovlari yoki ro'yxatga olishlar. Tadqiqotchilar oz sonli intervyular o'tkazadigan namunaviy tadqiqotlar moslashuvchan, o'z vaqtida va nisbatan arzon bo'lishi mumkin. Biroq, bu so'rovlar, ular namunaga asoslanganligi sababli, ko'p hollarda ularni hal qilishda cheklanadi. Namunali so'rov bilan ma'lum geografik hududlar yoki muayyan demografik guruhlar haqida taxmin qilish qiyin. Aholini ro'yxatga olish, boshqa tomondan, hamma bilan intervyu berishga urinadi, shuning uchun ular kichik geografik hududlar yoki demografik guruhlar uchun bashorat qilish uchun ishlatilishi mumkin. Biroq, aholini ro'yxatga olish odatda qimmat bo'lib, tor doirada (ular faqat oz sonli savollarni o'z ichiga oladi) va o'z vaqtida emas (ular har 10 yilda bir xil jadvalda amalga oshiriladi) (Kish 1979) . Tadqiqotlarning natijalari va aholi ro'yxatlashlari bilan chambarchas bog'liq bo'lish o'rniga, tadqiqotchilar ikkala tomonning eng yaxshi xususiyatlarini birlashtirishi mumkinmi deb tasavvur qiling. Tadqiqotchilar har kuni har bir odamga har bir savol berishi mumkinligini tasavvur qiling. Shubhasiz, bu har doim, har doim o'tkaziladigan so'rovnoma ijtimoiy fan falsafasining bir turidir. Lekin bu biz ko'p odamlardan raqamli izlari bilan odamlar kichik qator tadqiqot savollar birlashtirib, bu taxminan boshlash mumkin ko'rinmaydi.
Blumenstokning tadqiqotlari Ruandada eng yirik uyali aloqa provayderlari bilan hamkorlikda boshlangan va kompaniya 2005 va 2009 yillar oralig'ida taxminan 1,5 mln. Mijozdan anonimlashtirilgan operatsiyalarni qayd etgan. Bu yozuvlar har bir chaqiriq va matn xabarlari, masalan, boshlash vaqti, davomiyligi , qidiruvchilar va qabul qiluvchining taxminan geografik joylashuvi. Statistik masalalar haqida gapirmasimdan oldin, bu birinchi qadam ko'plab tadqiqotchilar uchun eng qiyin bo'lgan narsalardan biri bo'lishi mumkinligini ta'kidlash kerak. 2-bobda aytib o'tganimdek, tadqiqotchilarga eng katta ma'lumot manbalari kira olmaydi . Xususan, telefon metadori ma'lumoti anonimlashning imkoni bo'lmagani va ishtirokchilarning sezgir (Mayer, Mutchler, and Mitchell 2016; Landau 2016) hisobga olishi mumkin bo'lgan ma'lumotlarni o'z ichiga olishi mumkin emas. Ushbu muayyan holatda tadqiqotchilar ma'lumotlarni himoya qilishda ehtiyotkorlik bilan harakat qildilar va ularning ishlarini uchinchi tomon (ya'ni IRB) nazorat qildi. Ushbu axloqiy masalalarga 6-bobda batafsilroq ma'lumot beraman.
Blumenstok boylik va farovonlikni o'lchashdan manfaatdor edi. Ammo bu xususiyatlar bevosita chaqiruv yozuvlarida emas. Boshqa so'zlar bilan aytganda, ushbu qo'ng'iroq yozuvlari ushbu tadqiqot uchun to'liq emas - katta ma'lumot manbalarining umumiy xususiyati, 2-bobda batafsil muhokama qilingan. Biroq, chaqiriq yozuvlari, ehtimol boylik va farovonlik. Ushbu imkoniyatni hisobga olgan holda, Blumenstok, kimningdir qo'ng'iroq yozuvlari asosida so'rovga qanday javob berishini taxmin qilish uchun mashinani o'rganish modelini o'qitish mumkinligini so'radi. Agar bu mumkin bo'lsa, Blumenstok ushbu modelni 1,5 million mijozning so'rovlarini taxmin qilish uchun ishlatishi mumkin edi.
Bunday modelni qurish va o'qitish uchun Kigali Fan va Texnologiya Institutidan Blumenstok va tadqiqotchi yordamchilari mingga yaqin mijozlarni tasodifiy tanlab olishdi. Tadqiqotchilar loyihaning maqsadlarini ishtirokchilarga tushuntirib berishdi, so'rov natijalarini chaqiruv bayonnomalariga bog'lashni so'rashdi va keyin ularga o'z boyliklari va farovonligini o'lchash uchun bir qator savollarni so'rashdi. radio "va" velosiped egasi bormi? "(qisman ro'yxat uchun 3.14-rasmga qarang). Tadqiqotning barcha ishtirokchilari moliyaviy jihatdan qoplandi.
Keyinchalik, Blumenstock avtomat ta'limida umumiy bo'lgan ikki bosqichli protseduradan foydalangan. Birinchidan, intervyu olib borgan har bir kishi uchun, xususan, muhandislik bosqichida, Blumenstock qo'ng'iroq yozuvlarini har bir kishi haqida bir qator xususiyatlarga aylantirdi; ma'lumotlar olimlari bu xususiyatlarni "xususiyatlar" deb atashlari mumkin, va ijtimoiy olimlar ularni "o'zgaruvchilar" deb atashadi. Misol uchun, Blumenstock har bir kishi uchun faoliyatning umumiy soni, shaxs bilan aloqada bo'lgan turli xil odamlar soni, efir vaqtida sarflangan pul miqdori va boshqalar. Tanqidiy jihatdan yaxshi xususiyat muhandislik tadqiqot muhitini bilishni talab qiladi. Misol uchun, agar ichki va xalqaro qo'ng'iroqlarni ajratib ko'rsatish muhim bo'lsa (biz xalqaro miqyosda yaxshi deb hisoblaydigan odamlardan kutishimiz mumkin), unda bu xususiyatni muhandislik bosqichida bajarish kerak. Ruandani kam tushunadigan tadqiqotchi bu xususiyatni o'z ichiga olmaydi, va keyinchalik modelning prognozli ishlashi zarar ko'radi.
Keyinchalik, Blumenstock boshqariladigan o'rganish qadamida, har bir kishi uchun ularning xususiyatlariga qarab so'rovning javobini taxmin qilish uchun model yaratdi. Bunday holda, Blumenstok logistika regressiyasidan foydalangan, lekin u boshqa statistik yoki mashinani o'qitish yondashuvlaridan foydalangan bo'lishi mumkin.
Xo'sh, u qanday ishlagan? Blumenstock qo'ng'iroq yozuvlari asosida olingan xususiyatlardan foydalangan holda, "Sizda radio bormi?" Va "Velosipedingiz bormi?" Kabi savollarga javoblarni oldindan bashorat qila oladimi? Blumenstock o'zining prognozli modelining ishlashini baholash uchun o'zaro axborotlarni ishlatgan, ammo kamdan-kam ijtimoiy fanlar sohasida qo'llanadigan texnikani qo'llagan. Qarama-qarshi tekshirishning maqsadi - ma'lumotni turli subkeyslarda sinab ko'rish va uni sinab ko'rish yo'li bilan modelning prognozli ishlashini to'g'ri baholash. Xususan, Blumenstok ma'lumotlarini har biri 100 kishidan iborat 10 ta qismga ajratdi. Keyinchalik u o'z modelini o'qitish uchun to'qqizta qismdan foydalangan va o'qitilgan modeldagi prognoz ko'rsatkichlari qolgan qismga nisbatan baholandi. U ushbu amaliyotni 10 marotaba takrorladi - har bir ma'lumot to'plami tekshiruv ma'lumotlari sifatida bir navbati qo'lga kiritdi va natijalarni o'rtacha hisobladi.
Bashoratning aniqligi ayrim xususiyatlar uchun yuqori bo'lgan (3.14-rasm); masalan, Blumenstok, agar kimdir radio eshitgan bo'lsa, 97,6% aniqlik bilan prognoz berishi mumkin edi. Bu ta'sirchan bo'lishi mumkin, lekin oddiy muqobilga qarshi murakkab prognozlash uslubini solishtirish har doim muhimdir. Bunday holda, oddiy bir muqobil, har bir kishi eng keng tarqalgan javob berishini taxmin qilish. Misol uchun, Blumenstok har bir radiostantsiyaga xabar bergani haqida 97,3% aniqlik kiritganini taxmin qilganda, 97,3% radiolar haqida xabar bergan, bu esa uning murakkab protsedurasi (97,6% aniqligi) bilan ajralib turadi, . Boshqa so'zlar bilan aytganda, barcha hayoliy ma'lumotlar va modellashtirish predmetning aniqligini 97,3% dan 97,6% gacha oshirdi. Biroq, "Velosipedingiz bormi?" Kabi boshqa savollar bo'yicha prognozlar 54,4% dan 67,6% gacha ko'tarildi. Keyinchalik umuman, 3.15-rasmda Blumenstokning ba'zi oddiy xususiyatlar uchun soddalashtirilgan oddiy bashoratni amalga oshiribgina qolmasdan yanada yaxshilanmaganligi, ammo boshqa xususiyatlar uchun ba'zi bir yaxshilanishlar borligi ko'rsatilgan. Biroq, bu natijalarga qaraganda, ushbu yondashuv ayniqsa umid baxsh etadi deb o'ylamasligingiz mumkin.
Biroq, bir yil o'tgach, Blumenstock va ikkita hamkasbi - Gabriel Cadamuro va Robert On " Science" (Blumenstock, Cadamuro, and On 2015) ilmiy maqola chop etdi. Ushbu takomillashtirishning ikkita asosiy sababi bor edi: (1) ular murakkab uslublardan foydalangan (ya'ni, xususan, muhandislik bo'yicha yangi yondashuv va xususiyatlardan javoblarni taxmin qilish uchun murakkab model) va (2) shaxsiy javoblarga tadqiqot savollariga (masalan, "Sizda radio bormi?"), ular kompozitsiyadagi boylik indeksini ishga solishmoqchi. Ushbu texnik yaxshilanishlar ular namunadagi odamlarning boyligini taxmin qilish uchun qo'ng'iroq yozuvlarini ishlatishning oqilona ishi bo'lishi mumkinligini anglatardi.
Biroq, namunadagi odamlarning boyligini taxmin qilish, tadqiqotning yakuniy maqsadi emas edi. Esda tutingki, rivojlanayotgan mamlakatlardagi kambag'allikning aniq, yuqori aniqlikdagi bahosini ishlab chiqish uchun tanlab olingan tadqiqot va sayimalarning ba'zi eng yaxshi xususiyatlarini birlashtirish kerak edi. Ushbu maqsadga erishish qobiliyatini baholash uchun Blumenstok va hamkasblari o'zlarining modelini va ma'lumotlaridan qo'ng'iroq yozuvlarida 1,5 million odamning boyligini taxmin qilish uchun foydalanganlar. Va ular chaqiriq bayonotlariga joylashtirilgan geografik ma'lumotlar (har bir qo'ng'iroq uchun eng yaqin hujayra minorasining joylashgan joyi eslatib o'tilgan) va har bir insonning taxminiy yashash joyini taxmin qilish uchun ishlatilgan (3.17-rasm). Ushbu ikki bashoratni birgalikda joylashtirib, Blumenstok va uning hamkasblari obuna boyligining geografik taqsimotini juda nozik mekansal tanecilikte baholashdi. Misol uchun, Ruandaning 2,148 xujayrasi (mamlakatda eng kichik ma'muriy birlik) ning o'rtacha boyligini hisoblashlari mumkin edi.
Ushbu hisob-kitoblar ushbu hududlarda mavjud qashshoqlik darajasiga qanchalik mos keladi? Men bu savolga javob berishdan oldin, men shubhalanish uchun ko'p sabablar borligini ta'kidlamoqchiman. Masalan, individual darajada bashorat qilish qobiliyati juda shovqinli edi (3.17-rasm). Va, ehtimol undan ham muhimi, mobil telefonlari bo'lgan insonlar mobil telefoni bo'lmagan odamlardan muntazam ravishda farq qilishi mumkin. Shunday qilib, Blumenstock va uning hamkasblari ilgari aytib o'tgan 1936-yilgi Adabiy Diniy so'rovni tanqid qilgan qamrovli xatolar turidan qiynalishlari mumkin.
Blumenstok va uning hamkasblari ularning baholari sifatini bilish uchun ularni boshqa narsalar bilan taqqoslashlari kerak edi. Yaxshiyamki, ularning tadqiqotlari bilan bir vaqtda, tadqiqotchilarning yana bir guruhi Ruandada an'anaviy ijtimoiy so'rov o'tkazishdi. Demografik va salomatlik bo'yicha keng qamrovli tadqiqot dasturining bir qismi bo'lgan ushbu boshqa tadqiqot katta miqdorda byudjetga ega bo'lib, yuqori sifatli, an'anaviy usullardan foydalangan. Shuning uchun demografik va sog'liqni saqlashni baholash natijalari oltindan standart o'lchovlar deb hisoblanishi mumkin. Ikkala baho taqqoslaganda ular juda o'xshash (3.17-rasm). Boshqacha qilib aytganda, kichik raqamlardagi so'rovlar ma'lumotlarini qo'ng'iroq yozuvlari bilan birlashtirish orqali, Blumenstock va uning hamkasblari oltin standartli yondashuvlarga o'xshash bashoratlarni ishlab chiqardi.
Skeptik bu natijalarni umidsizlik deb bilishi mumkin. Axir ularni ko'rishning bir usuli, katta ma'lumot va kompyuterni o'rganish orqali Blumenstock va uning hamkasblari mavjud bo'lgan usullar bilan ishonchli tarzda tuzilishi mumkin bo'lgan bashoratlarni ishlab chiqishga muvaffaq bo'lishdi. Lekin, men bu ishni ikki sababga ko'ra o'ylashning to'g'ri usuli deb o'ylamayman. Birinchidan, Blumenstok va uning hamkasblarining taxminlari taxminan 10 barobar tezroq va 50 barobar arzon edi (xarajatlar o'zgarmaydigan xarajatlar bo'yicha o'lchanadigan bo'lsa). Ushbu bobning ilgari aytib o'tganimdek, tadqiqotchilar xavf-xatarsiz xarajatlarni hisobga olmaydilar. Bunday holda, masalan, harajatlarning keskin kamayishi demografik va sog'liqni saqlash tadqiqotlari uchun standart sifatida har bir necha yilda bir marta ishlashni emas, balki har oyda o'tkazilishi mumkin, bu tadqiqotchilar va siyosatchilar uchun juda ko'p afzalliklarni ta'minlaydi ishlab chiqaruvchilar. Shubhali kishining nuqtai nazarini qabul qilmaslikning ikkinchi sababi shundaki, bu tadqiqot turli xil tadqiqot sharoitlariga mos keladigan asosiy retsepti beradi. Ushbu ta'rifda faqat ikkita modda va ikkita qadam bor. Ingredientlar quyidagilardir: (1) keng, ammo ingichka bo'lgan katta ma'lumotlar manbai (ya'ni, har bir kishi uchun kerakli ma'lumot emas, balki ko'p odam mavjud) va (2) tor, ammo qalin (masalan, bir nechta odam, lekin ularda siz uchun zarur bo'lgan ma'lumot mavjud). Ushbu ingredientlar keyinchalik ikki bosqichda birlashtiriladi. Birinchidan, har ikkala ma'lumot manbalaridagi odamlar uchun, tadqiqot ma'lumotlarini taxmin qilish uchun katta ma'lumot manbasidan foydalanadigan kompyuterni o'rganish modelini yaratish. Keyinchalik, katta ma'lumot manbalaridagi har bir kishining so'rovnomalarini javobgar qilish uchun ushbu modeldan foydalaning. Shunday qilib, agar siz ko'plab odamlarga savollar berishni istasangiz, katta ma'lumot manbai haqida qayg'urmasangiz ham, ularning javoblarini oldindan aytish uchun ishlatilishi mumkin bo'lgan katta ma'lumot manbasini izlang. Ya'ni, Blumenstok va uning hamkasblari chaqiriq yozuvlari haqida xolisona xulosa qilmagan; ular faqat chaqiriq yozuvlari haqida g'amxo'rlik qilishdi, chunki ular g'amxo'rlik qilayotgan savollarga javob berish uchun foydalanishi mumkin edi. Katta ma'lumot manbasida bu xarakterli faqat bilvosita qiziqish - ilgari aytib o'tgan ko'milgan so'rovlardan farqli o'laroq so'radi.
Natijada, Blumenstokning so'rov natijalari so'rov natijalarini katta ma'lumot manbai bilan birgalikda, oltin-standart so'rovlar bilan taqqoslanadigan hisob-kitoblarni ishlab chiqarish uchun birlashtirdi. Bu muayyan misol, shuningdek so'rovni kengaytirish va an'anaviy tadqiqot usullari o'rtasidagi ba'zi savdo-sotiqlarni aniqlaydi. Amplifikatsiya qilingan so'rovlar ko'proq o'z vaqtida, ancha arzonroq va ko'proq granüler edi. Biroq, boshqa tomondan, bunday so'rovni kuchaytirish uchun kuchli nazariy asos yo'q. Ushbu yondashuv qachon va qachon bajarilmasa, bu yagona misol ko'rsatilmaydi, va ushbu yondashuvni qo'llagan tadqiqotchilar, ayniqsa, ularning katta ma'lumot manbalaridan kim kiritilganligi va kimning tarkibiga kirmasliklari sababli yuzaga kelishi mumkin bo'lgan chalkashliklar haqida qayg'urishi kerak. Bundan tashqari, amplifikatsiya so'ragan yondashuv, uning taxminiyligi atrofida noaniqlikni aniqlash uchun yaxshi usullar mavjud emas. Yaxshiyamki, kuchaytirilgan so'rov statistika sohasida uchta katta maydonga (Rao and Molina 2015) , imputatsiya (Rubin 2004) va modelga asoslangan post-stratifikatsiya (u o'zini janob P. bilan chambarchas bog'liq) Yuqorida aytib o'tilgan usul (Little 1993) . Ushbu chuqur muloqotlar tufayli men tez-tez so'raladigan savollarning metodologik asoslari ko'paytirilishini kutmoqdaman.
Nihoyat, Blumenstokning birinchi va ikkinchi urinishlarini taqqoslash, raqamli yoshdagi ijtimoiy tadqiqotlar haqida muhim saboqni ham ko'rsatadi: boshlanish oxiri emas. Ya'ni, ko'p marta, birinchi yondashuv eng yaxshi bo'lmasa-da, tadqiqotchilar ishlashni davom ettirsa, narsalar yaxshiroq bo'lishi mumkin. Umuman olganda, raqamli davrda ijtimoiy tadqiqotlar uchun yangi yondashuvlarni baholashda ikkita alohida baho berish muhimdir: (1) bu hozir qanaqa ishlaydi? va (2) bu ma'lumot kelajakda qanday o'zgaradi va tadqiqotchilar muammoga ko'proq e'tibor berishadi? Tadqiqotchilar baholashning birinchi turini o'rganish uchun o'qitilishi kerak bo'lsa-da, ikkinchisi ko'pincha muhim ahamiyatga ega.