Көптеген адамдардан үлкен деректер көзі бар бірнеше адамнан сауал деректерін біріктіру үшін болжамды модельді қолдануды күшейтті.
Сауалнаманы және үлкен деректер көздерін біріктірудің басқа жолы - бұл күшейтті сұрақ туғызатын процесс. Зерттеуші сұраныстың көбінесе дерек көзімен жеке мүмкін болмайтын ауқымда немесе гранулярлылықта бағалауды жасау үшін үлкен деректер көзімен шағын деректерді біріктіру үшін болжау моделін қолданады. Күшейтілген сұранысқа ие маңызды мысал кедей елдердің дамуына көмектесетін деректер жинауды қалайтын Джошуа Блюмстенстің жұмысынан келеді. Бұрын мұндай деректерді жинайтын зерттеушілер әдетте екі тәсілдің бірін қабылдауы керек еді: іріктемелі сауалнама немесе санақ. Зерттеушілердің саны аз адамдармен сұхбаттасатын үлгілік сауалнама икемді, уақтылы және салыстырмалы түрде арзан болуы мүмкін. Дегенмен, бұл зерттеулер, олар іріктеуге негізделгендіктен, оларды шешу кезінде жиі шектеледі. Үлгілі зерттеу арқылы белгілі бір географиялық аймақтарға немесе нақты демографиялық топтарға қатысты бағалау жасау қиынға соғады. Екінші жағынан, санақ жүргізу барлық адамдармен сұхбаттасуға тырысады, сондықтан шағын географиялық аймақтарды немесе демографиялық топтарды бағалау үшін пайдаланылуы мүмкін. Алайда, санақ әдетте қымбат, олар аз уақыт ішінде (олар тек қана бірнеше сұрақтарды қамтиды) және уақытылы емес (олар әр 10 жылда бір рет белгіленген кестеде орын алады) (Kish 1979) . Зерттеулермен немесе санағымен таңдамай, зерттеушілердің екеуінің де ең жақсы сипаттамаларын біріктіре алар ма деп елестетіп көріңіз. Зерттеушілер күн сайын әрбір адамға кез келген сұрақ қоюға болатынын елестетіп көріңізші. Әлбетте, бұл жерде әрдайым сауалнама әлеуметтік ғылым қиялының бір түрі. Бірақ көптеген адамдардан цифрлық іздері бар адамдардың аз санынан сауалнама сұрақтарын біріктіру арқылы оны жақындата бастайтын көрінеді.
Blumenstock компаниясының зерттеуі Руандадағы ең ірі ұялы байланыс операторымен серіктес болған кезде басталды және компания 2005 және 2009 жылдар аралығындағы 1,5 миллионға жуық клиенттерден анонимді транзакция жазбаларын ұсынды. Бұл жазбаларда әрбір қоңырау және мәтіндік хабар туралы, мысалы, басталу уақыты, ұзақтығы және қоңырау шалушы мен қабылдағыштың шамамен географиялық орналасуы. Мен статистикалық мәселелер туралы айта алмас бұрын, бұл алғашқы қадам көптеген зерттеушілер үшін өте қиын болуы мүмкін екенін атап өту керек. Мен 2-тарауда сипатталғандай, көптеген деректер көздері зерттеушілерге қол жеткізе алмайды . Телефон мета-деректері, әсіресе қол жетімсіз, өйткені анонимдік негізінен мүмкін емес және қатысушылардың сезімтал (Mayer, Mutchler, and Mitchell 2016; Landau 2016) деп санайтын ақпараты бар. Бұл жағдайда зерттеушілер деректерді қорғау үшін мұқият болды, ал олардың жұмысын үшінші тарап бақылаған (яғни, олардың ИРБ). Мен осы этикалық мәселелерге 6-тарауда толығырақ айтып беремін.
Блюменсток байлықты және әл-ауқатты өлшеуге қызығушылық танытты. Бірақ бұл белгілер қоңыраулар жазбаларында тікелей емес. Басқаша айтқанда, бұл қоңырау жазбалар тарауда 2. егжей-тегжейлі талқыланды үлкен дерек көздерінің осы ғылыми-ортақ мүмкіндігі үшін толық емес болып табылады Алайда, бұл қоңырау жазбалар бәлкім жанама байлық туралы ақпаратты беруге және мекен біраз ақпаратты бар екенін, ең алдымен, меніңше, әл-ауқат. Осы мүмкіндікті ескере отырып, Блуменсток біреудің шақыру жазбаларына негізделген сауалнамаға қалай жауап беретінін болжау үшін машина үлгісін үйретуге болатын-болмайтынын сұрады. Егер бұл мүмкін болса, онда Blumenstock бұл модельді барлық 1,5 миллион тұтынушылардың сауалнамаларын болжау үшін пайдалана алады.
Мұндай модельді құру және оқыту үшін, Кигали Ғылым және Технология институтының Блумэнсток және зерттеуші көмекшілері шамамен мың тұтынушының кездейсоқ үлгісін атады. Зерттеушілер жобаның мақсаттарын қатысушыларға түсіндіріп, сауалнама жауаптарын қоңыраулар жазбаларына байланыстыруды сұрады және содан кейін олардың байлығы мен әл-ауқатын өлшеу үшін бірқатар сұрақтар қойды, мысалы: «Радио» және «Сіз велосипедке сенесіз бе?» (ішінара тізімге арналған 3.14-суретті қараңыз). Зерттеудің барлық қатысушылары ақылы түрде өтелді.
Бұдан әрі, Blumenstock машинада үйренудің екі сатылы процедурасын қолданады: техникалық қадағалау, содан кейін бақыланатын оқыту. Біріншіден, ерекшелігі инженерлік қадамда, сұхбат берді барлық үшін, Blumenstock әрбір адам туралы сипаттамаларының жиынына қоңырау жазбаларын түрлендіріледі; деректер ғалымдары бұл сипаттамаларды «сипаттамалары» деп атауға және әлеуметтік ғалымдар оларды «айнымалылар» деп атайтын еді. Мысалы, Blumenstock әр адам үшін белсенділікпен күндер санын, адаммен байланысқан әр түрлі адамдардың саны, эфир уақытында жұмсалған ақша сомасы және т.б. Сыни тұрғыда жақсы сипаттамалық инженерия ғылыми зерттеулерді білуді талап етеді. Мысалы, егер отандық және халықаралық қоңырауларды бөліп көрсету маңызды болса (біз халықаралық деңгейде бай деп есептейтін адамдарды күтуіміз мүмкін), онда бұл функцияның техникалық қадамында жасалуы керек. Руандада түсініксіз зерттеуші осы мүмкіндікті қамтуы мүмкін, содан кейін модельдің болжамды өнімділігі азаяды.
Бұдан кейін бақыланатын оқыту сатысында Blumenstock әр адамға олардың сипаттамаларына негізделген сауалнама жауаптарын болжау үшін үлгі жасады. Бұл жағдайда, Blumenstock логистикалық регрессияны пайдаланды, бірақ ол басқа да көптеген статистикалық немесе машинада оқыту әдістерін қолдана алар еді.
Сонымен, ол қаншалықты жақсы жұмыс істеді? Blumenstock қоңыраулар жазбаларынан алынған мүмкіндіктерді пайдалана отырып, «Сізде радио бар ма?» Және «Сізде велосипед бар ма? Блюмэнсток болжау моделінің жұмысын бағалау үшін, кросс-валидацияны , деректер ғылымында кеңінен қолданылатын, бірақ сирек әлеуметтік ғылымда қолданылатын әдісті қолданды. Күшіне енудің мақсаты - оны оқытып, оны әртүрлі деректер жиынтығынан тестілеу арқылы модельдің болжамды көрсеткіштерін әділ бағалау. Атап айтқанда, Blumenstock өзінің деректерін 100 адамнан тұратын 10 бөлікке бөлді. Содан кейін ол өз моделін үйрету үшін тоғыз бөлікті пайдаланды, ал үйреншікті модельдің болжамды өнімі қалған бөліктерге бағаланған. Ол бұл процедураны 10 рет қайталады - деректердің әрқайсысы тексеруге арналған деректер ретінде бір айналымды алған және нәтижелерін орташалаған.
Болжаудың дәлдігі кейбір белгілерге жоғары болды (3.14-сурет); Мысалы, Blumenstock біреуі радиоға ие болса, 97,6% дәлдікпен болжауға болады. Бұл әсерлі болуы мүмкін, бірақ қарапайым баламадан күрделі болжау әдісін салыстыру әрдайым маңызды. Бұл жағдайда қарапайым баламасы - әркімнің ең көп тараған жауап беретінін болжау. Мысалы, респонденттердің 97,3% -ы радиоға ие болғаны туралы хабардар етті, егер Блюменстоктың айтуы бойынша, барлық адамдар радионы иелену туралы хабарды 97,3% дәлдікке ие болатынын болжаған болса, бұл оның күрделі процедурасының (97.6% дәлдігі) . Басқаша айтқанда, барлық қызық деректер мен үлгілеу болжамды дәлдікті 97,3% -дан 97,6% -ға дейін арттырды. Дегенмен, «Сіз велосипедке сенесіз бе?» Сияқты басқа да сұрақтар бойынша, болжамдар 54,4% -дан 67,6% дейін жақсарды. Тұтастай алғанда, 3.15-суретте Блумэнстоктың кейбір белгілері үшін жай қарапайым болжамды жасаудан гөрі біршама жетілдірілмегені көрсетіледі, бірақ басқа да белгілер бойынша кейбір жақсартулар байқалды. Алайда осы нәтижелерге қарап, бұл тәсіл әсіресе перспективалы деп ойлаған шығарсыз.
Алайда, бір жылдан соң, Blumenstock пен екі әріптестері - Габриэль Кадамуро және Роберт Он - Science (Blumenstock, Cadamuro, and On 2015) жақсы нәтижелерге қол (Blumenstock, Cadamuro, and On 2015) . Бұл жетілдірудің екі негізгі техникалық себептері болды: (1) олар күрделі әдістерді қолданды (яғни, ерекшеліктерге жауап беруді болжау үшін техникаға арналған жаңа тәсіл және аса күрделі модель) және (2) жеке адамға жауап беруді емес, сауалнама сұрақтары (мысалы, «Сізде радио бар ма?»), олар композитті байлық индексін шығаруға тырысты. Бұл техникалық жетілдірулер олар өздерінің үлгісіндегі адамдар үшін байлықты болжау үшін қоңыраулар жазбаларын пайдаланудың ақылға қонымды жұмыс жасайтындығын білдіреді.
Алайда іріктеудегі адамдардың байлығын болжау зерттеудің түпкі мақсаты емес еді. Ең басты мақсат - дамушы елдердегі кедейліктің дәл, жоғары деңгейлі бағалауларын шығару үшін іріктеме сауалнамалар мен санақтардың кейбір жақсы ерекшеліктерін біріктіру. Осы мақсатқа қол жеткізу қабілетін бағалау үшін, Blumenstock және әріптестері қоңыраулар жазбаларында 1,5 миллион адамның байлығын болжау үшін өздерінің үлгілерін және деректерін пайдаланды. Және олар қоңыраулар жазбаларына енгізілген географиялық мәліметтерді қолданды (әрбір адамның шамамен шамамен тұратын жерін бағалау үшін деректерде әрбір қоңырау үшін ең жақын ұялы мұнара орналасуы туралы деректерді еске түсіріңіз) (3.17-сурет). Осы екі бағаны біріктіре отырып, Blumenstock және әріптестері абоненттің байлығын географиялық бөлудің өте жақсы кеңістіктік гранулярлылығына баға берді. Мысалы, Руандадағы 2148 жасушаның (елдегі ең кіші әкімшілік бірлік) орташа байлығын бағалай алады.
Бұл бағалаулар осы аймақтардағы кедейліктің нақты деңгейіне қаншалықты сәйкес келеді? Мен бұл сұраққа жауап бермес бұрын, мен скептиктер болудың көптеген себептері бар екенін атап өткім келеді. Мысалы, жеке деңгейде болжам жасау мүмкіндігі өте шулы болды (3.17-сурет). Мүмкіндігінше ұялы телефондары бар адамдар ұялы телефонсыз адамдардан жүйелі түрде ерекшеленуі мүмкін. Осылайша, Blumenstock мен әріптестері бұрын сипатталған 1936 әдеби журналының жауабын жалтарған қателердің түрлерінен зардап шегуі мүмкін.
Бағалаудың сапасы туралы білу үшін, Блуменсток пен әріптестер оларды басқа нәрсемен салыстыру керек болды. Бақытымызға орай, зерттеумен қатар, зерттеушілердің тағы бір тобы Руандада дәстүрлі әлеуметтік зерттеу жүргізді. Көптеген құрметті Демографиялық және денсаулықты зерттеу бағдарламасының бөлігі болған осы басқа зерттеу үлкен бюджеттік және жоғары сапалы, дәстүрлі әдістерді қолданды. Сондықтан демографиялық және денсаулықты зерттеудің бағалауы ақылға қонымды алтын стандартты бағалау ретінде қарастырылуы мүмкін. Екі бағаны салыстыру кезінде олар өте ұқсас (3.17-сурет). Басқаша айтқанда, сауалнаманың шағын көлемін шақыру жазбаларымен біріктіру арқылы, Blumenstock және әріптестер алтын стандартты тәсілдермен салыстыруға болатын бағалар жасай алды.
Шүбәсіз бұл нәтижелерді көңілден шығарып тастауы мүмкін. Қарап шығудың бір тәсілі, үлкен деректер мен машина жасауды пайдалану арқылы, Blumenstock және әріптестер қазірдің өзінде бар әдістермен сенімдірек болуы мүмкін бағалар жасау мүмкіндігіне ие болды. Бірақ, менің ойымша, бұл екі себеп бойынша зерттеу туралы ойлаудың дұрыс жолы. Біріншіден, Blumenstock пен әріптестерінің бағалауы шамамен 10 есе тезірек және 50 есе арзан болды (шығындар өзіндік айнымалы шығындар бойынша өлшенгенде). Осы тарауда бұрын айтқанымдай, зерттеушілер өздерінің қауіп-қатеріне байланысты шығынды елемейді. Бұл жағдайда, мысалы, шығыстың күрт төмендеуі демографиялық және денсаулықты зерттеуге арналған стандарттар сияқты әр бірнеше жылда іске асқаннан гөрі, ай сайын зерттелетін сауалнаманы зерттеушілер мен саясат үшін көптеген артықшылықтар беретін еді өндірушілер. Скептицтің көзқарасын қабылдамаудың екінші себебі, бұл зерттеу көптеген зерттеу жағдайлары бойынша бейімделуі мүмкін негізгі рецепті болып табылады. Бұл рецепт тек екі ингредиент пен екі қадамды қамтиды. Ингредиенттер: (1) кең, бірақ жұқа (мысалы, көп адам бар, бірақ әр адамға қажет ақпарат) және (2) тар, бірақ қалың (яғни, бірнеше адам болса да, сол адамдар туралы қажетті ақпарат бар). Бұл ингредиенттер екі кезеңмен біріктіріледі. Біріншіден, дерек көздеріндегі адамдар үшін зерттеу сұрауларын болжау үшін үлкен деректер көзін пайдаланатын машина оқыту моделін құрыңыз. Содан кейін, үлкен деректер көзіндегі әрбір адамның сауалына жауап беру үшін осы үлгісін пайдаланыңыз. Мәселен, егер сіз көптеген адамдарға сұрағыңыз келетін мәселе болса, үлкен деректер көзіне көңіліңіз толмаса да, олардың жауаптарын болжау үшін пайдаланылуы мүмкін адамдардан үлкен деректер көзін іздеңіз. Яғни Blumenstock және әріптестері қоңыраулар туралы жазбаларға мүлдем назар аудармады; олар тек қоңыраулар туралы жазбаларға көңіл бөлді, өйткені олар өздерінің қамқорлығындағы сауалнамалық жауаптарды болжау үшін қолданыла алады. Бұл сипатта үлкен деректер көзіне тікелей жанама қызығушылық бұрын-соңды сипатталған ендірілген сұраудан өзгеше күшейтті.
Қорытындылай келе, Blumenstock-тың сұраныстағы тәсілі зерттеу деректерін үлкен деректер көзімен біріктіріп, алтын-стандартты зерттеуден салыстыруға болатын бағалауды жасауға мүмкіндік береді. Бұл нақты мысал, сондай-ақ күшейген сұраныс пен дәстүрлі сауалнама әдістерінің арасындағы кейбір сауда-саттықты түсіндіреді. Күшейткіш сұраныстың бағасы уақытылы, айтарлықтай арзанырақ және түйіршікті болды. Бірақ, екінші жағынан, осы күшейтілген сұрақтың күшті теориялық негізі әлі жоқ. Бұл жалғыз мысал осы тәсіл қолданылған кезде көрсетілмейді және ол болмаса, және осы әдісті қолданатын зерттеушілер, әсіресе үлкен деректер көзіне кім кірген және кімнің құрамына кірмейтін ықтимал дұрыстығына ерекше көңіл бөлуі керек. Бұдан басқа, күшейтілген сұраныс әдісі әлі бағалауларындағы белгісіздікті сандық бағалаудың жақсы жолдары жоқ. Бақытымызға орай, сұраныстың күшеюі статистиканың үш ірі саласына - шағын аудандық бағалауға (Rao and Molina 2015) , imputation (Rubin 2004) және модельге негізделген пост стратификация (ол өзі П. мырзамен тығыз байланысты, бұрын сипатталған әдіс (Little 1993) . Осы терең байланыстардың арқасында күшейген сұраныстың көптеген әдіснамалық негіздері жақында жақсарады деп күтемін.
Ақырында, Blumenstock-тың бірінші және екінші әрекеттерін салыстыру, сандық жастағы әлеуметтік зерттеулер туралы маңызды сабақты да суреттейді: басталуы - бұл соңғы емес. Яғни, бірнеше рет, бірінші тәсіл жақсы болмайды, бірақ зерттеушілер жұмысын жалғастыра берсе, бәрі жақсы болады. Жалпы алғанда, сандық дәуірдегі әлеуметтік зерттеулерге жаңа тәсілдерді бағалау кезінде, жалпы алғанда, екі түрлі бағалауды жасау маңызды: (1) бұл қаншалықты жақсы жұмыс істейді? және (2) болашақта бұл деректер ландшафтының өзгеруі ретінде қаншалықты жақсы жұмыс істейді және зерттеушілер проблемаға көп көңіл бөледі? Зерттеушілер бағалаудың бірінші түрін жасау үшін дайындалғанымен, екіншісі жиі маңызды.