3.6.2

Амплифиед упитао да користите предиктивни модел за комбиновање података истраживања од неколико људи који имају велики извор података од многих људи.

Другачији начин комбиновања истраживања и великих извора података је процес који ћу назвати појачаним питањем . У појачаним питањима, истраживач користи предиктивни модел да комбинира малу количину података из анкете са великим извору података како би произвео процјене на скали или грануларности које не би било могуће са изворима података појединачно. Важан примјер појачаних питања потиче од рада Јосхуа Блуменстоцк-а, који је желио сакупити податке који би могли помоћи у развоју у сиромашним земљама. У прошлости истраживачи који су прикупљали ову врсту података обично су морали да узму један од два приступа: узорка истраживања или пописа. Примери истраживања, где истраживачи интервјуишу мали број људи, могу бити флексибилни, благовремени и релативно јефтини. Међутим, ова истраживања, јер су заснована на узорку, често су ограничена у њиховој резолуцији. Уз узорковно истраживање, често је тешко направити процјене о одређеним географским регијама или специфичним демографским групама. Пописи становништва, с друге стране, покушавају да интервјуишу свима, па се тако могу користити за процјену за мале географске регије или демографске групе. Међутим, пописи су генерално скупи, уски у фокусу (они укључују само мали број питања), а не благовремено (они се дешавају на фиксном распореду, као на сваких 10 година) (Kish 1979) . Уместо да се заглави са анкетним истраживањима или пописима, замислите да ли истраживачи могу комбиновати најбоље карактеристике оба. Замислите да истраживачи сваког дана могу постављати свако питање. Очигледно је да је ово свеприсутно, увек истраживање некаква фантазија друштвене науке. Али изгледа да можемо почети да га приближавамо комбиновањем анкетних питања од малобројних људи са дигиталним траговима од многих људи.

Истраживање Блуменстоцка започело је када се удружио са највећим провајдером мобилних телефона у Руанди, а компанија је обезбиједила анонимне податке о трансакцијама од око 1,5 милиона клијената између 2005. и 2009. године. Ове записе садржавале су информације о сваком позиву и текстуалној поруци, као што су вријеме почетка, , и приближну географску локацију позиваоца и пријемника. Прије него што причам о статистичким питањима, вриједи нагласити да је овај први корак можда један од најтежих за многе истраживаче. Као што сам описао у поглављу 2, већина великих извора података није доступна истраживачима. Посебно је недоступан телефонски мета-податак, јер је у основи немогуће анонимизовати и готово сигурно садржи информације које би учесници сматрали осјетљивим (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . У овом конкретном случају, истраживачи су били пажљиви да заштите податке и њихов рад је надгледао трећа страна (тј. Њихова ИРБ). Враћам се овим етичким питањима детаљније у поглављу 6.

Блуменстоцк је био заинтересован за мерење богатства и благостања. Али ове особине нису директно у евиденцији позива. Другим речима, ове евиденције позива су непотпуне за ово истраживање - заједничка карактеристика великих извора података о којима је детаљно дискутовано у поглављу 2. Међутим, чини се вјероватно да евиденција позива вероватно има неке информације које би индиректно могле пружити информације о богатству и благостање. С обзиром на ову могућност, Блуменстоцк је питао да ли је могуће обучити модел за учење машина како би предвидио како ће неко одговорити на истраживање засновано на њиховој евиденцији позива. Ако је то било могуће, Блуменстоцк би могао да користи овај модел да предвиде одговоре на испитивање свих 1,5 милиона корисника.

Да би изградили и обучили такав модел, Блуменстоцк и истраживачки асистенти из Кигали института за науку и технологију назвали су случајан узорак од око хиљаду купаца. Истраживачи су објаснили циљеве пројекта учесницима, затражили су њихову сагласност да повежу одговоре анкетирања на евиденцију позива, а затим су им поставили низ питања за мерење њиховог богатства и благостања, као што су: "Да ли поседујете радио "и" Да ли поседујете бицикл? "(види слику 3.14 за делимичну листу). Сви учесници анкете финансијски су надокнађени.

Затим, Блуменстоцк је користио двостепени поступак који је уобичајен у машинском учењу: инжењеринг особина праћен надгледаним учењем. Прво, у степену инжењеринга , за све који су интервјуисани, Блуменстоцк је претворио евиденцију позива у скуп карактеристика о свакој особи; научници података би ове карактеристике могли назвати "особине", а социјалисти би их назвали "варијаблама". На пример, за сваку особу, Блуменстоцк је израчунао укупни број дана са активношћу, број различитих особа с којима је особа у контакту, количина новца потрошена на време и тако даље. Критично, добар значајки инжењеринг захтева познавање истраживачког окружења. На пример, ако је важно направити разлику између домаћих и међународних позива (можемо очекивати да људи који позивају на међународном нивоу буду богатији), онда се то мора учинити на степену инжињеринга. Истраживач са мало разумијевања о Руанди можда неће укључивати ову особину, а онда ће претрпјети предиктивне перформансе модела.

Затим, у надзираном кораку учења , Блуменстоцк је направио модел за предвиђање анкетног одговора за сваку особу на основу њихових карактеристика. У овом случају, Блуменстоцк је користио логистичку регресију, али је могао да користи различите друге приступе статистичком или машинском учењу.

Колико је то добро функционисало? Да ли је Блуменстоцк могао да предвиди одговоре на питања из анкете попут "Да ли поседујете радио?" И "Да ли поседујете бицикл?" Користећи функције које потичу из записника позива? Да би оценио перформансе свог предиктивног модела, Блуменстоцк је користио унакрсну проверу , технику која се обично користи у науци података, али ретко у друштвеним наукама. Циљ унакрсне валидације је да обезбеди фер процену предиктивног учинка модела тако што га обучава и тестира на различитим подскупима података. Конкретно, Блуменстоцк дели своје податке у 10 комада од по 100 људи. Онда је користио девет комада за обуку свог модела, а предиктивни учинак обученог модела оцијењен је на преосталом дијелу. Поновио је овај поступак 10 пута - са сваким дијелом података који су добивали један поент као валидациони подаци - и просекали резултате.

Тачност предвиђања била је висока за неке особине (слика 3.14); на пример, Блуменстоцк би могао предвидети 97,6% тачност ако је неко радио у радију. Ово може звучати импресивно, али увек је важно упоређивати комплексни метод предвиђања против једноставне алтернативе. У овом случају, једноставна алтернатива је предвиђање да ће сви дати најчешћи одговор. На пример, 97,3% испитаника је пријавило поседовање радио-а, па ако је Блуменстоцк предвиђао да ће сви пријавити власништво радио-станица, имао би тачност од 97,3%, што је изненађујуће слично перформансу његове сложеније процедуре (97,6% тачности) . Другим речима, сви фанци подаци и моделирање повећали су тачност предвиђања са 97,3% на 97,6%. Међутим, за друга питања, попут "Да ли поседујете бицикл?", Прогнозе су се побољшале са 54,4% на 67,6%. Опћенито, слика 3.15 показује да се за неке особине Блуменстоцк није много побољшао изван једноставног предвиђања основне линије, али да је за друге особине било неких побољшања. Међутим, ако погледате само ове резултате, можда не мислите да је овај приступ посебно обећавајући.

Слика 3.14: Предиктивна тачност статистичког модела обученог са евиденцијама позива. Прилагођено из Блуменстоцк (2014), табела 2.

Слика 3.14: Предиктивна тачност статистичког модела обученог са евиденцијама позива. Прилагођено из Blumenstock (2014) , табела 2.

Слика 3.15: Упоређивање прецизности предвиђања за статистички модел обучен са записима позива на једноставно предвиђање основног стања. Тачке су благо јурнале како би се избегло преклапање. Прилагођено из Блуменстоцк (2014), табела 2.

Слика 3.15: Упоређивање прецизности предвиђања за статистички модел обучен са записима позива на једноставно предвиђање основног стања. Тачке су благо јурнале како би се избегло преклапање. Прилагођено из Blumenstock (2014) , табела 2.

Међутим, само годину дана касније, Блуменстоцк и двије колеге-Габриел Цадамуро и Роберт Он-објавили су чланак у науци са знатно бољим резултатима (Blumenstock, Cadamuro, and On 2015) . Постојала су два главна техничка разлога за ово побољшање: (1) користили су софистициране методе (тј. Нови приступ функционалном инжењерству и софистициранији модел за предвиђање одговора од карактеристика) и (2) умјесто покушаја закључивања одговора на појединачне анкетна питања (нпр. "Да ли поседујете радио?") покушали су да закључе индекс композитног богатства. Ова техничка побољшања значила су да могу обавити разумни посао коришћења евиденција позива како би предвидели богатство за људе у свом узорку.

Међутим, предвиђање богатства људи у узорку није био крајњи циљ истраживања. Запамтите да је крајњи циљ био да се комбинују неке од најбољих карактеристика истраживања узорака и пописа ради стварања тачних процена сиромаштва у земљама у развоју са високом резолуцијом. Да би оценили њихову способност да постигну овај циљ, Блуменстоцк и колеге користе свој модел и своје податке како би предвидјели богатство свих 1,5 милиона људи у евиденцији позива. И користили су геопросторне информације уграђене у евиденцију позива (подсјетимо да су подаци укључивали локацију најближег ћелијског торња за сваки позив) како би процијенили приближно мјесто боравка сваке особе (слика 3.17). Узимајући ове две процене заједно, Блуменстоцк и колеге произвели су процену географске расподеле богатства претплатника у изузетно финој просторној грануларности. На пример, они би могли проценити просечно богатство у свакој од 2148 ћелија Руанде (најмања административна јединица у земљи).

Колико су се ове процене подударале са стварним нивоом сиромаштва у овим регионима? Пре него што одговорим на то питање, желим нагласити чињеницу да постоји пуно разлога за скептичан став. На пример, способност израде прогнозе на појединачном нивоу била је прилично бучна (слика 3.17). И, што је још важније, људи са мобилним телефоном могу се систематски разликовати од људи без мобилних телефона. Стога, Блуменстоцк и колеге могу патити од врста грешака покривања које су пристизале на истраживање Литерарног Дигест из 1936. године које сам описао раније.

Да би имали осећај квалитета својих процјена, Блуменстоцк и колеге требали су их упоређивати са нечим другим. На срећу, у исто време када је студирала, друга група истраживача водила је традиционалнију социјалну анкету у Руанди. Ова друга анкета, која је била део широко поштованог програма Демографска и здравствена анкета, имала је велики буџет и користила је висококвалитетне, традиционалне методе. Према томе, процене из Анкете о демографским и здравственим прегледима разумно се могу сматрати златним стандардним процјенама. Када се упореде две процене, оне су биле сасвим сличне (слика 3.17). Другим ријечима, комбиновањем малих количина података истраживања са евиденцијом позива, Блуменстоцк и колеге су успјели произвести процјене упоредиве са онима из златно-стандардних приступа.

Скушеник може видети ове резултате као разочарење. На крају крајева, један начин гледања на њих је рећи да су кориштењем великих података и машинског учења Блуменстоцк и колеге успели да произведу процјене које би могле бити поузданије већ постојећим методама. Али мислим да то није прави начин размишљања о овој студији из два разлога. Прво, процене Блуменстоцк-а и колега биле су око 10 пута брже и 50 пута јефтиније (када се трошак мери у смислу варијабилних трошкова). Као што сам раније тврдио у овом поглављу, истраживачи игноришу трошак у својој опасности. У овом случају, на пример, драматично смањење трошкова значи да се, уместо да се покреће сваких неколико година - као што је стандард за анкету о демографским и здравственим прегледима - оваква анкета могла да се покреће сваког месеца, што би пружило бројне предности истраживачима и политици произвођача. Други разлог да се не скептично гледа на то је да ова студија пружа основни рецепт који се може прилагодити различитим истраживачким ситуацијама. Овај рецепт има само два састојка и два корака. Састојци су (1) велики извор података који је широк, али танак (тј. Има много људи, али не и информације које су вам потребне за сваку особу) и (2) истраживање које је уско али дебело (тј. Има само неколико људи, али има информације које вам требају о тим људима). Ови састојци се затим комбинују у два корака. Прво, за људе у оба извора података, изгради модел за учење машина који користи велики извор података како би предвидио анкетне одговоре. Затим, користите тај модел да бисте импресионирали одговоре истраживања свима у великом извору података. Дакле, ако постоји неко питање које желите да поставите пуно људи, потражите велики извор података од оних људи који би могли да се користе да предвиде одговор, чак и ако вам није брига за велики извор података . То јест, Блуменстоцк и колеге нису имали значајнију бригу о евиденцији позива; они су једино бринули о евиденцији позива зато што су могли да се користе за предвиђање анкетних одговора о којима им је стало. Ово карактеристично-само индиректно интересовање за велики извор података - чини појачано тражење другачије од уграђених питања, које сам раније описао.

Слика 3.16: Схема студије Блуменстоцк, Цадамуро и Он (2015). Записи позива из телефонске компаније претворени су у матрицу са једним редом за сваку особу и по једну колону за сваку карактеристику (тј. Варијаблу). Затим, истраживачи су изградили надгледани модел учења да предвиде одговоре на анкету из матрице по особи. Затим се надгледани модел учења користио за импресионирање анкетних одговора за свих 1,5 милиона корисника. Такође, истраживачи су проценили приближно место боравка за свих 1,5 милиона корисника на основу локација њихових позива. Када су ове две процјене - процењено богатство и процењено место пребивалишта - били комбиновани, резултати су слични проценама Демографске и здравствене анкете, традиционалног истраживања златног стандарда (слика 3.17).

Слика 3.16: Схема студије Blumenstock, Cadamuro, and On (2015) . Записи позива из телефонске компаније претворени су у матрицу са једним редом за сваку особу и једну колону за сваку карактеристику (тј. Променљиву). Затим, истраживачи су изградили надгледани модел учења да предвиде одговоре на анкету из матрице по особи. Затим се надгледани модел учења користио за импресионирање анкетних одговора за свих 1,5 милиона корисника. Такође, истраживачи су проценили приближно место боравка за свих 1,5 милиона корисника на основу локација њихових позива. Када су ове две процјене - процењено богатство и процењено место боравка - били у комбинацији, резултати су били слични проценама Демографске и здравствене анкете, традиционалног истраживања златног стандарда (слика 3.17).

Слика 3.17: Резултати Блуменстоцк, Цадамуро и Он (2015). На индивидуалном нивоу, истраживачи су могли обавити разумни посао у предвиђању неког богатства из њихових евиденција позива. Процјене богатства на окружном нивоу за 30 округа Руанде, које су засноване на процјенама богатства и мјеста пребивалишта на појединачном нивоу, биле су сличне резултатима Анкете о демографским и здравственим прегледима, традиционалног истраживања златног стандарда. Прилагођено од Блуменстоцк, Цадамуро и Он (2015), слике 1а и 3ц.

Слика 3.17: Резултати Blumenstock, Cadamuro, and On (2015) . На индивидуалном нивоу, истраживачи су могли обавити разумни посао у предвиђању неког богатства из њихових евиденција позива. Процјене богатства на окружном нивоу за 30 округа Руанде, које су засноване на процјенама богатства и мјеста пребивалишта на појединачном нивоу, биле су сличне резултатима Анкете о демографским и здравственим прегледима, традиционалног истраживања златног стандарда. Прилагођено од Blumenstock, Cadamuro, and On (2015) , слике 1а и 3ц.

У закључку, Блуменстоцк-ов појачани приступ питању комбинује податке истраживања са великим изворима података како би произвео процјене упоредиве са онима из златног стандардног истраживања. Овај конкретан примјер објашњава и неке од компромиса између појачаних захтјева и традиционалних метода испитивања. Појачане процене су биле благовремено, знатно јефтиније и грануларније. Али, са друге стране, још увек нема снажне теоријске основе за овакво појачано постављање питања. Овај јединствени пример не показује када ће овај приступ функционисати и када то неће, а истраживачи који користе овај приступ морају посебно бити забринути због могућих предрасуда узрокованих оним ко је укључен и који нису укључени у њихов велики извор података. Даље, појачани приступ питању још увек нема добре начине за квантификовање неизвјесности око својих процјена. На срећу, појачано постављање има дубоке везе са три велика подручја у процени статистике и малих подручја (Rao and Molina 2015) , импутација (Rubin 2004) и пост-стратификација заснована на моделу (која је сама уско повезана са г. П., метод који сам раније описао у поглављу) (Little 1993) . Због ових дубоких веза, очекујем да ће се ускоро побољшати многи методолошки темељи истраживања.

На крају, упоређивање првог и другог покушаја Блуменстоцк-а такође илуструје важну лекцију о друштвеним истраживањима дигиталног доба: почетак није крај. То је, много пута, први приступ неће бити најбољи, али ако истраживачи и даље раде, ствари могу постати боље. Опћенито, када се процјењују нови приступи друштвеним истраживањима у дигиталном добу, важно је направити двије различите процјене: (1) Колико добро то ради сада? и (2) Колико ће то добро функционирати у будућности како се промјењује простор података и како истраживачи посвете више пажње проблему? Иако су истраживачи обучени да направе прву врсту евалуације, други је често важнији.