Повезивање истраживање на дигиталне трагове може бити као да питате свима питања у сваком тренутку.
Тражећи обично долази у две основне категорије: истраживања узорака и пописа. Узорак истраживања, где сте приступити на мали број људи, могу бити флексибилни, благовремено, и релативно јефтин. Међутим, узорак истраживања, јер су засноване на узорку, често ограничена у њиховом решавању; са истраживањем узорка, често је тешко да процене у вези са одређеним географским областима или за одређене демографске групе. Пописи, с друге стране, покушати да разговара све у популацији. Они имају велику резолуцију, али су генерално скупи, уска у фокусу (они укључују само мали број питања), а не благовремено (се дешавају на фиксном распореду, као што су сваких 10 година) (Kish 1979) . Сада замислите да истраживачи могу да комбинују најбоље карактеристике истраживања узорака и пописа; замислите да истраживачи могли питати свако питање свима сваки дан.
Очигледно, ово стална, свеприсутни, увек на истраживању је нека врста фантазије друштвене науке. Али, изгледа да можемо почети да приближно то комбиновањем питања анкете из малог броја људи са дигиталним трагова из многих људи. Ја ово зовем врста комбинације појачава пита. Ако се уради добро, то би нам помогло да даје процену да су више локалних (за мање географским областима), прецизније (за одређене демографске групе), и благовремено.
Један од примера умнозене постављеног долази из рада Јосхуа Блуменстоцк, који је желео да прикупи податке који ће помоћи развој употребу у сиромашним земљама. Прецизније, Блуменстоцк желео да створи систем за мерење богатство и благостање који комбинује целовитости пописа са флексибилност и учесталост истраживања (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . У ствари, ја сам већ описао Блуменстоцк дело кратко у Поглављу 1.
За почетак, Блуменстоцк партнерство са највећим телефона провајдера мобилне телефоније у Руанди. Компанија му је омогуцио анонимну трансакција записе од око 1,5 милиона клијената који покривају понашање из 2005. и 2009. године евиденције садрже информације о сваком позиву и текстуалне поруке, као што су време почетка, трајање, и приближно географске локације позиваоца и пријемника. Пре него што почнеш да причаш о статистичким питањима, то је истаћи да је ово први корак може бити један од најтежих. Као што је описано у поглављу 2, већина дигиталних података у траговима је недоступан за истраживаче. И, многе компаније су оправдано оклевају да деле своје податке, јер је то приватна; да је њихови корисници вероватно нису очекивали да ће се њихови подаци се деле-у расутом стању-са истраживачима. У овом случају, истраживачи су пажљиве кораке да анонимним података и њихов рад је надгледао треће стране (тј, њихов ИРБ). Али, упркос овим напорима, ови подаци су вероватно још идентификовати и што вероватно садрже осетљиве информације (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ја ћу се вратити на ове етичких питања у Поглављу 6.
Подсетимо се да Блуменстоцк био заинтересован за мерење богатство и благостање. Али, ове особине нису директно у евиденцији позива. Другим речима, ове евиденције позива су непотпуни за ово истраживање, а заједничка карактеристика дигиталних трагова који је детаљно дискутовано у поглављу 2. Али, изгледа да су евиденције позива вероватно имају неке информације о богатству и благостању. Дакле, један начин постављања питања Блуменстоцк могао би бити: могуће је предвидети како ће неко реаговати на истраживању на основу својих дигиталних података у траговима? Ако је тако, онда је поставити неколико људи можемо погоди одговоре и сви остали.
Да би се то емпиријски процени, Блуменстоцк и асистената из Кигали Института за науку и технологију под називом узорак од око хиљаду корисника мобилне телефоније. Истраживачи су објаснили циљеве пројекта учесницима, затражио њихов пристанак за повезивање одговоре анкете на евиденцији позива, а затим упитао их низ питања за мерење своје богатство и благостање, као што је "Да ли имате radio? "и" Да ли имате бицикл? "(види слику 3.11 за делимичну листу). Сви учесници у истраживању су финансијски надокнадити.
Следеће, Блуменстоцк користи процедуру два корака заједнички у науци података: карактеристика инжењеринг затим надзором учења. Прво, у кораку карактеристика инжењеринга, за све који су интервјуисани, Блуменстоцк конвертује записе позива на скуп карактеристика око сваке особе; Научници података може назвати ове карактеристике "карактеристике" и социолози би их зову "варијабле." На пример, за сваку особу, Блуменстоцк израчунати укупан број дана са активношћу, број различитих људи је особа била у контакту са, износ новца проведено на времена емитовања, и тако даље. Критички, добро карактеристика инжењеринг захтева познавање подешавања истраживања. На пример, ако је важно направити разлику између домаћих и међународних позива (можемо очекивати од људи који позивају на међународном бити богатији), онда то мора да се уради у фази функција инжењеринга. Истраживач са мало разумевања Руанди можда неће укључити ову функцију, а онда ће патити интуитивни перформансе модела.
Затим, у надгледане корак учења, Блуменстоцк изградио статистички модел за предвиђање одговора анкете за сваку особу на основу њихових карактеристика. У овом случају, Блуменстоцк користи логистичку регресију са 10-струком унакрсног провере, али је могао да употреби низ других приступа статистичка или машина за учење.
Дакле, колико добро то ради? Је Блуменстоцк у стању да предвиди одговоре на анкете на питања попут "Да ли сте власник радио?" И "Да ли имате бицикл?" Помоћу функције изведене из евиденције позива? Некако. Тачност предвиђања су били високи за неких особина (слика 3.11). Али, то је увек важно да се упореди комплексну методу предвиђања против једноставног алтернативу. У овом случају, једноставно алтернатива је да предвиди да ће сви дати најчешћи одговор. На пример, 97,3% пријавио посједовање радио па ако Блуменстоцк је предвидео да ће свако пријави поседовање радио да би имали тачност 97,3%, што је изненађујуће сличан учинак његове сложеније процедуре (97,6% тачности). Другим речима, сви фанци подаци и моделирање повећала тачност предвиђања са 97,3% на 97,6%. Међутим, за друга питања, као што су "Да ли имате бицикл?", Предвиђања побољшана са 54,4% на 67,6%. Уопштено говорећи, слика 3.12 приказује неких особина Блуменстоцк није побољшало много даље од израде једноставне основне линије предвиђање, али да за друге особине је дошло до побољшања.
У овом тренутку можда мислили да су ови резултати су мало разочаравајући, али само годину дана касније, Блуменстоцк и двоје колега-Габриел Цадамуро и Роберт На објављено у рад у науци са знатно бољим резултатима (Blumenstock, Cadamuro, and On 2015) . Постојала су два главна техничких разлога за побољшање: 1) они користе софистицираније методе (тј, нови приступ имају инжењеринг и софистициранији модел машинског учења) и 2), него покушава да закључити одговоре на појединачна питања истраживања (нпр, "da ли сте власник радио?"), покушали су да закључити композитни индекс богатство.
Блуменстоцк и његове колеге показали учинак њиховог приступа на два начина. Прво, они су открили да за људе у њиховом узорку, они могу да ураде добар посао предвиђања своје богатство из евиденције позива (слика 3.14). Друго, и све је још важније, Блуменстоцк и колеге су показали да је њихов поступак произведе процене високог квалитета географске дистрибуције богатства у Руанди. Тачније, они су користили своје машине модел учења, који је уперен у њиховом узорку од око 1.000 људи, да предвиди богатство свих 1,5 милиона људи у евиденцији позива. Даље, са геопросторних података уграђених у подацима позива (сећам се да је дата позив укључује локацију најближе телефонске куле за сваки позив), истраживачи су били у могућности да процени приближно место пребивалишта сваке особе. Стављање ове две процене заједно, истраживање произвео процјену географске дистрибуције претплатничког богатства на изузетно фине просторне грануларност. На пример, они могу проценити просечну богатство у свакој од Руанде 2148 ћелија (најмања административна јединица у земљи). Ове предвиђени богатство вредности су тако гранулама су тешко провјерити. Дакле, истраживачи прикупљају њихове резултате за израцунавање просека богатства Руанда је 30 округа. Процене ове округ нивоу су снажно повезана са проценама из златног стандардног традиционалног истраживања, Руанде Демографска и здравствена Анкета (слика 3.14). Иако су процене из два извора су сличне, процене из Блуменстоцк и колеге су око 50 јефтиније пута и 10 пута брже (када трошкове у вреднују по принципу варијабилних трошкова). Овај драматичан пад у цени значи да умјесто да иду на сваких неколико година-као што је стандард за демографске и здравствене анкете-хибрид од малог истраживања у комбинацији са великим дигиталним подацима траговима се може покренути сваког месеца.
У закључку, Блуменстоцк је појачан тражи податке из анкете прилазне у комбинацији са дигиталним подацима у траговима за израцунавање упоредиви са проценама истраживања злата стандард. Овај пример такође објашњава неке од компромиса између појачан тражи и традиционалне методе истраживања. Прво, појачан постављају процене су биле благовремене, знатно јефтинији, и детаљнијем. Али, с друге стране, у овом тренутку, не постоји јака теоријска основа за овакву врсту појачан просидбу. То је, овај пример не показује када ће радити и када неће. Даље, појачан тражена приступ још увек нема добре начине да нијесмо несигурност око његове процене. Међутим, појачана пита има дубоке везе са три велика подручја статистике-модела заснованог пост-стратификације (Little 1993) , приписивање (Rubin 2004) , и процене малих површина (Rao and Molina 2015) -а тако да очекујем да ће напредак бити брз.
Појачан пита прати основни рецепт који се може прилагодити за одређену ситуацију. Постоје два састојка и два корака. Ова два састојци су: 1) дигитални траг скуп података који је широк али танак (да је, има много људи, али не и информације које су вам потребне за сваки лица) и 2) преглед који је узан, али дебљине (који је, има само неколико људи, али има информације које су вам потребне за те људе). Затим постоје два корака. Прво, за људе у оба извора података, израда модела учења машина која користи дигиталне податке у траговима предвидети анкете одговоре. Затим користите тај модел учења машина да му припишу анкете одговоре свима у подацима дигиталних трагова. Према томе, ако постоји неки постављају питање да ли желите да поставите да пуно људи, тражити дигиталних података у траговима од оних људи који би могли да се користе за предвиђање свој одговор.
Упоређујући Блуменстоцк првог и другог покушај да се проблем такође илуструје важну лекцију о преласку из друге ере до приступа треће доба за испитивање истраживања: почетак није крај. То је, много пута, први приступ неће бити најбоља, али ако истраживачи настављају рад, ствари могу бити боље. Уопштено говорећи, када се процењује нове приступе друштвена истраживања у дигиталном добу, важно је да два различита оцјене: 1) колико добро ради овај посао сада и 2) колико добро да би ово могло радити у будућности, као пејзаж података промене и као истраживачи посвећују више пажње на проблем. Иако, истраживачи су обучени да направи први врсту евалуације (колико је тај део истраживања), други је често важнија.