Засилено барајќи користење на предвидлив модел за комбинирање на податоците од анкетата од неколку луѓе со голем извор на податоци од многу луѓе.
А поинаков начин да се комбинира анкета и големи извори на податоци е процес што ќе го наречам засилено барање . Во засилено барање, истражувачот користи предвидлив модел за комбинирање на мала количина на податоци од анкетата со голем извор на податоци со цел да се произведат проценки на скала или грануларност што не би било можно со извор на податоци поединечно. Важен пример за засилено барање доаѓа од работата на Џошуа Блуменсток, кој сакаше да собере податоци кои би можеле да помогнат во развојот во сиромашните земји. Во минатото, истражувачите кои собираат вакви податоци генерално мораа да земат еден од двата пристапи: примерочни истражувања или пописи. Примерните анкети, каде што истражувачите интервјуираат мал број луѓе, може да бидат флексибилни, навремени и релативно евтини. Сепак, овие истражувања, бидејќи тие се базираат на примерок, често се ограничени во нивната резолуција. Со истражувањето на примерокот, често е тешко да се направат проценки за одредени географски региони или за одредени демографски групи. Пописите, од друга страна, се обидуваат да ги интервјуираат сите, и така тие можат да се користат за да се произведат проценки за мали географски региони или демографски групи. Но, пописите обично се скапи, тесни во фокусот (тие вклучуваат само мал број прашања), а не навремени (тие се случуваат на фиксен распоред, како што се на секои 10 години) (Kish 1979) . Наместо да се заглавени со анкети или пописи на примероци, замислете ако истражувачите можат да ги комбинираат најдобрите карактеристики на двете. Замислете ако истражувачите секој ден можат да го поставуваат секое прашање на секој човек. Очигледно, овој сеприсутен, секогаш анкета е еден вид на социјална наука фантазија. Но, се чини дека можеме да почнеме да го приближуваме ова со комбинирање на прашањата од анкетата од мал број луѓе со дигитални траги од многу луѓе.
Истражувањето на Blumenstock започна кога тој соработуваше со најголемиот мобилен оператор во Руанда, а компанијата обезбеди анонимизирани записи за трансакции од околу 1,5 милиони корисници помеѓу 2005 и 2009 година. Овие записи содржеа информации за секој повик и текстуална порака, како што се времето на почеток, времетраењето , и приближна географска локација на повикувачот и приемникот. Пред да зборувам за статистичките прашања, вреди да се истакне дека овој прв чекор можеби е еден од најтешките за многу истражувачи. Како што опишав во глава 2, повеќето големи извори на податоци се недостапни за истражувачите. Особено особено е недостапен телефонски мета-податоци, бидејќи во основа е невозможно да се анонимизира и речиси сигурно содржи информации што учесниците ќе ги сметаат за чувствителни (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Во овој конкретен случај, истражувачите внимаваа да ги заштитат податоците и нивната работа била надгледувана од трета страна (т.е. нивната IRB). Јас ќе се вратам на овие етички прашања подетално во поглавје 6.
Blumenstock беше заинтересиран за мерење на богатството и благосостојбата. Но, овие особини не се директно во евиденцијата на повици. Со други зборови, овие записи за повици се нецелосни за ова истражување - заедничка карактеристика на големи извори на податоци за кои детално се дискутираше во поглавјето 2. Сепак, се чини веројатно дека евиденцијата за повици веројатно има некои информации кои индиректно би можеле да обезбедат информации за богатството и благосостојба. Со оглед на оваа можност, Blumenstock праша дали е можно да се обучи модел за учење на машини за да се предвиди како некој ќе одговори на анкета врз основа на нивната евиденција на повик. Ако ова е можно, тогаш Blumenstock би можел да го искористи овој модел за да ги предвиди анкетите од сите 1,5 милиони корисници.
Со цел да се изгради и обучи таков модел, Blumenstock и истражувачки асистенти од Kigali Институтот за наука и технологија наречен случаен примерок од околу илјада клиенти. Истражувачите ги објаснија целите на проектот на учесниците, побараа нивна согласност за поврзување на одговорите на анкетата со записите на повиците, а потоа им поставија низа прашања за мерење на нивното богатство и благосостојба, како што се "Дали имате радио? "и" Дали имате велосипед? "(види слика 3.14 за делумна листа). Сите учесници во истражувањето беа компензирани финансиски.
Следно, Blumenstock користеше постапка во два чекора честа појава во машинското учење: функционално инженерство проследено со надгледувано учење. Прво, во функционалниот чекор, за сите што беа интервјуирани, Blumenstock ги претвора евиденциите за повици во збир на карактеристики за секој човек; научниците за податоци би можеле да ги наречат овие карактеристики "карактеристики" и општествените научници би ги нарекле "променливи". На пример, за секое лице, Blumenstock го пресметал вкупниот број на денови со активност, бројот на различни луѓе со кои лицето било во контакт, сума на пари потрошени на емитување, и така натаму. Критично, доброто инженерство бара познавање на поставувањето на истражувањата. На пример, ако е важно да се направи разлика помеѓу домашните и меѓународните повици (можеме да очекуваме луѓето што повикуваат на меѓународно ниво да бидат побогати), тогаш ова мора да се направи на чекорот на инжинерскиот чекор. Истражувачот со малку разбирање за Руанда можеби не ја вклучува оваа функција, а потоа ќе претрпи претскажувачки перформанси на моделот.
Следно, во надгледуваниот чекор на учење , Blumenstock изгради модел за да го предвиди одговорот на анкетата за секое лице врз основа на нивните карактеристики. Во овој случај, Blumenstock користеше логистичка регресија, но тој можеше да користи разни други статистички или машински пристапи.
Па, колку добро работеше? Дали Blumenstock можеше да ги предвиди одговорите на анкетата прашања како "Дали имате радио?" И "Дали имате велосипед?" Со користење на функции добиени од записи од повик? Со цел да се оцени ефикасноста на неговиот предвидлив модел, Blumenstock користеше вкрстена валидација , техника која вообичаено се користела во науката за податоци, но ретко во општествените науки. Целта на вкрстената валидација е да се обезбеди фер оценување на предвидувачките перформанси на модел преку обука и тестирање на различни подмножества на податоци. Особено, Blumenstock ги поделил своите податоци во 10 парчиња од по 100 луѓе. Потоа, тој користел девет делови за да го обучи неговиот модел, а предвидената изведба на обучениот модел беше оценета на преостанатиот дел. Тој ја повтори оваа постапка 10 пати - со секој дел од податоците добива еден чекор како валидација податоци - и просек на резултатите.
Точноста на предвидувањата беше висока за некои особини (слика 3.14); на пример, Blumenstock може да предвиди со точност од 97,6% ако некој поседува радио. Ова може да звучи импресивно, но секогаш е важно да се спореди комплексен метод за предвидување со едноставна алтернатива. Во овој случај, едноставна алтернатива е да се предвиди дека секој ќе даде најчест одговор. На пример, 97,3% од испитаниците пријавиле поседување на радио, па ако Blumenstock предвидел дека секој ќе пријави поседување на радио, тој би имал точност од 97,3%, што е изненадувачки слично со изведбата на неговата посложена постапка (97,6% точност) . Со други зборови, сите фантастични податоци и моделирање ја зголемија точноста на предвидувањата од 97,3% до 97,6%. Сепак, за други прашања, како што се "Дали имате велосипед?", Предвидувањата се подобрија од 54,4% на 67,6%. Поопшто, фигурата 3.15 покажува дека за некои особини Blumenstock не се подобри многу повеќе отколку само да го направи едноставното основно предвидување, но дека за други карактеристики имало одредено подобрување. Меѓутоа, гледајќи само на овие резултати, можеби не мислите дека овој пристап е особено ветувачки.
Сепак, само една година подоцна, Blumenstock и двајца колеги-Габриел Кадамуро и Роберт Нан објавија хартија во наука со значително подобри резултати (Blumenstock, Cadamuro, and On 2015) . Имаше две главни технички причини за ова подобрување: (1) користеа пософистицирани методи (т.е. нов пристап кон функционално инженерство и пософистициран модел за предвидување на одговорите од карактеристиките) и (2), наместо да се обидуваат да извлечат одговори на поединец анкета прашања (на пример, "Дали имате радио?"), тие се обиделе да заклучиме комбиниран индекс на богатство. Овие технички подобрувања значеа дека тие би можеле да направат разумна работа да користат записи за повици за да го предвидат богатството за луѓето во нивниот примерок.
Меѓутоа, предвидување на богатството на луѓе во примерокот не беше крајната цел на истражувањето. Запомнете дека крајната цел беше да се комбинираат некои од најдобрите карактеристики на анкетите за примероци и пописи за да се направат точни проценки за сиромаштијата во земјите во развој со висока резолуција. За да ја проценат нивната способност да ја постигнат оваа цел, Blumenstock и неговите колеги го користеа својот модел и нивните податоци за да го предвидат богатството на сите 1,5 милиони луѓе во записите за повици. И ги користеа геопросторните информации вградени во записите за повици (да се потсетиме дека податоците ја вклучуваат локацијата на најблиската ќелија за секој повик) за да се процени приближното место на живеење на секое лице (слика 3.17). Составувањето на овие две проценки заедно, Blumenstock и колегите произведоа проценка на географската распределба на богатството на претплатниците со екстремно фина просторна грануларност. На пример, тие би можеле да го проценат просечното богатство во секоја од 2,148 клетки на Руанда (најмалата административна единица во земјата).
Колку добро овие проценки се совпаднаа со вистинското ниво на сиромаштија во овие региони? Пред да одговорам на ова прашање, сакам да го истакнам фактот дека постојат многу причини да се биде скептичен. На пример, можноста да се направат предвидувања на индивидуално ниво е прилично бучна (слика 3.17). И, можеби уште поважно, луѓето со мобилни телефони би можеле систематски да се разликуваат од луѓето без мобилни телефони. Така, Blumenstock и колегите би можеле да страдаат од видовите на грешки во покривањето што го приклонуваат истражувањето Literary Digest од 1936 година што го опишав претходно.
За да се добие чувство за квалитетот на нивните проценки, Blumenstock и неговите колеги требаше да ги споредат со нешто друго. За среќа, во исто време како и нивната студија, друга група истражувачи водеше потрадиционално социјално истражување во Руанда. Оваа друга анкета - која беше дел од широкопочитуваната програма за демографски и здравствени истражувања - имаше голем буџет и користеше висококвалитетни, традиционални методи. Затоа, проценките од Анкетата за демографски и здравствени истражувања може разумно да се сметаат за златни стандардни проценки. Кога беа споредени двете проценки, тие беа доста слични (слика 3.17). Со други зборови, со комбинирање на мала количина на податоци од истражувањето со евиденцијата за повици, Blumenstock и неговите колеги успеале да направат проценки споредливи со оние од златни стандардни пристапи.
Скептик може да ги види овие резултати како разочарување. На крајот на краиштата, еден начин на гледање е да се каже дека со користење на големи податоци и машинско учење, Blumenstock и неговите колеги успеале да направат проценки што може да се направат посигурно од веќе постоечките методи. Но, не мислам дека тоа е вистинскиот начин да се размислува за оваа студија од две причини. Прво, проценките од Blumenstock и колегите беа околу 10 пати побрзи и 50 пати поевтини (кога цената се мери во смисла на варијабилни трошоци). Како што претходно споревме во ова поглавје, истражувачите ги игнорираат трошоците на нивната опасност. Во овој случај, на пример, драматичното намалување на трошоците значи дека наместо да се стартува на секои неколку години - како што е стандард за демографски и здравствени истражувања - овој вид на истражување може да се спроведува секој месец, што ќе обезбеди бројни предности за истражувачите и политиката креаторите. Втората причина да не се земе во предвид гледиштето на скептиците е дека оваа студија обезбедува основен рецепт кој може да се прилагоди на многу различни истражувачки ситуации. Овој рецепт има само две состојки и два чекора. Состојките се (1) голем извор на податоци кој е широк, но тенок (т.е. има многу луѓе, но не информации што ви требаат за секој човек) и (2) анкета која е тесна, но дебела (т.е. има само неколку луѓе, но има информации што ви требаат за тие луѓе). Овие состојки потоа се комбинираат во два чекора. Прво, за луѓето од двата извори на податоци, да се изгради модел за машинско учење кој го користи големиот извор на податоци за да ги предвиди анкетираните одговори. Потоа, користете го тој модел за да ги наведете одговорите на анкетите на сите во големиот извор на податоци. Така, ако има некое прашање што сакате да побарате многу луѓе, побарајте голем извор на податоци од оние луѓе кои би можеле да се користат за да го предвидат нивниот одговор, дури и ако не се грижите за големиот извор на податоци . Тоа е, Blumenstock и колеги не се инхерентно се грижат за повик евиденција; тие само се грижеа за евиденција на повици, бидејќи тие можеа да се користат за да се предвидат анкетираните одговори за кои се грижеа. Овој карактеристичен само индиректен интерес во големиот извор на податоци - го засилува прашањето кое е различно од вграденото барање, кое го опишав претходно.
Како заклучок, засилениот метод на барање на Blumenstock ги комбинира податоците од истражувањето со голем извор на податоци за да произведе проценки слични на оние од златно-стандардно истражување. Овој конкретен пример, исто така, појаснува некои од разговорите помеѓу засилените барања и традиционалните методи за испитување. Засилените процени за прашување беа повеќе навремени, значително поевтини и повеќе грануларни. Но, од друга страна, сè уште не постои силна теоретска основа за овој вид засилено барање. Овој единствен пример не покажува кога овој пристап ќе функционира и кога тоа нема, а истражувачите кои го користат овој пристап треба особено да бидат загрижени за можните предрасуди предизвикани од тоа кој е вклучен и кој не е вклучен во нивниот голем извор на податоци. Понатаму, засилен приод за пристап до сеуште нема добри начини да се измери неизвесноста околу нејзините проценки. За среќа, засиленото поставување има длабоки врски со три големи области во проценката на малиот простор (Rao and Molina 2015) , импутирањето (Rubin 2004) и пост-стратификацијата врз основа на модел (која е тесно поврзана со г-динот П., методот што го опишав порано во поглавјето) (Little 1993) . Поради овие длабоки врски, очекувам дека многу од методолошките основи на засилено поставување наскоро ќе се подобрат.
Конечно, споредувајќи ги првите и вториот обид на Блуменсток, исто така, илустрира важна лекција за социјалните истражувања на дигиталното доба: почетокот не е крај. Тоа е, многу пати, првиот пристап нема да биде најдобар, но ако истражувачите продолжат да работат, работите може да се подобрат. Општо земено, при евалуација на новите пристапи кон социјалните истражувања во дигиталната ера, важно е да се направат две различни оценки: (1) Колку добро функционира ова сега? и (2) Колку добро ќе работи ова во иднина, како ќе се промени пределот на податоци и како истражувачите посветуваат поголемо внимание на проблемот? Иако истражувачите се обучени да го направат првиот вид на евалуација, вториот често е поважен.