Разширено искане с помощта на предсказуем модел да се комбинират данните от проучвания от няколко души с голям източник на данни от много хора.
Друг начин за комбиниране на проучването и големите източници на данни е процес, който ще наричам разширен въпрос . В усилено искане един изследовател използва предсказуем модел, за да комбинира малко количество данни от изследването с голям източник на данни, за да се получат оценки по скала или подробности, които не биха били възможни с нито един от източниците на данни поотделно. Важен пример за усилено искане идва от работата на Джошуа Блумсток, който иска да събере данни, които биха могли да помогнат за развитието в бедните страни. В миналото изследователите, събиращи такива данни, обикновено трябваше да използват един от двата подхода: извадкови проучвания или преброявания. Примерни проучвания, при които изследователите интервюират малък брой хора, могат да бъдат гъвкави, навременни и сравнително евтини. Въпреки това, тези проучвания, тъй като се основават на извадка, често са ограничени в решението им. С извадково проучване често е трудно да се правят оценки за конкретни географски региони или за конкретни демографски групи. Преброяванията, от друга страна, се опитват да интервюират всички и могат да бъдат използвани за изготвяне на прогнози за малки географски региони или демографски групи. Но преброяването обикновено е скъпо, тясно фокусирано (те включват само малък брой въпроси), а не навременни (те се случват по фиксиран график, например на всеки 10 години) (Kish 1979) . Вместо да бъдете затрупани с извадкови проучвания или преброявания, представете си дали изследователите могат да съчетаят най-добрите характеристики и на двете. Представете си, ако изследователите могат да задават всеки въпрос на всеки човек всеки ден. Очевидно е, че това вездесъщо, постоянно проучване е вид фентъзи на социалната наука. Но изглежда, че можем да започнем да приближаваме това, като комбинираме въпросите на изследването от малък брой хора с цифрови следи от много хора.
Изследванията на Blumenstock започнаха, когато той се свърза с най-големия доставчик на мобилни телефони в Руанда, а компанията осигури анонимизирани записи на транзакции от около 1,5 милиона клиенти между 2005 и 2009 г. Тези записи съдържаха информация за всяко обаждане и текстово съобщение, като началния час, , и приблизителното географско местоположение на повикващия и получателя. Преди да говоря за статистическите въпроси, струва си да се отбележи, че тази първа стъпка може да е една от най-трудните за много изследователи. Както описах в глава 2, повечето големи източници на данни са недостъпни за изследователите. Телефонните метаданни, по-специално, са особено недостъпни, защото всъщност е невъзможно да се анонимизират и почти със сигурност съдържат информация, която участниците биха сметнали за чувствителни (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . В този конкретен случай изследователите внимаваха да защитят данните и работата им бе контролирана от трета страна (т.е. IRB). Ще се върна към тези етични въпроси по-подробно в глава 6.
Блумстонк се интересуваше от измерването на богатството и благополучието. Но тези черти не са директно в записите на обажданията. С други думи тези записи за обаждания са непълни за това изследване - обща характеристика на големите източници на данни, която беше обсъдена подробно в глава 2. Въпреки това изглежда вероятно разговорите за обаждания вероятно имат някаква информация, която може индиректно да предостави информация за богатството и благосъстояние. Като се има предвид тази възможност, Blumenstock попита дали е възможно да се обучи модел за машинно обучение, за да се предскаже как някой ще отговори на проучване въз основа на техните записи на обаждания. Ако това е възможно, тогава Blumenstock може да използва този модел, за да предскаже отговорите на проучването на всичките 1,5 милиона клиенти.
За да изгради и обучи такъв модел, Blumenstock и сътрудниците в научните изследвания от Института за наука и технологии в Кигали нарекоха произволна извадка от около хиляда клиенти. Изследователите разясниха целите на проекта на участниците, поискаха съгласието си да свържат отговорите от проучването към записите на обажданията и след това им зададоха серия от въпроси за измерване на тяхното богатство и благополучие, като например "Имате ли радио "и" Имате ли велосипед? "(виж фигура 3.14 за частичен списък). Всички участници в проучването бяха компенсирани финансово.
След това Blumenstock използва процедура в две стъпки, често срещана в машинното обучение: функция инженерство, последвано от контролирано обучение. На първо място, в етапа на инженерната функция , за всеки, който е интервюиран, Blumenstock преобразува записките на обажданията в набор от характеристики за всеки човек; учените могат да нарекат тези характеристики "характеристики", а социалните учени ще ги нарекат "променливи". Например за всеки човек Blumenstock изчислява общия брой дни с активност, броя на отделните хора, с които човек е бил в контакт, сумата на парите, изразходвани за времето на излъчване и т.н. Критично, добрата инженерна функция изисква познания за изследователската среда. Например, ако е важно да се прави разграничение между вътрешни и международни разговори (може да очакваме, че хората, които се обаждат на международно ниво, да бъдат по-богати), това трябва да стане по време на етапа на инженерната функция. Изследовател с малко разбиране за Руанда може да не включва тази функция, а след това прогнозиращото представяне на модела ще пострада.
След това, в подготвената стъпка за учене , Blumenstock построи модел за прогнозиране на отговорите от проучването за всяко лице въз основа на техните функции. В този случай Blumenstock използва логистична регресия, но би могъл да използва различни подходи за статистическо или машинно обучение.
Колко добре работи? Беше ли Blumenstock в състояние да предскаже отговори на въпроси от проучването като "Имате ли радиото?" И "Имате ли велосипед?", Използвайки функции, извлечени от записите на обажданията? За да оцени ефективността на своя прогнозен модел, Blumenstock използва кръстосано валидиране , техника, която обикновено се използва в науката на данните, но рядко в социалната наука. Целта на кръстосаното валидиране е да се предостави справедлива оценка на прогнозното представяне на модела, като се подготви и се тества на различни подгрупи от данни. По-специално, Blumenstock раздели данните си на 10 парчета от по 100 души. След това той използва девет от парчетата, за да обучи модела си, а предсказуемата работа на тренирания модел бе оценена на останалата част. Той повтори тази процедура 10 пъти - като всяка част от данните получи един завой като данните за валидиране - и осредне резултатите.
Точността на прогнозите е висока за някои черти (фигура 3.14); например, Blumenstock може да предвиди с 97,6% точност, ако някой притежава радио. Това може да звучи впечатляващо, но винаги е важно да се сравнява сложен метод за предсказване срещу проста алтернатива. В този случай просто една алтернатива е да се предскаже, че всеки ще даде най-често срещания отговор. Например, 97.3% от респондентите съобщават, че притежават радио, така че ако Blumenstock предрече, че всеки ще съобщи, че притежава радио, то би трябвало да има точност от 97.3%, което е изненадващо подобно на изпълнението на неговата по-сложна процедура (97.6% , С други думи, всички фантастични данни и моделиране увеличиха точността на прогнозата от 97.3% на 97.6%. За други въпроси, като например "Имате ли велосипед?", Прогнозите се подобряват от 54,4% на 67,6%. По-общо казано, фигура 3.15 показва, че за някои свойства Blumenstock не се е подобрило много повече, отколкото просто направи простия базов прогноз, но че за други черти имаше известно подобрение. Ако погледнете точно тези резултати, може да не смятате, че този подход е особено обещаващ.
Обаче само една година по-късно Blumenstock и двамата колеги - Gabriel Cadamuro и Robert On - публикуваха доклад в науката с значително по-добри резултати (Blumenstock, Cadamuro, and On 2015) . Има две основни технически причини за това подобрение: (1) те използват по-сложни методи (т.е. нов подход към функционалното инженерство и по-сложен модел за предсказване на реакциите от характеристиките) и (2) вместо да се опитват да заключат отговорите на отделни (например "притежавате ли радио?"), те се опитаха да извлекат комбиниран индекс на богатството. Тези технически подобрения означават, че те могат да направят разумна работа с използването на записи за обаждания, за да предскажат богатство за хората в извадката им.
Прогнозирането на богатството на хората в извадката обаче не беше крайната цел на изследването. Не забравяйте, че крайната цел е да се съчетаят някои от най-добрите характеристики на извадкови проучвания и преброявания, за да се получат точни оценки на бедността в развиващите се страни с висока резолюция. За да се оцени способността им да постигнат тази цел, Blumenstock и колегите използваха своя модел и данните си, за да предскажат богатството на всички 1,5 милиона души в регистрите на обажданията. Използваха геопространствената информация, вградена в записите на обажданията (припомни, че данните включват местоположението на най-близката клетъчна кула за всяко обаждане), за да се оцени приблизителното място на пребиваване на всяко лице (фигура 3.17). Като направихме тези две оценки заедно, Blumenstock и колегите направиха оценка на географското разпределение на богатството на абоната при изключително фина пространствена подробност. Например, те биха могли да изчислят средното богатство във всяка от 2 148 клетки в Руанда (най-малката административна единица в страната).
Доколко тези оценки съответстват на действителното ниво на бедност в тези региони? Преди да отговоря на този въпрос, искам да подчертая факта, че има много причини да сте скептични. Например способността да се правят прогнози на индивидуално ниво е доста шумна (фигура 3.17). И може би по-важно е хората с мобилни телефони да се различават систематично от хората без мобилни телефони. По този начин, Blumenstock и колегите биха могли да страдат от видовете грешки на покритието, които са предубедени в изследването на Literary Digest от 1936 г., което описах по-рано.
За да получат представа за качеството на своите оценки, Блумсток и колеги трябваше да ги сравнят с нещо друго. За щастие, около едно и също време, в което учат, друга група изследователи провежда по-традиционно социално проучване в Руанда. Това друго проучване, което беше част от широко спазената програма "Демографско и здравно изследване", имаше голям бюджет и използва висококачествени традиционни методи. Ето защо оценките от проучването "Демографско и здравно състояние" биха могли основателно да се считат за злато-стандартни оценки. Когато двете оценки бяха сравнени, те бяха доста сходни (фигура 3.17). С други думи, чрез комбиниране на малко количество данни от проучванията с регистрациите на обажданията, Blumenstock и колегите са могли да изготвят оценки, сравними с тези от златните стандартни подходи.
Скептикът може да види тези резултати като разочарование. В края на краищата един от начините да ги разгледате е да кажа, че чрез използването на големи данни и машинно обучение Blumenstock и колегите са могли да изготвят оценки, които биха могли да бъдат направени по-надеждно по вече съществуващи методи. Но не мисля, че това е правилният начин да се мисли за това проучване по две причини. Първо, оценките от Blumenstock и колегите бяха около 10 пъти по-бързи и 50 пъти по-евтини (когато разходите се измерват с променливи разходи). Както изтъкнах по-рано в тази глава, изследователите пренебрегват разходите при опасността си. В този случай например драматичното намаляване на разходите означава, че вместо да се провеждат на всеки няколко години - както е стандартно за демографските и здравните изследвания - този вид проучване може да се провежда всеки месец, което би осигурило множество предимства за изследователите и политиката създателите. Втората причина да не вземаме скептичния поглед е, че това проучване предоставя основна рецепта, която може да бъде приспособена към много различни изследователски ситуации. Тази рецепта има само две съставки и две стъпки. Съставките са (1) голям източник на данни, който е широк, но тънък (т.е. има много хора, но не и информацията, от която се нуждаете за всеки човек) и (2) изследване, което е тясно, но дебело малко хора, но има информацията, от която се нуждаете за тези хора). Тези съставки след това се комбинират на два етапа. Първо, за хората от двата източника на данни, изграждане на модел за машинно обучение, който използва големия източник на данни, за да предскаже отговорите на проучването. След това използвайте този модел, за да отчетете отговорите на изследването на всички в големия източник на данни. По този начин, ако има някакъв въпрос, който искате да попитате много хора, потърсете голям източник на данни от тези хора, който може да бъде използван за прогнозиране на техния отговор, дори ако не ви е грижа за големия източник на данни . Това означава, че Blumenstock и колегите не се интересуват отрицателно за записите на обажданията; те се интересуват само от записите за обаждания, защото те биха могли да бъдат използвани за прогнозиране на отговорите от проучването, за които се интересуват. Този косвен индиректен интерес към големия източник на данни прави разширен въпрос, който се различава от вградения въпрос, който описах по-рано.
В заключение, усъвършенстваният подход на Blumenstock комбинира данните от изследванията с голям източник на данни, за да се получат оценки, сравними с тези от златно проучване. Този конкретен пример пояснява и някои от компромисите между разширените заявки и традиционните методи на изследване. Разширените искания бяха по-навременни, значително по-евтини и по-подробни. Но, от друга страна, все още няма силна теоретична основа за този вид усилено искане. Този единствен пример не показва кога този подход ще работи и кога не, и че изследователите, използващи този подход, трябва да са особено загрижени за възможните отклонения, причинени от това кой е включен - и който не е включен - в техния голям източник на данни. Освен това, подходът за разширяване на заявката все още няма добри начини за количествено определяне на несигурността около нейните оценки. За щастие, усиленото искане има дълбоки връзки с три големи области в статистиката - оценка на малките райони (Rao and Molina 2015) , причисляването (Rubin 2004) и моделната пост-стратификация (която сама по себе си е тясно свързана с г-н П., методът, който описах по-рано в главата) (Little 1993) . Поради тези дълбоки връзки очаквам, че много от методологическите основи на усиленото искане скоро ще бъдат подобрени.
Накрая, сравняването на първите и вторите опити на Блумънтък илюстрира важен урок за социалните изследвания в цифровата ера: началото не е краят. Тоест, много пъти първият подход няма да бъде най-добрият, но ако изследователите продължат да работят, нещата могат да се подобрят. По-общо, при оценяването на новите подходи към социалните изследвания в дигиталната епоха е важно да се направят две различни оценки: (1) Колко добре работи сега? и (2) Каква ще бъде тази работа в бъдеще, когато ландшафтът на данните се промени и изследователите отделят повече внимание на проблема? Въпреки че изследователите са обучени да направят първия вид оценка, втората често е по-важна.