Обвързването си проучване за цифрови следи може да бъде като пита всеки вашите въпроси по всяко време.
Питам по принцип се предлага в две основни категории: извадкови изследвания и преброяванията. Извадкови изследвания, където ще имат достъп до по-малък брой хора, могат да бъдат гъвкави, навременни и относително евтини. Въпреки това, извадковите изследвания, тъй като те са на базата на извадка, често са ограничени в своята резолюция; с извадково изследване, често е трудно да се правят прогнози за конкретни географски региони или за специфични демографски групи. Преброяванията, от друга страна, се опитват да интервюират всички в населението. Те имат голяма резолюция, но те обикновено са скъпи, тесен фокус (те включват само малък брой въпроси), и не навременно (те се случват по определен график, като на всеки 10 години) (Kish 1979) . Сега си представете, ако изследователите биха могли да се комбинират най-добрите характеристики на извадкови изследвания и преброявания; Представете си, ако изследователите могат да зададат всички въпроси на всички, всеки ден.
Очевидно е, че това непрекъснато, вездесъщ, винаги-на изследването е един вид социална наука фантазия. Но се оказва, че ние можем да започнем да сближи това чрез комбиниране на въпросите в проучването от малък брой хора с цифрови следи от много хора. Аз наричам този вид комбинация усилва пита. Ако се представя добре, тя може да ни помогне да предоставя оценка, че са по-местна (за по-малки географски райони), още по-подробно (за специфични демографски групи), и по-навременно.
Един пример за това усилва исканата идва от работата на Джошуа Blumenstock, които искаха да се събират данни, които биха подпомогнали развитието водач в бедните страни. По-конкретно, Blumenstock искаше да се създаде система за измерване на богатство и благосъстояние, които в съчетание с пълнотата на преброяване с гъвкавостта и честотата на изследване (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Всъщност, аз съм вече описана работата Blumenstock накратко в глава 1.
За да започнете, Blumenstock партнира с най-големия мобилен оператор телефон в Руанда. Компанията му е предоставил анонимни записи по сделката от около 1.5 милиона клиенти, които обхващат поведение от 2005 г. и 2009 г. Трупите съдържат информация за всяко повикване и текстово съобщение, като началния час, продължителност, и приблизителното географско положение на обаждащия се и приемника. Преди да започнем да говорим за статистическите въпроси, то е да се отбележи, че тази първа стъпка може да е един от най-трудните. Както е описано в глава 2, най-цифрови данни следа е недостъпна за изследователите. И, много компании са основателно колебаят да споделят своите данни, защото това е лично; че е на своите клиенти най-вероятно не са очаквали, че техните записи ще бъдат споделени в насипно състояние, с изследователи. В този случай, учените взели внимателни стъпки за анонимно данните и тяхната работа се наблюдават от трета страна (т.е., тяхната IRB). Но въпреки тези усилия, тези данни са вероятно все още се идентифицират, и вероятно те съдържат чувствителна информация (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ще се върнете към тях етичен въпрос в глава 6.
Припомнете си, че Blumenstock се интересуват от измерване на богатство и благополучие. Но, тези черти не са директно в записи на разговори. С други думи, тези записи повиквания са непълни за това изследване, обща характеристика на цифрови следи, които бяха обсъдени по-подробно в Глава 2. Но, изглежда вероятно записи на разговори вероятно имат някаква информация за богатство и благосъстояние. Така че, един начин на молба въпрос Blumenstock можеше да е: възможно ли е да се предскаже как някой ще отговори на проучване въз основа на техните цифрови данни следи? Ако е така, тогава по молба на няколко души можем да предполагаме, отговорите на всички останали.
За да се оцени това емпирично, Blumenstock и научни сътрудници от Кигали Институт за наука и технология, наречена извадка от около хиляда използващи мобилни телефони. Изследователите обясняват целите на проекта за участниците, поискали съгласието им да се свържат отговорите от проучването на записи на разговори, и след това да ги зададе поредица от въпроси за измерване на тяхното богатство и благосъстояние, като например "Притежавате ли радио? "и" притежавате ли велосипед? "(виж фигура 3.11 за частичен списък). Всички участници в изследването са били компенсирани финансово.
На следващо място, Blumenstock използва процедура на два етапа често в науката данни: функция инженерство последвано от контролиран живот. Първо, в етапа на функция инженерство, за всеки, който беше интервюиран, Blumenstock превръща записи на разговори в набор от характеристики за всеки човек; учени от данни може да се изискват тези характеристики "функции" и социолози ще ги наричат "променливи." Например, за всеки човек, Blumenstock изчислява общият брой на дните с активност, броят на отделни хора, на лице е било в контакт с, размерът на парите, изразходвани за ефирно време, и така нататък. Критично, добра черта инженерство изисква познаване на настройката за научни изследвания. Например, ако това е важно да се прави разлика между вътрешни и международни повиквания (можем да очакваме хората, които се обаждат на международно ниво, за да бъдат по-богати), то това трябва да става в етапа на функция инженерство. Изследовател с малко разбиране на Руанда, може да не включва тази функция, а след това и предсказуем изпълнение на модела ще пострада.
На следващо място, в етапа на контролиран живот, Blumenstock построен статистически модел за предсказване отговор на проучване за всяко лице, въз основа на техните функции. В този случай, Blumenstock използва логистична регресия с 10-кратно кръстосано валидиране, но той би могъл да се използва най-различни други подходи статистическа или машинно обучение.
Така че колко добре е тя? Беше Blumenstock в състояние да предскаже отговори за проучване на въпроси като "Притежавате ли радио?" И "Притежавате ли велосипед?", Използвайки функции, получени от проведените разговори? Нещо като. Точността на предсказанията са били високи за някои черти (Фигура 3.11). Но, винаги е важно да се сравни сложен метод предсказание срещу проста алтернатива. В този случай, една проста алтернатива е да се предскаже, че всеки ще даде най-често срещаният отговор. Например, 97,3% са съобщили за притежаване на радио така че ако Blumenstock беше предсказал, че всеки ще докладва притежаване на радио той би трябвало да има точност от 97,3%, което е изненадващо, подобно на изпълнението на по-сложни си процедура (97.6% точност). С други думи, всички фантазия данни и моделиране увеличиха точността на прогнозата от 97,3% до 97,6%. Въпреки това, за други въпроси, като например "Притежавате ли велосипед?", Предсказанията подобрени от 54,4% до 67,6%. По-общо казано, Фигура 3.12 показва за някои черти Blumenstock не подобряват далеч отвъд просто направи простата изходно предсказанието, но че за други черти имаше известно подобрение.
В този момент може да се мисли, че тези резултати са малко разочароващи, но само една година по-късно, Blumenstock и двама колеги-Gabriel Cadamuro и Робърт On-публикува книга в науката със значително по-добри резултати (Blumenstock, Cadamuro, and On 2015) , Имаше две основни технически причини за подобряване: 1) те използват по-сложни методи (т.е., нов подход към функция инженерство и по-сложен модел учене машина) и 2), а не се опитва да се направи извод отговори на отделните въпроси от проучването (например, "притежавате ли радио?"), те се опитали да заключим, композитен индекс богатство.
Blumenstock и колеги показаха ефективността на подхода си по два начина. Първо, те са установили, че за хората в тяхната проба, което можеха да направят доста добра работа за прогнозиране на тяхното богатство от проведените разговори (Фигура 3.14). На второ място, и все по-важното е, Blumenstock и колеги показват, че процедурата им може да произвежда оценки на високо качество на географското разпределение на богатството в Руанда. По-конкретно, те използват техния модел машинно обучение, който е бил обучен от тяхната извадка от около 1000 души, за да се предскаже богатството на всички 1,5 милиона души в записи на разговори. Освен това, с геопространствени данни, вградени в данните за повиквания (припомни, че данните за повикване включва местоположението на най-близката клетка кула за всяко повикване), учените са успели да се изчисли приблизително мястото на пребиваване на всеки човек. Поставянето на тези две оценки заедно, изследванията произведени оценка на географското разпределение на абонат богатство в изключително фин пространствена обособеност. Например, те могат да се изчисли средно богатство във всяка от Руанда 2148 клетки (най-малката административна единица в страната). Тези прогнозирани стойности богатство бяха толкова гранулирани те са трудно да се провери. Така че, учените обобщават резултатите им да произвеждат оценки на средното богатство на Руанда 30 окръга. Тези оценки област ниво са силно свързани с оценките от златен стандарт традиционната анкета, демографски и здравни обзор на Руанда (Фигура 3.14). Въпреки, че оценките от двата източника са сходни, оценките от Blumenstock и колеги са около 50 пъти по-евтино и 10 пъти по-бързо (при цена в измервани по отношение на променливите разходи). Това драматично намаление на разходите означава, че вместо да се работи на всеки няколко години, както е стандартно за демографски и здравни проучвания-хибрида на малка анкета в съчетание с големи данни дигитални следи може да се ръководи всеки месец.
В заключение, Blumenstock е амплифициран иска данните от изследването подход в съчетание с цифрови данни следи от извършване на оценки на съпоставими с оценки от изследването златния стандарт. Този конкретен пример изяснява също така някои от компромисите между усилва исканата и традиционните методи на изследване. Първо, усилени питат оценки са по-навременни, значително по-евтино, и по-подробни. Но от друга страна, в този момент, не е силна теоретична основа за този вид амплифицира исканата. Това означава, че този пример не се показва, когато тя ще работи и когато го няма. Освен това, усилва подход исканата все още не разполага с добри начини за количествено определяне на несигурността около своите оценки. Въпреки това, усилва питам има дълбоки връзки към три големи области в статистиката-модел на базата на пост-стратификация (Little 1993) , за изчисляване на условните (Rubin 2004) , и оценка малък район (Rao and Molina 2015) ; и така аз очаквам, че напредък ще да бъде бързо.
Усилвател исканата следва една основна рецепта, която може да бъде адаптирана към вашата конкретна ситуация. Има две съставки и две стъпки. Двете съставки са 1) цифров следа от данни, който е широк, но тънък (това означава, че има много хора, но не и информацията, от които имате нужда за всеки лица) и 2) проучване, че е тесен, но дебела (това означава, че има само няколко души, но има информация, че трябва да кажем за тези хора). След това има две стъпки. Първо, за хората в двата източника на данни, изграждане на модел за машинно обучение, което използва цифрови данни следи да се предскаже проучването отговори. След това използвайте този модел машинно обучение, за да вмени на изследването отговорите на всички в данните за цифрови следи. По този начин, ако има някакъв въпрос, на който искате да попитате за много хора, за цифрови данни следи изглежда от онези хора, които биха могли да се използват за предвиждане на техния отговор.
Сравнявайки първи и втори опит Blumenstock е най проблема също илюстрира важен урок за прехода от втората ера да подходи трети ера за изследване изследвания: началото не е краят. Това означава, че много пъти, първия подход няма да бъдат най-добрите, но ако изследователите продължават работа, нещата могат да се оправят. По-общо казано, при оценяването на нови подходи за социални изследвания в дигиталната епоха, е важно да се направят две отделни оценки: 1) колко добре работи това сега и 2) колко добре мислите ли, че това може да работи и в бъдеще като пейзаж на данни промени и като изследователи отделят повече внимание на проблема. Въпреки че, изследователите са обучени да направи първия вид на оценка (колко добра е тази част от научните изследвания), а вторият е често по-важно.