Összekapcsolása a felmérés digitális nyomok lehet, mint kérve mindenkit kérdésre minden alkalommal.
Kérdezi általában kétféle kategóriába sorolhatók: a mintavételes felmérések és összeírások. Mintavételes felmérések, ahol elérheti a néhány ember, lehet rugalmas, gyors, és viszonylag olcsó. Azonban, a mintavételes felmérések mert mintán alapulnak, gyakran korlátozott a felbontás; a mintavételes felmérés, gyakran nehéz becslést a konkrét földrajzi régiókban vagy bizonyos demográfiai csoportok. Népszámlálások, másrészt pedig megpróbálja interjút mindenki a lakosság körében. Ezek nagy felbontású, de ezek általában drágák, keskeny fókuszban (azokban csak kis számú kérdés), és nem időben (történetesen egy fix menetrend, például minden 10 év) (Kish 1979) . Most képzeld el, ha a kutatók lehet kombinálni a legjobb tulajdonságait a mintavételes felmérések és összeírások; képzeld el, ha a kutatók kérheti minden kérdést mindenki minden nap.
Nyilvánvaló, hogy ez az állandó, mindenütt, mindig-on felmérés egyfajta társadalomtudományi fantázia. De úgy tűnik, hogy el tudjuk kezdeni, hogy közelítse ezt kombinálásával felmérés kérdéseire kis számú ember digitális nyomok a sok ember. Hívom ezt a fajta kombináció felerősített kérve. Ha jól csinálják, ez segíthet nekünk ad becslést, amelyek több helyi (kisebb földrajzi területeken), részletesebb (specifikus demográfiai csoportok) és gyorsabb.
Egy példa a felerősített kért származik munkája Joshua Blumenstock, aki azt akarta, hogy gyűjtsön adatokat, amelyek segítenek útmutató a szegény országok fejlődését. Pontosabban Blumenstock akart létrehozni egy olyan rendszert mérésére gazdagság és a jólét, hogy a kombinált teljességének népszámlálás a rugalmasság és a frekvenciáját egy felmérés (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Sőt, már írtam Blumenstock munkáját röviden az 1. fejezetben.
Kezdeni, Blumenstock társult a legnagyobb mobiltelefon-szolgáltató Ruandában. A vállalat nyújtott neki névtelenítjük tranzakciós rekordokat körülbelül 1,5 millió ügyfelet, amely magatartás 2005-ben és 2009-ben a naplók információkat tartalmaznak minden hívás és szöveges üzenetet, mint például a kezdési időpont, időtartam, és hozzávetőleges földrajzi elhelyezkedése a hívó és a vevő. Mielőtt elkezd beszélni a statisztikai kérdések, érdemes megjegyezni, hogy ez az első lépés lehet az egyik legnehezebb. Amint azt a 2. fejezetben, a legtöbb digitális nyomkövetési adatok elérhetetlenné a kutatók. És sok vállalat jogosan szívesen osztják meg adataikat, mert magánjellegű; hogy az ügyfelek valószínűleg nem számíthat, hogy a rekordok kerülnek megosztott ömlesztve-kutatókkal. Ebben az esetben, a kutatók vett óvatos lépéseket anonymize az adatokat, és a munkájukat felügyelte egy harmadik fél (azaz a IRB). De annak ellenére, hogy ezek az erőfeszítések, ezek az adatok valószínűleg még azonosítható, és valószínűleg tartalmaznak érzékeny információkat (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Majd visszatér ezekre etikai kérdés a 6. fejezetben.
Emlékezzünk vissza, hogy Blumenstock volt érdekelt mérési gazdagság és a jólét. De ezek a vonások nem közvetlenül a hívás rekordok. Más szóval, ezek a hívás rekordok hiányosak a kutatás számára, a közös jellemzője a digitális nyomokat részletesen megvitatták a 2. fejezetben azonban valószínűnek tűnik, hogy a hívás feljegyzések valószínűleg néhány információt a gazdagság és a jólét. Tehát, az egyik módja, hogy felkérje Blumenstock kérdése lehet: lehet megjósolni, hogy valaki fog válaszolni egy felmérés alapján a digitális nyomkövetési adatok? Ha igen, akkor kérjük, hogy egy-két ember tudjuk kitalálni a választ mindenki más.
Annak megállapítására, ezt empirikusan, Blumenstock és kutatási asszisztens Kigalitól Institute of Science and Technology nevű minta mintegy ezer mobiltelefon-ügyfél. A kutatók kifejtették, a célokat a projekt a résztvevők kérték a beleegyezését, hogy összekapcsolja a felmérés válaszok hívásrekordjainak, majd arra kérte őket, egy sor kérdést, hogy az intézkedés a gazdagság és a jólét, mint a "Van egy saját rádió? "és a" van egy saját kerékpár? "(lásd 3.11 ábra részleges lista). Minden résztvevő a felmérés során pénzbeli kártérítést.
Ezután Blumenstock használt kétlépcsős eljárás gyakori adatok tudomány: a szolgáltatás mérnöki majd felügyelt tanulás. Először is, a jellemző mérnöki lépés, mindenki számára, hogy interjút, Blumenstock alakítjuk hívásrekordjainak egy sor jellemzők minden egyes személy; adatok tudósok nevezhetnénk ezeket a jellemzőket "szolgáltatás" és a társadalomtudósok nevezné "változók". Például, minden egyes ember, Blumenstock számított napok száma és aktivitása, a több különböző ember egy személy volt a kapcsolatot, az összeg költött műsoridő, és így tovább. Kritikusan, jó funkció műszaki ismereteket igényel a kutatási területen. Például, ha fontos különbséget tenni a hazai és a nemzetközi hívások (várhatunk, akik hívják, nemzetközileg is gazdagabb), akkor ezt meg kell tenni a kiemelt műszaki lépést. A kutató kevés megértést Ruanda esetleg nem tartalmazza ezt a funkciót, majd a prediktív teljesítmény a modell fog szenvedni.
Továbbá, a felügyelt tanulási lépésben Blumenstock épített egy statisztikai modell megjósolni a felmérés választ minden egyes személy alapján azok jellemzőit. Ebben az esetben a Blumenstock használt logisztikai regresszió 10-szeres kereszt-validáció, de lehetett volna használni a különböző egyéb statisztikai vagy gépi tanulási módszereket.
Tehát, hogy mennyire jól működött? Volt Blumenstock képes megjósolni választ felmérés kérdéseire, mint a "Van egy saját rádiót?" És "Rendelkezik egy kerékpár?" Segítségével származó funkciók hívás rekordokat? Fajta. A pontosság a jóslatok magas bizonyos vonások (3.11 ábra). De ez mindig fontos összehasonlítani egy komplex módszer általánosítása ellen egy egyszerű alternatíva. Ebben az esetben egy egyszerű alternatíva az, hogy megjósolni, hogy mindenki ad a leggyakoribb válasz. Például 97,3% -a pedig a rádiót, ha Blumenstock megjósolta, hogy mindenki számoljon birtokló rádió kellett volna pontossággal 97,3%, ami meglepően hasonlít a teljesítmény az ő bonyolultabb eljárás (97,6% -os pontossággal). Más szóval, az összes díszes adat és modellezési fokozott pontosságát a predikciós -tól 97,3% -ról 97,6%. Ha azonban más kérdés, mint a "Van egy saját kerékpár?", Az előrejelzések javult 54,4% -ról 67,6%. Általánosabban, 3.12 mutatja az egyes vonások Blumenstock nem sokat javult túl csak hogy az egyszerű kiindulási becslés, de a többi tulajdonság volt némi javulás.
Ezen a ponton lehet, hogy arra gondolt, hogy ezek az eredmények egy kicsit kiábrándító, de csak egy évvel később, Blumenstock és két munkatársa, Gabriel Cadamuro és Robert On-tanulmányt tett közzé a Science lényegében jobb eredményeket (Blumenstock, Cadamuro, and On 2015) . Két fő technikai okok miatt a javulás: 1) használtak kifinomultabb módszerekkel (azaz egy új megközelítés a jellemző mérnöki és kifinomultabb gépi tanulási modell) és a 2) ahelyett, hogy megpróbálná következtetni válaszok egyéni felmérés kérdéseire (pl "Van egy saját rádió?"), próbálták levezetni egy összetett jólét index.
Blumenstock és kollégái kimutatták a feladataik megközelítés kétféleképpen. Először is, azt találták, hogy az emberek a minta, amit tehettek egy nagyon jó munkát előrejelzésében vagyon hívásrekordokhoz (3.14 ábra). Másodszor, és egyre fontosabb, Blumenstock és munkatársai kimutatták, hogy az eljárás minden szakaszában lehet jó minőségű becsült földrajzi eloszlása vagyon Ruandában. Pontosabban, hogy használják a gépi tanulás modellt, amelyet képzett saját minta mintegy 1000 embert, hogy előre minden gazdagsága 1,5 millió ember a hívás rekordok. Továbbá, a térinformatikai adatok ágyazott hívás adatait (Emlékeztetünk arra, hogy a hívás adatait tartalmazza a helyét a legközelebbi cella torony minden egyes hívás), a kutatók képesek voltak megbecsülni a hozzávetőleges tartózkodási helyét minden egyes ember. E két becslés együtt, a kutatások eredményei becsült földrajzi eloszlását előfizető jólét rendkívül finom térbeli tagoltságát. Például tudták becsülni az átlagos vagyon minden Ruanda 2148-sejtek (a legkisebb közigazgatási egység az országban). Ezek az előre jelzett értékeket le annyira szemcsés voltak nehéz ellenőrizni. Tehát a kutatók összesített eredményük, hogy készítsen becslést az átlagos vagyon a ruandai 30 kerületekben. Ezek kerületi szintű becslések erősen kapcsolódik a becslések aranystandard hagyományos felmérés a ruandai demográfiai és egészségügyi felmérés (3.14 ábra). Bár a becslések a két forrásból hasonlóak voltak, a becslések Blumenstock és munkatársai voltak körülbelül 50-szer olcsóbb és 10-szer gyorsabb (ha költség mérve a változó költségek). Ez a drámai csökkenése költség azt jelenti, hogy ahelyett, hogy fut minden pár évet mint szabvány demográfiai és egészségügyi felmérések-hibrid a kis felmérés kombinált nagy digitális nyomkövetési adatokat lehet minden hónapban indul.
Összefoglalva, Blumenstock a amplifikáljuk kérve megközelítés kombinált felmérési adatokat digitális nyomkövetési adatok becsléseket összehasonlítható gold standard becslésében. Ez a konkrét példa is tisztázza néhány kompromisszumokat kötnek erősített kért és a hagyományos felmérési módszerek. Először is, a felerősített kérve becslései gyorsabb, lényegesen olcsóbb, és sokkal részletesebb. De, másrészt a, ebben az időben, nincs erős elméleti alapot ilyen felerősített kérdezés. Azaz, ez a példa nem mutatja, mikor fog működni, és amikor nem. Továbbá, a felerősített kért megközelítés még nem jó módon számszerűsíteni körüli bizonytalanság becsléseit. Azonban felerősített kért mély kapcsolatokat három nagy területen a statisztika-modell alapú utólagos rétegzés (Little 1993) , beszámítás (Rubin 2004) , és a kis területű becslési (Rao and Molina 2015) -és így elvárom, hogy a haladás lesz gyors lehet.
Erősített kért alábbiak alap recept, hogy lehet igazítani az adott helyzetet. Két összetevők és két lépésben. A két összetevő 1) digitális nyom adatbázisba, amely széles, de vékony (azaz, az nagyon sok ember, de nem az információ, hogy szükség van az egyes személy) és 2) egy felmérést, ami elég keskeny, de vastag (azaz, hogy van csak néhány ember, de azt az információt, hogy meg kell azokról az emberekről). Aztán, két lépésben. Először is, az emberek mind az adatforrások, épít egy gépi tanulási modell, amely digitális nyomkövetési adatok megjósolni felmérés választ. Ezután használja, hogy a gépi tanulási modell imputálására felmérés választ mindenki a digitális nyomkövetési adatok. Így, ha van néhány kérdés, hogy szeretné kérni, hogy sok ember, meg a digitális nyomkövetési adatok azok az emberek, hogy lehet használni, hogy megjósolni, hogy választ.
Összehasonlítva Blumenstock első és a második próbálkozás a probléma is illusztrálja egy fontos leckét az átmenetet a második korszak a harmadik korszak megközelítések felmérés kutatás: az elején még nem a vég. Ez azt jelenti, sokszor az első megközelítés nem lesz a legjobb, de ha a kutatók folyamatosan dolgoznak, a dolgok jobban. Általánosabban, amikor értékelik az új megközelítéseket szociális kutatások a digitális korban, fontos, hogy a két különböző értékelések: 1) milyen jól működik ez most, és 2) milyen jól gondolod ez lehet dolgozni a jövőben, mint az adatok táj változások és a kutatók fordítson nagyobb figyelmet a problémára. Bár a kutatók képezzük, hogy az első ilyen értékelés (milyen jó ez a részlete kutatás), a második gyakran fontosabb.