Povezovanje svojo raziskavo na digitalne sledi lahko, kot sprašuje vsakomur na vaša vprašanja v vsakem trenutku.
Sprašuje običajno prihaja v dve glavni kategoriji: vzorčnih raziskav in popisov. Vzorčna raziskovanja, kjer se dostop majhno število ljudi, lahko prilagodljiv, pravočasno in relativno poceni. Vendar pa vzorčna raziskovanja, saj temeljijo na vzorcu, so pogosto omejene v svoji resoluciji; z vzorčne raziskave, je pogosto težko, da bi ocene o posebnih geografskih regij ali za določene demografske skupine. Popisi, na drugi strani pa poskušajo na razgovor vse v populaciji. Imajo veliko resolucijo, vendar so na splošno drago, ozek v središču (ti vključujejo le majhno število vprašanj), in ni pravočasno (se zgodi v določenem časovnem razporedu, kot je vsakih 10 let) (Kish 1979) . Zdaj pa si predstavljajte, če bi raziskovalci združujejo najboljše lastnosti vzorčnih raziskav in popisov; Zamislite si, če bi raziskovalci vsak dan vprašam vsako vprašanje za vsakogar.
Očitno je, da stalno, vseprisotno, vedno-na raziskave, je neke vrste socialni domišljije znanosti. Vendar se zdi, da lahko začnemo s tem približati z združevanjem anketnih vprašanj iz majhnega števila ljudi z digitalnimi sledmi veliko ljudi. Kličem te vrste kombinaciji ojačani sprašuje. Če dobro opravljeno, bi lahko pomagal nam omogoča oceno, ki so bolj lokalno (na manjših geografskih območjih), bolj podrobno (za določene demografske skupine), in bolj pravočasno.
En primer ojačeno asking prihaja iz dela Joshua Blumenstock, ki je želel, da zbere podatke, ki bi pomagali razvoju navodila v revnih državah. Natančneje, Blumenstock želel ustvariti sistem za merjenje blaginje in blaginje, ki je združila popolnost popisa s prožnostjo in pogostosti ankete (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . V bistvu sem že opisal delo Blumenstock je na kratko v poglavju 1.
Če želite začeti, Blumenstock partnerstvo z največjim mobilnim ponudnika storitev v Ruandi. Družba mu je predvideno v anonimizirani evidenco transakcij iz približno 1,5 milijona kupcev, ki zajemajo ravnanje iz leta 2005 in 2009. Evidence vsebujejo podatke o vsakem sporočilu klicev in besedilnih kot začetni čas, trajanje in približno geografsko lokacijo klicatelja in sprejemnik. Preden začnemo govoriti o statističnih vprašanj, je treba poudariti, da je lahko to prvi korak, eden najtežje. Kot je opisano v poglavju 2, je večina podatkov, digitalno sled je nedostopna za raziskovalce. In, številna podjetja so upravičeno neradi delijo svoje podatke, ker je zasebno; da se njihove stranke verjetno niso pričakovali, da bodo njihove zapise v skupni rabi, v razsutem stanju, z raziskovalci. V tem primeru so raziskovalci so skrbno ukrepe za anonimne podatke, njihovo delo pa je nadziral tretje stranke (tj njihova IRB). Toda kljub tem prizadevanjem, ti podatki so verjetno še vedno prepoznavni in verjetno vsebujejo občutljive informacije (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Bom vrniti v teh etično vprašanje v poglavju 6.
Spomnimo se, da je Blumenstock zanima pri merjenju blaginje in blaginje. Ampak, te lastnosti niso neposredno v evidenci klicev. Z drugimi besedami, ta evidenca klicev nepopolni za te raziskave, je skupna značilnost digitalnih sledi, ki je bila obravnavana v poglavju 2. Vendar pa se zdi verjetno, da verjetno evidence o klicni nekaj informacij o bogastvu in dobro počutje. Torej, eden od načinov za sprašuje vprašanje Blumenstock je lahko: ali je mogoče predvideti, kako se bo nekdo odzval na raziskavo, ki temelji na njihovih digitalnih podatkov v sledovih? Če je tako, potem ga prosi nekaj ljudi, ki jih lahko uganiti odgovore vsi ostali.
Za to oceno empirično, Blumenstock in raziskovalni asistenti iz Kigali Inštituta za znanost in tehnologijo, imenovan vzorec okoli tisoč mobilnih telefonov kupcev. Raziskovalci so pojasnili cilje projekta na udeležence prosili za soglasje za povezavo odgovore raziskovanja zapise klicev, in jih nato vprašal več vprašanj za merjenje njihovega bogastva in blaginje, kot so: "Ali ste lastnik radio? "in" Ali imate kolo? «(glej sliko 3.11 za delni seznam). Vsi sodelujoči v raziskavi so finančno nadomestilo.
Dalje, Blumenstock uporabili dvostopenjski postopek skupno podatkovno znanosti: funkcija inženiring sledi nadzorovanega učenja. Prvič, v koraku s funkcijo inženiring, za vsakogar, ki je bil razgovor, Blumenstock pretvori zapise klicev v niz značilnostmi v zvezi z vsako osebo; Podatki znanstveniki lahko imenujemo te lastnosti "možnosti" in družboslovci bi jim pravimo "spremenljivk." Na primer, za vsako osebo, Blumenstock izračuna skupno število dni z dejavnostjo, število različnih ljudi, oseba je bila v stiku s, se znesek denarja porabljen za programskega časa, in tako naprej. Kritično, dobra lastnost inženiring zahteva znanje o raziskovalnem centru. Na primer, če je pomembno razlikovati med domačimi in mednarodne klice (smo lahko pričakovali ljudje, ki zahtevajo mednarodno biti bogatejši), potem je treba to storiti v fazi funkcija inženiring. Raziskovalec z malo razumevanja Ruandi morda ne vključujejo to funkcijo, in potem se bo napovedna uspešnost modela trpijo.
Dalje, v nadzorovanem učnem koraku Blumenstock zgradili statistični model za napovedovanje odziva raziskavo za vsako osebo, ki temelji na njihove značilnosti. V tem primeru, Blumenstock uporablja logistične regresije z 10-kratnim prečnim validacije, vendar bi lahko uporabili različne druge statistične ali strojnega učenja pristopov.
Torej, kako dobro se je to delo? Je bil Blumenstock sposoben napovedati odgovore na raziskavo vprašanja, kot so: "Ali imate radio?" In "Ali imate kolo?" Uporabo funkcij, ki izhajajo iz evidence klicev? Nekako. Točnost napovedi je bilo visoke za nekatere lastnosti (slika 3.11). Ampak, to je vedno pomembno primerjati zapleteno metodo predvidevanja pred preprostim alternativo. V tem primeru je enostavna možnost je predvideti, da bo vsak od njih najpogostejši odgovor. Na primer, 97,3% pa ima v lasti radio tako, če bi Blumenstock predvideno, da bi vsi poročajo lastnice radio, ki bi ga imel natančnost 97,3%, kar je presenetljivo podoben opravljanju svojega bolj zapleten postopek (97,6% natančnost). Z drugimi besedami, vse fancy podatkov in modeliranje je povečala natančnost napovedi iz 97,3% na 97,6%. Vendar pa se za druga vprašanja, kot so "Ali imate s kolesom?", Napovedi izboljšala z 54,4% na 67,6%. Na splošno, Slika 3.12 prikazuje nekatere lastnosti Blumenstock ni izboljšalo veliko več kot le izdelavo enostavne izhodiščne napovedi, ampak za druge lastnosti, je bilo nekaj izboljšav.
Na tej točki bi lahko mislil, da so ti rezultati nekoliko pod pričakovanji, vendar le eno leto kasneje, Blumenstock in dvema sodelavcema-Gabriel Cadamuro in Robert On-izšla knjiga v znanosti z občutno boljšimi rezultati (Blumenstock, Cadamuro, and On 2015) . Obstajali sta dve glavni tehnični razlogi za izboljšanje: 1) se uporabljajo bolj prefinjene metode (tj, nov pristop k funkcijo inženiring in bolj izpopolnjeno strojno učenje modela) in 2), namesto da poskuša izpeljati odgovore na posamezna vprašanja ankete (npr "Ali imate radio?"), so poskušali izpeljati kompozitni indeks bogastva.
Blumenstock in sodelavci dokazali učinkovitost njihovega pristopa na dva načina. Najprej so ugotovili, da je za ljudi v svojem vzorcu, bi lahko naredil zelo dobro delo za napovedovanje svoje bogastvo iz evidence klicev (slika 3.14). Drugič, in še bolj pomembno pa je, Blumenstock in sodelavci so pokazali, da bi lahko njihov postopek priprave izračunov visoke kakovosti geografske porazdelitve bogastva v Ruandi. Natančneje so uporabili svoje strojnega učenja model, ki je bil usposobljen v njihovem vzorcu približno 1000 ljudi, napovedati bogastvo vseh 1,5 milijona ljudi v evidenci klicev. Nadalje, z geoprostorskih podatkov vključenih v podatkih o klicnih (spomnimo, da podatki klic vključuje lokacijo najbližje bazne postaje za vsak klic), so bili raziskovalci sposobni oceniti približno stalno prebivališče vsakega posameznika. Prenos teh dveh ocen skupaj, raziskave izdelala oceno geografske porazdelitve naročnikom bogastva na zelo fine prostorske razdrobljenosti. Na primer, lahko ocenijo povprečno bogastvo v vsaki od 2148 celic Ruandi (najmanjša upravna enota v državi). Ti predvideni naložbeni vrednosti so bile tako natančen, da je bilo težko preveriti. Tako so raziskovalci združijo svoje rezultate za izdelavo ocen povprečnega bogastvo Ruandi 30 okrožij. Te ocene ravni okraj so bili tesno povezani z ocenami od zlatega standarda tradicionalne raziskave, demografski in zdravje Survey Ruandi (slika 3.14). Čeprav so ocene iz dveh virov podobno, so bile ocene iz Blumenstock in sodelavci približno 50-krat cenejši in 10-krat hitreje (ko je vrednost v izmerjene po variabilnih stroškov). To dramatično zmanjšanje stroškov pomeni, da se ne vozijo vsakih nekaj let-, kot je standard za demografske in zdravstvene raziskovanj-hibrid malih raziskave v kombinaciji z velikimi digitalnih podatkov v sledovih lahko teče vsak mesec.
Skratka, Blumenstock je ojačeno pristop združene podatke raziskave s podatki digitalnih sledovih prosi za izdelavo ocene primerljive z ocenami ankete zlati standard. To še posebej primer pojasnjuje tudi nekatere kompromise med pomnožene s poizvedbami in tradicionalnih metod raziskovanja. Najprej so bili pomnoženi prosi ocene bolj pravočasni, bistveno cenejši in bolj zrnat. Vendar pa po drugi strani v tem času, ne obstaja močna teoretična podlaga za tovrstno pomnožene asking. To pomeni, da se ta primer ne pokaže, če bo to delovalo, in če ne bo. Poleg tega povečana želenih pristop še nima dobrih načinov za količinsko negotovosti okrog svojih ocenah. Vendar pa je ojačan želenih ima globoke povezave do treh velikih območij v osnovi statističnih podatkov za model, post-stratifikacije (Little 1993) , pripisanih (Rubin 2004) , in ocenjevanja malih površina (Rao and Molina 2015) -in zato pričakujem, da bo napredek hiter.
Pomnožili želenih sledi osnovni recept, ki ga lahko prilagojeno posamezni situaciji. Obstajata dve sestavini in dva koraka. Obe snovi so 1) nabor podatkov digitalno sled, ki je široka, vendar tanka (kar pomeni, da je veliko ljudi, ne pa tudi informacije, ki jih potrebujete o posameznih oseb) in 2) raziskavo, ki je ozka, a debela (kar pomeni, da ima le malo ljudi, vendar pa ima informacije, ki jih potrebujete o teh ljudeh). Potem obstajata dva koraka. Prvič, za ljudi v obeh virov podatkov, izgradnjo učni model naprave, ki uporablja podatke digitalne sledovih napovedati ankete odgovore. Nato uporabite ta strojnega učenja modela pripisa anketnih odgovorov vsakogar v podatkih digitalnih sledovih. Torej, če obstaja vprašanje, ki ste želeli vprašati, da veliko ljudi, iskati digitalnih podatkov v sledovih od tistih ljudi, ki se lahko uporabljajo za napovedovanje njihov odgovor.
Primerjava prvega in drugega poskus Blumenstock je na problem ponazarja tudi pomembno lekcijo o prehodu iz drugega obdobja do pristopa tretje dobe anketnih raziskav: začetek ni konec. To pomeni, da večkrat, prvi pristop ne bo najboljši, če pa raziskovalci nadaljuje delo, se lahko stvari bolje. Na splošno je pri ocenjevanju novih pristopov za socialne raziskave v digitalni dobi, je pomembno, da se dva različna ocen: 1), kako dobro to deluje zdaj in 2), kako dobro misliš, da bi lahko to delo v prihodnje podatkov krajine spremembe in kot raziskovalci več pozornosti nameniti problemu. Kljub temu, da so raziskovalci usposobljeni za prvo vrsto ocenjevanja (kako dober je ta del raziskave), drugi pa je pogosto bolj pomembno.