Povezivanje vaše istraživanje na digitalni tragovi mogu biti kao da pitate svi vaša pitanja u svakom trenutku.
Tražena uglavnom dolazi u dvije glavne kategorije: istraživanja uzorka i popisima. Uzorak istraživanja, gdje pristupite mali broj ljudi, može biti fleksibilan, pravovremeno, i relativno jeftin. Međutim, uzorak istraživanja, jer se na osnovu uzorka, često ograničena na njihovo rješavanje; sa uzorku, to je često teško napraviti procjene o specifičnim geografskim područjima ili za određene demografske skupine. Popisi, s druge strane, pokušavaju da razgovaraju svima u populaciji. Oni imaju veliku rezoluciju, ali oni su uglavnom skupi, uske u fokusu (oni uključuju samo mali broj pitanja), a ne pravovremeno (što se dogodi na fiksni raspored, kao što je svakih 10 godina) (Kish 1979) . Sada zamislite da istraživači mogli kombiniraju najbolje karakteristike istraživanja uzorka i popisa; zamislite da istraživači svaki dan mogao pitati svako pitanje svima.
Očigledno, ovo kontinuirano, sveprisutne, uvijek-na istraživanja je neka vrsta fantazije društvenih nauka. Ali, čini se da možemo početi da približi ovom kombinacijom anketna pitanja iz malog broja ljudi sa digitalnim tragove od mnogih ljudi. Ja to zovem vrstu kombinacije pojačan pita. Ako se uradi dobro, to bi moglo pomoći nam daje procjenu da je više lokalni (za manje geografska područja), više granulama (za određene demografske grupe), i više pravovremeno.
Jedan primjer pojačan pitam dolazi iz rada Joshua Blumenstock, koji su željeli da prikupljaju podatke koji bi pomogli razvoj vodiča u siromašnim zemljama. Konkretnije, Blumenstock želio da se stvori sistem za mjerenje bogatstvo i blagostanje koje u kombinaciji potpunost popisa s fleksibilnost i učestalost istraživanja (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . U stvari, ja sam već opisao Blumenstock rad kratko u poglavlju 1.
Za početak, Blumenstock partnerstvo s najvećim operatera mobilne telefonije u Ruandi. Kompanija mu pruža anonimne evidencija transakcija od oko 1,5 miliona klijenata koje pokrivaju ponašanje iz 2005. i 2009. godine za rezanje sadrže informacije o svakom pozivu i tekstualne poruke, kao što su vrijeme početka, trajanje, i približno geografski položaj pozivatelja i prijemnika. Prije nego što počnemo da govorimo o statističkim pitanjima, to je napomenuti da je ovo prvi korak može biti jedna od najtežih. Kao što je opisano u poglavlju 2, većina digitalnih podataka trag je nepristupačan za istraživače. I, mnoge kompanije su opravdano oklevaju da dijele svoje podatke jer je to privatna; da je svojim klijentima vjerojatno nisu očekivali da će im evidencija se dijeliti u bulk-sa istraživačima. U ovom slučaju, istraživači su oprezni koraci u anonimnim podacima i njihov rad je nadgledao treće strane (tj, njihov IRB). Ali, uprkos ovim naporima, ti podaci su vjerojatno još uvijek prepoznatljive i oni vjerojatno sadrže osjetljive informacije (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ja ću se vratiti na ove etičkih pitanja u poglavlju 6.
Sjetite se da Blumenstock bio zainteresovan za mjerenje bogatstva i blagostanja. Ali, ove osobine nisu direktno u evidenciji poziva. Drugim riječima, ovi podaci poziv su nepotpuni za ovo istraživanje, zajednička karakteristika digitalnih tragova koje je raspravljano u poglavlju 2. Ali, čini se da je evidencija poziv vjerovatno imaju neke informacije o bogatstvu i blagostanju. Dakle, jedan od načina da pita Blumenstock pitanje može biti: da li je moguće predvidjeti kako će netko odgovoriti na anketu na osnovu digitalnih podataka trag? Ako je tako, onda pitajući nekoliko ljudi možemo pogoditi odgovore svih ostalih.
Da bi se to procijeniti empirijski, Blumenstock i asistenata iz Kigali Instituta za nauku i tehnologiju koja se zove uzorak od oko hiljadu kupaca mobilni telefon. Istraživači su objasnili ciljeve projekta učesnicima, zatražio njihov pristanak da se povežu odgovora ankete zapisima poziva, a zatim upitao ih je niz pitanja za mjerenje svoje bogatstvo i blagostanje, kao što su "Da li imate radio? "i" Da li imate bicikl? "(vidi sliku 3.11 za djelomičnu listu). Svi učesnici u istraživanju su financijski nadoknaditi.
Zatim Blumenstock koristio dva-korak procedura uobičajena u nauci podataka: mogućnost inženjering zatim nadzorom učenja. Prvo, u koraku funkciju inženjering, za sve one koji je obavljen razgovor, Blumenstock pretvoriti evidencije poziva u skup karakteristika o svakoj osobi; naučnici podaci mogli nazvati ove karakteristike "funkcija" i sociolozi bi ih zovu "varijable." Na primjer, za svaku osobu, Blumenstock izračunava ukupan broj dana sa aktivnostima, broj različitih ljudi je osoba bila u kontaktu s, u iznosu novca troši na termine, i tako dalje. Kritički, dobra funkcija inženjering zahtijeva poznavanje postavke istraživanja. Na primjer, ako je to važno napraviti razliku između domaćih i međunarodnih poziva (možemo očekivati od ljudi koji zovu međunarodno biti bogatiji), onda to mora biti učinjeno na korak mogućnost inženjeringa. Istraživač sa malo razumijevanja Ruanda možda ne uključuju ovu funkciju, a zatim prediktivni performanse modela će patiti.
Dalje, u nadzirane korak učenja, Blumenstock izgradio statistički model za predviđanje odgovor ankete za svaku osobu na osnovu njihove karakteristike. U ovom slučaju, Blumenstock koristi logistička regresija sa 10 puta cross-validacije, ali nije mogao da koristi razne druge pristupe statističke ili stroj za učenje.
Dakle, koliko dobro se to radi? Je Blumenstock u stanju da predvidi odgovore na ankete pitanja poput "Da li imate radio?" I "Da li imate bicikl?" Pomoću funkcije izvedene iz evidencije poziva? Na neki način. Preciznost predviđanja su bili visoki za neke osobine (Slika 3.11). Ali, to je uvijek važno za usporedbu složena metoda predviđanja protiv jednostavnu alternativu. U ovom slučaju, jednostavna alternativa je da se predviđa da će svi dati najčešći odgovor. Na primjer, 97,3% navodi da posjeduje radio pa ako Blumenstock su predviđali da će svi prijavili posjedovanje radio on bi imao preciznosti 97,3%, što je iznenađujuće sličan učinak od njegovih složenih procedura (97,6% točnost). Drugim riječima, sve fensi podataka i modeliranje povećana preciznost predviđanja od 97,3% na 97,6%. Međutim, za druga pitanja, kao što su "Da li imate bicikl?", Predviđanja poboljšana sa 54,4% na 67,6%. Općenitije, Slika 3.12 pokazuje neke osobine Blumenstock nije poboljšalo mnogo dalje samo što je jednostavno osnovni predviđanje, ali da je za druge osobine je bilo nekih poboljšanja.
U ovom trenutku možda mislite da su ovi rezultati su pomalo razočaravajući, ali samo godinu dana kasnije, Blumenstock i dvoje kolega-Gabriel Cadamuro i Robert Na objavio rad u časopisu Science sa znatno bolje rezultate (Blumenstock, Cadamuro, and On 2015) . Postojala su dva glavna tehničkih razloga za poboljšanje: 1) su koristili sofisticiranije metode (tj, novi pristup imaju inženjering i sofisticiraniji model učenja za kavu) i 2), nego pokušava da zaključi odgovora na pojedina pitanja istraživanja (npr, "da li imate radio?"), oni su pokušali da zaključiti kompozitni indeks bogatstvo.
Blumenstock i kolege pokazali obavljanju svojih pristup na dva načina. Prvo, otkrili su da za ljude u njihovom uzorku, oni mogu napraviti dobar posao za predviđanje svoje bogatstvo iz evidencije poziva (Slika 3.14). Drugo, i sve što je još važnije, Blumenstock i kolege pokazali su da je njihov postupak može proizvesti visoko kvalitetne procjene geografske distribucije bogatstva u Ruandi. Preciznije, oni koristili njihov model mašinsko učenje, koji je obučen na njihovu uzorku od oko 1.000 ljudi, predvidjeti bogatstvo svih 1,5 miliona ljudi u evidenciji poziva. Nadalje, sa geoprostornih podataka ugrađen u podacima na poziv (sjećate da podaci poziv uključuje lokaciju najbližeg ćelije toranj za svaki poziv), istraživači su bili u stanju procijeniti približan mjesto boravka svake osobe. Stavljanje ove dvije procjene zajedno, istraživanja proizvela procjena geografske distribucije pretplatnika bogatstva na izuzetno fine prostorne zrnatost. Na primjer, oni mogu procijeniti prosjek bogatstva u svakoj od Ruandi 2148 ćelija (najmanja administrativna jedinica u zemlji). Ove predvidio bogatstvo vrijednosti su toliko granulama su teško provjeriti. Dakle, istraživači objedinjuju svoje rezultate za proizvodnju procjene prosječnog bogatstva Ruandi 30 okruga. Ove procjene okruga na nivou su snažno vezani za procjene iz zlatnog standarda tradicionalne ankete, demografska i zdravlje Istraživanje Ruande (Slika 3.14). Iako su procjene iz dva izvora bili slični, procjene iz Blumenstock i njegove kolege su bili oko 50 puta jeftinije i 10 puta brže (kada troškova u mjeri u smislu varijabilnih troškova). Ovo dramatično smanjenje troškova znači da umjesto da se radi svakih nekoliko godina-kao što je standard za demografska i zdravlje Istraživanja-hibridne malih istraživanja u kombinaciji s velikim podataka digitalne trag može se pokrenuti svaki mjesec.
U zaključku, Blumenstock je pojačan traži pristup u kombinaciji podataka ankete sa podacima digitalni trag za proizvodnju procjene porediti sa procjenama ankete zlatni standard. Ovaj konkretni primjer i pojašnjava neke od kompromisa između pojačan pitam i tradicionalne metode istraživanja. Prvo, pojačan traži procjene bile više pravovremene, znatno jeftiniji, i još zrnati. Ali, s druge strane, u ovom trenutku, ne postoji jaka teorijska osnova za ovu vrstu pojačan pitam. To je, ovaj primjer ne pokazuje kada će raditi i kad se neće. Nadalje, pojačan pitam pristup ne još imaju dobre načine kvantificirati neizvjesnosti oko svoje procjene. Međutim, pojačani pitam ima duboke veze sa tri velika područja u statistici-model-based post-stratifikacije (Little 1993) , podmetanje (Rubin 2004) , a procjena malih površina (Rao and Molina 2015) -i tako da očekujem da će napredak biti brza.
Pojačan pitam prati osnovni recept koji se može prilagoditi na određenoj situaciji. Postoje dva sastojka i dva koraka. Dva sastojci su 1) digitalni trag skup koji je širok, ali tanak (to jest, ima mnogo ljudi, ali ne i informacije koje trebate o svakom osoba) i 2) je istraživanje koje je uzak, ali gusta (to jest, ima samo nekoliko ljudi, ali ima informacije koje trebate o tim ljudima). Zatim, tu su dva koraka. Prvo, za ljude u oba izvora podataka, izgraditi model učenja mašinu koja koristi podatke digitalni trag predvidjeti odgovore ankete. Zatim, koriste taj model učenja mašinu za pripisuju odgovore istraživanje svih u podacima digitalni trag. Stoga, ako postoji neko pitanje na koje želite da zamolim da mnogo ljudi, tražiti podatke digitalni trag od onih ljudi koji se mogu koristiti za predviđanje njihov odgovor.
Upoređujući prvi i drugi pokušaj Blumenstock je na problem i pokazuje važnu lekciju o prelasku iz drugog doba do pristupa treće doba anketi istraživanja: na početku nije kraj. To je, mnogo puta, prvi pristup neće biti najbolji, ali ako istraživači nastavljaju rad, stvari mogu biti bolje. Više općenito, kada se procenjuje nove pristupe društvenih istraživanja u digitalnom dobu, važno je da se dvije različite evaluacije: 1) koliko dobro to radi sada i 2) koliko dobro mislite da bi to moglo raditi u budućnosti kao pejzaž podataka promjene i kao istraživači posvećuju više pažnje na problem. Iako, istraživači su obučeni da bi prve vrste evaluacije (koliko je dobar je ovaj komad istraživanja), drugi je često važniji.