Povezivanje svoju anketu digitalnim tragovima može biti kao što je molba svima na vaša pitanja u svim vremenima.
Pitajući obično dolazi u dvije glavne kategorije: ispitivanja uzoraka i popisima. Uzorak ankete, gdje se pristupiti mali broj ljudi, može biti fleksibilni, pravovremeno i relativno jeftini. Međutim, uzorak istraživanja, jer se temelje na uzorku, često su ograničeni u njihovom rješavanju; s ispitivanja uzoraka, često je teško napraviti procjene o određenim zemljopisnim područjima ili za određene demografske skupine. Popisi, s druge strane, pokušati razgovarati svima u populaciji. Oni imaju veliku rezoluciju, ali oni su uglavnom skuplji, uska u fokusu (oni uključuju samo mali broj pitanja), a ne pravovremeno (što se dogodi na fiksnom rasporedu, kao što je svakih 10 godina) (Kish 1979) . Sada zamislite da istraživači mogu kombinirati najbolje karakteristike ispitivanja uzoraka i popisa; zamislite da su istraživači mogli pitati svako pitanje svima svaki dan.
Očito, to kontinuirano, sveprisutan, uvijek na istraživanju je vrsta društvene znanosti fantazije. No, čini se da možemo početi približan to kombiniranjem anketna pitanja iz malog broja osoba s digitalnim tragovima iz mnogih ljudi. Pozivam ova vrsta kombinacije pojačan traži. Ako je učinjeno dobro, to bi moglo pomoći nam pruža procjenjuju da se više lokalnih (za manje zemljopisnim područjima), detaljnijih (za određene demografske skupine), te pravovremeno.
Jedan primjer pojačan molba dolazi iz rada Joshua Blumenstock, koji je želio prikupiti podatke koji će voditi razvoj u siromašnim zemljama. Točnije, Blumenstock želio stvoriti sustav za mjerenje bogatstvo i blagostanje koje u kombinaciji cjelovitost popisa s fleksibilnošću i učestalosti ankete (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . U stvari, već sam opisao Blumenstock rad nakratko u poglavlju 1.
Za početak, Blumenstock partnerstvo s najveći proizvođač mobilnih uređaja u Ruandi. Tvrtka pruža mu anonimne transakcije podatke od oko 1,5 milijuna klijenata koje pokrivaju ponašanje od 2005. do 2009. godine dnevnici sadrže podatke o svakom poziva i tekstualnih poruka kao što su vrijeme početka, trajanje i približnu geografsku lokaciju pozivatelja i primatelja. Prije nego što počnemo govoriti o statističkim pitanjima, vrijedi istaknuti da je ovo prvi korak može biti jedna od najtežih. Kao što je opisano u poglavlju 2., većina digitalnih podataka trag je nedostupna istraživačima. I, mnoge tvrtke su opravdano neodlučan dijeliti svoje podatke jer je privatno; koja je svojim klijentima, vjerojatno nisu očekivali da njihovi zapisi će se dijeliti-u rasutom stanju-sa istraživačima. U ovom slučaju, znanstvenici su pažljive korake kako bi anonimnima podataka i njihov rad je pod nadzorom treće strane (tj njihova IRB). No, unatoč tim naporima, ti podaci su vjerojatno i dalje mogu i oni vjerojatno sadrže osjetljive informacije (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ja ću se vratiti na ove etičko pitanje u poglavlju 6.
Sjetite se da Blumenstock bio zainteresiran za mjerenje bogatstvo i blagostanje. No, ove osobine nisu izravno u evidenciji poziva. Drugim riječima, ti poziva evidenciju vodi nepotpuno za ovo istraživanje, jednu zajedničku crtu digitalnih tragova koje je objašnjeno u detalje u poglavlju 2. No, čini se vjerojatnim da je poziv zapisi vjerojatno imate neke informacije o bogatstvu i blagostanju. Dakle, jedan je način postavljanje Blumenstock je pitanje može biti: je li moguće predvidjeti kako će netko reagirati na istraživanju na temelju njihovih digitalnih podataka u tragovima? Ako je tako, onda tražeći nekoliko ljudi možemo nagađati odgovore od svih ostalih.
Za procjenu ovaj empirijski, Blumenstock i asistenata iz Kigali Instituta za znanost i tehnologiju pod nazivom uzorak od oko tisuću mobilnih telefona korisnicima. Istraživači su objasnili ciljeve projekta na sudionike, zatražio njihov pristanak da se povezali odgovore na anketu zapisima poziva, a zatim je pitao ih niz pitanja za mjerenje svoje bogatstvo i blagostanje, kao što su "Da li posjedujete radio? "i" Da li posjedujete bicikl? "(vidi sliku 3.11 za djelomični popis). Svi sudionici u istraživanju su kompenzirani financijski.
Zatim Blumenstock korišten postupak u dva koraka zajednički u znanosti podaci: značajka inženjerske slijedi nadziranog učenja. Prvo, u koraku značajka inženjering, za svakoga koji je intervjuirao, Blumenstock pretvoriti poziv evidencija u skup karakteristika o svakoj osobi; Znanstvenici podaci mogli nazvati tih obilježja "mogućnosti" i sociolozi bi ih nazvati "varijable". Na primjer, za svaku osobu, Blumenstock izračunava ukupan broj dana s aktivnošću, broj različitih ljudi je osoba bila u kontaktu s, u iznosu novca troši na emitiranja, i tako dalje. Kritički, dobra osobina inženjering zahtijeva znanje na znanstvena istraživanja. Na primjer, ako je važno razlikovati domaće i međunarodne pozive (mogli bismo očekivati da će ljudi koji nazivaju međunarodno biti bogatiji), onda to mora biti učinjeno na korak značajka inženjering. Istraživač s malo razumijevanja Ruandi ne bi mogli uključiti ovu značajku, a zatim prediktivni izvedba modela će patiti.
Dalje, u nadziranoj koraku učenja, Blumenstock izgradili statistički model za predviđanje odgovora ankete za svaku osobu na temelju svojih mogućnosti. U tom slučaju, Blumenstock koristi logističke regresije s 10-strukim unakrsne validacije, ali je mogao koristiti razne druge pristupe statističke ili stroj za učenje.
Pa koliko je to posao? Je Blumenstock mogli predvidjeti odgovore na anketna pitanja poput "Imate li radio?" I "Da li posjedujete bicikl?" Pomoću značajke izvedene iz evidenciju poziva? Nekako. Točnost predviđanja bila visoka nekih osobina (slika 3.11). No, uvijek je važno usporediti složenu metodu predviđanja protiv jednostavne alternative. U tom slučaju, jednostavna alternativa je predvidjeti da će svatko dati najčešći odgovor. Na primjer, 97,3% je posjedovanje radio pa ako Blumenstock je predvidio da bi svatko prijaviti posjedovanje radio bi on imao točnost od 97,3%, što je iznenađujuće sličan obavljanju njegove složenije procedure (97,6% točnost). Drugim riječima, svi su fantazija modeliranje podataka i povećao točnost predviđanja od 97,3% do 97,6%. Međutim, za ostala pitanja, kao što su: "Imate li bicikl?", Predviđanja poboljšan s 54,4% na 67,6%. Općenitije, Slika 3.12 pokazuje neke osobine Blumenstock nisu poboljšali puno dalje od samo stvaranje jednostavne osnovne predviđanja, ali da je za druge osobine je bilo nekih poboljšanja.
U ovom trenutku možda misle da su ti rezultati malo razočaravajuće, ali samo godinu dana kasnije, Blumenstock i dvojica kolega-Gabriel Cadamuro i Robert On-objavio rad u časopisu Science sa znatno boljim rezultatima (Blumenstock, Cadamuro, and On 2015) , Postojala su dva glavna tehnički razlozi za poboljšanje: 1) oni koriste sofisticiranije metode (tj novi pristup imaju inženjering i sofisticiraniji model stroja za učenje) i 2) umjesto da pokušava zaključiti odgovore na pojedina pitanja ankete (npr "Imate li radio?"), pokušali zaključiti kompozitni indeks bogatstvo.
Blumenstock i kolege pokazali uspješnost njihovog pristupa na dva načina. Prvo, oni su otkrili da za ljude u njihovom uzorku, oni bi mogli napraviti prilično dobar posao za predviđanje svoje bogatstvo od evidenciju poziva (Slika 3.14). Drugo, i sve što je još važnije, Blumenstock i kolege pokazali su da je njihov postupak može proizvesti visoko kvalitetne procjene zemljopisnoj raspodjeli bogatstva u Ruandi. Točnije, oni koriste svoj model strojnog učenja, koji je uperen u njihovom uzorku od oko 1.000 ljudi, predvidjeti bogatstvo svih 1,5 milijuna ljudi u evidenciji poziva. Nadalje, s geoprostornih podataka ugrađenih u podacima poziva (prisjetite se da je podatkovni poziv uključuje lokaciju najbliže bazne stanice za svaki poziv), istraživači su bili u stanju procijeniti približnu prebivalište svake osobe. Stavljajući ove dvije procjene zajedno, istraživanje proizvedena procjenu geografske raspodjele pretplatnika bogatstva u iznimno fine prostorne preciznosti. Na primjer, oni mogu procijeniti prosječnu bogatstvo u svakom od Ruandi je 2148 stanica (najmanja administrativna jedinica u zemlji). Ti predviđeni bogatstvo vrijednosti bile velike preciznosti su teško provjeriti. Dakle, istraživači sažeti svoje rezultate za izradu procjene prosječnog bogatstva Ruande u 30 okruga. Ove procjene distrikt razini su snažno povezane s procjenama iz zlatnog standarda tradicionalnom istraživanju, Ruandi Demografski i zdravstvena anketa (Slika 3.14). Iako su procjene iz dva izvora su slične, procjene iz Blumenstock i kolege su oko 50 puta jeftinije i 10 puta brži (kod troškova u mjere po varijabilnim troškovima). Ovo dramatično smanjenje troškova znači da, umjesto da se voze svakih nekoliko godina-što je standard za demografska i zdravstvenog stanja-hibridni malog istraživanja u kombinaciji s velikim podataka digitalne tragovima se može pokrenuti svaki mjesec.
U zaključku, Blumenstock je umnoženi traži prilaza kombinirati podatke ankete pomoću podataka digitalne tragovima proizvesti procjene usporedive s procjenama ankete zlatnim standardom. Ovaj primjer također pojašnjava neke od kompromise između pojačan postavljaju i tradicionalne metode istraživanja. Prvo, umnoženi traže procjene bile su pravovremene, znatno jeftinije, a što precizniji. No, s druge strane, u ovom trenutku, ne postoji jaka teorijska osnova za ovu vrstu umnožene pitanju. To je, to je jedan primjer ne pokazuje kada će raditi, a kada neće. Nadalje, pojačan molba pristup još uvijek nema dobar način kvantificirati neizvjesnost oko njegove procjene. Međutim, pojačan molba ima duboke veze na tri velika područja statistike model-based post-stratifikacije (Little 1993) , uračunavanje (Rubin 2004) , te procjena malih površina (Rao and Molina 2015) -i tako da očekujem da će se napredak biti brz.
Pojačan tražena slijedi osnovni recept koji se može prilagoditi za vašu situaciju. Dva su sastojci i dva koraka. Dva su sastojci 1) digitalni trag skup podataka koji je širok, ali tanka (to jest, ima mnogo ljudi, ali ne i podatke koje je potrebno oko svake osobe) i 2) anketu koja je uska, ali gusta (to jest, ona ima samo nekoliko ljudi, ali ima informacije koje trebate o tim ljudima). Zatim, postoje dva koraka. Prvo, za ljude na oba izvora podataka, izgraditi model strojnog učenja koji koristi digitalne podatke u tragovima predvidjeti ankete odgovora. Zatim, koristite taj model strojnog učenja za terećenjem ankete odgovore svima u podacima digitalnim tragovima. Dakle, ako ima nekih pitanja koja želite pitati da puno ljudi, u potrazi za podacima digitalnih tragova od onih ljudi koji se mogu koristiti za predviđanje svoj odgovor.
Uspoređujući Blumenstock prvi i drugi pokušaj problema ilustrira važnu lekciju o prijelazu iz drugog doba do pristupa treće doba pregledati istraživanja: početak nije kraj. To je, mnogo puta, prvi pristup neće biti najbolji, ali ako znanstvenici i dalje raditi, stvari mogu biti bolje. Općenitije, kod ocjene nove pristupe u društvenim istraživanjima u digitalno doba, važno je da se dvije različite procjene: 1) koliko dobro to radi sada i 2) koliko dobro misliš li da bi to moglo funkcionirati u budućnosti kao krajolik podataka promjene i kao istraživači posvetiti više pozornosti na problem. Iako, istraživači su obučeni da prvi oblik evaluacije (kako je dobar ovaj dio istraživanja), drugi je često važnija.