Amplified zaprositi uporabo napovednega modela za združevanje anketnih podatkov od nekaj ljudi z velikim virom podatkov iz mnogih ljudi.
Drugačen način za združevanje raziskovanja in velikih podatkovnih virov je proces, ki ga bom poklical z razširjenim vprašanjem . V razširjeni vprašanji raziskovalec uporablja napovedni model za združevanje majhne količine podatkov iz ankete z velikim virom podatkov, da bi izdelal ocene v obsegu ali granularnosti, ki jih ne bi bilo mogoče pri posameznem viru podatkov. Pomemben primer povečanega povpraševanja izhaja iz dela Joshua Blumenstock, ki je želel zbrati podatke, ki bi lahko pomagali voditi razvoj v revnih državah. V preteklosti so raziskovalci, ki so zbirali te podatke, na splošno morali upoštevati enega od dveh pristopov: vzorčne raziskave ali popise. Vzorec raziskav, kjer raziskovalci razumejo majhno število ljudi, so lahko prilagodljivi, pravočasni in relativno poceni. Vendar pa te raziskave, ker temeljijo na vzorcu, so pogosto omejene v svoji resoluciji. Pri vzorčni raziskavi je pogosto težko oceniti posamezne geografske regije ali določene demografske skupine. Popisi, na drugi strani, poskušajo anketirati vse, zato jih je mogoče uporabiti za izdelavo ocen za majhne geografske regije ali demografske skupine. Toda popisi so na splošno dragi, ozko usmerjeni (vključujejo le majhno število vprašanj) in niso pravočasni (se zgodijo po določenem časovnem načrtu, na primer vsakih 10 let) (Kish 1979) . Namesto da bi bili obtičali z vzorčnimi raziskavami ali popisi, si lahko predstavljate, ali bi raziskovalci lahko združili najboljše lastnosti obeh. Predstavljajte si, če bi raziskovalci lahko vsako vprašanje vsakemu posamezniku postavljali vsak dan. Očitno je, da je to vsestransko, vedno raziskano nekakšna družboslovna fantazija. Vendar se zdi, da lahko začnemo približevati to, tako da združujemo vprašalnike vprašanj majhnega števila ljudi z digitalnimi sledmi pri številnih ljudeh.
Raziskava Blumenstocka se je začela, ko je sodeloval z največjim ponudnikom mobilnih telefonov v Ruandi, družba pa je med letoma 2005 in 2009 zagotovila anonimne transakcije z okoli 1,5 milijona strank. Te evidence vsebujejo informacije o vsakem klicu in besedilnem sporočilu, kot so čas začetka, trajanje , in približno geografsko lokacijo kličočega in sprejemnika. Preden se pogovarjam o statističnih vprašanjih, je treba poudariti, da je ta prvi korak lahko eden od najtežjih za mnoge raziskovalce. Kot sem opisal v 2. poglavju, večina velikih virov podatkov ni dostopna raziskovalcem. Zlasti nedostopni telefonski metapodatki, ker je v osnovi nemogoče anonimizirati in skoraj zagotovo vsebuje podatke, ki bi jih udeleženci menili občutljivi (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . V tem posebnem primeru so raziskovalci skrbno varovali podatke, njihovo delo pa je nadzorovala tretja oseba (tj. Njihova IRB). V teh poglavjih 6 se bom podrobneje vrnil k tem etičnim vprašanjem.
Blumenstock je bil zainteresiran za merjenje bogastva in dobrega počutja. Vendar te lastnosti niso neposredno v evidenci klicev. Z drugimi besedami, ti podatki o klicih so za to raziskavo nepopolni - skupna značilnost velikih podatkovnih virov, o katerih so podrobno razpravljali v 2. poglavju. Vendar se zdi verjetno, da ima evidenca klicev verjetno nekaj informacij, ki bi posredno lahko zagotovile informacije o bogastvu in dobro počutje. Glede na to možnost je Blumenstock vprašal, ali je bilo mogoče usposobiti strojni učni model, da predvidi, kako se bo nekdo odzval na raziskavo, ki temelji na njihovih evidencah klica. Če bi bilo to mogoče, bi Blumenstock lahko uporabil ta model za napovedovanje anketnih odzivov vseh 1,5 milijona strank.
Za izgradnjo in usposabljanje takega modela so Blumenstock in raziskovalni asistenti iz Inštituta za znanost in tehnologijo Kigali imenovali naključni vzorec približno tisoč strank. Raziskovalci so udeležencem pojasnili cilje projekta, prosili za njihovo privolitev, da povežejo anketne odgovore na evidenco klicev in jih nato vprašajo za vrsto vprašanj za merjenje svojega bogastva in dobrega počutja, kot so "Ali imate radio? "in" Ali imate kolo? "(glej sliko 3.14 za delni seznam). Vsi sodelujoči v anketi so bili finančno kompenzirani.
Nato je Blumenstock uporabljal dvostopenjski postopek, ki je običajen pri strojnem učenju: funkcionalni inženiring, ki mu sledi nadzorovano učenje. Prvič, v funkcijskem inženirskem koraku, za vse, ki so bili anketirani, je Blumenstock pretvoril evidenco klicev v niz značilnosti vsake osebe; znanstveniki podatkov bi te značilnosti lahko imenovali "lastnosti", znanstveniki pa bi jih imenovali "spremenljivke." Na primer, za vsako osebo je Blumenstock izračunal skupno število dni z dejavnostjo, številom različnih oseb, s katerimi je bila oseba v stiku, znesek denarja, porabljenega za letenje in podobno. Kritično je, da dobro znanje inženiring zahteva poznavanje raziskovalne nastavitve. Na primer, če je pomembno razlikovati med domačimi in mednarodnimi klici (lahko pričakujemo, da bodo ljudje, ki mednarodno kličejo kot bogatejši), to storiti na stopnji tehničnega dela. Raziskovalec z malo razumevanja Ruande morda ne bo vključeval te funkcije, nato pa bi utrpel napovedno delovanje modela.
Nato je v nadzorovanem učnem koraku Blumenstock zgradil model, ki predvideva anketni odziv za vsako osebo, ki temelji na njihovih značilnostih. V tem primeru je Blumenstock uporabljal logistično regresijo, vendar bi lahko uporabil različne druge statistične ali strojne učne pristope.
Torej, kako dobro je delovalo? Ali je Blumenstock lahko napovedal odgovore na anketna vprašanja, kot so "Ali imate radio?" In "Ali imate kolo?", Z uporabo funkcij, ki izhajajo iz zapisov klicev? Blumenstock je za oceno uspešnosti svojega predvidljivega modela uporabljal navzkrižno validacijo , ki se običajno uporablja v znanosti o podatkih, redko pa v družboslovju. Cilj navzkrižne validacije je zagotoviti pošteno oceno napovednega učinka modela z usposabljanjem in preizkušanjem na različnih podmnožicah podatkov. Zlasti Blumenstock je svoje podatke razdelil na 10 kosov po 100 oseb. Potem je uporabil devet kosov za usposabljanje svojega modela, napovedna uspešnost izobraženega modela pa je bila ocenjena na preostalem delu. Ta postopek je ponovil 10-krat, pri čemer je vsak del podatkov pridobil en obrat kot podatke za preverjanje in povprečje rezultatov.
Točnost napovedi je bila za nekatere značilnosti visoka (slika 3.14); na primer, Blumenstock bi lahko napovedal s 97,6% natančnostjo, če bi nekdo imel radio. To lahko zveni impresivno, vendar je vedno pomembno primerjati kompleksno napovedno metodo z enostavno alternativo. V tem primeru je preprosta alternativa napovedati, da bodo vsi najpogostejši odgovori. Na primer, 97,3% anketirancev je poročalo o lastništvu radia, če bi Blumenstock napovedal, da bi vsi poročali o lastništvu radia, bi imel točnost 97,3%, kar je presenetljivo podobno izvedbi njegovega kompleksnejšega postopka (97,6% natančnost) . Z drugimi besedami, vsi modni podatki in modeliranje so povečali točnost napovedi s 97,3% na 97,6%. Za druga vprašanja, kot je "Ali imate kolo?", So se napovedi izboljšale s 54,4% na 67,6%. Na splošno je slika 3.15 pokazala, da se za nekatere lastnosti Blumenstock ne izboljša precej več, kot da bi preprosto izhajali iz preproste osnovne napovedi, toda za druge lastnosti je bilo nekaj izboljšav. Če pogledate le na te rezultate, pa morda ne mislite, da je ta pristop še posebej obetaven.
Vendar pa le eno leto kasneje Blumenstock in dva sodelavca Gabriel Cadamuro in Robert On objavita članek v znanosti z bistveno boljšimi rezultati (Blumenstock, Cadamuro, and On 2015) . Za to izboljšanje sta bila dva glavna tehnična razloga: (1) uporabili so bolj izpopolnjene metode (tj. Nov pristop k značilnemu inženirstvu in bolj sofisticiran model za napovedovanje odzivov s funkcijami) in (2) namesto poskušanja sklepati odzive na posameznika anketna vprašanja (npr. "Ali imate radi?"), so poskušali sklepati sestavljen indeks premoženja. Te tehnične izboljšave so pomenile, da lahko opravijo razumno delo z uporabo evidenc klicev, da napovedujejo bogastvo za ljudi v njihovem vzorcu.
Predvidevanje bogastva ljudi v vzorcu pa ni bil končni cilj raziskave. Ne pozabite, da je bil končni cilj združevanje nekaterih najboljših lastnosti vzorčnih raziskav in popisov, da bi dobili natančne in visoko ločene ocene revščine v državah v razvoju. Da bi ocenili njihovo zmožnost doseganja tega cilja, sta Blumenstock in sodelavci uporabili svoj model in njihove podatke, da bi napovedali bogastvo vseh 1,5 milijona ljudi v evidenci klicev. Uporabili so geoprostorske informacije, vgrajene v zapise klicev (opomni, da so podatki vključevali lokacijo najbližjega celičnega stolpa za vsak klic), da bi ocenili približno prebivališče vsake osebe (slika 3.17). S temi dve oceni sta Blumenstock in sodelavci izdelali oceno geografske porazdelitve naročniškega bogastva pri izredno fini prostorski granularnosti. Na primer, lahko ocenijo povprečno bogastvo v vsaki 2,148 celicah Ruande (najmanjša upravna enota v državi).
Kako dobro so se te ocene ujemale z dejansko stopnjo revščine v teh regijah? Preden odgovorim na to vprašanje, želim poudariti dejstvo, da obstaja veliko razlogov za skeptično. Na primer, sposobnost napovedi na posamezni ravni je bila precej hrupa (slika 3.17). In, morda še pomembneje, se lahko ljudje z mobilnimi telefoni sistematično razlikujejo od ljudi brez mobilnih telefonov. Tako lahko Blumenstock in sodelavci trpijo zaradi vrste napak pri kritju, ki je pristala na raziskavo Literary Digest iz leta 1936, ki sem jo opisal prej.
Blumenstock in njegovi kolegi so potrebovali, da bi jih ocenili z nečim drugim. Na srečo, približno istočasno kot njihova študija, je druga skupina raziskovalcev vodila bolj tradicionalno socialno raziskavo v Ruandi. Ta druga raziskava, ki je bila del splošno upoštevanega programa Demografija in zdravje, je imela velik proračun in uporabila visokokakovostne tradicionalne metode. Zato je mogoče ocene iz Demografske in zdravstvene ankete upravičeno šteti za ocene zlata. Ko so bili primerjani dve oceni, sta bili precej podobni (slika 3.17). Z drugimi besedami, Blumenstock in sodelavci so lahko z združitvijo majhne količine podatkov iz ankete z evidenco klicev izdelali ocene, primerljive s tistimi iz zlatih standardnih pristopov.
Skeptik lahko te rezultate vidi kot razočaranje. Navsezadnje je eden od načinov njihovega ogleda dejstvo, da so z uporabo velikih podatkov in strojnega učenja Blumenstock in sodelavci lahko izdelali ocene, ki bi jih že obstoječe metode lahko zanesljiveje naredile. Ampak mislim, da to ni pravi način razmišljanja o tej študiji iz dveh razlogov. Prvič, ocene Blumenstock in sodelavcev so bile približno 10-krat hitrejše in 50-krat cenejše (ko se stroški merijo glede na spremenljive stroške). Kot sem že navedel v tem poglavju, raziskovalci ignorirajo stroške v nevarnosti. V tem primeru na primer dramatično zmanjšanje stroškov pomeni, da se namesto vsakih nekaj let, kot je standard za raziskave demografskih in zdravstvenih raziskav, ta vrsta ankete lahko izvaja vsak mesec, kar bi zagotovilo številne prednosti za raziskovalce in politiko ustvarjalci. Drugi razlog, da se ne strinja s skeptikom, je, da ta študija ponuja osnovni recept, ki ga je mogoče prilagoditi mnogim raziskovalnim situacijam. Ta recept ima le dve sestavini in dva koraka. Sestavine so (1) velik vir podatkov, ki je širok, a tanek (tj. Ima veliko ljudi, ne pa informacije, ki jih potrebujete za vsako osebo) in (2) anketa, ki je ozka, a gosta (tj. nekaj ljudi, vendar ima informacije o teh ljudeh). Te sestavine nato združimo v dveh korakih. Prvič, za ljudi v obeh podatkovnih virih zgradite model strojnega učenja, ki uporablja velik vir podatkov za napovedovanje anketnih odgovorov. Nato uporabite ta model, da vnesete anketne odgovore vseh v velikem viru podatkov. Če torej obstaja nekaj vprašanj, ki jih želite vprašati veliko ljudi, poiščite velik vir podatkov od tistih, ki bi se lahko uporabili za napovedovanje njihovega odgovora, tudi če vam ni všeč velik vir podatkov . To pomeni, da Blumenstock in sodelavci sami niso skrbeli za evidenco klicev; skrbeli so samo o zapisih klicev, ker bi jih lahko uporabili za napovedovanje anketnih odgovorov, za katere skrbijo. Ta značilnost-samo posredni interes v velikem viru podatkov - naredi ojačene zahteve, ki se razlikujejo od vdelanih vprašanj, ki sem jih opisal prej.
Na koncu je Blumenstock-ov ojačevalni pristop zahteval kombinirane podatke ankete z velikim virom podatkov za izdelavo ocen, primerljivih s tistimi iz zlatega standardnega raziskovanja. Ta poseben primer pojasnjuje tudi nekatere kompromise med razširjenimi vprašanji in tradicionalnimi raziskovalnimi metodami. Razširjene prosi ocene so bile bolj pravočasne, bistveno cenejše in bolj granularne. Toda na drugi strani še ni močne teoretične podlage za takšno razširjeno vprašanje. Ta en sam primer ne kaže, kdaj bo ta pristop deloval in kdaj ne bo, raziskovalci, ki uporabljajo ta pristop, morajo biti še posebej zaskrbljeni zaradi morebitnih pristranskosti, ki jih povzroča kdo je vključen in kdo ni vključen v svoj veliki vir podatkov. Nadalje, razširjeni pristopni vpogled še nima dobrih načinov za količinsko opredelitev negotovosti pri svojih ocenah. Na srečo, ojačena zahteva ima globoko povezavo s tremi velikimi področji v statistični oceni majhnih površin (Rao and Molina 2015) , imputiranje (Rubin 2004) in post-stratifikacija na podlagi modela (ki je sama tesno povezana z g. P., metoda, ki sem jo opisal prej v poglavju) (Little 1993) . Zaradi teh globokih povezav pričakujem, da se bodo kmalu izboljšale številne metodološke osnove zapletenega povpraševanja.
Končno, primerjanje Blumenstockovega prvega in drugega poskusa tudi ilustrira pomembno lekcijo o družbenih raziskavah digitalne dobe: začetek ni konec. To je, večkrat, prvi pristop ne bo najboljši, če pa raziskovalci še naprej delajo, se lahko stvari izboljšajo. Na splošno je pri ocenjevanju novih pristopov k družbenim raziskavam v digitalni dobi pomembno, da naredimo dve različni oceni: (1) Kako dobro deluje? in (2) kako dobro bo to delovalo v prihodnosti, ko se spremeni podatkovna krajina in kako raziskovalci posvečajo več pozornosti problemu? Čeprav se raziskovalci usposabljajo za prvo vrsto ocenjevanja, je drugi pogosto bolj pomemben.