Pojačano traženje korištenja prediktivnog modela za kombiniranje podataka istraživanja od nekoliko ljudi koji imaju veliki izvor podataka od mnogih ljudi.
Drugačiji način kombinovanja istraživanja i velikih izvora podataka je proces koji ću nazvati pojačanim pitanjem . U pojačanim pitanjima, istraživač koristi prediktivni model da kombinira malu količinu podataka iz ankete sa velikim izvorima podataka kako bi proizveo procjene na skali ili granularnosti koje ne bi bilo moguće sa izvorima podataka pojedinačno. Važan primjer pojačanih pitanja potiče od rada Joshua Blumenstock-a, koji je želio sakupiti podatke koji bi mogli pomoći u razvoju u siromašnim zemljama. U prošlosti su istraživači koji su prikupljali ovu vrstu podataka uglavnom morali da uzmu jedan od dva pristupa: uzorka istraživanja ili popisa. Primeri istraživanja, gde istraživači intervjuišu mali broj ljudi, mogu biti fleksibilni, blagovremeni i relativno jeftini. Međutim, ova istraživanja, jer su zasnovana na uzorku, često su ograničena u njihovoj rezoluciji. Uz istraživanje uzorka, često je teško napraviti procjene o određenim geografskim regijama ili specifičnim demografskim grupama. Popisi stanovništva, s druge strane, pokušavaju da intervjuišu svima, pa se tako mogu koristiti za procjenu za male geografske regije ili demografske grupe. Međutim, popisi su generalno skupi, uski u fokusu (oni uključuju samo mali broj pitanja), a ne blagovremeno (oni se odvijaju na fiksnom rasporedu, kao na svakih 10 godina) (Kish 1979) . Umesto da se zaglavi sa uzorcima ili popisima, zamislite da li istraživači mogu kombinovati najbolje karakteristike oba. Zamislite da istraživači mogu svakom osobom svakog dana postavljati sva pitanja. Očigledno je da je ovo sveprisutno, uvek istraživanje neka vrsta društvene fantazije. Ali čini se da možemo početi da ga približavamo kombinujući anketna pitanja od malobrojnih ljudi sa digitalnim tragovima od mnogih ljudi.
Istraživanje Blumenstocka započelo je kada se udružio sa najvećim provajderom mobilnih telefona u Ruandi, a kompanija je obezbijedila anonimne podatke o transakcijama od oko 1,5 miliona klijenata između 2005. i 2009. godine. Ove zapise sadržavale su informacije o svakom pozivu i tekstualnoj poruci, kao što su vrijeme početka, , i približnu geografsku lokaciju pozivaoca i prijemnika. Prije nego što pričam o statističkim pitanjima, vrijedi naglasiti da ovaj prvi korak može biti jedan od najtežih za mnoge istraživače. Kao što sam opisao u poglavlju 2, većina izvora podataka nije dostupna istraživačima. Posebno je nedostupan telefonski meta-podatak, jer je u osnovi nemoguće anonimizovati i skoro sigurno sadrži informacije koje bi učesnici smatrali osjetljivim (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . U ovom konkretnom slučaju, istraživači su bili pažljivi da zaštite podatke i njihov rad je nadgledao treća strana (tj. Njihova IRB). Vraćam se ovim etičkim pitanjima detaljnije u poglavlju 6.
Blumenstock je bio zainteresovan za mjerenje bogatstva i blagostanja. Ali ove osobine nisu direktno u evidenciji poziva. Drugim rečima, ovi podaci o pozivima su nepotpuni za ovo istraživanje - zajednička karakteristika velikih izvora podataka o kojima je detaljno diskutovano u poglavlju 2. Međutim, čini se vjerovatno da evidencija poziva vjerovatno ima neke informacije koje bi indirektno mogle pružiti informacije o bogatstvu i blagostanje. S obzirom na tu mogućnost, Blumenstock je pitao da li je moguće obučiti model za učenje mašina kako bi predvidio kako će neko odgovoriti na istraživanje zasnovano na njihovoj evidenciji poziva. Ako je to bilo moguće, Blumenstock bi mogao da koristi ovaj model da predvidi odgovore anketiranja svih 1,5 miliona korisnika.
Da bi izgradili i obučili ovakav model, Blumenstock i istraživački asistenti iz Kigali instituta za nauku i tehnologiju nazvali su slučajni uzorak od oko hiljadu kupaca. Istraživači su objasnili ciljeve projekta učesnicima, zatražili su njihovu saglasnost da povežu odgovore anketiranja na evidenciju poziva, a zatim su im postavili niz pitanja za merenje njihovog bogatstva i blagostanja, kao što su "Da li posedujete radio "i" Da li posedujete bicikl? "(vidi sliku 3.14 za delimičnu listu). Svi učesnici ankete finansijski su nadoknađeni.
Zatim, Blumenstock je koristio dvostepeni postupak koji je bio uobičajen u mašinskom učenju: inženjering osobina praćen nadgledanim učenjem. Prvo, u stepenu inženjerskih koraka, za sve koji su intervjuisani, Blumenstock je pretvorio evidenciju poziva u skup karakteristika o svakoj osobi; naučnici podataka bi mogli nazvati ove karakteristike "osobine", a društveni naučnici bi ih nazvali "varijablama". Na primer, za svaku osobu, Blumenstock je izračunao ukupan broj dana sa aktivnošću, broj različitih osoba s kojima je osoba bila u kontaktu, količina novca potrošena na vreme i tako dalje. Kritično, dobar karakterističan inženjer zahteva poznavanje istraživačkog okruženja. Na primjer, ako je važno napraviti razliku između domaćih i međunarodnih poziva (možemo očekivati da ljudi koji pozivaju na međunarodnom nivou budu bogatiji), onda se to mora učiniti na stepenu inžinjeringa. Istraživač sa malim razumevanjem Ruande možda ne bi uključio ovu osobinu, a onda će pretrpjeti prediktivne performanse modela.
Zatim, u nadziranom koraku učenja , Blumenstock je napravio model za predviđanje anketnog odgovora za svaku osobu na osnovu njihovih karakteristika. U ovom slučaju, Blumenstock je koristio logističku regresiju, ali je mogao koristiti različite druge pristupe statističkom ili mašinskom učenju.
Koliko je to dobro funkcionisalo? Da li je Blumenstock mogao da predvidi odgovore na pitanja iz anketiranja kao što su "Da li posedujete radio?" I "Da li posedujete bicikl?" Koristeći funkcije koje potiču iz zapisnika poziva? Da bi ocenio performanse svog prediktivnog modela, Blumenstock je koristio unakrsnu proveru , tehniku koja se obično koristi u nauci podataka, ali retko u društvenim naukama. Cilj unakrsne validacije je pružiti fer procjenu prediktivnog učinka modela obukom i testiranjem na različitim podskupima podataka. Konkretno, Blumenstock deli svoje podatke na 10 komada od po 100 ljudi. Potom je koristio devet komada za obuku svog modela, a prediktivni učinak obučenog modela ocijenjen je na preostalom dijelu. Ponovio je ovaj postupak 10 puta - sa svakim dijelom podataka dobijanjem jednog okreta kao podataka validacije - i prosječne rezultate.
Tačnost predviđanja bila je visoka za neke osobine (slika 3.14); na primer, Blumenstock može predvideti sa 97,6% tačnosti ako je neko vlasnik radio. Ovo može zvučati impresivno, ali uvek je važno upoređivati kompleksni metod predviđanja sa jednostavnom alternativom. U ovom slučaju, jednostavna alternativa je predviđanje da će svi dati najčešći odgovor. Na primer, 97,3% ispitanika je prijavilo posedovanje radio-a, pa ako je Blumenstock predviđao da će svi prijaviti vlasništvo radio-stanica, imao bi tačnost od 97,3%, što je iznenađujuće slično performansu njegove složenije procedure (97,6% tačnosti) . Drugim riječima, svi fancy podaci i modeliranje povećali su tačnost predviđanja sa 97,3% na 97,6%. Međutim, za druga pitanja, kao što su "Da li posedujete bicikl?", Prognoze su se poboljšale sa 54.4% na 67.6%. Općenito, slika 3.15 pokazuje da se za neke osobine Blumenstock nije mnogo poboljšao nego što je napravio jednostavnu bazičnu prognozu, ali da je za druge osobine bilo nekih poboljšanja. Međutim, ako pogledate samo ove rezultate, možda ne mislite da je ovaj pristup posebno obećavajući.
Međutim, samo godinu dana kasnije, Blumenstock i dvije kolege-Gabriel Cadamuro i Robert On-objavili su članak u nauci sa znatno boljim rezultatima (Blumenstock, Cadamuro, and On 2015) . Postojala su dva glavna tehnička razloga za ovo poboljšanje: (1) koristili su sofisticiranije metode (tj. Novi pristup funkcionalnom inženjerstvu i sofisticiraniji model za predviđanje odgovora od karakteristika) i (2) umjesto pokušaja zaključivanja odgovora na pojedinačne anketna pitanja (npr. "Da li posedujete radio?") pokušali su da zaključe kompozitni indeks bogatstva. Ova tehnička poboljšanja značila su da mogu obaviti razumni posao korištenja evidencija poziva kako bi predvidjeli bogatstvo za ljude u svom uzorku.
Međutim, predviđanje bogatstva ljudi u uzorku nije bio krajnji cilj istraživanja. Zapamtite da je krajnji cilj bio da se kombinuju neke od najboljih karakteristika istraživanja uzoraka i popisa kako bi se proizveli tačni proceni siromaštva u zemljama u razvoju sa visokom rezolucijom. Da bi procijenili njihovu sposobnost da postignu ovaj cilj, Blumenstock i kolege su koristili svoj model i njihove podatke kako bi predvidjeli bogatstvo svih 1,5 miliona ljudi u evidenciji poziva. Koristili su geoprostorne informacije ugrađene u evidenciju poziva (podsjetite da su podaci uključivali lokaciju najbližeg ćelijskog tornja za svaki poziv) kako bi se procijenilo približno mjesto boravka svake osobe (slika 3.17). Uzimajući ove dve procene zajedno, Blumenstock i kolege proizveli su procjenu geografske raspodele bogatstva pretplatnika u izuzetno finoj prostornoj granularnosti. Na primjer, oni su mogli procijeniti prosječno bogatstvo u svakoj od 2.148 ćelija Ruande (najmanja administrativna jedinica u zemlji).
Koliko su se ove procjene podudarale sa stvarnim nivoom siromaštva u ovim regionima? Pre nego što odgovorim na to pitanje, želim naglasiti činjenicu da postoji puno razloga za skeptičan stav. Na primer, sposobnost izrade prognoza na individualnom nivou bila je prilično bučna (slika 3.17). I, što je još važnije, ljudi sa mobilnim telefonom mogu se sistematski razlikovati od ljudi bez mobilnih telefona. Tako, Blumenstock i kolege mogu patiti od vrsta grešaka u pokrivanju koje su pristizale na istraživanje Literarnog Digest iz 1936. godine koje sam opisao ranije.
Kako bi dobili osećaj kvaliteta svojih procjena, Blumenstock i kolege trebali su ih upoređivati s nečim drugim. Na sreću, u isto vreme kada je studirala, druga grupa istraživača vodila je tradicionalniju socijalnu anketu u Ruandi. Ova druga anketa, koja je bila deo široko poštovanog programa Demografska i zdravstvena anketa, imala je veliki budžet i koristila je visokokvalitetne, tradicionalne metode. Zbog toga se procjene iz Demografske i zdravstvene ankete razumno mogu smatrati zlatnim standardnim procjenama. Kad se uporede dve procene, one su prilično slične (slika 3.17). Drugim riječima, kombinovanjem malih količina podataka iz ankete sa evidencijom poziva, Blumenstock i kolege su uspjeli proizvesti procjene uporedive sa onima iz zlatno-standardnih pristupa.
Skeptik bi ove rezultate mogao videti kao razočaranje. Na kraju krajeva, jedan način njihovog gledanja jeste da je korištenjem velikih podataka i mašinskog učenja, Blumenstock i kolege uspjeli proizvesti procjene koje bi mogle biti pouzdanije već postojećim metodama. Ali mislim da to nije pravi način razmišljanja o ovoj studiji iz dva razloga. Prvo, procjene iz Blumenstock-a i kolega bile su oko 10 puta brže i 50 puta jeftinije (kada se trošak meri u smislu varijabilnih troškova). Kao što sam ranije tvrdio u ovom poglavlju, istraživači ignorišu troškove na svojoj opasnosti. U ovom slučaju, na primer, dramatično smanjenje troškova znači da se, umesto da se pokreće svakih nekoliko godina - kao što je standard za anketu o demografskim i zdravstvenim pregledima - ovakav pregled mogao bi se pokrenuti svakog meseca, što bi pružilo brojne prednosti istraživačima i politici proizvođača. Drugi razlog da se ne skeptično gleda na to je da ova studija pruža osnovni recept koji se može prilagoditi različitim istraživačkim situacijama. Ovaj recept ima samo dva sastojka i dva koraka. Sastojci su (1) veliki izvor podataka koji je širok ali tanak (tj. Ima mnogo ljudi, ali ne i informacije koje su vam potrebne za svaku osobu) i (2) istraživanje koje je usko ali debelo (tj. Ima samo nekoliko ljudi, ali ima informacije koje vam treba o tim ljudima). Ovi sastojci se zatim kombinuju u dva koraka. Prvo, za ljude u oba izvora podataka, napravi model za učenje mašina koji koristi veliki izvor podataka kako bi predvidio odgovore na anketu. Zatim, koristite taj model da biste impresionirali odgovore istraživanja svima u velikom izvoru podataka. Dakle, ako postoji neko pitanje koje želite da postavite mnogim ljudima, potražite veliki izvor podataka od onih ljudi koji bi mogli da se koriste da predvide njihov odgovor, čak i ako vam nije stalo do velikog izvora podataka . To jest, Blumenstock i kolege nisu imali brigu o evidenciji poziva; oni su jedino brinuli o evidenciji poziva zato što su mogli da se koriste za predviđanje anketnih odgovora za koje im je stalo. Ovo karakteristično-samo indirektno interesovanje za veliki izvor podataka olakšava postavljanje drugačije od ugrađenih pitanja, koje sam ranije opisao.
U zaključku, Blumenstock-ov pojačani pristup pitanju je kombinovao podatke istraživanja sa velikim izvorima podataka kako bi proizveo procjene uporedive sa onima iz zlatnog standardnog istraživanja. Ovaj konkretan primjer objašnjava i neke od kompromisa između pojačanih zahtjeva i tradicionalnih metoda ispitivanja. Pojačane procene su bile blagovremeno, znatno jeftinije i više granularne. Ali, sa druge strane, još uvek nema jake teorijske osnove za ovakvo pojačano pitanje. Ovaj jedinstveni primer ne pokazuje kada će ovaj pristup funkcionisati i kada to neće, a istraživači koji koriste ovaj pristup moraju posebno biti zabrinuti zbog mogućih predrasuda uzrokovanih onim ko je uključen i koji nije uključen u njihov veliki izvor podataka. Osim toga, pojačani pristup pitanju još uvijek nema dobre načine za kvantifikovanje neizvjesnosti oko svojih procjena. Na sreću, pojačano postavljanje ima duboke veze sa tri velike oblasti u proceni statistike i malih područja (Rao and Molina 2015) , imputacija (Rubin 2004) i post-stratifikacija zasnovana na modelu (koja je sama usko povezana sa gospodinom P., metod koji sam ranije opisao u poglavlju) (Little 1993) . Zbog ovih dubokih veza, očekujem da će se uskoro poboljšati mnogi metodološki temelji eksploatacije.
Konačno, upoređivanje prvog i drugog pokušaja Blumenstocka takođe ilustruje važnu pouku o društvenim istraživanjima digitalnog doba: početak nije kraj. To je, mnogo puta, prvi pristup neće biti najbolji, ali ako istraživači nastavi sa radom, stvari mogu postati bolje. Općenito, kada se procjenjuju novi pristupi društvenim istraživanjima u digitalnom dobu, važno je napraviti dvije različite procjene: (1) Koliko dobro to radi sada? i (2) Koliko će to dobro funkcionirati u budućnosti kako se promjenjuje prostor podataka i kako istraživači posvete više pažnje problemu? Iako su istraživači obučeni da naprave prvu vrstu evaluacije, drugi je često važniji.