Povećana upotreba prediktivnog modela za kombiniranje podataka ankete s nekoliko ljudi s velikim izvorom podataka mnogih korisnika.
Drugi način kombiniranja ankete i velikih izvora podataka jest proces koji ću nazvati pojačani upit . U pojačanom pitanju, istraživač koristi prediktivni model koji kombinira malu količinu podataka ankete s velikim izvorom podataka kako bi se proizvela procjena po skali ili granularnosti koja ne bi bila moguća ni s bilo kojim izvorom podataka pojedinačno. Važan primjer pojačane molbe dolazi od rada Joshua Blumenstock, koji je želio prikupiti podatke koji bi mogli pomoći u razvoju u siromašnim zemljama. U prošlosti su istraživači koji su prikupljali takve podatke općenito morali prihvatiti jedan od dva pristupa: ispitivanja uzoraka ili popisi. Istraživanja uzorka, u kojima istraživači intervjuiraju mali broj ljudi, mogu biti fleksibilni, pravodobni i relativno jeftini. Međutim, ove ankete, jer se temelje na uzorku, često su ograničene u njihovoj rezoluciji. Uz uzorkovanje, često je teško napraviti procjene o specifičnim zemljopisnim regijama ili za određene demografske skupine. S druge strane, popisi stanovništva pokušavaju razgovarati s ljudima, pa se mogu koristiti za izradu procjena za male geografske regije ili demografske skupine. No, popisi su općenito skupi, usko fokusirani (oni uključuju samo mali broj pitanja), a ne pravovremeno (oni se događaju na fiksnom rasporedu, kao što je svakih 10 godina) (Kish 1979) . Umjesto da se zaglavi s anketama ili popisima uzoraka, zamislite ako bi istraživači mogli kombinirati najbolje karakteristike oba. Zamislite da bi istraživači svaki dan mogli svakom čovjeku postavljati svako pitanje. Očito, ovaj sveprisutan, uvijek uključeni pregled je neka vrsta društvene znanosti. No, čini se da možemo početi približavati to kombinirajući pitanja ankete s malim brojem ljudi s digitalnim tragima mnogih ljudi.
Blumenstockovo istraživanje započelo je u partnerstvu s najvećim pružateljem mobilnih telefona u Ruandi, a tvrtka je u razdoblju od 2005. do 2009. godine dostavila anonimne transakcijske podatke od oko 1,5 milijuna korisnika. Ti zapisi sadržavali su informacije o svakom pozivu i tekstualnoj poruci, kao što su vrijeme početka, trajanje , i približan zemljopisnom položaju pozivatelja i prijemnika. Prije nego što govorim o statističkim pitanjima, valja istaknuti da je ovaj prvi korak možda jedan od najtežih za mnoge istraživače. Kao što sam opisao u poglavlju 2, većina velikih izvora podataka nije dostupna istraživačima. Osobito je nedostupna telefonska meta-podataka jer je u osnovi nemoguće anonimizirati i gotovo sigurno sadrži informacije koje bi sudionici razmotrili osjetljive (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . U ovom konkretnom slučaju, istraživači su bili pažljivi za zaštitu podataka, a njihov rad nadgledao je treća strana (tj. Njihova IRB). Vratit ću se na ta etička pitanja detaljnije u 6. poglavlju.
Blumenstock je zainteresiran za mjerenje bogatstva i blagostanja. Ali te osobine nisu izravno u zapisima poziva. Drugim riječima, ovi zapisi o pozivima nisu potpuni za ovo istraživanje - zajednička značajka velikih izvora podataka koja je detaljno opisana u poglavlju 2. Međutim, čini se vjerojatnim da zapisi poziva vjerojatno imaju neke podatke koji bi posredno mogli pružiti informacije o bogatstvu i blagostanje. S obzirom na tu mogućnost, Blumenstock je pitao je li moguće trenirati model strojnog učenja kako bi predvidjeli kako će netko odgovoriti na anketu na temelju njihovih zapisa o pozivima. Ako je to bilo moguće, Blumenstock bi mogao koristiti ovaj model za predviđanje anketnih odgovora svih 1,5 milijuna korisnika.
Da bi se izgradio i osposobio takav model, Blumenstock i znanstveni suradnici s Instituta za znanost i tehnologiju Kigali nazvali su slučajni uzorak od oko tisuću kupaca. Istraživači su objasnili ciljeve projekta sudionicima, zatražili su njihov pristanak da povezuju odgovore na ankete sa zapisima poziva, a potom su ih postavili nizom pitanja za mjerenje njihovog bogatstva i dobrobiti, poput "Imate li radio? "i" Posjedujete li bicikl? "(vidi sliku 3.14 za djelomični popis). Svi sudionici ankete financijski su nadoknađeni.
Dalje, Blumenstock je koristio postupak u dva koraka koji je uobičajen u strojnom učenju: inženjerstvo značajki praćeno nadgledanim učenjem. Prvo, u koraku uobličavanja značajki , za sve osobe koje su intervjuirane, Blumenstock je pretvorio zapise poziva u niz osobina o svakoj osobi; Na primjer, za svaku osobu, Blumenstock je izračunao ukupan broj dana s aktivnostima, broj različitih osoba s kojima je osoba bila u kontaktu, iznos novca potrošen na vrijeme emitiranja i tako dalje. Kritično, dobro inženjerstvo značajki zahtijeva poznavanje postavki istraživanja. Na primjer, ako je važno razlikovati domaće i međunarodne pozive (možemo očekivati da ljudi koji međunarodno pozivaju da budu bogatiji), to se mora učiniti u koraku značajki. Istraživač s malim razumijevanjem Ruande možda neće uključivati tu značajku, a onda će predvidjeti izvedbu modela.
Zatim, u nadziranom koraku učenja , Blumenstock je izgradio model za predviđanje odgovora na anketu za svaku osobu na temelju svojih značajki. U ovom slučaju Blumenstock je koristio logističku regresiju, ali je mogao upotrijebiti i niz drugih pristupa statističkih ili strojnih učenja.
Pa kako je to uspjelo? Je li Blumenstock mogao predvidjeti odgovore na pitanja ankete poput "Imate li radio?" I "Imate li bicikl?" Pomoću značajki izvedenih iz zapisa o pozivima? Da bi se procijenio izvedbu svog prediktivnog modela, Blumenstock je koristio unakrsnu valjanost , tehniku koja se uobičajeno koristi u znanosti o podacima, ali rijetko u društvenoj znanosti. Cilj prekogranične validacije je pružiti fer procjenu prediktivnih izvedbi modela obučavanjem i testiranjem na različitim podskupovima podataka. Blumenstock je posebno podijelio podatke u 10 komada od 100 ljudi. Zatim je upotrijebio devet dijelova kako bi osposobio svoj model, a predviđajući učinak obučenog modela ocijenjen je na preostalim komadima. Ponovio je ovaj postupak 10 puta - svaki podatak dobiva jedan zavoj kao podatke za provjeru valjanosti - i prosječno rezultate.
Točnost predviđanja bila je visoka za neke osobine (slika 3.14); na primjer, Blumenstock mogao predvidjeti sa 97,6% točnosti ako netko posjeduje radio. To bi moglo zvučati impresivno, ali uvijek je važno usporediti složenu metodu predviđanja protiv jednostavne alternative. U ovom slučaju, jednostavna je alternativa predvidjeti da će svatko dati najčešći odgovor. Primjerice, 97,3% ispitanika prijavilo je da posjeduje radio tako da bi Blumstock mogao predvidjeti da će svatko izvijestiti o posjedovanju radija imao točnost od 97,3%, što je iznenađujuće slično izvedbi složenijih postupaka (97,6% točnosti) , Drugim riječima, svi fancy podaci i modeliranje povećali su točnost predviđanja sa 97,3% na 97,6%. Međutim, za druga pitanja poput "Imate li bicikl?", Predviđanja su se poboljšala sa 54,4% na 67,6%. Općenitije, slika 3.15 pokazuje da za neke osobine Blumenstock nije mnogo poboljšavao nego samo što je napravio jednostavnu osnovnu predviđanja, ali za druge osobine došlo je do nekog poboljšanja. Gledajući samo na ove rezultate, možda ne mislite da je ovaj pristup osobito obećavajućim.
Međutim, tek godinu dana kasnije Blumenstock i dvije kolege - Gabriel Cadamuro i Robert On - objavili su rad u znanosti s bitno boljim rezultatima (Blumenstock, Cadamuro, and On 2015) . Postojala su dva glavna tehnička razloga za ovo poboljšanje: (1) koristili su sofisticirane metode (tj. Novi pristup inženjerstvu značajki i sofisticiraniji model za predviđanje odgovora od značajki) i (2) umjesto da pokušavamo zaključiti odgovore na pojedinačne pitanja ankete (npr. "Imate li radio?"), pokušali su zaključiti kompozitni indeks bogatstva. Ta tehnička poboljšanja značila su da mogu napraviti razumni posao upotrebe pozivnih zapisa za predviđanje bogatstva za ljude u svom uzorku.
Predviđanje bogatstva ljudi u uzorku, međutim, nije bio krajnji cilj istraživanja. Imajte na umu da je krajnji cilj bio kombinirati neke od najboljih obilježja ispitivanja uzoraka i popisa kako bi se proizvela precizna procjena siromaštva u zemljama u razvoju. Da bi procijenili njihovu sposobnost da postignu taj cilj, Blumenstock i kolege su koristili svoj model i svoje podatke kako bi predvidjeli bogatstvo svih 1,5 milijuna ljudi u pozivnim zapisima. Upotrijebili su geoprostorne informacije ugrađene u zapisnike poziva (podsjetimo da su podaci uključivali mjesto najbližeg ćelijskog tornja za svaki poziv) za procjenu približnog mjesta prebivališta svake osobe (slika 3.17). Stavljajući ove dvije procjene zajedno, Blumenstock i njegovi kolege proizveli su procjenu zemljopisne raspodjele pretplatničkih bogatstava u izrazito finoj prostornoj granularnosti. Na primjer, mogli bi procijeniti prosječno bogatstvo u svakoj Ruandinoj 2,148 ćelija (najmanjoj administrativnoj jedinici u zemlji).
Koliko su se ove procjene podudarale s stvarnom razinom siromaštva u tim regijama? Prije nego što odgovorim na to pitanje, želim naglasiti činjenicu da postoje mnogi razlozi da budu skeptični. Na primjer, sposobnost predviđanja na individualnoj razini bila je prilično glasna (slika 3.17). I, možda još važnije, osobe s mobilnim telefonima mogu se sustavno razlikovati od osoba bez mobilnih telefona. Dakle, Blumenstock i njegovi kolege bi mogli patiti od vrsta pogrešaka pokrivanja koje su pristrasle na istraživanje 1936. godine Književne analize koje sam ranije opisao.
Da bi dobili osjećaj kakvoće svojih procjena, Blumenstock i njegovi kolege trebali su ih usporediti s nečim drugim. Srećom, u isto vrijeme kao i njihova studija, druga skupina istraživača vodila je tradicionalni socijalni pregled u Ruandi. Ova druga anketa - koja je bila dio uglednog programa demografske i zdravstvene ankete - imala je veliki proračun i koristio je visokokvalitetne, tradicionalne metode. Stoga se procjene iz Ankete o demografiji i zdravlju mogu razumno smatrati standardnim procjenama zlata. Kada su dvije procjene uspoređene, bile su vrlo slične (slika 3.17). Drugim riječima, kombinirajući malu količinu podataka ankete s pozivnim bilješkama, Blumenstock i njegovi kolege uspjeli su proizvesti procjene usporedive s onima iz zlatnih standardnih pristupa.
Skeptik bi mogao vidjeti te rezultate kao razočaranje. Uostalom, jedan od načina njihova prikaza jest da se pomoću velikih podataka i strojnog učenja Blumenstock i njegovi kolege uspijevaju proizveličiti procjene koje bi se mogle učiniti pouzdanije već postojećim metodama. Ali ne mislim da je to pravi način razmišljanja o ovoj studiji iz dva razloga. Prvo, procjene tvrtke Blumenstock i kolege bile su oko 10 puta brže i 50 puta jeftinije (kada se trošak mjeri u smislu varijabilnih troškova). Kao što sam ranije tvrdio u ovom poglavlju, znanstvenici zanemaruju trošak zbog njihove opasnosti. U ovom slučaju, primjerice, dramatično smanjenje troškova znači da, umjesto da se svakih nekoliko godina izvodi - kao što je to standardno za demografske i zdravstvene ankete - takva se anketa mogla izvoditi svaki mjesec, što bi omogućilo brojne prednosti za istraživače i politike makeri. Drugi razlog da ne uzmemo mišljenje skeptika jest da ovo istraživanje daje osnovni recept koji se može prilagoditi različitim istraživačkim situacijama. Ovaj recept ima samo dva sastojka i dva koraka. Sastojci su (1) veliki izvor podataka koji je širok, ali tanak (tj. Ima mnogo ljudi, ali ne i informacije koje su vam potrebne o svakoj osobi) i (2) istraživanje koje je usko, ali debelo (tj. nekoliko ljudi, ali ima informacije koje vam trebaju o tim ljudima). Ti se sastojci zatim kombiniraju u dva koraka. Prvo, za ljude iz oba izvora podataka, izradite model učenja stroja koji koristi veliki izvor podataka za predviđanje odgovora na ankete. Zatim, upotrijebite taj model kako biste zacrtali odgovore na anketu svih korisnika u velikom izvoru podataka. Dakle, ako postoji neko pitanje za koje želite postaviti puno ljudi, potražite veliki izvor podataka od onih ljudi koji bi se mogli predvidjeti njihov odgovor, čak i ako vam nije stalo do velikog izvora podataka . To jest, Blumenstock i njegovi kolege nisu urođeno brinuli o zapisima o pozivima; oni su se brinuli samo o zapisima o pozivima jer bi se mogli navesti za predviđanje odgovora na ankete o kojima su im se stalo. Ovaj samo neizravni interes za velikim izvorom podataka - pojačavao je pitao drugačije od ugrađenog pita, što sam ranije opisao.
Zaključno, Blumenstockov pojačan upitni pristup ujedinjuje podatke o istraživanju s velikim izvorom podataka za izradu procjena usporedivih s onima iz zlatne standardne ankete. Ovaj primjer također pojašnjava neke od kompromisa između pojačane molbe i tradicionalnih metoda ankete. Pojačane procjene molbe su bile pravodobnije, znatno jeftinije i više granulirane. No, s druge strane, još uvijek nema snažne teorijske osnove za ovu vrstu pojačane molbe. Ovaj jedinstveni primjer ne pokazuje kada će ovaj pristup funkcionirati i kada to neće, a istraživači koji koriste taj pristup trebaju biti posebno zabrinuti zbog mogućih pristranosti uzrokovanih onim tko je uključen - i tko nije uključen - u njihov veliki izvor podataka. Nadalje, pojačan pristupni pristup još uvijek nema dobre načine kvantificiranja neizvjesnosti oko svojih procjena. Srećom, pojačana molba ima duboke veze s tri velika područja u statistici - procjene malih područja (Rao and Molina 2015) , imputiranje (Rubin 2004) i poststratifikaciju na temelju modela (koja je usko povezana s gospodinom P., metoda koju sam opisao ranije u poglavlju) (Little 1993) . Zbog tih dubokih veza, očekujem da će se mnogi metodološki temelji pojačane molbe uskoro poboljšati.
Konačno, usporedba Blumstockovog prvog i drugog pokušaja također pokazuje važnu lekciju o društvenom istraživanju digitalnog doba: početak nije kraj. To je, mnogo puta, prvi pristup neće biti najbolji, ali ako istraživači nastave raditi, stvari se mogu poboljšati. Općenito, pri ocjenjivanju novih pristupa društvenim istraživanjima u digitalnom dobu, važno je napraviti dvije različite ocjene: (1) Koliko dobro sada funkcionira? i (2) Koliko će to dobro funkcionirati u budućnosti kad se promijeni podatkovni krajolik i kako istraživači posvete više pozornosti ovom problemu? Iako su znanstvenici osposobljeni za prvu vrstu evaluacije, drugi je često važniji.