Rozšírené používanie prediktívneho modelu na kombinovanie údajov z niekoľkých ľudí s veľkým zdrojom údajov od mnohých ľudí.
Iný spôsob, ako kombinovať prieskum a veľké zdroje údajov, je proces, ktorý budem nazývať zosilnenými otázkami . Pri zosilnenom dotazovaní používa výskumný pracovník prediktívny model na to, aby skombinoval malé množstvo údajov z prieskumu s veľkým zdrojom údajov, aby vytvoril odhady v mierke alebo granularite, čo by nebolo možné s individuálnym zdrojom údajov. Dôležitým príkladom rozšíreného požiadania pochádza práca Joshua Blumenstocka, ktorý chcel zhromaždiť údaje, ktoré by mohli pomôcť pri rozvoji v chudobných krajinách. V minulosti výskumníci, ktorí zhromažďovali tento typ údajov, museli vo všeobecnosti používať jeden z dvoch prístupov: výberové prieskumy alebo sčítania. Vzorové prieskumy, v ktorých výskumníci rozhovoria s malým počtom ľudí, môžu byť flexibilné, včasné a relatívne lacné. Avšak tieto prieskumy, pretože sú založené na vzorke, sú často obmedzené v ich riešení. Vzorovým prieskumom je často ťažké robiť odhady týkajúce sa konkrétnych geografických oblastí alebo špecifických demografických skupín. Sčítania sa naopak pokúšajú rozhovor so všetkými, a preto môžu byť použité na tvorbu odhadov pre malé geografické regióny alebo demografické skupiny. Ale sčítania sú všeobecne nákladné, úzko zamerané (obsahujú len malý počet otázok) a nie sú včasné (stávajú sa v pevnom rozvrhu, napríklad každých 10 rokov) (Kish 1979) . Namiesto toho, aby ste sa držali výberových prieskumov alebo cenzusov, predstavte si, či by výskumníci mohli kombinovať najlepšie vlastnosti oboch. Predstavte si, že výskumníci by mohli každý deň každému položiť každú otázku. Je zrejmé, že tento všadeprítomný, vždy-na prieskum je druh spoločenskej vedy fantázie. Ale to sa zdá, že môžeme začať priblížiť tým, že kombinuje otázky prieskumu z malého počtu ľudí s digitálnymi stopami z mnohých ľudí.
Výskum spoločnosti Blumenstock začal, keď spolupracoval s najväčším poskytovateľom mobilných telefónov v Rwande a spoločnosť poskytovala anonymizované transakčné záznamy od približne 1,5 milióna zákazníkov v rokoch 2005 až 2009. Tieto záznamy obsahovali informácie o každom hovore a textovej správe, ako je čas začiatku, trvanie , a približné geografické umiestnenie volajúceho a prijímača. Predtým, než budem hovoriť o štatistických otázkach, stojí za to poukázať na to, že tento prvý krok môže byť pre mnohých výskumníkov jedným z najťažších. Ako som opísal v kapitole 2, väčšina veľkých zdrojov údajov je pre výskumníkov nedostupná . Najmä metaúdaje o telefóne sú obzvlášť neprístupné, pretože je v podstate nemožné anonymizovať a takmer určite obsahuje informácie, ktoré účastníci považujú za citlivé (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . V tomto konkrétnom prípade výskumníci dbali na ochranu údajov a ich prácu dohliadala tretia strana (tj ich IRB). Na tieto etické otázky sa vrátim podrobnejšie v kapitole 6.
Blumenstock mal záujem o meranie bohatstva a blahobytu. Tieto vlastnosti však nie sú priamo v záznamoch hovorov. Inými slovami, tieto záznamy o volaniach sú pre tento výskum neúplné - spoločné črty veľkých dátových zdrojov, ktoré boli podrobne popísané v kapitole 2. Je však pravdepodobné, že záznamy hovorov pravdepodobne majú určité informácie, ktoré by mohli nepriamo poskytnúť informácie o bohatstve a pohody. Vzhľadom na túto možnosť sa Blumenstock spýtal, či je možné vycvičenie modelu strojového učenia predpovedať, ako bude niekto reagovať na prieskum založený na záznamoch hovorov. Ak by to bolo možné, potom by mohol Blumenstock použiť tento model na predpovedanie odpovedí prieskumu všetkých 1,5 milióna zákazníkov.
Kvôli budovaniu a vzdelávaniu tohto modelu, Blumenstock a výskumní asistenti z Kigaliho inštitútu vedy a techniky nazvali náhodnou vzorkou približne tisíc zákazníkov. Výskumníci vysvetlili účastníkom ciele projektu, požiadali o súhlas na prepojenie odpovedí prieskumu na záznamy hovorov a potom im požiadali o sériu otázok na meranie ich bohatstva a blahobytu, ako napríklad: "Vlastníte rádio? "a" Vlastníte si bicykel? "(pozri obrázok 3.14 pre čiastočný zoznam). Všetci účastníci prieskumu boli finančne kompenzovaní.
Ďalej Blumenstock použil dvojstupňový postup, ktorý je bežný v strojovom vzdelávaní: inžinierske funkcie, po ktorých nasleduje supervidované učenie. Po prvé, v kroku inžinierskeho inžinierstva pre každého, kto bol rozhovor, Blumenstock premenil záznamy hovorov na súbor vlastností o každej osobe; vedci v oblasti údajov by mohli nazývať tieto charakteristiky "črty" a sociálni vedci by ich nazvali "premennými." Napríklad pre každú osobu Blumenstock vypočítal celkový počet dní s aktivitou, počet odlišných osôb, s ktorými bola osoba v kontakte, množstvo peňazí vynaložených na vysielanie a tak ďalej. Kriticky, dobré vlastnosti inžinierstva vyžaduje znalosť výskumu nastavenia. Napríklad, ak je dôležité rozlišovať medzi domácimi a medzinárodnými hovormi (môžeme očakávať, že ľudia, ktorí volajú na medzinárodnej úrovni, sú bohatší), potom to musí byť urobené v kroku inžinierstva. Výskumný pracovník s malým porozumením Rwandy by túto funkciu nemusel zahrnúť a prediktívny výkon modelu by trpel.
V ďalšom kroku vzdelávania pod dohľadom vytvorila spoločnosť Blumenstock model na predpovedanie odpovedí na prieskum pre každú osobu na základe ich vlastností. V tomto prípade využil Blumenstock logistickú regresiu, ale mohol použiť aj iné metódy štatistického alebo strojového učenia.
Takže ako dobre funguje? Bolo Blumenstock schopné predpovedať odpovede na prieskumné otázky ako "Vlastníte rádio?" A "Vlastníte si bicykel?" Pomocou funkcií odvodených z hovorov? Aby mohol vyhodnotiť výkonnosť svojho prediktívneho modelu, použila Blumenstock krížovú validáciu , čo je bežne používaná technika v oblasti vedy o údajoch, ale zriedka v spoločenskej vede. Cieľom krížovej validácie je poskytnúť spravodlivé hodnotenie prediktívnej výkonnosti modelu jeho školením a testovaním na rôznych podsúboroch údajov. Najmä Blumenstock rozdelil svoje údaje na 10 kusov po 100 ľudí. Potom použil deväť kusov na výcvik svojho modelu a prediktívna výkonnosť vyškoleného modelu bola hodnotená na zostávajúcej časti. Ten postup zopakoval 10-krát - pričom každý kus údajov získal jednu verziu ako údaje o validácii - a spriemeroval výsledky.
Presnosť predpovedí bola pre niektoré vlastnosti vysoká (obrázok 3.14); Napríklad, Blumenstock by mohol predpovedať 97,6% presnosťou, keby niekto vlastnil rádio. Môže to vyzerať pôsobivo, ale vždy je dôležité porovnať komplexnú metódu predpovede s jednoduchou alternatívou. V tomto prípade je jednoduchou alternatívou predpovedať, že každý dá najbežnejšiu odpoveď. Napríklad 97,3% respondentov uviedlo, že vlastní rádio, takže ak by Blumenstock predpovedal, že každý by hlásil, že by vlastnil rádio, mal by mať presnosť 97,3%, čo je prekvapivo podobné výkonu jeho zložitejšieho postupu (presnosť 97,6% , Inými slovami, všetky fiktívne údaje a modelovanie zvýšili presnosť predpovede z 97,3% na 97,6%. Pre ostatné otázky, ako napríklad "Vlastníte si bicykel?", Sa predpovede zlepšili z 54,4% na 67,6%. Vo všeobecnosti obrázok 3.15 ukazuje, že pre niektoré črty sa Blumenstock nezlepšil oveľa nad rámec samotnej predikcie základnej línie, ale že pre iné črty došlo k určitému zlepšeniu. Pri pohľade na tieto výsledky však možno nebudete si myslieť, že tento prístup je obzvlášť sľubný.
O rok neskôr však Blumenstock a dvaja kolegovia - Gabriel Cadamuro a Robert On - publikovali článok v oblasti vedy s podstatne lepšími výsledkami (Blumenstock, Cadamuro, and On 2015) . Pre toto zlepšenie existovali dva hlavné technické dôvody: (1) používali sofistikovanejšie metódy (tj nový prístup k inžinierskému modelu a sofistikovanejší model na predpovedanie odpovedí z funkcií) a (2) skôr než pokúšať sa odvodiť odpovede na jednotlivé (napr. "Vlastníte si rádio?"), pokúšali sa vyvodiť kompozitný index bohatstva. Tieto technické vylepšenia znamenali, že by mohli urobiť primeranú prácu s použitím záznamov hovorov, aby predpovedali bohatstvo pre ľudí vo svojej vzorke.
Predpovedanie bohatstva ľudí vo vzorke však nebolo konečným cieľom výskumu. Pamätajte na to, že konečným cieľom bolo spojiť niektoré z najlepších prvkov výberových prieskumov a cenzusov s cieľom vytvoriť presné odhady chudoby s vysokým rozlíšením v rozvojových krajinách. Na posúdenie ich schopnosti dosiahnuť tento cieľ použili Blumenstock a kolegovia svoj model a svoje dáta na predpovedanie bohatstva všetkých 1,5 milióna ľudí v záznamoch hovorov. A použili geopriestorové informácie vložené do záznamov hovorov (pripomínajúc, že údaje zahŕňali umiestnenie najbližšej mobilnej veže pre každý hovor), aby odhadli približné miesto pobytu každej osoby (obrázok 3.17). Podľa týchto dvoch odhadov spoločnosť Blumenstock a kolegovia vytvorili odhad geografickej distribúcie bohatstva účastníkov pri mimoriadne jemnej priestorovej granularite. Napríklad by mohli odhadnúť priemerné bohatstvo v každom z 2 148 buniek v Rwande (najmenšia administratívna jednotka v krajine).
Ako sa tieto odhady vyrovnali skutočnej úrovni chudoby v týchto regiónoch? Predtým, než odpoviem na túto otázku, chcem zdôrazniť skutočnosť, že existuje veľa dôvodov na to, aby ste boli skeptickí. Napríklad schopnosť robiť predpovede na individuálnej úrovni bola dosť hlučná (obrázok 3.17). A možno ešte dôležitejšie je, že ľudia s mobilnými telefónmi sa môžu systematicky líšiť od ľudí bez mobilných telefónov. Takže Blumenstock a kolegovia by mohli trpieť typmi chýb pokrytia, ktoré predstierali prieskum literárneho Digestu z roku 1936, ktorý som opísal skôr.
Aby sme získali zmysel pre kvalitu svojich odhadov, potrebovali sme Blumenstock a kolegov porovnať ich s niečím iným. Našťastie, približne v rovnakej dobe ako ich štúdia, ďalšia skupina výskumníkov viedla tradičnejší sociálny prieskum v Rwande. Tento ďalší prieskum, ktorý bol súčasťou široko rešpektovaného programu demografického a zdravotného prieskumu, mal veľký rozpočet a používal vysoko kvalitné tradičné metódy. Odhady z demografického a zdravotného prieskumu by sa preto mohli považovať za odhady na základe zlata. Pri porovnaní oboch odhadov boli podobné (obrázok 3.17). Inými slovami, spojením malého množstva údajov z prieskumov s záznamami o volaniach dokázali Blumenstock a kolegovia vytvoriť odhady porovnateľné s metódami zo zlata štandardných prístupov.
Skeptik môže tieto výsledky považovať za sklamanie. Koniec koncov, jeden spôsob, ako ich prezerať, je povedať, že pomocou veľkých údajov a strojového učenia dokázali Blumenstock a kolegovia vytvoriť odhady, ktoré by mohli byť spoľahlivejšie vykonané už existujúcimi metódami. Nemyslím si však, že je to správny spôsob, ako myslieť na túto štúdiu z dvoch dôvodov. Po prvé, odhady od spoločnosti Blumenstock a kolegov boli asi desaťkrát rýchlejšie a 50 krát lacnejšie (keď sú náklady merané z hľadiska variabilných nákladov). Ako som už uviedol v tejto kapitole, výskumníci ignorujú náklady na ich nebezpečenstvo. V tomto prípade napríklad dramatické zníženie nákladov znamená, že tento typ prieskumu by sa mohol uskutočňovať každý mesiac, čo by poskytovalo množstvo výhod pre výskumníkov a politiku, a nie ako každých niekoľko rokov - ako je štandard pre demografické a zdravotné prieskumy tvorcovia. Druhým dôvodom na to, aby sme nebrali do úvahy skeptika, je, že táto štúdia poskytuje základný recept, ktorý môže byť prispôsobený rôznym výskumným situáciám. Tento recept má len dve zložky a dva kroky. Zložky sú (1) veľký zdroj údajov, ktorý je široký, ale tenký (tj má veľa ľudí, ale nie informácie, ktoré potrebujete o každej osobe) a (2) prieskum, ktorý je úzky, ale hrubý (tj má len niekoľko ľudí, ale má informácie, ktoré potrebujete o týchto ľuďoch). Tieto zložky sa potom kombinujú v dvoch krokoch. Po prvé, pre ľudí v oboch zdrojoch údajov vytvorte model strojového učenia, ktorý využíva veľký zdroj údajov na predpovedanie odpovedí pri prieskume. Ďalej použite tento model na imputovanie odpovedí prieskumu všetkých vo veľkom zdroji údajov. Ak existuje nejaká otázka, ktorú by ste chceli spýtať veľa ľudí, pozrite sa na veľký zdroj údajov od tých ľudí, ktorí by mohli byť použití na predpovedanie svojej odpovede, a to aj vtedy , ak sa nestaráte o veľký zdroj údajov . Znamená to, že Blumenstock a kolegovia sa nezáležali na záznamoch hovorov; starali sa iba o záznamy hovorov, pretože by mohli byť použité na predpovedanie odpovedí na prieskum, o ktoré sa zaujímali. Tento charakteristický len nepriamy záujem o veľký zdroj údajov robí zosilnené otázky, ktoré sa líšia od vkladaného dotazu, ktorý som opísal skôr.
Na záver, zosilnený dotazovací prístup spoločnosti Blumenstock kombinoval údaje z prieskumu s veľkým zdrojom údajov a vytvoril odhady porovnateľné s údajmi zo zisťovania zo zlata. Tento konkrétny príklad tiež objasňuje niektoré kompromisy medzi zosilnenými dotazníkmi a tradičnými metódami zisťovania. Zosilnené žiadosti o odhady boli častejšie, podstatne lacnejšie a podrobnejšie. Ale na druhej strane ešte neexistuje silný teoretický základ pre tento typ zosilnených otázok. Tento jediný príklad neukazuje, kedy bude tento prístup fungovať a kedy to nebude, a výskumní pracovníci využívajúci tento prístup musia byť obzvlášť znepokojení možnými predsudkami spôsobenými tým, kto je zaradený - a kto nie je zahrnutý - do svojho veľkého zdroja údajov. Zosilnený dotazovací prístup ešte nemá dobré spôsoby, ako kvantifikovať neistotu okolo jeho odhadov. Našťastie rozšírené žiadosti majú hlboké spojenie so štyrmi rozsiahlymi oblasťami v štatistikách - odhady malých oblastí (Rao and Molina 2015) , imputácia (Rubin 2004) a modelová post-stratifikácia (ktorá je úzko spojená s pánom P., metóda, ktorú som opísal skôr v kapitole) (Little 1993) . Vzhľadom na tieto hlboké súvislosti očakávam, že mnohé metodologické základy rozšíreného požiadania sa čoskoro zlepšia.
Nakoniec, porovnanie prvého a druhého pokusu Blumenstocka ukazuje aj dôležitú lekciu o sociálnom výskume digitálneho veku: začiatok nie je koniec. To znamená, že prvý prístup nie je najlepší, ale ak výskumníci pokračujú v práci, veci sa môžu lepšie. Vo všeobecnosti je pri hodnotení nových prístupov k sociálnemu výskumu v digitálnom veku dôležité vykonať dve odlišné hodnotenia: (1) Ako dobre funguje táto práca teraz? a (2) Ako bude táto práca fungovať v budúcnosti, keď sa zmenia údaje a výskumníci venujú tomuto problému viac pozornosti? Hoci výskumní pracovníci sú vyškolení na vykonanie prvého druhu hodnotenia, druhý je často dôležitejší.