Zesílená otázka pomocí přediktivního modelu kombinovat data průzkumu od několika lidí s velkým zdrojem dat od mnoha lidí.
Jiný způsob, jak kombinovat průzkum a velké zdroje dat, je proces, který budu nazývat zesílenou otázkou . Při zesíleném dotazování používá výzkumný pracovník přediktivní model pro kombinování malého množství údajů z průzkumu s velkým zdrojem dat, aby bylo možné vytvářet odhady v měřítku nebo zrnitosti, které by nebyly možné s jednotlivými zdroji dat individuálně. Důležitým příkladem zesílené žádosti pochází z díla Joshua Blumenstock, který chtěl shromáždit údaje, které by mohly pomoci vést rozvoj v chudých zemích. V minulosti měli badatelé, kteří shromažďovali tyto údaje, obecně jeden z dvou přístupů: výběrové průzkumy nebo sčítání lidu. Vzorové průzkumy, kdy výzkumníci rozhovoru s malým počtem lidí, mohou být flexibilní, včasné a relativně levné. Nicméně tyto průzkumy, protože jsou založeny na vzorku, jsou často omezeny v jejich řešení. Při výběrovém šetření je často těžké provádět odhady o konkrétních geografických regionech nebo specifických demografických skupinách. Sčítání lidu se naopak pokoušejí rozhovor s každým a mohou být použity k vytváření odhadů pro malé geografické regiony nebo demografické skupiny. Ale sčítání lidu jsou obecně nákladné, úzce zaměřené (zahrnují pouze malý počet otázek) a ne včasné (děje se na pevně stanoveném rozvrhu, např. Každých 10 let) (Kish 1979) . Spíše než být přilepený výběrovým průzkumům nebo cenzům, představte si, zda by výzkumníci mohli spojit nejlepší vlastnosti obou. Představte si, že pokud by výzkumníci mohli každý den klást každou otázku každému člověku. Je zjevné, že tento všudypřítomný, vždy-na průzkumu je druh společenské vědy fantazie. Zdá se však, že se můžeme začít přiblížit tomu, že kombinujeme průzkumné otázky od malého počtu lidí s digitálními stopami od mnoha lidí.
Výzkum společnosti Blumenstock začal, když spolupracoval s největším poskytovatelem mobilních telefonů v Rwandě a společnost poskytla v letech 2005 až 2009 anonymizované transakční záznamy od přibližně 1,5 milionu zákazníků. Tyto záznamy obsahovaly informace o každém hovoru a textové zprávě, jako je čas začátku, trvání , a přibližné geografické umístění volajícího a přijímače. Předtím, než mluvím o statistických otázkách, stojí za zmínku, že tento první krok může být pro některé výzkumníky nejtěžší. Jak jsem popsal v kapitole 2, většina velkých zdrojů dat je pro výzkumníky nepřístupná . Telefonní metadata jsou obzvláště nepřístupná, protože je v podstatě nemožné anonymizovat a téměř jistě obsahuje informace, které by účastníci považovali za citlivé (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . V tomto konkrétním případě vědci pečlivě chránili data a jejich práce byla dohlížena třetí stranou (tj. Jejich IRB). Na tyto etické otázky se vrátím podrobněji v kapitole 6.
Blumenstock se zajímal o měření bohatství a blahobytu. Ale tyto rysy nejsou přímo v záznamu hovorů. Jinými slovy, tyto záznamy o volání jsou pro tento výzkum neúplné - společný rys velkých datových zdrojů, který byl podrobně popsán v kapitole 2. Je však pravděpodobné, že záznamy o hovorech pravděpodobně obsahují informace, které by mohly nepřímo poskytovat informace o bohatství a pohody. Vzhledem k této možnosti se Blumenstock zeptal, zda je možné vycvičit strojový učební model, aby předpověděl, jak někdo reaguje na průzkum na základě záznamů o volání. Kdyby to bylo možné, pak by Blumenstock mohl použít tento model k předpovědi odezvy průzkumu všech 1,5 milionu zákazníků.
Za účelem budování a výcviku tohoto modelu, Blumenstock a výzkumní asistenti z Kigaliho institutu vědy a techniky nazvali náhodný vzorek asi tisíce zákazníků. Vědci vysvětlili cílům projektu účastníkům, požádali o souhlas s propojením odpovědí zjišťování na záznamy o hovorech a poté se jich zeptali na řadu otázek, které by mohly měřit jejich bohatství a blahobyt, jako například: "Máte vlastní rádio? "a" Vlastníte si jízdní kolo? "(viz obrázek 3.14 pro částečný seznam). Všichni účastníci průzkumu byli finančně kompenzováni.
Dále Blumenstock použil dvoufázový postup běžný v strojovém učení: inženýrská činnost s následným dozorem. Za prvé, v kroku inženýrské techniky , pro každého, kdo byl rozhovor, Blumenstock převedl záznamy o hovorech do souboru charakteristik o každé osobě; vědci v oblasti dat by mohli tyto charakteristiky nazývat "rysy" a sociální vědci by je nazvali "proměnnými". Například pro každou osobu vypočítala Blumenstock celkový počet dnů s aktivitou, počet odlišných osob, s nimiž byla osoba v kontaktu, množství peněz vynaložených na vysílací dobu a tak dále. Kriticky, dobré vlastnosti inženýrství vyžaduje znalost nastavení výzkumu. Například pokud je důležité rozlišovat mezi domácími a mezinárodními hovory (můžeme očekávat, že lidé, kteří volají na mezinárodní úrovni, jsou bohatší), pak to musí být provedeno v kroku inženýrské techniky. Výzkumný pracovník s malým porozuměním Rwandy by tuto funkci nemusel zahrnovat, a pak by trpěla prediktivní výkonnost modelu.
Dále, v kroku supervizovaného učení , vytvořila společnost Blumenstock model založený na jejich vlastnostech, který předpovídá odpověď průzkumu pro každou osobu. V tomto případě Blumenstock využil logistickou regresi, ale mohl použít řadu dalších statistických nebo strojových učebních přístupů.
Tak jak dobře funguje? Byl Blumenstock schopen předpovědět odpovědi na otázky týkající se průzkumu jako "Vlastníte rádio?" A "Vlastníte si jízdní kolo" pomocí funkcí odvozených z hovorů? K vyhodnocení výkonu jeho prediktivního modelu použil Blumenstock křížovou validaci , což je běžně používaná technika v oblasti vědy o datech, ale zřídka v sociálních vědách. Cílem křížové validace je poskytnout poctivé hodnocení prediktivního výkonu modelu jeho školením a testováním na různých podmnožinách dat. Zejména Blumenstock rozdělil své údaje na 10 kusů po 100 osob. Potom použil devět kusů, aby vycvičil svůj model a prediktivní výkon vyškoleného modelu byl vyhodnocen na zbývajícím kusu. Tento postup opakoval desetkrát - přičemž každá část dat získala jednu zatáčku jako ověřovací údaje - a zprůměrovala výsledky.
Přesnost předpovědí byla u některých vlastností vysoká (obrázek 3.14); například, mohla Blumenstock předvídat s 97,6% přesností, pokud někdo vlastnil rádio. To může znít působivě, ale je vždy důležité porovnat složitou metodu předpovědi s jednoduchou alternativou. V tomto případě je jednoduchou alternativou předpovědět, že všichni dávají nejběžnější odpověď. Například 97,3% respondentů uvedlo, že vlastní rádio, takže pokud by Blumenstock předpovídal, že každý by hlásil vlastní rádio, měl by mít přesnost 97,3%, což je překvapivě podobné výkonu své složitější procedury (97,6% přesnost) . Jinými slovy, všechny fantazie a modelování zvýšily přesnost předpovědi z 97,3% na 97,6%. V případě dalších otázek, jako například "Vlastníte si jízdní kolo", se předpovědi zlepšily z 54,4% na 67,6%. Obecněji, obrázek 3.15 ukazuje, že u některých vlastností se Blumenstock příliš nezlepšil pouze nad prostým základním předpovědím, ale že u jiných vlastností došlo k určitému zlepšení. Při pohledu na tyto výsledky však možná nemyslíte, že tento přístup je obzvláště slibný.
O rok později však Blumenstock a dva kolegové - Gabriel Cadamuro a Robert On - publikovali článek ve vědě s podstatně lepšími výsledky (Blumenstock, Cadamuro, and On 2015) . Pro toto zlepšení existovaly dva hlavní technické důvody: (1) používaly sofistikovanější metody (tj. Nový přístup k inženýrské funkcionalitě a sofistikovanější model pro předpovědi reakcí z vlastností) a (2) spíše než pokoušet se odvodit odpovědi na individuální (např. "Vlastníte rádio?"), pokusili se vyvodit souhrnný index bohatství. Tato technická vylepšení znamenala, že by mohli rozumně pracovat s použitím záznamů o hovorech, aby předpovídali bohatství pro lidi v jejich vzorku.
Předpovídání bohatství lidí ve vzorku však nebylo konečným cílem výzkumu. Nezapomeňte, že konečným cílem bylo spojit některé z nejlepších rysů výběrových šetření a sčítání lidu, aby byly v rozvojových zemích vytvořeny přesné odhady chudoby s vysokým rozlišením. Aby zhodnotili svou schopnost dosáhnout tohoto cíle, použili Blumenstock a kolegové svůj model a své údaje, aby předpověděli bohatství všech 1,5 milionu lidí ve výsledcích volání. A použili geoprostorové informace obsažené v záznamu hovorů (připomínajíc, že údaje obsahovaly umístění nejbližší věže buňky pro každý hovor), aby odhadli přibližné místo pobytu každé osoby (obrázek 3.17). Při sestavování těchto dvou odhadů vytvořili Blumenstock a kolegové odhad geografického rozložení bohatství účastníků při extrémně jemné prostorové granularitě. Například by mohli odhadnout průměrné bohatství v každé z 2 148 buněk v Rwandě (nejmenší správní jednotka v zemi).
Jak dobře tyto odhady odpovídají skutečné úrovni chudoby v těchto regionech? Než odpovězím na tuto otázku, chci zdůraznit skutečnost, že existuje spousta důvodů být skeptický. Například schopnost provádět předpovědi na jednotlivé úrovni byla docela hlučná (obrázek 3.17). A co je možná ještě důležitější, lidé s mobilními telefony se mohou systematicky lišit od lidí bez mobilních telefonů. Takže Blumenstock a kolegové mohou trpět typy chyb pokrytí, které ovlivnily průzkum Literary Digest z roku 1936, který jsem popsal dříve.
Abychom získali pocit kvality svých odhadů, potřebovali je Blumenstock a kolegové porovnat je s něčím jiným. Naštěstí, přibližně ve stejnou dobu jako jejich studie, uskutečnila další skupina výzkumníků tradiční sociální průzkum ve Rwandě. Tento další průzkum - který byl součástí široce respektovaného programu Demografický a zdravotní průzkum - měl velký rozpočet a využil vysoce kvalitní tradiční metody. Odhady z demografického a zdravotního šetření by proto mohly být považovány za odhady založené na zlatém standardu. Při srovnání obou odhadů byly podobné (obrázek 3.17). Jinými slovy, spojením malého množství údajů z průzkumů s záznamy o voláních dokázali Blumenstock a kolegové vypracovat odhady srovnatelné se standardy založenými na zlatém standardu.
Skeptik může tyto výsledky považovat za zklamání. Koneckonců, jedním z možných způsobů, jak je vidět, je, že díky velkému datu a strojnímu učení mohli Blumenstock a kolegové vytvořit odhady, které by mohly být spolehlivější pomocí již existujících metod. Ale nemyslím si, že je to správný způsob, jak přemýšlet o této studii ze dvou důvodů. Nejprve byly odhady od společnosti Blumenstock a kolegů asi desetkrát rychlejší a 50krát levnější (když se náklady měří z hlediska variabilních nákladů). Jak jsem již dříve tvrdil v této kapitole, výzkumníci ignorují náklady na jejich nebezpečí. V tomto případě například dramatický pokles nákladů znamená, že spíše než běžet každých několik let - jako standard pro demografické a zdravotní průzkumy - tento druh průzkumu by mohl být prováděn každý měsíc, což by poskytlo řadu výhod pro výzkumníky a politiku výrobců. Druhým důvodem, proč nevidět skeptika, je to, že tato studie poskytuje základní recept, který může být přizpůsoben mnoha různým výzkumným situacím. Tento recept má pouze dvě složky a dva kroky. Složky jsou (1) velký zdroj dat, který je široký, ale tenký (tj. Má mnoho lidí, ale ne informace, které potřebujete o každé osobě) a (2) průzkum, který je úzký, ale hustý (tj. pár lidí, ale má informace, které potřebujete o těchto osobách). Tyto složky jsou pak kombinovány ve dvou krocích. Za prvé, pro lidi v obou zdrojích dat, postavte model pro strojové učení, který používá velký zdroj dat k předpovědi odpovědí průzkumu. Dále použijte tento model k tomu, abyste získali odpovědi všech respondentů ve velkém zdroji dat. Pokud tedy existuje nějaká otázka, že se chcete zeptat spousty lidí, podívejte se na velký zdroj dat od těch lidí, které by mohly být použity k předpovědi jejich odpovědi, a to i v případě, že se o velký zdroj dat nestaráte . To znamená, že se Blumenstock a kolegové vůbec nezajímali o záznamy hovorů; zajímali se pouze o záznamy hovorů, protože by mohly být použity k předpovědi odpovědí na průzkumy, které jim záleží. Tento charakteristický pouze nepřímý zájem o velký datový zdroj dělá zesílenou otázku, která se liší od vloženého dotazu, který jsem popsal dříve.
Závěrem, Blumenstockův zesílený dotazovací přístup kombinoval údaje z průzkumu s velkým zdrojem dat, aby vytvořil odhady srovnatelné s průzkumy ze zlatého standardu. Tento konkrétní příklad rovněž objasňuje některé kompromisy mezi zesílenými dotazovacími a tradičními metodami průzkumu. Zesílené žádosti o odhady byly včasnější, podstatně levnější a podrobnější. Ale na druhou stranu ještě neexistuje silný teoretický základ pro tento typ zesílené žádosti. Tento jediný příklad neukazuje, kdy bude tento přístup fungovat a kdy to nebude, a výzkumní pracovníci využívající tento přístup musí být obzvláště znepokojeni možnými předsudky způsobenými tím, kdo je zahrnut - a kdo není zahrnut - do svého velkého zdroje dat. Dále, zesílený dotazovací přístup ještě nemá dobré způsoby, jak kvantifikovat nejistotu kolem jeho odhadů. Naštěstí zesílené žádosti mají hluboké spojení se třemi velkými oblastmi v statistice - odhady malých oblastí (Rao and Molina 2015) , imputace (Rubin 2004) a post-stratifikace založená na modelu (která je úzce spjata s panem P., metodu popsanou dříve v kapitole) (Little 1993) . Vzhledem k těmto hlubokým vazbám očekávám, že mnohé z metodologických základů rozšířeného dotazování se brzy zlepší.
A konečně, srovnání prvního a druhého pokusu Blumenstocka ukazuje také důležitou lekci o sociálním výzkumu digitálního věku: začátek není konec. To znamená, že mnohokrát nebude první přístup nejlepší, ale pokud budou výzkumníci pokračovat v práci, věci se mohou zlepšit. Obecněji, při hodnocení nových přístupů k sociálnímu výzkumu v digitálním věku je důležité provést dvě odlišná hodnocení: (1) Jak dobře funguje tato práce nyní? a (2) Jak dobře to bude fungovat v budoucnu, jak se mění datová krajina a jak vědci věnují více pozornosti problému? I když jsou výzkumní pracovníci vyškoleni k prvnímu hodnocení, druhá je často důležitější.