Amplified pyta za pomocą modelu predykcyjnego, aby połączyć dane ankiety od kilku osób z dużym źródłem danych od wielu osób.
Innym sposobem łączenia ankiety z dużymi źródłami danych jest proces, który ja nazywam amplifikowanym pytaniem . W pytaniach amplifikowanych badacz wykorzystuje model predykcyjny, aby połączyć niewielką ilość danych z ankiety z dużym źródłem danych w celu uzyskania oszacowań w skali lub ziarnistości, które nie byłyby możliwe dla każdego źródła danych indywidualnie. Ważnym przykładem wzmocnionego pytania jest praca Joshua Blumenstock, który chciał zebrać dane, które mogłyby pomóc w rozwoju w biednych krajach. W przeszłości naukowcy gromadzący tego rodzaju dane musieli ogólnie przyjąć jedno z dwóch podejść: ankiety próbne lub spisy. Przykładowe ankiety, w których badacze przeprowadzają wywiady z niewielką liczbą osób, mogą być elastyczne, terminowe i stosunkowo tanie. Jednak te ankiety, ponieważ są oparte na próbce, są często ograniczone w ich rozwiązywaniu. W przypadku przykładowej ankiety często trudno jest oszacować konkretne regiony geograficzne lub określone grupy demograficzne. Z kolei spisy próbują przeprowadzić wywiad ze wszystkimi, dzięki czemu mogą być wykorzystywane do sporządzania szacunków dla małych regionów geograficznych lub grup demograficznych. Jednak spisy są zazwyczaj kosztowne, mają wąski zakres (zawierają tylko niewielką liczbę pytań), a nie aktualne (odbywają się według ustalonego harmonogramu, na przykład co 10 lat) (Kish 1979) . Zamiast trzymać przykładowe ankiety lub spisy, wyobraź sobie, że naukowcy mogą połączyć najlepsze cechy obu. Wyobraź sobie, że naukowcy mogą codziennie zadawać każde pytanie każdej osobie. Oczywiście, ta wszechobecna, zawsze trwająca ankieta jest rodzajem fantastyki nauk społecznych. Wydaje się jednak, że możemy zacząć to przybliżać, łącząc pytania ankiety od niewielkiej liczby osób z cyfrowymi śladami wielu osób.
Badanie Blumenstock rozpoczęło się od współpracy z największym dostawcą usług telefonii komórkowej w Rwandzie, a firma dostarczyła anonimowe zapisy transakcji od około 1,5 miliona klientów w latach 2005-2009. Te zapisy zawierały informacje o każdym połączeniu i wiadomości tekstowej, takie jak godzina rozpoczęcia, czas trwania. oraz przybliżoną lokalizację geograficzną dzwoniącego i odbiorcy. Zanim zacznę mówić o kwestiach statystycznych, warto podkreślić, że ten pierwszy krok może być jednym z najtrudniejszych dla wielu badaczy. Jak opisałem w rozdziale 2, większość dużych źródeł danych jest niedostępna dla badaczy. Szczególnie meta-dane telefoniczne są szczególnie niedostępne, ponieważ zasadniczo nie można ich anonimizować i prawie na pewno zawierają informacje, które uczestnicy uważają za wrażliwe (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . W tym konkretnym przypadku badacze starali się chronić dane, a ich praca była nadzorowana przez stronę trzecią (tj. Ich IRB). Powrócę do tych kwestii etycznych bardziej szczegółowo w rozdziale 6.
Blumenstock był zainteresowany mierzeniem bogactwa i dobrego samopoczucia. Ale te cechy nie są bezpośrednio w rekordach połączeń. Innymi słowy, te rekordy połączeń są niekompletne w tym badaniu - wspólna cecha dużych źródeł danych, szczegółowo omówiona w rozdziale 2. Wydaje się jednak prawdopodobne, że rekordy połączeń prawdopodobnie zawierają pewne informacje, które pośrednio mogłyby dostarczyć informacji o bogactwie i dobre samopoczucie. Biorąc pod uwagę tę możliwość, Blumenstock zapytał, czy można wyszkolić model uczenia maszynowego, aby przewidzieć, w jaki sposób ktoś zareaguje na ankietę na podstawie ich rekordów połączeń. Gdyby było to możliwe, firma Blumenstock mogłaby wykorzystać ten model do przewidywania odpowiedzi ankietowych wszystkich 1,5 miliona klientów.
Aby zbudować i wyszkolić taki model, Blumenstock i asystenci naukowi z Kigali Institute of Science and Technology nazwali losową próbkę około tysiąca klientów. Naukowcy wyjaśnili uczestnikom cele projektu, poprosili o zgodę na powiązanie odpowiedzi ankiety z zapisami połączeń, a następnie zadali im serię pytań, aby zmierzyć ich bogactwo i dobre samopoczucie, takie jak "Czy jesteś właścicielem radio? "i" Czy jesteś właścicielem roweru? "(patrz rys. 3.14 dla częściowej listy). Wszyscy uczestnicy badania otrzymali rekompensatę finansową.
Następnie Blumenstock zastosował dwuetapową procedurę powszechną w uczeniu maszynowym: inżynieria cech, a następnie nadzorowana nauka. Po pierwsze, w etapie inżynierii cech , dla wszystkich, z którymi przeprowadzono wywiady, Blumenstock przekształcił zapisy połączeń w zestaw cech charakterystycznych dotyczących każdej osoby; naukowcy danych mogliby nazwać te cechy "cechami", a socjologowie nazwaliby je "zmiennymi". Na przykład dla każdej osoby Blumenstock obliczył całkowitą liczbę dni z aktywnością, liczbę różnych osób, z którymi dana osoba miała kontakt, kwota pieniędzy wydana na czas antenowy i tak dalej. Krytycznie, dobra inżynieria cech wymaga znajomości środowiska badawczego. Na przykład, jeśli ważne jest rozróżnianie połączeń krajowych i międzynarodowych (możemy oczekiwać, że ludzie, którzy nazywają się międzynarodowo, by byli bogatsi), należy to zrobić na etapie projektowania funkcji. Naukowiec mało rozumiejący Rwandę może nie zawierać tej funkcji, a następnie ucierpi na tym predyktywność modelu.
Następnie, w ramach nadzorowanego etapu nauki , Blumenstock stworzył model przewidujący reakcję ankiety dla każdej osoby na podstawie jej cech. W tym przypadku Blumenstock zastosował regresję logistyczną, ale mógł zastosować wiele innych metod statystycznego lub uczenia maszynowego.
Więc jak dobrze to działa? Czy Blumenstock był w stanie przewidzieć odpowiedzi na pytania ankietowe, takie jak "Czy posiadasz radio?" I "Czy jesteś właścicielem roweru?", Korzystając z funkcji pochodzących z rejestrów połączeń? Aby ocenić skuteczność swojego modelu predykcyjnego, Blumenstock zastosował walidację krzyżową , technikę powszechnie stosowaną w naukach o danych, ale rzadko w naukach społecznych. Celem weryfikacji krzyżowej jest zapewnienie uczciwej oceny predykcyjnej wydajności modelu poprzez szkolenie go i testowanie go w różnych podzbiorach danych. W szczególności Blumenstock dzielił swoje dane na 10 części po 100 osób. Następnie użył dziewięciu kawałków, aby wyszkolić swój model, a predyktywność wyszkolonego modelu została oceniona na pozostałym kawałku. Powtórzył tę procedurę 10 razy - z każdą porcją danych otrzymujących jeden obrót jako dane walidacyjne - i uśrednił wyniki.
Dokładność przewidywań była wysoka dla niektórych cech (rysunek 3.14); na przykład, Blumenstock mógłby przewidzieć z dokładnością 97,6%, gdyby ktoś posiadał radio. Może to brzmieć imponująco, ale zawsze ważne jest, aby porównać złożoną metodę predykcyjną z prostą alternatywą. W takim przypadku prostą alternatywą jest przewidzenie, że wszyscy udzielą najbardziej powszechnej odpowiedzi. Na przykład, 97,3% respondentów zgłosiło posiadanie radia, więc gdyby Blumenstock przewidywał, że wszyscy zgłaszają posiadanie radia, miałby dokładność 97,3%, co jest zaskakująco podobne do wykonania jego bardziej złożonej procedury (97,6% dokładności) . Innymi słowy, wszystkie fantazyjne dane i modelowanie zwiększyły dokładność prognozy z 97,3% do 97,6%. Jednak w przypadku innych pytań, takich jak "Czy jesteś właścicielem roweru?", Prognozy wzrosły z 54,4% do 67,6%. Bardziej ogólnie, rysunek 3.15 pokazuje, że dla niektórych cech Blumenstock nie poprawił się znacznie poza zwykłe przewidywanie bazowe, ale dla innych cech nastąpiła pewna poprawa. Patrząc tylko na te wyniki, możesz nie myśleć, że to podejście jest szczególnie obiecujące.
Jednak zaledwie rok później, Blumenstock i dwaj koledzy - Gabriel Cadamuro i Robert On - opublikowali artykuł w Science z znacznie lepszymi wynikami (Blumenstock, Cadamuro, and On 2015) . Istniały dwa główne techniczne powody tego ulepszenia: (1) wykorzystali bardziej wyrafinowane metody (tj. Nowe podejście do inżynierii obiektów i bardziej zaawansowany model do przewidywania odpowiedzi z funkcji) i (2) zamiast próbować wywnioskować odpowiedzi na indywidualne pytania. pytania ankietowe (np. "Czy posiadasz radio?"), próbowali wywnioskować złożony indeks majątkowy. Te udoskonalenia techniczne sprawiły, że mogli wykonać rozsądną pracę polegającą na wykorzystaniu rekordów połączeń, aby przewidzieć bogactwo osób w próbce.
Prognozowanie bogactwa ludzi w próbie nie było jednak ostatecznym celem badań. Pamiętaj, że ostatecznym celem było połączenie najlepszych cech ankiet próbnych i spisów ludności w celu uzyskania dokładnych szacunków ubóstwa w wysokiej rozdzielczości w krajach rozwijających się. Aby ocenić ich zdolność do osiągnięcia tego celu, Blumenstock i współpracownicy wykorzystali swój model i swoje dane, aby przewidzieć bogactwo wszystkich 1,5 miliona osób w rekordach połączeń. I wykorzystali informacje geoprzestrzenne zawarte w rekordach połączeń (pamiętajcie, że dane zawierały lokalizację najbliższej komórki dla każdego połączenia), aby oszacować przybliżone miejsce zamieszkania każdej osoby (rysunek 3.17). Łącząc te dwa szacunki, Blumenstock i współpracownicy opracowali oszacowanie geograficznego rozmieszczenia bogactwa subskrybentów na podstawie bardzo drobnej granulacji przestrzennej. Na przykład, mogli oszacować średnie bogactwo w każdej z 2417 komórek Rwandy (najmniejszej jednostki administracyjnej w kraju).
Jak dobrze te szacunki są zgodne z faktycznym poziomem ubóstwa w tych regionach? Zanim odpowiem na to pytanie, chcę podkreślić fakt, że istnieje wiele powodów do sceptycyzmu. Na przykład zdolność przewidywania na poziomie indywidualnym była dość głośna (rysunek 3.17). I, co być może ważniejsze, ludzie z telefonami komórkowymi mogą się systematycznie różnić od ludzi bez telefonów komórkowych. Zatem Blumenstock i współpracownicy mogą cierpieć z typami błędów pokrycia że tendencyjne 1936 Literary Digest badania, które opisałem wcześniej.
Aby uzyskać poczucie jakości swoich szacunków, Blumenstock i współpracownicy musieli porównać je z czymś innym. Na szczęście mniej więcej w tym samym czasie, co ich badanie, inna grupa badaczy prowadziła bardziej tradycyjny sondaż społeczny w Ruandzie. Ta druga ankieta, która była częścią szeroko szanowanego programu badań demograficznych i zdrowotnych, miała duży budżet i wykorzystała tradycyjne metody wysokiej jakości. Dlatego szacunki z badania demograficznego i zdrowotnego można w uzasadniony sposób uznać za szacunki zgodne ze standardem złotym. Po porównaniu dwóch oszacowań były one dość podobne (rysunek 3.17). Innymi słowy, łącząc niewielką ilość danych z ankiety z rekordami rozmów, Blumenstock i współpracownicy byli w stanie przedstawić szacunki porównywalne do tych z podejść opartych na złotym standardzie.
Sceptyk może uznać te wyniki za rozczarowanie. Przecież jednym ze sposobów ich obejrzenia jest stwierdzenie, że dzięki wykorzystaniu dużych zbiorów danych i uczenia maszynowego, Blumenstock i współpracownicy byli w stanie przedstawić szacunki, które mogłyby być bardziej wiarygodne dzięki już istniejącym metodom. Ale nie sądzę, że jest to właściwy sposób myślenia o tym badaniu z dwóch powodów. Po pierwsze, szacunki Blumenstock i współpracowników były około 10 razy szybsze i 50 razy tańsze (gdy koszt mierzony jest kosztami zmiennymi). Jak argumentowałem wcześniej w tym rozdziale, badacze ignorują koszty na własne ryzyko. W tym przypadku, na przykład, dramatyczny spadek kosztów oznacza, że zamiast przeprowadzać je co kilka lat - jak to standard w badaniach demograficznych i zdrowotnych - tego rodzaju badanie może być przeprowadzane co miesiąc, co zapewniłoby liczne korzyści badaczom i politykom twórcy. Drugim powodem, dla którego nie należy przyjmować poglądu sceptyka, jest to, że to badanie dostarcza podstawowej recepty, która może być dostosowana do wielu różnych sytuacji badawczych. Ten przepis ma tylko dwa składniki i dwa etapy. Składniki to (1) duże źródło danych, które jest szerokie, ale cienkie (tzn. Ma wiele osób, ale nie informacje, których potrzebujesz o każdej osobie) i (2) badanie wąskie, ale grube (tzn. kilka osób, ale ma informacje, których potrzebujesz o tych ludziach). Te składniki są następnie łączone w dwóch etapach. Po pierwsze, dla ludzi z obu źródeł danych, zbuduj model uczenia maszynowego, który wykorzystuje duże źródło danych do przewidywania odpowiedzi na ankiety. Następnie użyj tego modelu, aby przypisać odpowiedzi ankiet wszystkim w dużym źródle danych. Tak więc, jeśli jest jakieś pytanie, które chcesz zadać wielu ludziom, poszukaj dużego źródła danych od tych osób, które mogą być używane do przewidywania ich odpowiedzi, nawet jeśli nie dbasz o duże źródło danych . Oznacza to, że Blumenstock i współpracownicy z natury nie dbali o zapisy połączeń; dbali tylko o rekordy połączeń, ponieważ można ich używać do przewidywania odpowiedzi na pytania, na które im zależało. Ta charakterystyka - jedynie pośrednia zależność od dużego źródła danych - powoduje, że wzmacniany jest popyt odmienny od pytania osadzonego, co opisałem wcześniej.
Podsumowując, podejście pytające Blumenstock potwierdziło połączenie danych z ankiety z dużym źródłem danych, aby uzyskać szacunki porównywalne z tymi z ankiety złotej. Ten konkretny przykład wyjaśnia również niektóre kompromisy między amplifikowanymi pytaniami a tradycyjnymi metodami ankietowymi. Wzmocnione szacunki dotyczące zapytań były bardziej aktualne, znacznie tańsze i bardziej szczegółowe. Ale z drugiej strony, nie ma jeszcze silnej podstawy teoretycznej dla tego rodzaju amplifikowanego pytania. Ten pojedynczy przykład nie pokazuje, kiedy to podejście zadziała, a kiedy nie, a badacze stosujący to podejście muszą szczególnie niepokoić się ewentualnymi uprzedzeniami spowodowanymi tym, kto jest uwzględniony - i kto nie jest zawarty w ich dużym źródle danych. Co więcej, wzmocnione podejście do zadawania pytań nie ma jeszcze dobrych sposobów na określenie niepewności wokół szacunków. Na szczęście wzmocnione pytania mają głębokie powiązania z trzema dużymi obszarami w statystykach - ocena małych powierzchni (Rao and Molina 2015) , imputacja (Rubin 2004) i oparte na modelu po stratyfikacji (która sama w sobie jest ściśle związana z panem P., metoda opisana wcześniej w rozdziale) (Little 1993) . Z powodu tych głębokich powiązań, spodziewam się, że wiele metodologicznych podstaw wzmacnianego pytania wkrótce zostanie poprawione.
Wreszcie, porównanie pierwszych i drugich prób Blumenstocka ilustruje także ważną lekcję na temat społecznych badań w dziedzinie elektroniki: początek to nie koniec. Oznacza to, że wiele razy pierwsze podejście nie będzie najlepsze, ale jeśli naukowcy będą kontynuować pracę, sytuacja może się poprawić. Bardziej ogólnie, przy ocenie nowych podejść do badań społecznych w erze cyfrowej ważne jest dokonanie dwóch różnych ocen: (1) Jak to działa teraz? oraz (2) Jak dobrze to będzie działać w przyszłości, gdy zmienia się krajobraz danych, a naukowcy poświęcają więcej uwagi problemowi? Chociaż naukowcy są przeszkoleni, aby dokonać pierwszego rodzaju oceny, drugi jest często ważniejszy.