Choć może to być brudny, wzbogacony wywoławcza może być potężny.
Inne podejście do czynienia z niekompletności danych cyfrowych śladowej jest wzbogacenie go bezpośrednio z danych ankietowych, w procesie, który Zadzwonię wzbogacony pytania. Jednym z przykładów wzbogaconego pytaniem jest badanie Burke and Kraut (2014) , które opisałem wcześniej w tym rozdziale (sekcja 3.2), o tym, czy oddziaływanie na Facebooku zwiększa siłę przyjaźni. W takim przypadku, Burke i Kraut połączeniu danych pomiarowych z Facebooka danych dziennika.
Ustawienie, że Burke i Kraut pracowali w jednak oznaczało, że nie mamy do czynienia z dwoma dużymi problemami, które naukowcy robią wzbogacony twarz pytaniem. Po pierwsze, tak naprawdę łącząc zestawy-a o nazwie rekordu danych procesowych podnośnik, dopasowania rekordu w jednym zbiorze z odpowiednim zapisem w drugim zbiór danych, może być trudne i podatne na błędy (zobaczymy na przykładzie poniżej tego problemu ). Drugim głównym problemem wzbogaconego pytaniem jest, że jakość śladów cyfrowe będzie często trudne dla badaczy do oszacowania. Na przykład, czasami proces, za pomocą którego jest pobierane jest zastrzeżona i może być podatne na wiele problemów opisanych w rozdziale 2. Innymi słowy, wzbogacony wywoławcza będzie często obejmują podatne na błędy powiązanie badań do źródeł danych czarnej skrzynki nieznanych jakość. Mimo obaw, że te dwa problemy wprowadzają możliwe jest przeprowadzenie ważne badania z tej strategii, jak wykazano przez Stephena Ansolabehere i Eitan Hersh (2012) w swoich badaniach na temat wzorców głosu w USA. Warto przejść nad tym badaniu w pewnych szczegółach, ponieważ wiele strategii, które Ansolabehere i Hersz rozwiniętych będzie przydatna w innych aplikacjach wzbogaconego pytania.
Frekwencja była przedmiotem intensywnych badań w zakresie nauk politycznych, jak iw przeszłości, zrozumienie naukowców kto głosuje i dlaczego została generalnie opiera się na analizie danych z badań. Głosowanie w USA jest jednak niezwykły zachowanie w którym odnotowuje rządowych czy każdy obywatel zagłosował (oczywiście, rząd nie rejestruje którzy każdego obywatela głosów za). Przez wiele lat te rządowe zapisy głosu były dostępne na formularzach papierowych, rozproszone w różnych lokalnych urzędów w całym kraju. Pozwoliło to trudne, ale nie niemożliwe, dla politologów, aby mieć pełny obraz elektoratu i porównać to, co ludzie mówią o głosowanie w ankietach do ich rzeczywistych zachowań głosowania (Ansolabehere and Hersh 2012) .
Ale teraz te zapisy głosu zostały zdigitalizowane, a liczba firm prywatnych systematycznie gromadzone i połączyła te zapisy głosu do produkcji kompleksowych plików mistrza głosu, które rejestrują zachowanie głosowania wszystkich Amerykanów. Ansolabehere i Hersz współpracuje z jedną z tych spółek-CATALIST LCC w celu wykorzystania ich do głosowania plik główny, aby pomóc stworzyć lepszy obraz elektoratu. Ponadto, ponieważ oparł się na dokumentach cyfrowych gromadzonych i Kuratorka spółki, to przemawia szereg zalet w stosunku do poprzednich wysiłków naukowców, które zostały dokonane bez pomocy firm i za pomocą płyt analogowych.
Podobnie jak wielu cyfrowych źródeł śladowych w rozdziale 2, plik mistrzem CATALIST nie obejmują większość demograficzną, postaw i zachowań informacji potrzebnych Ansolabehere i Hersz. Oprócz tych informacji, Ansolabehere i Hersz byli szczególnie zainteresowani porównanie zachowania zgłoszoną do głosowania potwierdzonych zachowań wyborczych (czyli informacji zawartych w bazie danych CATALIST). Tak, naukowcy zebrali dane, które chcieli w ramach Kongresu Cooperative Study Wyborczej (CCE), dużego badania społecznego. Następnie naukowcy dali te dane CATALIST i CATALIST dał naukowcy kopię scalony plik danych, które obejmowały zatwierdzone zachowanie głosowania (od CATALIST), self-zgłaszane zachowanie głosowania (od CCES) oraz dane demograficzne i postawy respondentów (od CCES ). Innymi słowy, Ansolabehere i Hersz wzbogacony dane głosu z danych ankietowych, a plik wynikowy scalony umożliwia im coś zrobić, że ani plik włączone indywidualnie.
Wzbogacając główny zbiór danych CATALIST z danych ankietowych, Ansolabehere i Hersz przyszedł do trzech ważnych wniosków. Po pierwsze, zbyt raportowania głosowania szerzy: prawie połowa wyborców spoza zgłaszane głosowania. Albo, inny sposób patrzenia na to, czy ktoś jest zgłaszane głosu, nie jest to tylko 80% szans na to, że rzeczywiście przydatne. Po drugie, zbyt raportowania nie jest przypadkowa; ponad raportowania jest bardziej powszechne wśród wysokich dochodach, dobrze wykształcony, partyzanci, którzy są zaangażowani w sprawy publiczne. Innymi słowy, ludzie, którzy są najbardziej prawdopodobne do głosowania są również najczęściej kłamią na temat głosowania. Po trzecie, i najbardziej krytycznie, ze względu na systematyczny charakter nadmiernej sprawozdawczości, rzeczywiste różnice między wyborcami a nie-wyborców są mniejsze niż się wydaje tylko z badań. Na przykład te z Licencjat około 22 punktów procentowych częściej zgłaszały głosu, ale to tylko 10 punktów procentowych większe prawdopodobieństwo rzeczywistego głosowania. Ponadto istniejące teorie zasobów opartych głosowania są znacznie lepsze w przewidywaniu, kto zgłosi głosowania niż kto faktycznie głosów, empirycznego stwierdzenia, że wymaga nowych teorii, aby zrozumieć i przewidzieć głosowania.
Ale, jak bardzo powinniśmy ufać te wyniki? Zapamiętaj te wyniki zależą podatne na błędy łączenia danych czarnej skrzynki z nieznaną ilością błędów. Dokładniej, wyniki zależeć od dwóch kluczowych etapów: 1) zdolność CATALIST łączenie wielu różnych źródeł danych, aby produkować precyzyjne datafile głównego i 2) zdolność CATALIST powiązanie danych pomiarowych do jego głównego pliku danych. Każdy z tych etapów jest dość trudne i błędy na każdym kroku może doprowadzić badaczy do błędnych wniosków. Jednak zarówno przetwarzania danych i dopasowanie są niezbędne do dalszego istnienia CATALIST jako spółka może więc zainwestować w rozwiązywaniu tych problemów, często na skalę, która ma indywidualny naukowiec akademicki lub grupa naukowców może się równać. W dalszej lektury na końcu rozdziału, opiszę te problemy w sposób bardziej szczegółowy i jak Ansolabehere i Hersz budować zaufanie do ich wyników. Chociaż dane te są specyficzne dla tego badania, problemy podobne do tych powstaną dla innych badaczy pragnących odwołuje się do czarnej skrzynki źródeł danych cyfrowych śladowych.
Jakie są ogólne wnioski naukowcy mogą wyciągnąć z tego badania? Po pierwsze, istnieje ogromna wartość od wzbogacenia śladów cyfrowych danych ankietowych. Po drugie, nawet jeśli są sumowane, komercyjne źródła danych nie powinien być uważany za "ground truth", w niektórych przypadkach mogą one być użyteczne. W rzeczywistości, najlepiej jest porównać te źródła danych nie absolutnej Prawdy (z której będą zawsze spadną). Zamiast tego, lepiej jest je porównać z innymi dostępnymi źródłami danych, które zawsze mają błędy, jak również.