Ten odcinek jest przeznaczony do stosowania jako odniesienie, a nie należy odczytywać jako narracji.
Wiele tematów w tym rozdziale zostały również powtórzone w ostatnich adresów prezydenckich w American Association of Public Opinion Research (AAPOR), takie jak Dillman (2002) , Newport (2011) , Santos (2014) i Link (2015) .
Aby uzyskać więcej na temat tła historycznego rozwoju badań ankietowych, zobacz Smith (1976) i Converse (1987) . Więcej informacji na temat idei trzech epok badań ankietowych, zobacz Groves (2011) i Dillman, Smyth, and Christian (2008) (który zrywa trzech epok nieco inaczej).
Pik wewnątrz przejścia z pierwszego do drugiego erę w badaniach ankietowych jest Groves and Kahn (1979) , która robi szczegółowe porównanie head-to-head między a. Twarzą w twarz i sondażu telefonicznego Brick and Tucker (2007) spogląda na historyczny rozwój metod pobierania próbek wybieranie losowe cyfry.
Dla bardziej jak sondaż badania zmieniła się w przeszłości w odpowiedzi na zmiany w społeczeństwie, zobacz Tourangeau (2004) , Mitofsky (1989) oraz Couper (2011) .
Nauka o stanach wewnętrznych poprzez zadawanie pytań może być problematyczne, ponieważ czasami sami respondenci nie są świadomi swoich stanów wewnętrznych. Na przykład, Nisbett and Wilson (1977) mają wspaniały papier z sugestywnym tytułem: "Telling więcej niż możemy wiedzieć. Ustne raporty dotyczące procesów psychicznych" W artykule autorzy stwierdzają: "poddani są czasem (a) nieświadomi z istnienie bodziec, który przede wszystkim wpłynęły odpowiedzi, (b) nie wie o istnieniu odpowiedzi, oraz (c) nie wie, że bodziec ma wpływ na odpowiedź. "
Na argumenty, że naukowcy powinni wolą obserwowane zachowanie do zgłoszonych zachowań lub postaw, zobacz Baumeister, Vohs, and Funder (2007) (psychologia) i Jerolmack and Khan (2014) i odpowiedzi (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (socjologia). Różnica między pytaniem a obserwując również pojawia się w ekonomii, gdzie naukowcy mówią o podanych i ujawnionych preferencji. Na przykład, naukowiec może poprosić respondentów, czy wolą jedzenie lodów lub przechodząc do siłowni (określone preferencje) lub badania mogą obserwować, jak często ludzie jedzą lody i iść na siłownię (ujawnionych preferencji). Jest głęboki sceptycyzm niektórych typów podanych danych preferencje w ekonomii (Hausman 2012) .
Głównym tematem tych debat jest to, że zgłaszane zachowanie nie zawsze jest dokładne. Ale, automatycznie rejestrowane zachowanie nie może być dokładne, nie mogą być gromadzone na próbie zainteresowania, i nie mogą być dostępne dla badaczy. Tak więc, w pewnych sytuacjach, myślę, że zgłaszane zachowanie może być użyteczne. Ponadto, drugi Głównym tematem tych debat jest to, że doniesienia na temat emocji, wiedzy, oczekiwań i opinii, nie zawsze są dokładne. Ale, jeśli informacje na temat tych stanów wewnętrznych są potrzebne zarówno przez naukowców, aby pomóc wyjaśnić pewne zachowania albo jako rzecz, należy wyjaśnić, a następnie prosząc może być właściwe.
Do zabiegów długości książka o całkowitym błędem pomiaru, patrz Groves et al. (2009) lub Weisberg (2005) . Dla historii rozwoju całkowitego błędu pomiaru, patrz Groves and Lyberg (2010) .
Jeśli chodzi o reprezentację, to świetny wstęp do kwestii braku odpowiedzi i uprzedzeń braku odpowiedzi jest raport National Research Council na Nonresponse w naukach społecznych Surveys: program badań (2013) . Innym przydatnym opis jest przez (Groves 2006) . Również całe specjalne wydania Journal of statystyki publicznej, opinia publiczna Quarterly, a Annals of American Academy of Social Science Politycznego i zostały opublikowane na temat braku odpowiedzi. Wreszcie, nie są w rzeczywistości wiele różnych sposobów obliczania odsetek odpowiedzi; Podejścia te zostały szczegółowo opisane w raporcie Amerykańskiego Stowarzyszenia Badaczy Opinii Publicznej (AAPOR) (Public Opinion Researchers} 2015) .
1936 Literary Digest sondażu badano szczegółowo (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Stwierdzono również wykorzystywane jako przypowieść, by ostrzec przed przypadkowa zbierania danych (Gayo-Avello 2011) . W 1936 roku George Gallup wykorzystywane bardziej wyrafinowane formy pobierania próbek, i był w stanie przedstawić bardziej dokładne szacunki znacznie mniejszej próbce. Sukces Gallupa ponad Literackiej Digest był kamieniem milowym rozwoju badań ankietowych (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Jeśli chodzi o pomiar, wielki pierwszym źródłem informacji dla projektowania kwestionariuszy jest Bradburn, Sudman, and Wansink (2004) . Dla bardziej zaawansowanego leczenia koncentruje się w szczególności na pytania nastawienie, patrz Schuman and Presser (1996) . Więcej na pytania wstępnego testowania dostepna jest Presser and Blair (1994) , Presser et al. (2004) , a rozdział 8 Groves et al. (2009) .
Zabieg klasyczny, książka długości kompromis pomiędzy kosztami badań ankietowych i błędów jest Groves (2004) .
Klasyczne leczenie książka długości standardowej i szacowania prawdopodobieństwa pobierania próbek są Lohr (2009) (więcej próbnego) i Särndal, Swensson, and Wretman (2003) (bardziej zaawansowany). Klasyczny zabieg książka długości metod po stratyfikacji i pokrewnych jest Särndal and Lundström (2005) . W niektórych cyfrowych ustawień wieku naukowcy wiedzą sporo o niepalących respondentów, co nie było prawdą, często w przeszłości. Możliwe są różne formy regulacji braku odpowiedzi, gdy naukowcy mają informacje na temat nie-respondentów (Kalton and Flores-Cervantes 2003; Smith 2011) .
Badanie Xbox z Wang et al. (2015) wykorzystuje technikę zwaną wielopoziomowe regresji i po stratyfikacji (MRP, czasem nazywany "Mister P"), która pozwala naukowcom oszacować komórka oznacza nawet wtedy, gdy istnieje wiele, wiele komórek. Chociaż istnieje pewna dyskusja na temat jakości danych szacunkowych z tej techniki, wydaje się obiecujący obszar do zbadania. Technika ta została po raz pierwszy użyty w Park, Gelman, and Bafumi (2004) , a doszło do późniejszego wykorzystania i debata (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Więcej informacji na temat związku pomiędzy poszczególnymi wag i odważników opartych na komórkach patrz Gelman (2007) .
W przypadku innych podejść do ważenia ankiet internetowych, patrz Schonlau et al. (2009) , Valliant and Dever (2011) , a Bethlehem (2010) .
Dopasowanie Próbka została zaproponowana przez Rivers (2007) . Bethlehem (2015) twierdzi, że wyniki dopasowania próbki rzeczywiście będzie podobny do innych metod pomiarowych (np losowanie warstwowe) i innych metod regulacji (np po stratyfikacji). Więcej informacji na temat paneli internetowych, patrz Callegaro et al. (2014) .
Czasami naukowcy odkryli, że prawdopodobieństwo próbki i próbki nie uzyskując oszacowania prawdopodobieństwa podobnej jakości (Ansolabehere and Schaffner 2014) , ale inne porównania wykazały, że próbki nie prawdopodobieństwa gorzej (Malhotra and Krosnick 2007; Yeager et al. 2011) . Jedną z możliwych przyczyn tych różnic jest to, że próbki nie prawdopodobieństwa poprawiły się w czasie. Dla bardziej pesymistyczny pogląd metod pobierania próbek bez prawdopodobieństwa zobaczyć ten AAPOR Task Force on Non-prawdopodobieństwa Sampling (Baker et al. 2013) , a ja również polecam czytając komentarze, które towarzyszą mu raport podsumowujący.
Do metaanalizy na efekt zmniejszenia wagi nastawienia w próbkach bez prawdopodobieństwa, patrz tabela 2.4 w Tourangeau, Conrad, and Couper (2013) , co prowadzi do wniosku, autorzy "korekty wydaje się być przydatne, ale omylnymi korekty. , ".
Conrad and Schober (2008) dostarcza edytowany tomie Przewidując Wywiad Survey of the Future, i to odnosi się do wielu tematów w tym dziale. Couper (2011) odnoszący się do podobnych tematów, a Schober et al. (2015) oferuje piękny przykład jak metody gromadzenia danych, które są dostosowane do nowego ustawienia może skutkować wyższymi parametrami jakościowymi.
Na innym interesującym przykładem przez Facebooka aplikacje dla badań naukowych społecznych zob Bail (2015) .
Aby uzyskać więcej porad na temat tworzenia ankiet przyjemny i cenne doświadczenie dla uczestników można znaleźć pracę na metodzie indywidualnym projektem (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) oferuje leczenie długości Księga ekologicznego chwilowej oceny i metod pokrewnych.
Judson (2007) opisał proces łączenia badań i danych administracyjnych jako "integracji informacji," omawia niektóre zalety tego podejścia i oferuje kilka przykładów.
Inny sposób, że naukowcy mogą używać śladów cyfrowych i danych administracyjnych jest operat dla osób o szczególnych cechach. Jednak dostęp do tych rejestrów do wykorzystania operatu mogą także tworzyć pytania dotyczące ochrony prywatności (Beskow, Sandler, and Weinberger 2006) .
Odnośnie powielanego pytając takie podejście nie jest tak nowa, jak mogłoby się wydawać, od tego, jak Opisałem go. Takie podejście ma głębokie połączenia do trzech dużych obszarów w statystykach, w oparciu o model post-stratyfikacji (Little 1993) , przypisania (Rubin 2004) , a mała oszacowanie obszaru (Rao and Molina 2015) . Jest on także związany z wykorzystaniem zmiennych zastępczych w badaniach medycznych (Pepe 1992) .
Oprócz zagadnień etycznych dotyczących dostępu do danych śledzenia cyfrowych, wzmacniany wywoławcza może być również używany do wrażliwych cech wywnioskować, że ludzie nie mogą zdecydować się ujawnić w badaniu (Kosinski, Stillwell, and Graepel 2013) .
Koszt i czas szacunki w Blumenstock, Cadamuro, and On (2015) odnoszą się bardziej do zmiennej kosztowej koszt jednego koszty dodatkowe badania, a nie obejmują środki, takie jak koszt do czyszczenia i przetwarzania danych połączeń. W ogóle, wzmacniany wywoławcza będzie prawdopodobnie mają wysokie koszty stałe i niskie koszty zmienne podobnych do eksperymentów cyfrowych (patrz rozdział 4). Więcej szczegółów na temat danych wykorzystywanych Blumenstock, Cadamuro, and On (2015) papieru są Blumenstock and Eagle (2010) i Blumenstock and Eagle (2012) . Podejścia z wielu imputuation (Rubin 2004) może pomóc w przechwytywania niepewności szacunków powielanego pytania. Jeśli naukowcy robi wzmacniany prosząc tylko o liczy łącznie, a nie cech indywidualnych szczebla, a następnie podejść w King and Lu (2008) i Hopkins and King (2010) może być przydatne. Więcej informacji na temat metod uczenia maszynowego w Blumenstock, Cadamuro, and On (2015) , patrz James et al. (2013) (więcej wprowadzające) lub Hastie, Tibshirani, and Friedman (2009) (bardziej zaawansowany). Innym popularnym podręcznikiem uczenie maszynowe jest Murphy (2012) .
Jeśli chodzi o wzbogacony pytając wyniki w Ansolabehere i Hersz (2012) zawiasu na dwóch głównych etapów: 1) zdolność CATALIST łączenie wielu różnych źródeł danych, aby produkować precyzyjne datafile główny i 2) zdolność CATALIST połączyć dane z badań w celu kapitan datafile. Dlatego Ansolabehere i Hersz sprawdzić każdy z tych etapów ostrożnie.
Aby utworzyć plik danych głównego, CATALIST łączy i harmonizuje informacje z wielu różnych źródeł, w tym: wiele rekordów głosu migawek z każdego stanu, dane z Narodowego Zmian Urzędu Post Adres rejestru, a danymi z innych nieokreślonych komercyjnych dostawców. Gór szczegółów o tym, jak to wszystko się dzieje, czyszczenie i przejmowane są poza zakres tej książki, ale ten proces, bez względu na sposób ostrożny, będzie propagować błędów w oryginalnych źródłach danych oraz wprowadzi błędów. Chociaż CATALIST był skłonny omówić jego przetwarzanie danych i podanie niektórych swoich danych pierwotnych, to było po prostu niemożliwe dla naukowców, aby przejrzeć całą CATALIST danych rurociągu. Przeciwnie, badacze byli w sytuacji, gdy plik danych CATALIST miał jakieś nieznane, a może niepoznawalne, ilość błędów. Jest to poważny problem, ponieważ krytyk może spekulować, że duże różnice w raportach z badań dotyczących CCES i zachowanie w pliku danych podstawowych CATALIST były spowodowane błędami w pliku danych master, a nie błędnych przez respondentów.
Ansolabehere i Hersz trwało dwa różne podejścia do rozwiązywania jakości danych niepokój. Po pierwsze, w uzupełnieniu do porównywania siebie zgłaszane głosowania na głosowanie w pliku głównym CATALIST, naukowcy również porównywane z własnym zgłaszane stroną, rasę, status rejestracji wyborców (np zarejestrowane lub niezarejestrowane) oraz sposób głosowania (na przykład w osobie, nieobecnym głosowanie, etc.) do tych wartości znajdujących się w bazach danych CATALIST. Z tych czterech zmiennych demograficznych, naukowcy odkryli znacznie wyższy poziom porozumienia między raporcie badań i danych w pliku głównym CATALIST niż do głosowania. W ten sposób plik danych głównych CATALIST wydaje się mieć wysoką jakość informacji o innych cechach niż głosu, co sugeruje, że nie ma słabą ogólną jakością. Po drugie, w części przy użyciu danych z CATALIST, Ansolabehere i Hersz opracowała trzy różne miary jakości zapisów głosu powiatu, a okazało się, że szacowana stopa ponad raportowania głosowania był zasadniczo związana z któregokolwiek z tych środków w zakresie jakości danych, do stwierdzenia, że sugerują, że wysokie wskaźniki ponad raportowania nie są prowadzone przez powiaty o niezwykle niskiej jakości danych.
Ze względu na utworzenie tego pliku głosu głównej, drugie źródło potencjalnych błędów jest powiązanie rejestrów przeglądów do niego. Na przykład, jeżeli połączenie jest wykonane nieprawidłowo może to doprowadzić do nadmiernego oszacowania różnicy pomiędzy zgłoszonych i potwierdzonych zachowań wyborczych (Neter, Maynes, and Ramanathan 1965) . Jeśli każda osoba miała stabilną, unikalny identyfikator, który był w obu źródeł danych, a następnie powiązanie byłoby trywialne. W innych krajach, USA i większości, jednak nie ma uniwersalnego identyfikatora. Ponadto, nawet gdyby nie było takiej osoby identyfikator będzie prawdopodobnie wahać dostarczenie go do badania naukowców! Zatem CATALIST musiałem zrobić drążki z użyciem niedoskonałych identyfikatorów, w tym przypadku cztery kawałki informacji na temat każdego respondenta: imię i nazwisko, płeć, rok urodzenia i adres zamieszkania. Na przykład CATALIST musiał zdecydować, czy Homie J Simpson w CCES była ta sama osoba jako Homer Jay Simpson w swoim pliku danych zasadniczych. W praktyce, dobieranie jest trudnym procesem i bałagan, a co gorsza dla naukowców CATALIST uznać swoją technikę dopasowywania być zastrzeżona.
W celu sprawdzenia algorytmów dopasowywania, że oparła się na dwóch wyzwań. Najpierw CATALIST udział w konkursie dopasowania, że była prowadzona przez niezależnego, osoby trzecie: The Mitre Corporation. MITRE przekazała wszystkim uczestnikom dwa hałaśliwych plików danych należy dopasować, a różne zespoły rywalizowały aby powrócić do MITRE najlepsze dopasowanie. Ponieważ sama MITRE znał prawidłowe dopasowanie byli w stanie zdobyć zespołów. Spośród 40 firm, które konkurowały, CATALIST znalazła się na drugim miejscu. Ten rodzaj niezależnej, oceny trzecich zastrzeżonych technologii jest dość rzadkie i niezwykle cenne; powinna dać nam pewność, że procedury dopasowania CATALIST są zasadniczo w state-of-the-art. Ale jest state-of-the-art wystarczająco dobry? Poza tym konkursie dopasowania, Ansolabehere i Hersz stworzyli swój własny wyzwanie dla CATALIST dopasowanie. Z wcześniejszego projektu, Ansolabehere i Hersz zebrała zapisy wyborców z Florydy. Zapewnili niektóre z tych zapisów z niektórych swoich dziedzinach redacted do CATALIST a następnie porównywane raporty CATALIST w tych dziedzinach do ich rzeczywistych wartości. Na szczęście, raporty CATALIST były zbliżone do wartości wstrzymane, wskazując, że CATALIST mógł dopasować częściowe rekordy wyborców na ich pliku danych zasadniczych. Te dwa problemy, jeden przez osoby trzecie, a jeden po Ansolabehere i Hersz, dają nam większe zaufanie algorytmów dopasowywania CATALIST, mimo że nie mogą przeglądać ich dokładnej realizacji ma sami.
Było wiele wcześniejsze próby sprawdzania poprawności głosowania. Aby otrzymać przegląd tej literatury, patrz Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , a Hanmer, Banks, and White (2014) .
Ważne jest, aby zauważyć, że chociaż w tym przypadku badacze zachęca jakości danych z CATALIST inne oceny komercyjnych dostawców być mniejszy entuzjazm. Naukowcy odkryli słabą jakość, gdy dane z badania konsumenckiego do akt od marketingu Systems Group (która sama scalić dane z trzech dostawców: Acxiom, Experian i infoUSA) (Pasek et al. 2014) . Oznacza to, że plik danych nie dało odpowiedzi ankietowych, że naukowcy przewidywań będą poprawne, datafile nie brakuje danych dla dużej liczby pytań, a brakuje wzorca danych została skorelowana z podanej wartości badania (innymi słowy brakujące dane były systematyczne nie przypadkowe).
Więcej informacji na temat nagrywania powiązanie badań i danych administracyjnych, zobacz Sakshaug and Kreuter (2012) i Schnell (2013) . Więcej informacji na temat nagrywania powiązania w ogóle, zobacz Dunn (1946) i Fellegi and Sunter (1969) (historyczną) i Larsen and Winkler (2014) (modern). Podobne metody zostały również opracowane w informatyce pod nazwami takimi jak deduplikacja danych, identyfikacji przykład pasującej nazwy, wykrywanie duplikatów, a wykrywanie duplikatów rekordu (Elmagarmid, Ipeirotis, and Verykios 2007) . Istnieją również zachowania prywatności podejść do nagrywania powiązania, które nie wymagają przekazywania informacji umożliwiających identyfikację (Schnell 2013) . Naukowcy z Facebook opracował procedurę probabilisticsly odwołuje swoje rekordy do zachowań wyborczych (Jones et al. 2013) ; Połączenie to zostało zrobione, aby ocenić eksperyment, że powiem wam o w rozdziale 4 (Bond et al. 2012) .
Innym przykładem łączenia na szeroką skalę badania społeczne do rejestrów administracyjnych rządowych pochodzi z Health and Retirement Survey oraz Social Security Administration. Więcej informacji na temat tego badania, w tym informacje o procedurze zezwolenia, zobacz Olson (1996) i Olson (1999) .
Proces łączenia wielu źródeł danych administracyjnych do głównego pliku danych-procesu, który CATALIST pracowników, jest powszechne w urzędach statystycznych niektórych rządów krajowych. Dwóch naukowców ze statystyk Szwecji Napisałem szczegółową książkę na ten temat (Wallgren and Wallgren 2007) . Jako przykład takiego podejścia w jednym okręgu w Stanach Zjednoczonych (Olmstead County, Minnesota; dom z Mayo Clinic), patrz Sauver et al. (2011) . Więcej informacji na temat błędów, które mogą pojawić się w aktach administracyjnych, zobacz Groen (2012) .