Wiele tematów w tym rozdziale zostało również powtórzonych w niedawnych wystąpieniach prezydenckich w Amerykańskim Stowarzyszeniu Badań Opinii Publicznej (AAPOR), takich jak Dillman (2002) , Newport (2011) , Santos (2014) i Link (2015) .
Więcej informacji na temat różnic między badaniami ankietowymi i pogłębionymi wywiadami można znaleźć w artykule Small (2009) . Powiązane z pogłębionymi wywiadami to rodzina podejść zwana etnografią. W badaniach etnograficznych badacze generalnie spędzają znacznie więcej czasu z uczestnikami w swoim naturalnym środowisku. Aby dowiedzieć się więcej na temat różnic między etnografią a pogłębionymi wywiadami, zobacz Jerolmack and Khan (2014) . Więcej informacji na temat etnografii cyfrowej można znaleźć w artykule Pink et al. (2015) .
Mój opis historii badań ankietowych jest zbyt krótki, by uwzględnić wiele ciekawych wydarzeń, które miały miejsce. Aby uzyskać więcej danych historycznych, zobacz Smith (1976) , Converse (1987) i Igo (2008) . Aby dowiedzieć się więcej na temat trzech epok badań ankietowych, zobacz Groves (2011) i Dillman, Smyth, and Christian (2008) (który przełamuje trzy epoki nieco inaczej).
Groves and Kahn (1979) rzucają okiem na przejście od pierwszej do drugiej ery badań ankietowych, dokonując szczegółowego porównania między ankietą twarzą w twarz a telefonem. ( ??? ) spojrzeć wstecz na historyczny rozwój metod losowego wybierania numerów.
Więcej informacji o tym, jak badania ankietowe zmieniły się w przeszłości w odpowiedzi na zmiany w społeczeństwie, zobacz Tourangeau (2004) , ( ??? ) i Couper (2011) .
Mocne i słabe strony pytań i obserwacji zostały omówione przez psychologów (np. Baumeister, Vohs, and Funder (2007) ) oraz socjologów (np. Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) : Jerolmack and Khan (2014) ] Różnica między pytaniem a obserwacją pojawia się również w ekonomii, gdzie badacze mówią o ustalonych i ujawnionych preferencjach, na przykład badacz może zapytać respondentów, czy wolą jeść lody, czy chodzić na siłownię. (określone preferencje), lub może obserwować, jak często ludzie jedzą lody i idą na siłownię (ujawnione preferencje) Istnieje głęboki sceptycyzm w stosunku do pewnych typów danych preferencji w danych ekonomicznych opisanych w Hausman (2012) .
Głównym tematem tych debat jest to, że zgłaszane zachowania nie zawsze są dokładne. Jednak, jak opisano w rozdziale 2, duże źródła danych mogą nie być dokładne, mogą nie być gromadzone na próbce będącej przedmiotem zainteresowania i mogą nie być dostępne dla naukowców. Dlatego uważam, że w niektórych sytuacjach przydatne może być zgłaszane zachowanie. Ponadto, drugim głównym tematem tych debat jest to, że raporty o emocjach, wiedzy, oczekiwaniach i opiniach nie zawsze są dokładne. Ale jeśli badacze potrzebują informacji o tych stanach wewnętrznych, aby wyjaśnić pewne zachowanie lub wyjaśnić, co należy wyjaśnić, wtedy pytanie może być odpowiednie. Oczywiście poznanie stanów wewnętrznych poprzez zadawanie pytań może być problematyczne, ponieważ czasami sami respondenci nie są świadomi swoich stanów wewnętrznych (Nisbett and Wilson 1977) .
Rozdział 1 z Groves (2004) doskonale sobie radzi z pogodzeniem czasami niespójnej terminologii stosowanej przez badaczy sondaży w celu opisania ogólnego schematu błędów badania. Aby zapoznać się z pełnym podejściem do ogólnego schematu błędów badania, zobacz Groves et al. (2009) , a dla historycznego przeglądu patrz Groves and Lyberg (2010) .
Idea rozkładu błędów i odchyleń pojawia się również w uczeniu maszynowym; patrz na przykład sekcja 7.3 Hastie, Tibshirani, and Friedman (2009) . Często prowadzi to do tego, że badacze mówią o wariancie "odchylenia wariancji".
Jeśli chodzi o reprezentację, wspaniałym wprowadzeniem do kwestii braku reakcji i braku reakcji jest raport National Research Council Nonresponse z badań społecznych: Agenda badawcza (2013) . Kolejny użyteczny przegląd stanowi Groves (2006) . Ponadto opublikowane zostały wszystkie specjalne numery Dziennika Oficjalnych Statystyk , Kwartalników Opinii Publicznej i Roczników Amerykańskiej Akademii Nauk Politycznych i Społecznych na temat braku odpowiedzi. Wreszcie, istnieje wiele różnych sposobów obliczania wskaźnika odpowiedzi; podejścia te zostały szczegółowo opisane w raporcie American Association of Public Opinion Researchers (AAPOR) ( ??? ) .
Więcej informacji na temat sondażu " Literary Digest" z 1936 r. Można znaleźć w Bryson (1976) , Squire (1988) , Cahalan (1989) i Lusinchi (2012) . Aby ponownie omówić tę ankietę jako przypowieść ostrzegającą przed przypadkowym gromadzeniem danych, zobacz Gayo-Avello (2011) . W 1936 r. George Gallup zastosował bardziej wyrafinowaną formę pobierania próbek i był w stanie uzyskać dokładniejsze dane szacunkowe przy znacznie mniejszej próbie. Sukces Gallupa nad Literary Digest był kamieniem milowym w rozwoju badań ankietowych, jak opisano w rozdziale 3 książki @ converse_survey_1987; rozdział 4 Ohmer (2006) ; i rozdział 3 książki @ igo_averaged_2008.
Pod względem wymiarów doskonałym pierwszym źródłem do opracowania kwestionariuszy są Bradburn, Sudman, and Wansink (2004) . Aby uzyskać bardziej zaawansowane metody leczenia, patrz Schuman and Presser (1996) , który jest szczególnie ukierunkowany na pytania o postawę, oraz Saris and Gallhofer (2014) , który jest bardziej ogólny. Nieco inne podejście do pomiaru podejmuje się w psychometrii, jak opisano w ( ??? ) . Więcej na temat wstępnego testowania jest dostępne w Presser and Blair (1994) , Presser et al. (2004) i rozdział 8 Groves et al. (2009) . Więcej informacji na temat eksperymentów z Mutz (2011) znaleźć w Mutz (2011) .
Pod względem kosztów, klasyczne, księgowe traktowanie kompromisu między kosztami badań a błędami badań to Groves (2004) .
Dwa klasyczne metody traktowania i oszacowania prawdopodobieństwa standardowego to Lohr (2009) (bardziej wprowadzający) i Särndal, Swensson, and Wretman (2003) (bardziej zaawansowani). Klasycznym podejściem do obróbki po stratyfikacji i metod pokrewnych jest Särndal and Lundström (2005) . W niektórych środowiskach związanych z wiekiem cyfrowym badacze wiedzą sporo na temat osób, które nie są korespondentami, co nie było często prawdziwe w przeszłości. Różne formy korekty braku odpowiedzi są możliwe, gdy naukowcy mają informacje na temat osób, które nie są korespondentami, jak opisali Kalton and Flores-Cervantes (2003) i Smith (2011) .
Badanie Xbox autorstwa W. Wang et al. (2015) wykorzystuje technikę zwaną regresją wielopoziomową i post stratyfikacją ("P. P."), która pozwala badaczom oszacować średnie grupy, nawet jeśli istnieje wiele, wiele grup. Chociaż jest pewna debata na temat jakości szacunków wynikających z tej techniki, wydaje się, że jest to obiecujący obszar do zbadania. Technika ta została po raz pierwszy zastosowana w Park, Gelman, and Bafumi (2004) , a następnie została użyta i poddana debacie (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Więcej informacji na temat związku między poszczególnymi wagami i masami grupowymi można znaleźć w Gelman (2007) .
Inne podejścia do ważenia ankiet internetowych, patrz Schonlau et al. (2009) , Bethlehem (2010) oraz Valliant and Dever (2011) . Panele internetowe mogą korzystać z próbkowania prawdopodobieństwa lub próbkowania bez prawdopodobieństwa. Więcej informacji na temat paneli online można znaleźć w Callegaro et al. (2014) .
Czasami badacze stwierdzili, że próbki prawdopodobieństwa i próbki (Ansolabehere and Schaffner 2014) dają oszacowania o podobnej jakości (Ansolabehere and Schaffner 2014) , ale inne porównania wykazały, że próby (Malhotra and Krosnick 2007; Yeager et al. 2011) są gorsze (Malhotra and Krosnick 2007; Yeager et al. 2011) . Jedną z możliwych przyczyn tych różnic jest to, że próbki z prawdopodobieństwem uległy poprawie w czasie. Aby uzyskać bardziej pesymistyczny pogląd na temat metod próbkowania niepodobnych, patrz grupa zadaniowa AAPOR dotycząca prób losowych innych niż probabilistyczne (Baker et al. 2013) , a także zalecam przeczytanie komentarza następującego po raporcie podsumowującym.
Conrad and Schober (2008) to zredagowany tom zatytułowany " Envisioning the Survey Interview of the Future" , oferujący różnorodne poglądy na temat przyszłości zadawania pytań. Couper (2011) porusza podobne tematy, a Schober et al. (2015) stanowią dobry przykład tego, w jaki sposób metody gromadzenia danych dostosowane do nowego ustawienia mogą zapewnić wyższą jakość danych. Schober and Conrad (2015) proponują bardziej ogólny argument na temat ciągłego dostosowywania procesu badań ankietowych do zmian zachodzących w społeczeństwie.
Tourangeau and Yan (2007) przeglądu zagadnień tendencji do pożądania społecznego w newralgicznych kwestiach, a Lind et al. (2013) oferują niektóre możliwe powody, dla których ludzie mogą ujawniać bardziej poufne informacje w wywiadzie udzielonym przez komputer. Więcej informacji na temat roli osób przeprowadzających wywiady w zwiększaniu wskaźników uczestnictwa w ankietach można znaleźć w: Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) oraz Schaeffer et al. (2013) . Aby uzyskać więcej informacji na temat ankiet w trybie mieszanym, zobacz Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) oferują kompleksowe traktowanie ekologiczne oceny chwilowej i związanych z nimi metod.
Aby uzyskać więcej porad na temat tworzenia ankiet, które są przyjemnym i cennym doświadczeniem dla uczestników, zapoznaj się z pracami dotyczącymi metody projektowania (Dillman, Smyth, and Christian 2014) . Kolejny ciekawy przykład wykorzystania aplikacji Facebooka do ankiet w badaniach społecznych można znaleźć w Bail (2015) .
Judson (2007) opisuje proces łączenia ankiet i danych administracyjnych jako "integrację informacji" i omawia niektóre zalety tego podejścia, a także podaje kilka przykładów.
Jeśli chodzi o wzbogacone pytania, wiele wcześniejszych prób było zatwierdzić głosowanie. Aby uzyskać przegląd tej literatury, zobacz Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) oraz Berent, Krosnick, and Lupia (2016) . Zobacz Berent, Krosnick, and Lupia (2016) aby uzyskać bardziej sceptyczny pogląd na wyniki zaprezentowane w Ansolabehere and Hersh (2012) .
Ważne jest, aby pamiętać, że chociaż Ansolabehere i Hersh byli zachęcani jakością danych z Catalist, inne oceny komercyjnych dostawców były mniej entuzjastyczne. Pasek et al. (2014) stwierdzili niską jakość, gdy dane z ankiety porównano z plikiem konsumenta z Marketing Systems Group (która sama w sobie połączyła dane od trzech dostawców: Acxiom, Experian i InfoUSA). Oznacza to, że plik danych nie pasuje do odpowiedzi ankiet, które badacze oczekiwali, że jest poprawny, plik konsumenta miał brakujące dane dla dużej liczby pytań, a brakujący wzorzec danych był skorelowany z raportowaną wartością ankiety (innymi słowy, brakujący dane były systematyczne, a nie losowe).
Aby uzyskać więcej informacji na temat powiązań między ankietami a danymi administracyjnymi, zobacz Sakshaug and Kreuter (2012) oraz Schnell (2013) . Więcej informacji na temat łączenia rekordów w ogóle można znaleźć w Dunn (1946) oraz Fellegi and Sunter (1969) (historyczne) oraz Larsen and Winkler (2014) (współczesny). Podobne podejścia zostały również opracowane w informatyce pod takimi nazwami jak deduplikacja danych, identyfikacja instancji, dopasowywanie nazw, wykrywanie duplikatów i wykrywanie duplikatów rekordów (Elmagarmid, Ipeirotis, and Verykios 2007) . Istnieją również podejścia chroniące prywatność w celu rejestrowania powiązań, które nie wymagają transmisji danych osobowych (Schnell 2013) . Naukowcy z Facebooka opracowali procedurę probabilistycznego powiązania swoich zapisów z zachowaniami do głosowania (Jones et al. 2013) ; to powiązanie zostało zrobione, aby ocenić eksperyment, o którym powiem w rozdziale 4 (Bond et al. 2012) . Aby uzyskać więcej informacji na temat uzyskania zgody na rejestrację powiązania, patrz Sakshaug et al. (2012) .
Innym przykładem powiązania zakrojonego na szeroką skalę badania społecznego z rekordami administracji rządowej jest badanie zdrowia i emerytury oraz administracja zabezpieczenia społecznego. Więcej informacji na temat tego badania, w tym informacje na temat procedury zgody, patrz Olson (1996, 1999) .
Proces łączenia wielu źródeł dokumentacji administracyjnej w główny plik danych - proces, który stosuje katalik - jest powszechny w urzędach statystycznych niektórych rządów krajowych. Dwóch naukowców ze statystyk Szwecji napisało szczegółową książkę na ten temat (Wallgren and Wallgren 2007) . Przykład takiego podejścia w jednym hrabstwie w Stanach Zjednoczonych (Olmstead County, Minnesota, siedziba kliniki Mayo), patrz Sauver et al. (2011) . Więcej informacji na temat błędów, które mogą pojawić się w rekordach administracyjnych, zobacz Groen (2012) .
Innym sposobem, w jaki naukowcy mogą wykorzystywać duże źródła danych w badaniach ankietowych, jest pobieranie próbek dla osób o określonych cechach. Niestety takie podejście może rodzić pytania dotyczące prywatności (Beskow, Sandler, and Weinberger 2006) .
Jeśli chodzi o amplifikację, to podejście to nie jest tak nowe, jak mogłoby się wydawać na podstawie tego, jak je opisałem. Ma głębokie powiązania z trzema dużymi obszarami w statystykach: oparte na modelu po stratyfikacji (Little 1993) , imputacji (Rubin 2004) i estymacji małego obszaru (Rao and Molina 2015) . Jest to również związane ze stosowaniem zmiennych zastępczych w badaniach medycznych (Pepe 1992) .
Szacunki kosztów i czasu w Blumenstock, Cadamuro, and On (2015) odnoszą się bardziej do kosztu zmiennego - koszt jednej dodatkowej ankiety - i nie obejmują kosztów stałych, takich jak koszt czyszczenia i przetwarzania danych połączeń. Ogólnie rzecz biorąc, wzmocnione pytania będą prawdopodobnie miały wysokie koszty stałe i niskie koszty zmienne podobne do tych z eksperymentów cyfrowych (patrz rozdział 4). Więcej informacji na temat ankiet przeprowadzonych w telefonii komórkowej w krajach rozwijających się można znaleźć w Dabalen et al. (2016) .
Aby pomysły na to, jak wzmacniać, pytając lepiej, poleciłbym dowiedzieć się więcej o wielokrotnym imputacji (Rubin 2004) . Ponadto, jeśli badacze robią amplifikację, prosząc o skupienie się, a nie o cechy na poziomie indywidualnym, wówczas przydatne mogą być podejścia w King and Lu (2008) oraz Hopkins and King (2010) . Na koniec, aby uzyskać więcej informacji na temat metod uczenia maszynowego w Blumenstock, Cadamuro, and On (2015) , zobacz James et al. (2013) (bardziej wprowadzający) lub Hastie, Tibshirani, and Friedman (2009) (bardziej zaawansowani).
Jedną z kwestii etycznych dotyczących amplifikacji jest to, że można ją wykorzystać do określenia wrażliwych cech, których ludzie nie ujawnią w ankiecie, jak opisano w Kosinski, Stillwell, and Graepel (2013) .