Muitos dos temas deste capítulo também foram ecoados em recentes discursos presidenciais da Associação Americana de Pesquisa de Opinião Pública (AAPOR), como os de Dillman (2002) , Newport (2011) , Santos (2014) e Link (2015) .
Para mais informações sobre as diferenças entre pesquisa de pesquisa e entrevistas em profundidade, consulte Small (2009) . Relacionado a entrevistas em profundidade é uma família de abordagens chamada etnografia. Na pesquisa etnográfica, os pesquisadores geralmente gastam muito mais tempo com os participantes em seu ambiente natural. Para mais informações sobre as diferenças entre etnografia e entrevistas em profundidade, veja Jerolmack and Khan (2014) . Para mais sobre etnografia digital, veja Pink et al. (2015) .
Minha descrição da história da pesquisa de opinião é breve demais para incluir muitos dos desenvolvimentos interessantes que ocorreram. Para mais informações históricas, ver Smith (1976) , Converse (1987) e Igo (2008) . Para mais informações sobre a ideia de três eras de pesquisa, veja Groves (2011) e Dillman, Smyth, and Christian (2008) (que divide as três épocas de forma ligeiramente diferente).
Groves and Kahn (1979) dão uma olhada na transição da primeira para a segunda era na pesquisa de opinião, fazendo uma comparação detalhada entre uma pesquisa presencial e por telefone. ( ??? ) o desenvolvimento histórico de métodos de amostragem de discagem por dígitos aleatórios.
Para mais como a pesquisa de pesquisa mudou no passado em resposta às mudanças na sociedade, veja Tourangeau (2004) , ( ??? ) e Couper (2011) .
Os pontos fortes e fracos de perguntar e observar foram debatidos por psicólogos (por exemplo, Baumeister, Vohs, and Funder (2007) ) e sociólogos (por exemplo, Jerolmack and Khan (2014) ; Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) ; Jerolmack and Khan (2014) ] a diferença entre pedir e observando também surge em economia, onde os investigadores falar sobre preferências declaradas e revelou Por exemplo, um pesquisador poderia perguntar aos entrevistados se eles preferem comer sorvete ou ir ao ginásio.. (afirmou preferências), ou pode observar quantas vezes as pessoas comem sorvete e ir ao ginásio (revelou preferências) .Há um profundo ceticismo sobre certos tipos de dados de preferências declaradas em economia, conforme descrito em Hausman (2012) .
Um tema principal desses debates é que o comportamento relatado nem sempre é preciso. Mas, como foi descrito no capítulo 2, as fontes de big data podem não ser precisas, elas podem não ser coletadas em uma amostra de interesse e podem não estar acessíveis aos pesquisadores. Assim, acho que, em algumas situações, o comportamento relatado pode ser útil. Além disso, um segundo tema principal desses debates é que os relatórios sobre emoções, conhecimentos, expectativas e opiniões nem sempre são precisos. Mas, se a informação sobre esses estados internos é necessária para os pesquisadores - seja para ajudar a explicar algum comportamento ou como a coisa a ser explicada -, então perguntar pode ser apropriado. É claro que aprender sobre estados internos fazendo perguntas pode ser problemático porque às vezes os próprios respondentes não estão cientes de seus estados internos (Nisbett and Wilson 1977) .
O Capítulo 1 de Groves (2004) faz um excelente trabalho, conciliando a terminologia ocasionalmente inconsistente usada pelos pesquisadores da pesquisa para descrever a estrutura total do erro de pesquisa. Para um tratamento completo do quadro de erro total da pesquisa, ver Groves et al. (2009) , e para uma visão histórica, ver Groves and Lyberg (2010) .
A ideia de decompor erros em viés e variância também aparece no aprendizado de máquina; ver, por exemplo, a seção 7.3 de Hastie, Tibshirani, and Friedman (2009) . Isso geralmente leva os pesquisadores a falar sobre um trade-off de “viés-viés”.
Em termos de representação, uma ótima introdução para as questões do viés de não-resposta e não-resposta é o relatório do Conselho Nacional de Pesquisa Não Respondido em Pesquisas em Ciências Sociais: Uma Agenda de Pesquisa (2013) . Outra visão útil é fornecida por Groves (2006) . Além disso, edições especiais inteiras da Revista de Estatísticas Oficiais , Opinião Pública Trimestral , e os Anais da Academia Americana de Ciências Políticas e Sociais foram publicados sobre o tema da não-resposta. Finalmente, existem muitas maneiras diferentes de calcular a taxa de resposta; Essas abordagens são descritas em detalhes em um relatório da Associação Americana de Pesquisadores de Opinião Pública (AAPOR) ( ??? ) .
Para mais informações sobre a pesquisa da Literary Digest de 1936, ver Bryson (1976) , Squire (1988) , Cahalan (1989) e Lusinchi (2012) . Para outra discussão desta pesquisa como uma advertência parábola contra a coleta de dados aleatória, ver Gayo-Avello (2011) . Em 1936, George Gallup usou uma forma mais sofisticada de amostragem e conseguiu produzir estimativas mais precisas com uma amostra muito menor. O sucesso da Gallup sobre a Literary Digest foi um marco no desenvolvimento da pesquisa, como é descrito no capítulo 3 de @ converse_survey_1987; capítulo 4 de Ohmer (2006) ; e capítulo 3 de @ igo_averaged_2008.
Em termos de mensuração, um ótimo primeiro recurso para projetar questionários é Bradburn, Sudman, and Wansink (2004) . Para tratamentos mais avançados, ver Schuman and Presser (1996) , que é especificamente focado em questões de atitude, e Saris and Gallhofer (2014) , que é mais geral. Uma abordagem ligeiramente diferente da medição é feita em psicometria, como descrito em ( ??? ) . Mais sobre o pré-teste está disponível em Presser and Blair (1994) , Presser et al. (2004) e capítulo 8 de Groves et al. (2009) . Para mais informações sobre experimentos de pesquisa, veja Mutz (2011) .
Em termos de custo, o tratamento classico do compro- metimento do custo entre os custos da pesquisa e os erros de pesquisa é Groves (2004) .
Dois tratamentos clássicos de tamanho de livro de amostragem probabilística padrão e estimativa são Lohr (2009) (mais introdutórios) e Särndal, Swensson, and Wretman (2003) (mais avançados). Um tratamento de livro clássico de pós-estratificação e métodos relacionados é Särndal and Lundström (2005) . Em alguns contextos da era digital, os pesquisadores sabem um pouco sobre os não respondentes, o que não costumava ser verdade no passado. Diferentes formas de ajuste de não resposta são possíveis quando os pesquisadores têm informações sobre os não-respondentes, conforme descrito por Kalton and Flores-Cervantes (2003) e Smith (2011) .
O estudo do Xbox de W. Wang et al. (2015) usa uma técnica chamada de regressão multinível e pós-estratificação (“Mr. P.”) que permite aos pesquisadores estimar médias de grupo mesmo quando há muitos, muitos grupos. Embora haja algum debate sobre a qualidade das estimativas desta técnica, parece uma área promissora para explorar. A técnica foi usada pela primeira vez em Park, Gelman, and Bafumi (2004) , e tem havido uso e debate subsequentes (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Para mais informações sobre a conexão entre pesos individuais e pesos de grupo, veja Gelman (2007) .
Para outras abordagens para ponderar pesquisas na web, ver Schonlau et al. (2009) , Bethlehem (2010) e Valliant and Dever (2011) . Os painéis on-line podem usar amostragem probabilística ou amostragem não probabilística. Para mais sobre painéis online, veja Callegaro et al. (2014) .
Às vezes, os pesquisadores descobriram que amostras de probabilidades e amostras não probabilísticas produzem estimativas de qualidade similar (Ansolabehere and Schaffner 2014) , mas outras comparações descobriram que amostras não probabilísticas são piores (Malhotra and Krosnick 2007; Yeager et al. 2011) . Uma razão possível para essas diferenças é que as amostras não probabilísticas melhoraram com o tempo. Para uma visão mais pessimista dos métodos de amostragem não probabilística, consulte a Força Tarefa da AAPOR sobre amostragem não probabilística (Baker et al. 2013) , e também recomendo a leitura do comentário que segue o relatório resumido.
Conrad and Schober (2008) é um volume editado intitulado Envisioning the Survey Entrevista of the Future , e oferece uma variedade de pontos de vista sobre o futuro de fazer perguntas. Couper (2011) aborda temas semelhantes e Schober et al. (2015) oferecem um bom exemplo de como os métodos de coleta de dados adaptados a uma nova configuração podem resultar em dados de maior qualidade. Schober and Conrad (2015) oferecem um argumento mais geral sobre a continuação do ajuste do processo de pesquisa de pesquisa para acompanhar as mudanças na sociedade.
Tourangeau and Yan (2007) revisam questões de viés de desejabilidade social em questões sensíveis, e Lind et al. (2013) oferecem algumas possíveis razões pelas quais as pessoas podem divulgar informações mais sensíveis em uma entrevista administrada por computador. Para mais informações sobre o papel dos entrevistadores humanos no aumento das taxas de participação em pesquisas, ver Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) e Schaeffer et al. (2013) . Para mais informações sobre pesquisas de modo misto, veja Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) oferecem um tratamento de comprimento de livro de avaliação momentânea ecológica e métodos relacionados.
Para mais conselhos sobre como tornar as pesquisas uma experiência agradável e valiosa para os participantes, consulte o trabalho sobre o Método de Design Personalizado (Dillman, Smyth, and Christian 2014) . Para outro exemplo interessante de usar aplicativos do Facebook para pesquisas de ciências sociais, consulte Bail (2015) .
Judson (2007) descreve o processo de combinar pesquisas e dados administrativos como “integração de informações” e discute algumas vantagens dessa abordagem, além de oferecer alguns exemplos.
Em relação à pergunta enriquecida, houve muitas tentativas anteriores de validar o voto. Para uma visão geral dessa literatura, ver Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) e Berent, Krosnick, and Lupia (2016) . Veja Berent, Krosnick, and Lupia (2016) para uma visão mais cética dos resultados apresentados em Ansolabehere and Hersh (2012) .
É importante notar que, embora Ansolabehere e Hersh tenham sido encorajados pela qualidade dos dados da Catalist, outras avaliações de fornecedores comerciais foram menos entusiasmadas. Pasek et al. (2014) encontraram baixa qualidade quando os dados de uma pesquisa foram comparados com um arquivo de consumidor do Marketing Systems Group (que combinou dados de três fornecedores: Acxiom, Experian e InfoUSA). Ou seja, o arquivo de dados não correspondia às respostas da pesquisa que os pesquisadores esperavam estar corretos, o arquivo do consumidor tinha dados ausentes para um grande número de perguntas e o padrão de dados ausentes estava correlacionado com o valor da pesquisa relatada (em outras palavras, a falta os dados foram sistemáticos, não aleatórios).
Para mais informações sobre a vinculação recorde entre pesquisas e dados administrativos, consulte Sakshaug and Kreuter (2012) e Schnell (2013) . Para mais informações sobre linkage em geral, veja Dunn (1946) e Fellegi and Sunter (1969) (histórico) e Larsen and Winkler (2014) (moderno). Abordagens semelhantes também foram desenvolvidas na ciência da computação sob nomes como desduplicação de dados, identificação de instâncias, correspondência de nomes, detecção de duplicatas e detecção de registros duplicados (Elmagarmid, Ipeirotis, and Verykios 2007) . Há também abordagens de preservação da privacidade para registrar a ligação que não exigem a transmissão de informações de identificação pessoal (Schnell 2013) . Pesquisadores do Facebook desenvolveram um procedimento para relacionar probabilisticamente seus registros ao comportamento de voto (Jones et al. 2013) ; essa ligação foi feita para avaliar um experimento sobre o qual eu vou falar no capítulo 4 (Bond et al. 2012) . Para obter mais informações sobre a obtenção de consentimento para vinculação de registros, consulte Sakshaug et al. (2012) .
Outro exemplo de vincular uma pesquisa social em larga escala a registros administrativos do governo vem da Pesquisa de Saúde e Aposentadoria e da Administração da Previdência Social. Para mais sobre esse estudo, incluindo informações sobre o procedimento de consentimento, ver Olson (1996, 1999) .
O processo de combinar muitas fontes de registros administrativos em um arquivo de dados mestre - o processo que o Catalist emprega - é comum nos escritórios estatísticos de alguns governos nacionais. Dois pesquisadores da Statistics Sweden escreveram um livro detalhado sobre o tema (Wallgren and Wallgren 2007) . Para um exemplo dessa abordagem em um único condado nos Estados Unidos (Olmstead County, Minnesota; sede da Mayo Clinic), ver Sauver et al. (2011) . Para mais informações sobre erros que podem aparecer em registros administrativos, veja Groen (2012) .
Outra maneira pela qual os pesquisadores podem usar fontes de big data na pesquisa de pesquisa é como um quadro de amostragem para pessoas com características específicas. Infelizmente, essa abordagem pode levantar questões relacionadas à privacidade (Beskow, Sandler, and Weinberger 2006) .
Em relação à pergunta amplificada, essa abordagem não é tão nova quanto pode parecer de como eu a descrevi. Ele tem conexões profundas com três grandes áreas nas estatísticas: pós-estratificação baseada em modelos (Little 1993) , imputação (Rubin 2004) e estimativa de pequenas áreas (Rao and Molina 2015) . Também está relacionado ao uso de variáveis substitutas na pesquisa médica (Pepe 1992) .
As estimativas de custo e tempo em Blumenstock, Cadamuro, and On (2015) referem-se mais ao custo variável - o custo de uma pesquisa adicional - e não incluem custos fixos, como o custo de limpeza e processamento dos dados da chamada. Em geral, os pedidos amplificados provavelmente terão altos custos fixos e baixos custos variáveis semelhantes aos dos experimentos digitais (ver capítulo 4). Para mais informações sobre pesquisas baseadas em telefones celulares em países em desenvolvimento, veja Dabalen et al. (2016) .
Para idéias sobre como fazer amplificação perguntando melhor, eu recomendo aprender mais sobre imputação múltipla (Rubin 2004) . Além disso, se os pesquisadores que estão fazendo amplificação perguntando sobre contagens agregadas, em vez de traços de nível individual, então as abordagens em King and Lu (2008) e Hopkins and King (2010) podem ser úteis. Finalmente, para mais sobre as abordagens de aprendizado de máquina em Blumenstock, Cadamuro, and On (2015) , ver James et al. (2013) (mais introdutório) ou Hastie, Tibshirani, and Friedman (2009) (mais avançado).
Uma questão ética em relação à pergunta amplificada é que ela pode ser usada para inferir características sensíveis que as pessoas talvez não escolham revelar em uma pesquisa, como descrito em Kosinski, Stillwell, and Graepel (2013) .