Mesmo que ele pode ser confuso, perguntando enriquecido pode ser poderoso.
Uma abordagem diferente para lidar com a incompletude dos dados de rastreio digital é enriquecê-lo diretamente com dados da pesquisa, um processo que eu vou chamar perguntando enriquecido. Um exemplo de perguntar enriquecido é o estudo de Burke and Kraut (2014) , que descrevi anteriormente no capítulo (Seção 3.2), sobre se interagir no Facebook aumenta a força da amizade. Nesse caso, Burke e Kraut combinada dados da pesquisa com os dados de registro do Facebook.
A configuração que Burke e Kraut estava trabalhando, no entanto, significa que eles não têm de lidar com dois grandes problemas que os pesquisadores fazendo cara pedindo enriquecido. Em primeiro lugar, na verdade, interligando os conjuntos-a dados do processo chamado de linkage, a correspondência de um registro em um conjunto de dados com o registro adequado no outro conjunto de dados-pode ser difícil e propenso a erros (vamos ver um exemplo deste problema abaixo ). A segunda principal problema de pedir enriquecido é que a qualidade dos vestígios digitais irá frequentemente ser difícil para os investigadores a avaliar. Por exemplo, às vezes o processo através do qual ele é coletado é proprietário e poderia ser suscetível a muitos dos problemas descritos no Capítulo 2. Em outras palavras, pedindo enriquecida com frequência envolve a ligação propenso a erros de inquéritos para fontes de desconhecido de dados de caixa-preta qualidade. Apesar das preocupações que estes dois problemas introduzir, é possível realizar pesquisas importantes com esta estratégia, como foi demonstrado por Stephen Ansolabehere e Eitan Hersh (2012) em sua pesquisa sobre os padrões de votação em os EUA. Vale a pena passar por cima deste estudo com algum detalhe, porque muitas das estratégias que Ansolabehere e Hersh desenvolvidos serão úteis em outras aplicações de pedir enriquecido.
A afluência às urnas tem sido objecto de uma extensa pesquisa em ciência política, e no passado, a compreensão dos pesquisadores de quem vota e por que geralmente tem sido baseada na análise de dados de pesquisa. A votação para os EUA, no entanto, é um comportamento incomum em que os registros do governo se cada cidadão tenha votado (claro, o governo não gravadoras que cada cidadão vota para). Por muitos anos, esses registros de voto governamentais estavam disponíveis em formulários de papel, espalhados em vários escritórios do governo local em todo o país. Isto tornou difícil, mas não impossível, para os cientistas políticos para ter um quadro completo do eleitorado e comparar o que as pessoas dizem nas pesquisas sobre a votação ao seu comportamento de votação em si (Ansolabehere and Hersh 2012) .
Mas, agora, esses registros de votação foram digitalizados, e uma série de empresas privadas têm sistematicamente recolhidas e fundidas esses registros de voto para produzir arquivos abrangentes de voto mestre que registram o comportamento de voto de todos os americanos. Ansolabehere e Hersh parceria com uma dessas empresas-Catalist LCC-in para usar seu arquivo de votação mestre para ajudar a desenvolver uma melhor imagem do eleitorado. Além disso, porque se baseou em registros digitais recolhidas e curada por uma empresa, que oferecia uma série de vantagens sobre os esforços anteriores de pesquisadores que tinham sido feitas sem o auxílio de empresas e usando discos analógicos.
Como muitas das fontes de rastreamento digitais no Capítulo 2, o arquivo mestre Catalist não incluem muitas das informações demográficas, atitudinais e comportamentais que Ansolabehere e Hersh necessário. Além desta informação, Ansolabehere e Hersh estavam particularmente interessados em comparar o comportamento eleitoral informou ao comportamento de voto validados (ou seja, as informações no banco de dados Catalist). Assim, os pesquisadores coletaram os dados que eles queriam como parte do Congresso Estudo Cooperativo de Eleições (CCES), um grande levantamento social. Em seguida, os pesquisadores deram esses dados para Catalist e Catalist deu os pesquisadores apoiar um arquivo mesclado dados que incluíam validado comportamento de voto (de Catalist), o comportamento eleitoral auto-referida (de CCES) e os dados demográficos e atitudes dos respondentes (de CCES ). Em outras palavras, Ansolabehere e Hersh enriquecido os dados de votação com dados da pesquisa, eo arquivo intercalado resultante permite-lhes fazer algo que nem o arquivo habilitado individualmente.
Enriquecendo o arquivo de dados mestre Catalist com dados da pesquisa, Ansolabehere e Hersh chegou a três conclusões importantes. Primeiro, o excesso de relatórios de votação é galopante: quase metade dos não-eleitores relataram votação. Ou, uma outra maneira de olhar para ele é se alguém relatou votação, só há uma chance de 80% que eles realmente votaram. Em segundo lugar, excesso de informação não é aleatória; excesso de informação é mais comum entre os de alta renda, bem-educado, partidários que estão envolvidas em assuntos públicos. Em outras palavras, as pessoas que são mais propensos a votar também são mais propensos a mentir sobre a votação. Terceiro, e mais criticamente, por causa da natureza sistemática de excesso de informação, as diferenças reais entre os eleitores e não-eleitores são menores do que parecem só a partir de inquéritos. Por exemplo, aqueles com um diploma de bacharel são cerca de 22 pontos percentuais mais propensos a relatar a votação, mas são apenas 10 pontos percentuais mais propensos a votação real. Além disso, as teorias baseadas em recursos existentes de voto são muito melhores em prever quem irá relatar de voto do que quem realmente votos, uma observação empírica de que exige novas teorias para compreender e prever votação.
Mas, quanto devemos confiar nesses resultados? Lembre-se estes resultados dependem da ligação propenso a erros de dados de caixa-preta com quantidades desconhecidas de erro. Mais especificamente, os resultados dependem de duas etapas principais: 1) a capacidade de Catalist de combinar várias fontes de dados diferentes para produzir um arquivo de dados mestre precisa e 2) a capacidade de Catalist para vincular os dados da pesquisa ao seu arquivo de dados mestre. Cada uma dessas etapas é bastante difícil e erros em um ou outro passo poderia levar os pesquisadores a conclusões erradas. No entanto, tanto o processamento de dados e correspondência são fundamentais para a existência continuada de Catalist como uma empresa para que ele possa investir recursos para resolver estes problemas, muitas vezes em uma escala que nenhum pesquisador acadêmico indivíduo ou grupo de pesquisadores pode igualar. Na leitura adicional no final do capítulo, eu descrevo estes problemas de forma mais detalhada e como Ansolabehere e Hersh construir a confiança em seus resultados. Embora esses detalhes são específicos para este estudo, questões semelhantes a estas irão surgir para outros pesquisadores que desejam conectar-se a fontes de dados de rastreio digital de caixa-preta.
Quais são as lições gerais pesquisadores podem tirar deste estudo? Primeiro, há um enorme valor de enriquecer vestígios digitais com dados de pesquisa. Em segundo lugar, mesmo que estes agregados, fontes de dados comerciais não deve ser considerado "verdade terreno", em alguns casos, eles podem ser úteis. Na verdade, o melhor é comparar essas fontes de dados não Verdade absoluta (a partir do qual eles sempre ficam aquém). Em vez disso, é melhor compará-los com outras fontes de dados disponíveis, o que invariavelmente têm erros também.