Aínda que pode ser confuso, preguntando enriquecido pode ser poderoso.
Unha visión diferente para xestionar a incompletude dos datos de seguimento dixital e enriquece-lo directamente con datos da investigación, un proceso que eu vou chamar pregunta enriquecido. Un exemplo de preguntar enriquecido é o estudo de Burke and Kraut (2014) , que describe anteriormente no capítulo (Sección 3.2), sobre se interactuar en Facebook aumenta a forza da amizade. Neste caso, Burke e Kraut combinada datos da investigación cos datos de rexistro de Facebook.
A configuración que Burke e Kraut estaba traballando, con todo, significa que eles non teñen que tratar con dous grandes problemas que os investigadores facendo cara pedindo enriquecido. En primeiro lugar, en realidade, interligando os conxuntos a datos do proceso chamado Linkage, a correspondencia de un rexistro nun conxunto de datos co rexistro axeitado o outro conxunto de datos-pode ser difícil e propenso a erros (imos ver un exemplo deste problema baixo ). A segunda principal problema de pedir enriquecido é que a calidade dos restos dixitais pode frecuentemente ser difícil para os investigadores a avaliar. Por exemplo, ás veces o proceso a través do cal el é traído é propietario e podería ser susceptible a moitos dos problemas descritos no capítulo 2. Noutras palabras, pedindo enriquecida con frecuencia implica a conexión propenso a erros de enquisas para fontes de descoñecido de datos de caixa negra calidade. A pesar das preocupacións que estes dous problemas introducir, é posible realizar investigacións importantes con esta estratexia, como foi demostrado por Stephen Ansolabehere e Eitan Hersh (2012) na súa investigación sobre as normas de votación en EEUU. Paga a pena pasar por riba deste estudo con algún detalle, porque moitas das estratexias que Ansolabehere e Hersh desenvolvidos serán útiles noutras aplicacións de pedir enriquecido.
A afluencia ás urnas foi obxecto dunha extensa investigación en ciencia política, e no pasado, a comprensión dos investigadores de quen vota e por que xeralmente foi baseada na análise de datos de investigación. A votación para os Estados Unidos, con todo, é un comportamento inusual en que os rexistros do goberno cada cidadán teña votado (claro, o goberno non discográficas que cada cidadán vota para). Por moitos anos, estes rexistros de voto gobernamentais estaban dispoñibles en formularios de papel, espallados en varios oficinas do goberno local en todo o país. Isto tornouse difícil, pero non imposible, para os científicos políticos para ter un cadro completo do electorado e comparar o que a xente di nas investigacións sobre a votación ao seu comportamento de votación en si (Ansolabehere and Hersh 2012) .
Pero, agora, estes rexistros de votación foron dixitalizados, e unha serie de empresas privadas teñen sistematicamente recollidas e fundidas estes rexistros de voto para producir arquivos ampla de voto mestre que rexistran o comportamento de voto de todos os americanos. Ansolabehere e Hersh colaboración cunha destas empresas-Catalist LCC-in para usar o seu arquivo de votación mestre para axudar a desenvolver unha mellor imaxe do electorado. Ademais, porque se baseou en rexistros dixitais recollidas e curada por unha empresa, que ofrecía unha serie de vantaxes sobre os esforzos anteriores de investigadores que foran feitas sen o auxilio de empresas e mediante discos analóxicos.
Como moitas das fontes de seguimento dixital no capítulo 2, o arquivo mestre Catalist non inclúen moitas das informacións demográficas, atitudinais e de comportamento que Ansolabehere e Hersh necesario. Ademais desta información, Ansolabehere e Hersh estaban particularmente interesados en comparar o comportamento electoral indicou ao comportamento de voto validados (é dicir, a información na base de datos Catalist). Así, os investigadores recadaron os datos que eles querían como parte do Congreso Estudo Cooperativo de Eleccións (CCES), un gran levantamento social. A continuación, os investigadores deron estes datos para Catalist e Catalist deu os investigadores apoiar un ficheiro mezclado datos que incluían validado comportamento de voto (de Catalist), o comportamento electoral auto-referida (de CCES) e os datos demográficos e actitudes dos respondentes (de CCES ). Noutras palabras, Ansolabehere e Hersh enriquecido os datos de votación con datos da investigación, eo arquivo intercalado resultante permítelles facer algo que nin o ficheiro activado individualmente.
Enriquecendo o ficheiro de datos mestre Catalist con datos da investigación, Ansolabehere e Hersh chegou a tres conclusións importantes. En primeiro lugar, o exceso de informes de votación é galopante: case a metade dos non-votantes informaron votación. Ou, outra forma de mirar para el e se alguén informou votación, só hai unha oportunidade de 80% que realmente votaron. En segundo lugar, exceso de información non é aleatoria; exceso de información é máis común entre os de alta renda, ben educado, partidarios que están implicadas en asuntos públicos. Noutras palabras, as persoas que son máis propensos a votar tamén son máis propensos a mentir sobre a votación. En terceiro lugar, e máis crítica, por mor da natureza sistemática de exceso de información, as diferenzas reais entre os votantes e non votantes son menores que parecen só desde enquisas. Por exemplo, aqueles con un título de bacharelato son preto de 22 puntos porcentuais máis propensos a informar a votación, pero son só 10 puntos porcentuais máis propensos a votación real. Ademais, as teorías baseadas en recursos existentes de voto son moito mellores en prever quen pode informar de voto que quen realmente votos, unha observación empírica de que esixe novas teorías para entender e predicir votación.
Pero, canto debemos confiar neses resultados? Teña en conta que estes resultados dependen da conexión propenso a erros de datos de caixa negra con cantidades descoñecidas de erro. En concreto, os resultados dependen de dúas etapas principais: 1) a capacidade de Catalist de combinar varias fontes de datos para producir un ficheiro de datos mestre precisa e 2) a capacidade de Catalist para vincular os datos da investigación ao seu ficheiro de datos mestre. Cada unha destas etapas é moi difícil e erros en un ou outro paso podería levar os investigadores a conclusións erradas. Con todo, tanto o proceso de datos e correspondencia son fundamentais para a existencia continuada de Catalist como unha empresa para que poida investir recursos para resolver estes problemas, moitas veces nunha escala que ningún investigador académico individuo ou grupo de investigadores pode igualar. Na lectura adicional ao final do capítulo, eu describo estes problemas de forma máis detallada e como Ansolabehere e Hersh construír a confianza nos seus resultados. Aínda que estes detalles son específicos para este estudo, cuestións semellantes a estas han xurdir a outros investigadores que desexen conectarse a fontes de datos de seguimento dixital de caixa negra.
Cales son as leccións xerais investigadores poden sacar deste estudo? En primeiro lugar, hai un enorme valor de enriquecer vestixios dixitais con datos de investigación. En segundo lugar, aínda que estes áridos, fontes de datos comerciais non debe ser considerado "verdade terreo", nalgúns casos, poden ser útiles. En realidade, o mellor é comparar esas fontes de datos non Verdade absoluta (a partir do cal eles sempre están lonxe). Pola contra, é mellor comparalos-los con outras fontes de datos dispoñibles, o que invariabelmente teñen erros tamén.