A pesar de que puede ser un poco incómodo, que pide enriquecido puede ser de gran alcance.
Un enfoque diferente para tratar con el carácter incompleto de los datos de rastreo digital es enriquecerla directamente con los datos de la encuesta, un proceso que voy a llamar preguntando enriquecido. Un ejemplo de preguntar enriquecido es el estudio de Burke and Kraut (2014) , que he descrito anteriormente en el capítulo (sección 3.2), acerca de si la interacción en Facebook aumenta la fuerza de la amistad. En ese caso, Burke y Kraut combinaron los datos de la encuesta con los datos de registro de Facebook.
La configuración que Burke y Kraut estaban trabajando en el, sin embargo, significa que ellos no tienen que hacer frente a dos grandes problemas que los investigadores que hacen la cara pidiendo enriquecido. En primer lugar, en realidad vincular entre sí los conjuntos de datos, un proceso llamado fusión de registros, la adecuación de un registro en un conjunto de datos con el registro correspondiente en el otro conjunto de datos, puede ser difícil y propenso a errores (veremos un ejemplo de este problema más adelante ). El segundo problema principal de preguntar enriquecido es que la calidad de las huellas digitales frecuentemente será difícil para los investigadores evaluar. Por ejemplo, a veces el proceso a través del cual se recoge es propietario y podría ser susceptible a muchos de los problemas que se describen en el capítulo 2. En otras palabras, que pide enriquecido a menudo suponen vinculación propenso a errores de las encuestas a las fuentes de datos de recuadro negro de desconocido calidad. A pesar de las preocupaciones de que estos dos problemas introducen, es posible llevar a cabo importantes investigaciones con esta estrategia como se demostró por Stephen Ansolabehere y Eitan Hersh (2012) en su investigación sobre los patrones de votación en los EE.UU.. Vale la pena repasar este estudio con cierto detalle porque muchas de las estrategias que Ansolabehere y Hersh desarrollaron será útil en otras aplicaciones de pedir enriquecido.
La participación electoral ha sido objeto de una amplia investigación en ciencias políticas, y en el pasado, comprensión de los investigadores de quién vota y por qué generalmente se ha basado en el análisis de los datos de la encuesta. La votación en los EE.UU., sin embargo, es un comportamiento inusual en que los registros del gobierno si cada ciudadano ha votado (por supuesto, el gobierno no discográficas que cada ciudadano vota para). Durante muchos años, estos registros de votación gubernamentales estaban disponibles en formularios de papel, dispersos en varias oficinas gubernamentales locales en todo el país. Esto hace que sea difícil, pero no imposible, para los científicos políticos para tener una imagen completa de los electores, y comparar lo que se dice en las encuestas sobre la votación para su comportamiento electoral real (Ansolabehere and Hersh 2012) .
Sin embargo, ahora estos registros de votación han sido digitalizadas, y una serie de empresas privadas han recopilado y se fusionó estos registros de votación para producir archivos completos de votación maestra que registran el comportamiento del voto de todos los estadounidenses. Ansolabehere y Hersh se asociaron con una de estas empresas Catalist-LCC-con el fin de utilizar su archivo principal de votantes para ayudar a desarrollar una idea más clara de los electores. Además, porque se basó en registros digitales recogidas y curada por una empresa, que ofrece una serie de ventajas sobre los anteriores esfuerzos de los investigadores que se habían hecho sin la ayuda de las empresas y el uso de discos analógicos.
Como muchos de los orígenes de seguimiento digitales en el capítulo 2, el archivo maestro Catalist no incluía gran parte de la información demográfica, de actitud y de comportamiento que necesitan Ansolabehere y Hersh. Además de esta información, Ansolabehere y Hersh estaban particularmente interesados en comparar el comportamiento de voto informado de que el comportamiento de votación validado (es decir, la información contenida en la base de datos Catalist). Por lo tanto, los investigadores recogieron los datos que querían como parte del Estudio Cooperativo del Congreso Elección (CCES), una gran encuesta social. A continuación, los investigadores dieron a estos datos a Catalist, y Catalist dieron a los investigadores un archivo resultante de la fusión de datos que incluía validó el comportamiento electoral (de Catalist), el comportamiento electoral de auto-reporte (de CCES) y los datos demográficos y las actitudes de los encuestados (de CCES ). En otras palabras, Ansolabehere y Hersh enriquecen los datos de la votación con datos de la encuesta, y el archivo combinado resultante les permite hacer algo que ninguno de los archivos activar de forma individual.
Al enriquecer el archivo de datos maestros Catalist con datos de la encuesta, Ansolabehere y Hersh llegaron a tres conclusiones importantes. En primer lugar, la información deficiente de la votación está muy extendido: casi la mitad de los no votantes informó de votación. O bien, otra manera de ver esto es que si alguien informó de votación, sólo hay una probabilidad del 80% que en realidad votaron. En segundo lugar, la información deficiente no es al azar; exceso de información es más común entre los de ingresos altos, bien educada, partidarios que se dedican a los asuntos públicos. En otras palabras, las personas que tienen más probabilidades de votar también son más propensos a mentir sobre la votación. En tercer lugar, y lo más crítico, debido a la naturaleza sistemática de la información deficiente, las diferencias reales entre los votantes y no votantes son más pequeñas de lo que parecen simplemente a partir de encuestas. Por ejemplo, los que tienen una licenciatura son aproximadamente 22 puntos porcentuales más propensos a informar de votación, pero son sólo 10 puntos porcentuales más probabilidades de voto real. Además, las teorías basadas en los recursos electorales actuales son mucho mejores para predecir quien reportará la votación de que en realidad votos, un hallazgo empírico de que exige nuevas teorías para entender y predecir la votación.
Pero, ¿cuánto deberíamos confiar en estos resultados? Recuerde que estos resultados dependen de la vinculación propenso a errores a los datos de recuadro negro con cantidades desconocidas de error. Más específicamente, los resultados dependen de dos pasos fundamentales: 1) la capacidad de Catalist combinar muchas fuentes de datos dispares para producir un archivo de datos principal preciso y 2) la capacidad de Catalist para enlazar los datos de la encuesta a su archivo de datos principal. Cada uno de estos pasos es bastante difícil y errores en cualquier paso se podría llevar a los investigadores a conclusiones erróneas. Sin embargo, tanto el procesamiento y el ajuste de datos son fundamentales para la existencia continua de Catalist como una empresa para que pueda invertir recursos en la solución de estos problemas, a menudo en una escala que ningún investigador académico individual o un grupo de investigadores pueden igualar. En la lectura, además, al final del capítulo, describo estos problemas en mayor detalle y cómo Ansolabehere y Hersh construir confianza en sus resultados. A pesar de que estos detalles son específicos de este estudio, se plantean cuestiones similares a las de otros investigadores que deseen enlazar a-box negro fuentes de datos de rastreo digital.
¿Cuáles son las lecciones generales investigadores pueden extraer de este estudio? En primer lugar, hay un enorme valor a partir de enriquecimiento de huellas digitales con datos de la encuesta. En segundo lugar, a pesar de que estos agregados, fuentes de datos comerciales no deben considerarse "verdad terreno", en algunos casos, pueden ser útiles. De hecho, lo mejor es comparar estas fuentes de datos no a la verdad absoluta (de la que siempre se quedará corto). Más bien, es mejor comparar con otras fuentes de datos disponibles, que invariablemente tienen errores también.