No importa qué tan "grandes" sus "grandes datos", probablemente no tiene la información que desea.
La mayoría de las grandes fuentes de datos son incompletos, en el sentido de que no tienen la información que usted desee para su investigación. Esta es una característica común de los datos que se crearon para fines distintos de la investigación. Muchos científicos sociales ya han tenido la experiencia de tratar con el carácter incompleto, como por ejemplo una encuesta existente que no se haga la pregunta que quería. Desafortunadamente, los problemas de la incompletitud tienden a ser más extrema en grandes volúmenes de datos. En mi experiencia, los grandes datos tiende a perderse tres tipos de información útiles para la investigación social: la demografía, el comportamiento en otras plataformas, y los datos para poner en funcionamiento las construcciones teóricas.
Los tres de estas formas de incompletitud se ilustran en un estudio realizado por Gueorgi Kossinets y Duncan Watts (2006) sobre la evolución de la red social en una universidad. Kossinets y Watts comenzaron con los registros de correo electrónico de la universidad, que tenían información precisa sobre quién envió correos electrónicos a los cuales en qué momento (los investigadores no tienen acceso al contenido de los mensajes de correo electrónico). Estos registros de correo electrónico suenan como un conjunto de datos increíble, pero, que son, a pesar de su tamaño y granularidad-fundamentalmente incompleta. Por ejemplo, los registros de correo electrónico no incluyen datos sobre las características demográficas de los estudiantes, como el género y la edad. Además, los registros de correo electrónico no incluyen información acerca de la comunicación a través de otros medios, tales como llamadas telefónicas, mensajes de texto o conversaciones cara a cara. Por último, los registros de correo electrónico no incluyen directamente la información sobre las relaciones, las construcciones teóricas en muchas teorías existentes. Más adelante en el capítulo, cuando hablo de estrategias de investigación, verá cómo Kossinets y Watts resuelven estos problemas.
De los tres tipos de imperfección, el problema de los datos incompletos para poner en funcionamiento las construcciones teóricas es el más difícil de resolver, y en mi experiencia, a menudo se pasa por alto accidentalmente por científicos de datos. A grandes rasgos, las construcciones teóricas son ideas abstractas que estudian los científicos sociales, pero, por desgracia, estas construcciones no siempre pueden ser inequívocamente definidos y medidos. Por ejemplo, imaginemos que intenta probar empíricamente la afirmación aparentemente simple que las personas que son más inteligentes ganan más dinero. Con el fin de probar esta afirmación que tendría que medir la "inteligencia". Pero, ¿qué es la inteligencia? Por ejemplo, Gardner (2011) argumentó que en realidad hay ocho formas diferentes de inteligencia. Y, ¿hay procedimientos que podrían medir con precisión cualquiera de estas formas de inteligencia? A pesar de enormes cantidades de trabajo por parte de los psicólogos, estas preguntas aún no tienen respuestas claras. Por lo tanto, incluso un número relativamente simples de reclamación, personas que son más inteligentes ganan más dinero, puede ser difícil de evaluar empíricamente, ya que puede ser difícil de poner en práctica las construcciones teóricas de datos. Otros ejemplos de construcciones teóricas que son importantes, pero difícil de poner en práctica incluir "normas", "capital social" y la "democracia". Los científicos sociales llaman el partido entre las construcciones teóricas y la validez de constructo de datos (Cronbach and Meehl 1955) . Y, como esta lista de construcciones sugiere, la validez de constructo es un problema que los científicos sociales han luchado durante mucho tiempo, incluso cuando estaban trabajando con los datos recogidos para fines de investigación. Cuando se trabaja con datos recogidos con fines distintos de la investigación, los problemas de la validez de constructo son aún más difíciles (Lazer 2015) .
Cuando usted está leyendo un artículo de investigación, de una manera rápida y útil para evaluar las preocupaciones sobre la validez de constructo es tomar la reivindicación principal en el papel, que por lo general se expresa en términos de construcciones, y re-expresar en términos de los datos utilizados. Por ejemplo, considere dos estudios hipotéticos que pretenden demostrar que las personas más inteligentes ganan más dinero:
En ambos casos, los investigadores podrían afirmar que ellos han demostrado que las personas más inteligentes ganan más dinero. Pero, en el primer estudio los constructos teóricos son bien operacionalizaron por los datos, y en el segundo no lo son. Además, como ilustra este ejemplo, más datos no resuelve automáticamente los problemas con la validez de constructo. Usted debe dudar de los resultados del Estudio 2 si se trataba de un millón de tweets, de mil millones de tweets, o un billón de tweets. Para los investigadores no están familiarizados con la idea de la validez de constructo, la Tabla 2.2 presenta algunos ejemplos de estudios que han operacionalizados construcciones teóricas utilizando los datos de seguimiento digitales.
rastro digital | constructo teórico | Citación |
---|---|---|
los registros de correo electrónico de una universidad (sólo meta-datos) | Relaciones sociales | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
mensajes de redes sociales en Weibo | Compromiso civil | Zhang (2016) |
los registros de correo electrónico de una empresa (meta-datos y de texto completo) | adaptación a la cultura en una organización | Goldberg et al. (2015) |
Aunque el problema de los datos incompletos para hacer operativas las construcciones teóricas es bastante difícil de resolver, hay tres soluciones comunes al problema de la información demográfica incompleta y la información incompleta sobre el comportamiento en otras plataformas. La primera es en realidad para recoger los datos que necesita; Te voy a decir acerca de un ejemplo de ello en el capítulo 3 cuando le diga acerca de las encuestas. Desafortunadamente, este tipo de recolección de datos no es siempre posible. La segunda solución principal es hacer lo que los científicos llaman la inferencia de datos de usuario en atributos y lo que los científicos sociales llaman imputación. En este enfoque, los investigadores utilizan la información que tienen en algunas personas para inferir atributos de otras personas. La tercera solución posible, la utilizada por Kossinets y Watts-era combinar múltiples fuentes de datos. Este proceso se llama a veces la fusión o la vinculación de registros. Mi metáfora favorita para este proceso fue propuesto en el primer párrafo del primer artículo jamás escrito sobre vinculación de registros (Dunn 1946) :
"Cada persona en el mundo crea un libro de la vida. Este libro comienza con el nacimiento y termina con la muerte. En sus páginas se componen de los registros de los principales acontecimientos de la vida. vinculación de registros es el nombre dado al proceso de montaje de las páginas de este libro en un volumen ".
Este pasaje fue escrito en 1946, y en ese momento, la gente pensaba que el libro de la vida podría incluir los principales acontecimientos de la vida como el nacimiento, el matrimonio, el divorcio y la muerte. Sin embargo, ahora que tanta información acerca de las personas se registra, el libro de la vida podría ser un retrato increíblemente detallado, si esos diferentes páginas (es decir, nuestras huellas digitales), se pueden enlazar juntos. Este libro de la vida podría ser un gran recurso para los investigadores. Sin embargo, el Libro de la Vida también podría llamarse una base de datos de la ruina (Ohm 2010) , que podría ser utilizado para todo tipo de fines no éticos, como se describe más abajo, cuando hablo de la naturaleza sensible de la información recogida por las fuentes de datos grandes debajo y en el capítulo 6 (Ética).