2.3.2.1 incompleto

Non importa como "grandes" os seus "grandes datos" probablemente non ten a información que desexa.

A maioría das fontes de datos grandes son incompletas, no sentido de que eles non teñen a información que quere para a súa investigación. Esta é unha característica común de datos que foron creados para fins de investigación. Moitos científicos sociais xa tiveron a experiencia de xestionar a incompletude, como unha busca existente que non facer a pregunta que quería. Desafortunadamente, os problemas de imperfección tenden a ser máis extrema en datos grandes. Na miña experiencia, big data tende a faltar tres tipos de información útil para a investigación social: demografía, comportamento noutras plataformas e datos para operacionalizar construcións teóricas.

Todas estas tres formas de incompletude son ilustradas nun estudo realizado por Gueorgi Kossinets e Duncan Watts (2006) sobre a evolución da rede social nunha universidade. Kossinets e Watts comezou cos rexistros de correo da universidade, que información precisa sobre quen enviou correos electrónicos a quen en que momento (os investigadores non teñen acceso ao contido dos correos electrónicos). Estes rexistros de correo soar como un conxunto de datos incrible, pero, son-a pesar do seu tamaño e granularidade-fundamentalmente incompleta. Por exemplo, os rexistros de correo non inclúen datos sobre as características demográficas dos alumnos, como sexo e idade. Ademais, os rexistros de correo-e non inclúen información sobre a comunicación a través doutros medios, como chamadas de teléfono, mensaxes de texto, ou conversacións cara a cara. Finalmente, os rexistros de correo non inclúen directamente a información sobre relacións, as construcións teóricas en moitas teorías existentes. Posteriormente, no capítulo, cando falar estratexias de busca, podes ver como Kossinets e Watts resolto estes problemas.

De tres tipos de incompletude, o problema de datos incompletos para operacionalizar construcións teóricas é o máis difícil de resolver, e na miña experiencia, moitas veces é esquecido accidentalmente por científicos de datos. Grosso modo, construcións teóricas son ideas abstractas que os científicos sociais estudar, pero, desgraciadamente, estas construcións non sempre poden ser claramente definidos e medidos. Por exemplo, imos imaxinar tentando probar empiricamente a alegación aparentemente simple que as persoas que son máis intelixentes gañar máis diñeiro. Para probar esta reivindicación que precisa para medir a "intelixencia". Pero, o que é intelixencia? Por exemplo, Gardner (2011) argumentou que en realidade hai oito formas diferentes de intelixencia. E, hai procedementos que poden medir con precisión calquera destas formas de intelixencia? A pesar de enormes cantidades de traballo por psicólogos, esas preguntas non teñen resposta inequívocas. Así, mesmo unha relativamente simple reclamación de persoas que son máis intelixentes gañar máis diñeiro pode ser difícil de avaliar empíricamente, porque pode ser difícil de operacionalizar os constructos teóricos de datos. Outros exemplos de construcións teóricas que son importantes, pero difícil de operacionalizar inclúen "normas", "capital social", e "democracia". Os científicos sociais chaman o xogo entre constructos teóricos e validez do construto de datos (Cronbach and Meehl 1955) . E, como este de construcións suxire, validez construto é un problema que os científicos sociais loitaron por un tempo moi longo, mesmo cando eles estaban traballando con datos que foron recollidos para fins de investigación. Ao traballar con datos recollidos para fins que non a investigación fins, os problemas de validez de construción son aínda máis reto (Lazer 2015) .

Cando estás lendo un artigo de investigación, de forma rápida e útil para avaliar as preocupacións sobre a validez da construción é levar a reivindicación principal no papel, que é normalmente expresada en termos de construcións, e re expresarse en termos de datos utilizados. Por exemplo, considere dous estudos hipotéticos que pretenden demostrar que as persoas máis intelixentes gañar máis diñeiro:

  • Estudo 1: as persoas que puntúan ben na proba a Matrices Progresivas Corvo proba ben estudado da intelixencia analítica (Carpenter, Just, and Shell 1990) -Ter maiores ingresos relativos nas súas declaracións de impostos
  • Estudo 2: a xente en Twitter que usaron palabras máis longas son máis propensos a esquecer as marcas de luxo

En ambos os casos, os investigadores poderían afirmar que demostraron que as persoas máis intelixentes gañar máis diñeiro. Pero o primeiro estudo, as construcións teóricas son ben aplicado a través dos datos, e no segundo eles non son. Ademais, como este exemplo ilustra, máis datos non resolve automaticamente os problemas con validez construto. Debe dubidar dos resultados do Estudo 2 involucrarse nun millón de tweets, mil millóns de tweets, ou un billón de tweets. Para os investigadores que non está familiarizado coa idea de validez do construto, Táboa 2.2 presenta algúns exemplos de estudos que operacionalizadas construcións teóricas usando datos de seguimento dixital.

Táboa 2.2: Exemplos de vestixios dixitais que se usan como medidas de conceptos teóricos máis abstractos. Os científicos sociais chaman iso de validez xogo construción e é un gran desafío co uso de fontes de datos grandes para a investigación social (Lazer 2015) .
trace dixital construción teórica cita
rexistros de correo-e de unha universidade (só metadatos) As relacións sociais Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
mensaxes de comunicación social no Weibo compromiso cívico Zhang (2016)
rexistros de correo-e de unha empresa (metadatos e texto completo) adecuación cultural nunha organización Goldberg et al. (2015)

Aínda que o problema de datos incompletos para construcións teóricas operacionalização é moi difícil de resolver, hai tres solucións comúns para o problema da información demográfica incompleta e información incompleta sobre o comportamento en outras plataformas. O primeiro é recoller, en realidade, os datos necesarios; Vou dicir-lle sobre un exemplo de que no capítulo 3, cando eu che dixen sobre investigacións. Desafortunadamente, este tipo de recollida de datos, non sempre é posible. A segunda solución principal é facer o que os científicos chaman datos inferencia-atributo de usuario e o que os científicos sociais chaman imputación. Nesta visión, os investigadores usan a información que teñen sobre algunhas persoas para inferir atributos de outras persoas. A terceira solución posible o utilizado polo Kossinets e Watts-era combinar múltiples fontes de datos. Este proceso é ás veces chamado de fusión ou Linkage. Miña metáfora favorita para este proceso foi proposto no primeiro parágrafo da primeira páxina escrito sobre Linkage (Dunn 1946) :

"Cada persoa no mundo crea un Libro da Vida. Este libro comeza co nacemento e remata coa morte. Súas páxinas están compostas de rexistros do principio eventos na vida. ficha de conexión é o nome dado ao proceso de montaxe as páxinas do libro nun volume ".

Esta pasaxe foi escrita en 1946, e naquel tempo, a xente pensaba que o Libro da Vida figurarán grandes eventos de vida como nacemento, matrimonio, divorcio e morte. Con todo, agora que tanta información sobre as persoas é gravado, o Libro da Vida podería ser un retrato incrible detallados, se estas páxinas diferentes (ou sexa, os nosos trazos dixitais), poden ser ligadas entre si. Este libro da vida pode ser un gran recurso para os investigadores. Pero, o Libro da Vida, tamén podería ser chamado de unha base de datos de ruína (Ohm 2010) , o que podería ser usado para todo tipo de fins non-éticos, como se describe máis abaixo cando falo sobre a natureza sensible da información recollida por fontes de datos grandes abaixo e no capítulo 6 (Ética).