Non importa o quão grande sexa o teu gran dato, probablemente non teña a información que desexes.
A maioría das grandes fontes de datos están incompletas , no sentido de que non teñen a información que desexa para a súa investigación. Esta é unha característica común dos datos que foron creados para fins distintos da investigación. Moitos científicos sociais xa tiveron a experiencia de manexar a incompletitude, como unha enquisa existente que non fixo a pregunta que fose necesaria. Desafortunadamente, os problemas de incompletude tenden a ser máis extremos en grandes datos. Na miña experiencia, os datos grandes adoitan faltar tres tipos de información útiles para a investigación social: información demográfica sobre os participantes, comportamento noutras plataformas e datos para operar as construcións teóricas.
Dos tres tipos de incompletitude, o problema de datos incompletos para operar as construcións teóricas é o máis difícil de resolver. E na miña experiencia, moitas veces accidentalmente pasa por alto. Aproximadamente, as construcións teóricas son ideas abstractas que os científicos sociais estudan e operan unha construción teórica que significa propoñer algún xeito de capturar esa construción con datos observables. Desafortunadamente, este proceso de soño simple moitas veces resulta bastante difícil. Por exemplo, imaxinámonos tratando de probar empíricamente a afirmación aparentemente simple de que as persoas que son máis intelixentes gañan máis cartos. Para probar esta afirmación, necesitarás medir "intelixencia". Pero que é a intelixencia? Gardner (2011) argumentou que en realidade hai oito formas diferentes de intelixencia. E hai procedementos que poden medir con precisión algunha destas formas de intelixencia? A pesar das enormes cantidades de traballo dos psicólogos, estas preguntas aínda non teñen respostas inequívocas.
Así, ata unha afirmación relativamente sinxela: as persoas que son máis intelixentes gañan máis cartos, poden ser difíciles de valorar de forma empírica porque pode ser difícil operacionalizar as construcións teóricas nos datos. Outros exemplos de construcións teóricas que son importantes pero difíciles de operar inclúen "normas", "capital social" e "democracia". Os científicos sociais convocan a correspondencia entre as construcións teóricas ea validez da (Cronbach and Meehl 1955) datos (Cronbach and Meehl 1955) . Como esta suxestión breve de construcións suxire, construír a validez é un problema que os científicos sociais lucharon por un tempo moi longo. Pero na miña experiencia, os problemas de validez da construción son aínda maiores cando se traballa con datos que non foron creados para os fins da investigación (Lazer 2015) .
Cando estás a avaliar un resultado da investigación, unha forma rápida e útil de avaliar a validez da construción é levar o resultado, que normalmente se expresa en termos de construcións e reexpresalo en función dos datos empregados. Por exemplo, considere dous estudos hipotéticos que afirman mostrar que as persoas máis intelixentes gañan máis cartos. No primeiro estudo, o investigador descubriu que as persoas que puntuan ben na proba de matrices progresivas de Raven: unha proba ben estudada de intelixencia analítica (Carpenter, Just, and Shell 1990) teñen ingresos máis elevados en declaracións fiscais. No segundo estudo, o investigador descubriu que as persoas en Twitter que usaron palabras máis longas son máis propensas a mencionar as marcas de luxo. En ambos casos, estes investigadores poderían afirmar que demostraron que as persoas máis intelixentes gañan máis cartos. No entanto, no primeiro estudo as construcións teóricas están ben operacionalizadas polos datos, mentres que no segundo non están. Ademais, como este exemplo ilustra, máis datos non automaticamente resolve problemas coa validez da compilación. Debes dubidar dos resultados do segundo estudo, xa sexa por un millón de tweets, mil millóns de tweets ou un trillón de tweets. Para os investigadores que non están familiarizados coa idea de construír a validez, a táboa 2.2 proporciona algúns exemplos de estudos que teñen operacionalizado as construcións teóricas utilizando datos de seguimento dixital.
Fonte de datos | Construción teórica | Referencias |
---|---|---|
Rexistros de correo electrónico dunha universidade (só metadatos) | Relacións sociais | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Publicacións en medios sociais en Weibo | Compromiso cívico | Zhang (2016) |
Rexistros de correo electrónico dunha empresa (meta-datos e texto completo) | Axuste cultural nunha organización | Srivastava et al. (2017) |
Aínda que o problema de datos incompletos para capturar construcións teóricas é bastante difícil de solucionar, hai solucións comúns aos outros tipos comúns de incompletitude: información demográfica incompleta e información incompleta sobre o comportamento noutras plataformas. A primeira solución é realmente recoller os datos que precisa; Vou falar sobre iso no capítulo 3 cando che digo sobre enquisas. A segunda solución principal é facer que os científicos de datos chamen a inferencia do atributo de usuario e os científicos sociais chaman imputación . Nesta visión, os investigadores usan a información que teñen sobre algunhas persoas para inferir os atributos doutras persoas. A terceira solución posible é combinar múltiples fontes de datos. Este proceso ás veces se chama ligazón de rexistro . A miña metáfora favorita para este proceso foi escrita por Dunn (1946) no primeiro parágrafo do primeiro traballo que se escribiu no rexistro:
"Cada persoa no mundo crea un Libro da Vida. Este libro comeza co nacemento e remata coa morte. As súas páxinas compóñense de rexistros dos principais eventos na vida. A ligazón de rexistro é o nome dado ao proceso de montaxe das páxinas deste libro nun volume. "
Cando Dunn escribiu esa pasaxe, estaba imaxinando que o Libro da Vida podería incluír eventos vitais como o nacemento, o matrimonio, o divorcio ea morte. Non obstante, agora que se rexistra tanta información sobre as persoas, o Libro da Vida podería ser un retrato increíblemente detallado, se esas páxinas diferentes (é dicir, as nosas pegadas dixitais) poden estar unidas. Este libro da vida podería ser un gran recurso para os investigadores. Pero tamén podería ser chamado base de datos de ruína (Ohm 2010) , que podería usarse para todo tipo de propósitos non éticos, como describirei no capítulo 6 (Ética).