Não importa o tamanho do seu big data, ele provavelmente não tem as informações desejadas.
A maioria das origens de big data está incompleta , no sentido de que não possui as informações que você deseja para sua pesquisa. Essa é uma característica comum dos dados criados para outros fins que não a pesquisa. Muitos cientistas sociais já tiveram a experiência de lidar com a incompletude, como uma pesquisa existente que não fez a pergunta necessária. Infelizmente, os problemas de incompletude tendem a ser mais extremos no big data. Na minha experiência, big data tende a faltar três tipos de informações úteis para pesquisa social: informações demográficas sobre participantes, comportamento em outras plataformas e dados para operacionalizar construções teóricas.
Dos três tipos de incompletude, o problema de dados incompletos para operacionalizar construções teóricas é o mais difícil de resolver. E na minha experiência, muitas vezes é esquecido acidentalmente. Grosseiramente, as construções teóricas são idéias abstratas que os cientistas sociais estudam e operacionalizam um construto teórico, propondo alguma maneira de capturar esse construto com dados observáveis. Infelizmente, este processo de som simples muitas vezes acaba por ser bastante difícil. Por exemplo, vamos imaginar testar empiricamente a alegação aparentemente simples de que as pessoas mais inteligentes ganham mais dinheiro. Para testar essa afirmação, você precisaria medir “inteligência”. Mas o que é inteligência? Gardner (2011) argumentou que existem oito formas diferentes de inteligência. E existem procedimentos que possam medir com precisão qualquer uma dessas formas de inteligência? Apesar de enormes quantidades de trabalho por psicólogos, essas questões ainda não têm respostas inequívocas.
Assim, mesmo uma afirmação relativamente simples - pessoas mais inteligentes ganham mais dinheiro - pode ser difícil de avaliar empiricamente porque pode ser difícil operacionalizar construções teóricas em dados. Outros exemplos de construções teóricas que são importantes, mas difíceis de operacionalizar incluem “normas”, “capital social” e “democracia”. Os cientistas sociais chamam a combinação entre construções teóricas e validade de dados (Cronbach and Meehl 1955) . Como essa pequena lista de construções sugere, a validade de construção é um problema com o qual os cientistas sociais lutam há muito tempo. Mas, na minha experiência, os problemas de validade de construto são ainda maiores quando se trabalha com dados que não foram criados para fins de pesquisa (Lazer 2015) .
Quando você está avaliando um resultado de pesquisa, uma maneira rápida e útil de avaliar a validade de construto é pegar o resultado, que geralmente é expresso em termos de construções, e re-expressá-lo em termos dos dados usados. Por exemplo, considere dois estudos hipotéticos que afirmam mostrar que pessoas mais inteligentes ganham mais dinheiro. No primeiro estudo, o pesquisador descobriu que pessoas que pontuam bem no Teste de Matrizes Progressivas de Raven - um teste bem estudado de inteligência analítica (Carpenter, Just, and Shell 1990) - têm rendimentos mais altos em suas declarações de impostos. No segundo estudo, o pesquisador descobriu que as pessoas no Twitter que usavam palavras mais longas são mais propensas a mencionar marcas de luxo. Em ambos os casos, esses pesquisadores podem afirmar que mostraram que pessoas mais inteligentes ganham mais dinheiro. No entanto, no primeiro estudo, os construtos teóricos são bem operacionalizados pelos dados, enquanto no segundo eles não são. Além disso, como este exemplo ilustra, mais dados não resolvem automaticamente problemas com validade de construção. Você deve duvidar dos resultados do segundo estudo se envolveu um milhão de tweets, um bilhão de tweets ou um trilhão de tweets. Para os pesquisadores não familiarizados com a ideia de validade de construto, a tabela 2.2 fornece alguns exemplos de estudos que têm construtos teóricos operacionalizados usando dados de rastreamento digital.
Fonte de dados | Construção teórica | Referências |
---|---|---|
Registros de e-mail de uma universidade (somente metadados) | Relações sociais | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Mensagens de mídia social no Weibo | Engajamento cívico | Zhang (2016) |
Registros de e-mail de uma empresa (metadados e texto completo) | Ajuste cultural em uma organização | Srivastava et al. (2017) |
Embora o problema de dados incompletos para a captura de construções teóricas seja bastante difícil de resolver, existem soluções comuns para os outros tipos comuns de incompletude: informações demográficas incompletas e informações incompletas sobre o comportamento em outras plataformas. A primeira solução é coletar os dados de que você precisa; Eu vou falar sobre isso no capítulo 3, quando falo sobre pesquisas. A segunda solução principal é fazer o que os cientistas de dados chamam de inferência de atributo de usuário e os cientistas sociais chamam de imputação . Nesta abordagem, os pesquisadores usam as informações que eles têm sobre algumas pessoas para inferir atributos de outras pessoas. Uma terceira solução possível é combinar várias fontes de dados. Esse processo é às vezes chamado de vinculação de registro . Minha metáfora favorita para esse processo foi escrita por Dunn (1946) no primeiro parágrafo do primeiro trabalho já escrito sobre enlace de discos:
“Cada pessoa no mundo cria um Livro da Vida. Este livro começa com o nascimento e termina com a morte. Suas páginas são compostas de registros dos principais eventos da vida. Link de registro é o nome dado ao processo de montagem das páginas deste livro em um volume ”.
Quando Dunn escreveu essa passagem, ele estava imaginando que o Livro da Vida poderia incluir grandes eventos da vida, como nascimento, casamento, divórcio e morte. No entanto, agora que tantas informações sobre pessoas são registradas, o Livro da Vida pode ser um retrato incrivelmente detalhado, se essas páginas diferentes (ou seja, nossos traços digitais) puderem ser unidas. Este livro da vida poderia ser um ótimo recurso para pesquisadores. Mas, também poderia ser chamado de banco de dados de ruína (Ohm 2010) , que poderia ser usado para todos os tipos de propósitos antiéticos, como descreverei no capítulo 6 (Ética).