Fontes de dados grandes podem ser carregados com lixo e spam.
Alguns pesquisadores acreditam que grandes fontes de dados, especialmente online, são originais porque são coletadas automaticamente. Na verdade, as pessoas que trabalharam com fontes de big data sabem que estão freqüentemente sujas . Ou seja, eles freqüentemente incluem dados que não refletem ações reais de interesse dos pesquisadores. A maioria dos cientistas sociais já está familiarizada com o processo de limpeza de dados de pesquisas sociais em larga escala, mas a limpeza de fontes de dados grandes parece ser mais difícil. Acho que a principal fonte dessa dificuldade é que muitas dessas fontes de big data nunca foram usadas para pesquisa e, portanto, não são coletadas, armazenadas e documentadas de maneira a facilitar a limpeza de dados.
Os perigos dos dados de rastreamento digital sujos são ilustrados pelo estudo de Back e colegas (2010) sobre a resposta emocional aos ataques de 11 de setembro de 2001, que mencionei brevemente no início do capítulo. Pesquisadores tipicamente estudam a resposta a eventos trágicos usando dados retrospectivos coletados ao longo de meses ou até anos. Mas Back e seus colegas descobriram uma fonte sempre ativa de rastreamentos digitais - as mensagens gravadas automaticamente com timestamp de 85.000 pagers americanos - e isso permitiu que estudassem a resposta emocional em uma escala de tempo muito mais fina. Eles criaram uma linha do tempo emocional minuto-a-minuto de 11 de setembro codificando o conteúdo emocional das mensagens de pager pela porcentagem de palavras relacionadas a (1) tristeza (por exemplo, “chorar” e “luto”), (2) ansiedade ( por exemplo, "preocupado" e "com medo") e (3) raiva (por exemplo, "ódio" e "crítica"). Eles descobriram que a tristeza e a ansiedade flutuavam ao longo do dia sem um padrão forte, mas que havia um aumento impressionante de raiva ao longo do dia. Essa pesquisa parece ser uma ilustração maravilhosa do poder das fontes de dados sempre ativas: se fontes de dados tradicionais tivessem sido usadas, seria impossível obter uma linha de tempo de alta resolução da resposta imediata a um evento inesperado.
Apenas um ano depois, no entanto, Cynthia Pury (2011) analisou os dados com mais cuidado. Ela descobriu que um grande número de mensagens supostamente irritadas eram geradas por um único pager e eram todas idênticas. Veja o que essas mensagens supostamente furiosas disseram:
"Reiniciar a máquina NT [nome] no gabinete [nome] em [local]: CRÍTICA: [data e hora]"
Essas mensagens foram rotuladas com raiva porque incluíam a palavra "CRÍTICO", que geralmente indica raiva, mas neste caso não. Remover as mensagens geradas por este único pager automático elimina completamente o aparente aumento da raiva ao longo do dia (figura 2.4). Em outras palavras, o principal resultado em Back, Küfner, and Egloff (2010) foi um artefato de um pager. Como este exemplo ilustra, a análise relativamente simples de dados relativamente complexos e confusos tem o potencial de dar sérios erros.
Embora dados sujos criados involuntariamente - como o de um pager ruidoso - possam ser detectados por um pesquisador razoavelmente cuidadoso, há também alguns sistemas on-line que atraem spammers intencionais. Esses remetentes de spam geram ativamente dados falsos e, muitas vezes, motivados pelo lucro, trabalham muito para manter seus spams ocultos. Por exemplo, a atividade política no Twitter parece incluir pelo menos algum spam razoavelmente sofisticado, pelo qual algumas causas políticas são intencionalmente feitas para parecer mais populares do que realmente são (Ratkiewicz et al. 2011) . Infelizmente, remover esse spam intencional pode ser bem difícil.
É claro que o que é considerado informação suja pode depender, em parte, da questão de pesquisa. Por exemplo, muitas edições na Wikipedia são criadas por bots automatizados (Geiger 2014) . Se você estiver interessado na ecologia da Wikipédia, então essas edições criadas por bot são importantes. Mas se você estiver interessado em como os humanos contribuem para a Wikipédia, então as edições criadas por bot devem ser excluídas.
Não existe uma técnica ou abordagem estatística única que garanta que você tenha limpado suficientemente seus dados sujos. No final, acho que a melhor maneira de evitar ser enganado por dados sujos é entender o máximo possível sobre como seus dados foram criados.