Dados não representativos são ruins para generalizações fora da amostra, mas podem ser bastante úteis para comparações dentro da amostra.
Alguns cientistas sociais estão acostumados a trabalhar com dados provenientes de uma amostra aleatória probabilística de uma população bem definida, como todos os adultos de um determinado país. Esse tipo de dado é chamado de dados representativos porque a amostra “representa” a população maior. Muitos pesquisadores prezam dados representativos e, para alguns, os dados representativos são sinônimos de ciência rigorosa, enquanto os dados não representativos são sinônimo de negligência. No extremo, alguns céticos parecem acreditar que nada pode ser aprendido com dados não representativos. Se for verdade, isso pareceria limitar severamente o que pode ser aprendido em fontes de big data, porque muitas delas não são representativas. Felizmente, esses céticos estão parcialmente certos. Existem certos objetivos de pesquisa para os quais dados não representativos são claramente inadequados, mas há outros para os quais podem ser bastante úteis.
Para entender essa distinção, vamos considerar um clássico científico: o estudo de John Snow sobre o surto de cólera de 1853-54 em Londres. Na época, muitos médicos acreditavam que a cólera era causada por "ar ruim", mas Snow acreditava que se tratava de uma doença infecciosa, talvez transmitida pela água potável contaminada com esgoto. Para testar essa ideia, Snow aproveitou o que agora podemos chamar de um experimento natural. Ele comparou as taxas de cólera das famílias servidas por duas empresas de água diferentes: Lambeth e Southwark & Vauxhall. Essas empresas serviam a domicílios semelhantes, mas diferiam de uma maneira importante: em 1849 - alguns anos antes do início da epidemia - Lambeth movia seu ponto de entrada rio acima da descarga principal de esgoto em Londres, enquanto Southwark & Vauxhall deixavam seu tubo de entrada a jusante do rio. descarga de esgoto. Quando Snow comparou as taxas de mortalidade por cólera nos domicílios atendidos pelas duas empresas, descobriu que os clientes da Southwark & Vauxhall - a empresa que fornecia água contaminada com esgoto aos clientes - tinham dez vezes mais chances de morrer de cólera. Esse resultado fornece fortes evidências científicas para o argumento de Snow sobre a causa da cólera, embora não se baseie em uma amostra representativa de pessoas em Londres.
Os dados dessas duas empresas, no entanto, não seriam ideais para responder a uma pergunta diferente: qual era a prevalência de cólera em Londres durante o surto? Para essa segunda pergunta, que também é importante, seria muito melhor ter uma amostra representativa de pessoas de Londres.
Como o trabalho de Snow ilustra, há algumas questões científicas para as quais dados não representativos podem ser bastante eficazes e há outros para os quais não é bem adequado. Uma forma grosseira de distinguir esses dois tipos de perguntas é que algumas perguntas tratam de comparações dentro da amostra e outras são sobre generalizações fora da amostra. Essa distinção pode ser ainda mais ilustrada por outro estudo clássico em epidemiologia: o British Doctors Study, que desempenhou um papel importante em demonstrar que o tabagismo causa câncer. Neste estudo, Richard Doll e A. Bradford Hill seguiram aproximadamente 25.000 médicos do sexo masculino por vários anos e compararam suas taxas de mortalidade com base na quantidade que fumavam quando o estudo começou. Doll e Hill (1954) encontraram uma forte relação exposição-resposta: quanto mais pesadamente as pessoas fumavam, maior a probabilidade de morrerem de câncer de pulmão. Naturalmente, seria insensato estimar a prevalência de câncer de pulmão entre todos os britânicos com base neste grupo de médicos do sexo masculino, mas a comparação dentro da amostra ainda fornece evidências de que o tabagismo causa câncer de pulmão.
Agora que ilustrei a diferença entre comparações dentro da amostra e generalizações fora da amostra, duas advertências estão em ordem. Em primeiro lugar, há naturalmente questões sobre até que ponto uma relação entre uma amostra de médicos britânicos do sexo masculino também se aplica a uma amostra de mulheres, médicos britânicos ou operários britânicos do sexo masculino ou mulheres operárias alemãs ou muitos outros grupos. Essas perguntas são interessantes e importantes, mas são diferentes das questões sobre até que ponto podemos generalizar de uma amostra para uma população. Observe, por exemplo, que você provavelmente suspeita que a relação entre tabagismo e câncer que foi encontrada em médicos britânicos do sexo masculino provavelmente será semelhante nesses outros grupos. Sua capacidade de fazer essa extrapolação não vem do fato de que os médicos britânicos do sexo masculino são uma amostra aleatória probabilística de qualquer população; em vez disso, vem de uma compreensão do mecanismo que liga o tabagismo ao câncer. Assim, a generalização de uma amostra para a população da qual é extraída é em grande parte uma questão estatística, mas questões sobre a transportabilidade do padrão encontradas em um grupo para outro grupo são em grande parte uma questão não (Pearl and Bareinboim 2014; Pearl 2015) .
Neste ponto, um cético pode apontar que a maioria dos padrões sociais é provavelmente menos transportável entre os grupos do que a relação entre tabagismo e câncer. E eu concordo. Até que ponto devemos esperar que os padrões sejam transportáveis é, em última análise, uma questão científica que deve ser decidida com base em teoria e evidência. Não deve ser assumido automaticamente que os padrões serão transportáveis, mas tampouco deve ser assumido que eles não serão transportáveis. Essas perguntas um pouco abstratas sobre a transportabilidade serão familiares para você se tiver acompanhado os debates sobre o quanto os pesquisadores podem aprender sobre o comportamento humano estudando alunos de graduação (Sears 1986, [@henrich_most_2010] ) . Apesar desses debates, no entanto, não seria razoável dizer que os pesquisadores não podem aprender nada com o estudo de estudantes de graduação.
A segunda ressalva é que a maioria dos pesquisadores com dados não representativos não é tão cuidadosa quanto Snow, Doll e Hill. Então, para ilustrar o que pode dar errado quando os pesquisadores tentam fazer uma generalização fora da amostra a partir de dados não representativos, gostaria de falar sobre um estudo da eleição parlamentar alemã de 2009 por Andranik Tumasjan e colegas (2010) . Ao analisar mais de 100.000 tweets, eles descobriram que a proporção de tweets que mencionavam um partido político correspondia à proporção de votos que o partido recebia nas eleições parlamentares (figura 2.3). Em outras palavras, parecia que os dados do Twitter, que eram essencialmente gratuitos, poderiam substituir as pesquisas tradicionais de opinião pública, que são caras devido à ênfase em dados representativos.
Dado o que você provavelmente já sabe sobre o Twitter, você deve imediatamente ser cético quanto a esse resultado. Os alemães no Twitter em 2009 não foram uma amostra aleatória probabilística dos eleitores alemães, e os defensores de alguns partidos podem twittar sobre a política com muito mais frequência do que os defensores de outros partidos. Assim, parece surpreendente que todos os possíveis preconceitos que você poderia imaginar, de alguma forma, se cancelariam, de modo que esses dados refletissem diretamente os eleitores alemães. De fato, os resultados em Tumasjan et al. (2010) acabou por ser bom demais para ser verdade. Um trabalho de acompanhamento de Andreas Jungherr, Pascal Jürgens e Harald Schoen (2012) apontou que a análise original havia excluído o partido político que realmente recebeu mais menções no Twitter: o Partido Pirata, um pequeno partido que luta contra a regulamentação governamental. da Internet. Quando o Partido Pirata foi incluído na análise, as menções ao Twitter se tornam um péssimo preditor de resultados eleitorais (figura 2.3). Como este exemplo ilustra, o uso de fontes de big data não representativas para fazer generalizações fora da amostra pode dar errado. Além disso, você deve notar que o fato de haver 100.000 tweets era basicamente irrelevante: muitos dados não representativos ainda não são representativos, um tema ao qual voltarei no capítulo 3 quando eu discutir pesquisas.
Para concluir, muitas fontes de big data não são amostras representativas de uma população bem definida. Para questões que exigem generalização dos resultados da amostra para a população da qual foi extraída, este é um problema sério. Mas para questões sobre comparações dentro da amostra, dados não representativos podem ser poderosos, desde que os pesquisadores estejam claros sobre as características de sua amostra e apóiem alegações sobre transportabilidade com evidências teóricas ou empíricas. Na verdade, minha esperança é que as fontes de dados grandes permitam que os pesquisadores façam mais comparações dentro da amostra em muitos grupos não representativos, e meu palpite é que estimativas de muitos grupos diferentes farão mais para avançar na pesquisa social do que uma estimativa única de um aleatório probabilístico. amostra.