O comportamento em sistemas de big data não é natural; é impulsionado pelos objetivos de engenharia dos sistemas.
Embora muitas fontes de dados grandes não sejam reativas porque as pessoas não estão cientes de que seus dados estão sendo gravados (seção 2.3.3), os pesquisadores não devem considerar o comportamento nesses sistemas on-line como "natural". Na realidade, os sistemas digitais que registram o comportamento são altamente projetado para induzir comportamentos específicos, como clicar em anúncios ou postar conteúdo. As maneiras pelas quais os objetivos dos projetistas de sistemas podem introduzir padrões nos dados são denominadas confusões algorítmicas . Confundimento algorítmico é relativamente desconhecido para cientistas sociais, mas é uma grande preocupação entre cientistas de dados cuidadosos. E, ao contrário de alguns dos outros problemas com traços digitais, o confronto algorítmico é praticamente invisível.
Um exemplo relativamente simples de confundimento algorítmico é o fato de que no Facebook há um número anormalmente alto de usuários com aproximadamente 20 amigos, como foi descoberto por Johan Ugander e colegas (2011) . Os cientistas que analisam esses dados sem qualquer compreensão de como o Facebook funciona poderiam, sem dúvida, gerar muitas histórias sobre como 20 é algum tipo de número social mágico. Felizmente, Ugander e seus colegas tinham uma compreensão substancial do processo que gerava os dados e sabiam que o Facebook incentivava as pessoas com poucas conexões no Facebook a fazerem mais amigos até que chegassem a 20 amigos. Embora Ugander e seus colegas não digam isso em seu artigo, essa política foi presumivelmente criada pelo Facebook para incentivar novos usuários a se tornarem mais ativos. Sem saber sobre a existência dessa política, no entanto, é fácil tirar a conclusão errada dos dados. Em outras palavras, o número surpreendentemente alto de pessoas com cerca de 20 amigos nos diz mais sobre o Facebook do que sobre o comportamento humano.
Neste exemplo anterior, o confundimento algorítmico produziu um resultado peculiar que um pesquisador cuidadoso pode detectar e investigar mais. No entanto, há uma versão ainda mais complicada de confusões de algoritmos que ocorre quando os projetistas de sistemas on-line estão cientes das teorias sociais e, então, utilizam essas teorias no funcionamento de seus sistemas. Os cientistas sociais chamam isso de performatividade : quando uma teoria muda o mundo de tal maneira que traz o mundo mais de acordo com a teoria. No caso de confundimento algorítmico performativo, a natureza confusa dos dados é muito difícil de detectar.
Um exemplo de padrão criado pela performatividade é a transitividade nas redes sociais online. Nas décadas de 1970 e 1980, os pesquisadores descobriram repetidamente que, se você é amigo de Alice e de Bob, é mais provável que Alice e Bob sejam amigos um do outro do que se fossem duas pessoas escolhidas aleatoriamente. Esse mesmo padrão foi encontrado no gráfico social no Facebook (Ugander et al. 2011) . Assim, pode-se concluir que os padrões de amizade no Facebook replicam padrões de amizades offline, pelo menos em termos de transitividade. No entanto, a magnitude da transitividade no gráfico social do Facebook é parcialmente impulsionada por confusões algorítmicas. Ou seja, os cientistas de dados do Facebook sabiam da pesquisa empírica e teórica sobre transitividade e, em seguida, usavam o Facebook. O Facebook tem um recurso “Pessoas que você pode saber” que sugere novos amigos, e uma maneira pela qual o Facebook decide quem sugerir a você é a transitividade. Ou seja, é mais provável que o Facebook sugira que você se torne amigo dos amigos de seus amigos. Esse recurso, portanto, tem o efeito de aumentar a transitividade no gráfico social do Facebook; em outras palavras, a teoria da transitividade alinha o mundo com as previsões da teoria (Zignani et al. 2014; Healy 2015) . Assim, quando as grandes fontes de dados parecem reproduzir predições da teoria social, devemos ter certeza de que a teoria em si não foi incorporada ao funcionamento do sistema.
Em vez de pensar em fontes de dados grandes como observar pessoas em um cenário natural, uma metáfora mais adequada é observar as pessoas em um cassino. Os cassinos são ambientes altamente projetados para induzir certos comportamentos, e um pesquisador nunca esperaria que o comportamento em um cassino fornecesse uma janela irrestrita para o comportamento humano. Claro, você poderia aprender algo sobre o comportamento humano estudando pessoas em cassinos, mas se você ignorasse o fato de que os dados estavam sendo criados em um cassino, você poderia tirar algumas conclusões ruins.
Infelizmente, lidar com confusões algorítmicas é particularmente difícil porque muitos recursos dos sistemas on-line são proprietários, mal documentados e estão em constante mudança. Por exemplo, como explicarei mais adiante neste capítulo, o confundimento algorítmico foi uma das possíveis explicações para o colapso gradual do Google Tendências da Gripe (seção 2.4.2), mas essa afirmação foi difícil de avaliar porque o funcionamento interno do algoritmo de pesquisa do Google proprietário. A natureza dinâmica do confundimento algorítmico é uma forma de desvio do sistema. Confundimento algorítmico significa que devemos ser cautelosos em relação a qualquer afirmação sobre o comportamento humano que vem de um único sistema digital, não importa quão grande seja.