Comportamento em dados encontrados não é natural, ele é impulsionado pelas metas de engenharia de sistemas.
Apesar de muitas fontes de dados encontrados são não-reativo, porque as pessoas não estão cientes de seus dados estão sendo gravados (Seção 2.3.1.3), os pesquisadores não deve considerar o comportamento nestes sistemas on-line para ser "naturalmente" ou "puro". Na realidade, o sistemas digitais que o comportamento registro são altamente projetados para induzir comportamentos específicos como clicar em anúncios ou publicação de conteúdo. Os caminhos que as metas de projetistas de sistemas podem introduzir padrões em dados é chamado de confusão algorítmica. confusão algorítmica é relativamente desconhecido para os cientistas sociais, mas é uma grande preocupação entre os cientistas de dados cuidadosas. E, ao contrário de alguns dos outros problemas com vestígios digitais, confusão algorítmica é em grande parte invisível.
Um exemplo relativamente simples de confusão algorítmica é o fato de que no Facebook há um número anormalmente elevado de usuários, com cerca de 20 amigos (Ugander et al. 2011) . Cientistas que analisam com esses dados, sem qualquer compreensão de como funciona o Facebook poderia, sem dúvida, gerar muitas histórias sobre como 20 é uma espécie de número mágico sociais. No entanto, Ugander e seus colegas tinham uma compreensão substancial do processo que gerou os dados, e eles sabiam que o Facebook encorajou as pessoas com poucas conexões no Facebook para fazer mais amigos, até que chegou a 20 amigos. Embora Ugander e seus colegas não dizem isso no papel, esta política foi supostamente criado pelo Facebook, a fim de incentivar os novos usuários a se tornarem mais ativos. Sem saber sobre a existência desta política, no entanto, é fácil tirar a conclusão errada a partir dos dados. Em outras palavras, o número surpreendentemente elevado de pessoas com cerca de 20 amigos nos diz mais sobre o Facebook do que o comportamento humano.
Mais pernicioso do que este exemplo anterior, onde confusão algorítmica produziu um resultado peculiar que uma cuidadosa pesquisadores podem investigar mais, há uma versão ainda mais complicado de confusão algorítmica que ocorre quando os designers de sistemas on-line estão cientes das teorias sociais e, em seguida, assar essas teorias sobre o funcionamento dos seus sistemas. Os cientistas sociais chamam isso de performatividade: quando as teorias mudar o mundo de tal maneira que eles trazem o mundo mais em linha com a teoria. Nos casos de confusão algorítmica performativa, a natureza confundida dos dados é provável invisível.
Um exemplo de um padrão criado por performatividade é transitividade em redes sociais on-line. Nos anos 1970 e 1980, os pesquisadores descobriram que várias vezes se você é amigo de Alice e você é amigo de Bob, em seguida, Bob e Alice são mais propensos a ser amigos uns com os outros do que duas pessoas escolhidas aleatoriamente. E, este mesmo padrão foi encontrado no gráfico social Facebook (Ugander et al. 2011) . Assim, pode-se concluir que os padrões de amizade no Facebook replicar padrões de amizades off-line, pelo menos em termos de transitividade. No entanto, a magnitude da transitividade no gráfico social Facebook é parcialmente impulsionado pela confusão algorítmica. Ou seja, dados os cientistas no Facebook sabia da pesquisa empírica e teórica sobre transitividade e depois cozido-lo em como Facebook funciona. Facebook tem um "Pessoas que você talvez conheça" recurso que sugere novos amigos, e de uma maneira que o Facebook decide quem sugerir a você é transitividade. Ou seja, o Facebook é mais provável que sugerem que você se tornar amigos com os amigos de seus amigos. Esta característica tem, assim, o efeito de aumentar transitividade no gráfico social Facebook; em outras palavras, a teoria da transitividade traz o mundo em linha com as previsões da teoria (Healy 2015) . Assim, quando fontes de dados grandes aparece para reproduzir previsões da teoria social, devemos ter certeza de que a teoria em si não foi cozido em como o sistema funcionava.
Em vez de pensar de fontes de dados grandes como observar as pessoas em um ambiente natural, uma metáfora mais adequada é observar as pessoas em um cassino. Casinos são altamente ambientes projetados para induzir certos comportamentos de engenharia, e um pesquisadores nunca esperaria que o comportamento em um casino iria fornecer uma janela sem restrições sobre o comportamento humano. Claro, poderíamos aprender algo sobre o comportamento de estudar as pessoas humanas em casinos, de facto, um casino pode ser um cenário ideal para estudar a relação entre consumo de álcool e risco preferências, mas se ignorássemos que os dados foram sendo criados em um cassino poderíamos tirar algumas conclusões ruins.
Infelizmente, lidar com a confusão algorítmica é particularmente difícil porque muitas características de sistemas on-line são proprietárias, pouco documentados, e em constante mudança. Por exemplo, como eu vou explicar mais adiante neste capítulo, confusão algorítmica foi uma possível explicação para a gradual decomposição do Google Flu Trends (Seção 2.4.2), mas esta reivindicação era difícil de avaliar, porque os funcionamentos internos de pesquisa do Google algoritmo são proprietários. A natureza dinâmica da confusão algorítmica é uma forma de desvio do sistema. confusão Algorithmic significa que devemos ser cautelosos sobre qualquer pedido de comportamento humano que vem de um único sistema digital, não importa quão grande.