O comportamento nos grandes sistemas de datos non é natural; está impulsada polos obxectivos de ingeniería dos sistemas.
Aínda que moitas fontes de datos grandes non son reactivas porque as persoas non saben que os seus datos están sendo gravados (sección 2.3.3), os investigadores non deberían considerar o comportamento nestes sistemas en liña como "natural". En realidade, os sistemas dixitais que rexistran o comportamento son altamente deseñados para inducir comportamentos específicos como facer clic nos anuncios ou publicar contidos. As formas que os obxectivos dos deseñadores do sistema poden introducir patróns en datos chámase confusión algorítmica . O confundimento algorítmico é relativamente descoñecido para os científicos sociais, pero é unha preocupación importante entre os científicos de datos coidadosos. E, a diferenza dalgúns dos outros problemas coas pegadas dixitais, a confusión algorítmica é en gran parte invisible.
Un exemplo relativamente sinxelo de confusión algorítmica é o feito de que en Facebook hai un número anómalo elevado de usuarios con aproximadamente 20 amigos, como descubriu Johan Ugander e colegas (2011) . Os científicos que analizan estes datos sen comprender como traballa Facebook podería xerar moitas historias sobre como 20 é un tipo de número social máxico. Afortunadamente, Uganda e os seus colegas tiveron unha comprensión substancial do proceso que xeraron os datos e sabían que Facebook animou ás persoas con poucas conexións en Facebook a facer máis amigos ata chegar a 20 amigos. Aínda que Ugander e compañeiros non din isto no seu traballo, esta política foi creada por Facebook para animar aos novos usuarios a ser máis activos. Sen saber sobre a existencia desta política, con todo, é fácil sacar conclusións incorrectas dos datos. Dito doutro xeito, o sorprendentemente alto número de persoas con preto de 20 amigos cóntanos máis sobre Facebook que sobre o comportamento humano.
Neste exemplo anterior, a confusión algorítmica produciu un resultado peculiar que un investigador coidadoso podería detectar e investigar aínda máis. Non obstante, existe unha versión aínda máis complicada do confundimento algorítmico que ocorre cando os diseñadores de sistemas en liña son conscientes das teorías sociais e, a continuación, fan estas teorías no funcionamento dos seus sistemas. Os científicos sociais chaman esta performatividade : cando unha teoría cambia o mundo de tal xeito que achega o mundo máis ao redor da teoría. No caso de confusión algorítmica performativa, a natureza confundida dos datos é moi difícil de detectar.
Un exemplo dun patrón creado pola performatividade é a transitividade nas redes sociais en liña. Nos anos setenta e oitenta, os investigadores constataron repetidamente que, se son amigos con Alicia e Bob, entón Alice e Bob son máis propensos a ser amigos entre si que se fosen dúas persoas escollidas aleatoriamente. Este mesmo patrón atopouse no gráfico social de Facebook (Ugander et al. 2011) . Deste xeito, pódese concluír que os patróns de amizade en Facebook replican patróns de amizades sen conexión, polo menos en termos de transitividade. Non obstante, a magnitude da transitividade no gráfico social de Facebook está parcialmente motivada pola confusión algorítmica. É dicir, os científicos de datos en Facebook sabían da investigación empírica e teórica sobre a transitividade e despois cociñábanos en como funciona Facebook. Facebook ten unha función "Persoas que podes saber" que suxire novos amigos e unha forma en que Facebook decide quen de suxerirlle que é a transitividade. É dicir, Facebook é máis propenso a suxerir que sexas amigo dos amigos dos teus amigos. Esta característica ten o efecto de aumentar a transitividade no gráfico social de Facebook; noutras palabras, a teoría da transitividade trae o mundo á liña coas predicións da teoría (Zignani et al. 2014; Healy 2015) . Deste xeito, cando aparecen grandes fontes de datos para reproducir predicións da teoría social, debemos estar seguros de que a propia teoría non se solucionou o funcionamento do sistema.
En vez de pensar en grandes fontes de datos como a observación das persoas nun entorno natural, unha metáfora máis axeitada é a observación das persoas nun casino. Os casinos son ambientes altamente deseñados para inducir determinados comportamentos, e un investigador nunca esperaría que o comportamento nun casino proporcionase unha fiestra sen restricións ao comportamento humano. Por suposto, podería aprender algo sobre o comportamento humano estudando persoas nos casinos, pero se ignorou o feito de que os datos se estaban a crear nun casino, pode sacar conclusións malas.
Desafortunadamente, o trato con confusións algorítmicas é particularmente difícil porque moitas características dos sistemas en liña son propietarios, mal documentados e en constante cambio. Por exemplo, como explicarei máis tarde neste capítulo, a confusión algorítmica foi unha posible explicación para o desglose gradual de Google Flu Trends (sección 2.4.2), pero esta afirmación era difícil de avaliar porque o funcionamento interno do algoritmo de busca de Google son propietario. A natureza dinámica da confusión algorítmica é unha forma de deriva do sistema. A confusión algorísmica significa que debemos ter coidado con calquera reclamación sobre o comportamento humano que provén dun único sistema dixital, por grande que sexa.