El comportamiento en los sistemas de big data no es natural; es impulsado por los objetivos de ingeniería de los sistemas.
Aunque muchas fuentes de datos grandes no son reactivas porque las personas no saben que sus datos se están registrando (sección 2.3.3), los investigadores no deberían considerar el comportamiento en estos sistemas en línea como "naturales". En realidad, los sistemas digitales que registran el comportamiento son altamente diseñado para inducir comportamientos específicos como hacer clic en anuncios o publicar contenido. La forma en que los objetivos de los diseñadores de sistemas pueden introducir patrones en los datos se denomina confusión algorítmica . La confusión algorítmica es relativamente desconocida para los científicos sociales, pero es una gran preocupación entre los científicos expertos en datos. Y, a diferencia de algunos de los otros problemas con los rastros digitales, la confusión algorítmica es en gran parte invisible.
Un ejemplo relativamente simple de confusión algorítmica es el hecho de que en Facebook hay un número anormalmente alto de usuarios con aproximadamente 20 amigos, como descubrieron Johan Ugander y sus colegas (2011) . Los científicos que analizan estos datos sin entender cómo funciona Facebook podrían sin duda generar muchas historias sobre cómo 20 es algún tipo de número social mágico. Afortunadamente, Ugander y sus colegas tenían una comprensión sustancial del proceso que generaba los datos, y sabían que Facebook alentaba a las personas con pocas conexiones en Facebook a hacer más amigos hasta que llegaran a 20 amigos. Aunque Ugander y sus colegas no dicen esto en su documento, presumiblemente esta política fue creada por Facebook para alentar a los nuevos usuarios a ser más activos. Sin saber sobre la existencia de esta política, sin embargo, es fácil extraer una conclusión equivocada de los datos. En otras palabras, la cantidad sorprendentemente alta de personas con aproximadamente 20 amigos nos dice más sobre Facebook que sobre el comportamiento humano.
En este ejemplo anterior, la confusión algorítmica produjo un resultado peculiar que un investigador cuidadoso podría detectar e investigar más a fondo. Sin embargo, existe una versión aún más complicada de confusión algorítmica que ocurre cuando los diseñadores de sistemas en línea conocen las teorías sociales y luego incorporan estas teorías al funcionamiento de sus sistemas. Los científicos sociales llaman a esto performatividad : cuando una teoría cambia el mundo de tal manera que hace que el mundo esté más en línea con la teoría. En el caso de la confusión algorítmica performativa, la naturaleza confusa de los datos es muy difícil de detectar.
Un ejemplo de un patrón creado por la performatividad es la transitividad en las redes sociales en línea. En las décadas de 1970 y 1980, los investigadores descubrieron repetidamente que si usted es amiga de Alicia y Bob, entonces es más probable que Alice y Bob sean amigos entre sí que si fueran dos personas elegidas al azar. Este mismo patrón se encontró en el gráfico social en Facebook (Ugander et al. 2011) . Por lo tanto, uno podría concluir que los patrones de amistad en Facebook replican patrones de amistades fuera de línea, al menos en términos de transitividad. Sin embargo, la magnitud de la transitividad en el gráfico social de Facebook está parcialmente impulsada por la confusión algorítmica. Es decir, los científicos de datos de Facebook conocían la investigación empírica y teórica sobre la transitividad y luego analizaron cómo funciona Facebook. Facebook tiene una función "Gente que puedes conocer" que sugiere nuevos amigos, y una de las maneras en que Facebook decide a quién sugerirte es la transitividad. Es decir, es más probable que Facebook sugiera que te hagas amigo de los amigos de tus amigos. Esta característica tiene el efecto de aumentar la transitividad en el gráfico social de Facebook; en otras palabras, la teoría de la transitividad alinea al mundo con las predicciones de la teoría (Zignani et al. 2014; Healy 2015) . Por lo tanto, cuando las fuentes de datos grandes parecen reproducir las predicciones de la teoría social, debemos estar seguros de que la teoría en sí misma no se adaptó a la forma en que funcionó el sistema.
En lugar de pensar en las fuentes de datos grandes como observar a las personas en un entorno natural, una metáfora más adecuada es observar a las personas en un casino. Los casinos son entornos de alta ingeniería diseñados para inducir ciertos comportamientos, y un investigador nunca esperaría que el comportamiento en un casino brinde una ventana sin trabas al comportamiento humano. Por supuesto, usted puede aprender algo sobre el comportamiento humano estudiando a las personas en los casinos, pero si ignora el hecho de que los datos se están creando en un casino, puede sacar algunas malas conclusiones.
Desafortunadamente, lidiar con la confusión algorítmica es particularmente difícil porque muchas características de los sistemas en línea son propietarias, están mal documentadas y cambian constantemente. Por ejemplo, como explicaré más adelante en este capítulo, la confusión algorítmica fue una posible explicación para el desglose gradual de Google Flu Trends (sección 2.4.2), pero esta afirmación fue difícil de evaluar porque el funcionamiento interno del algoritmo de búsqueda de Google es propiedad. La naturaleza dinámica de la confusión algorítmica es una forma de deriva del sistema. La confusión algorítmica significa que debemos tener cuidado con cualquier afirmación sobre el comportamiento humano que proviene de un solo sistema digital, sin importar cuán grande sea.