2.3.2.5 Algorithmically confundidos

Comportamiento en los datos encontrados no es natural, es impulsada por los objetivos de ingeniería de los sistemas.

Aunque muchas fuentes de datos encontrados no son reactivas porque las personas no son conscientes de sus datos se graban (Sección 2.3.1.3), los investigadores no debe considerar el comportamiento de estos sistemas en línea para ser "natural" o "puro". En realidad, la sistemas digitales que el comportamiento de registro van de alta ingeniería para inducir comportamientos específicos, tales como hacer clic en los anuncios o la publicación de contenido. Las formas en que los objetivos de los diseñadores de sistemas pueden introducir patrones en los datos se llama confusión algorítmica. confusión algorítmica es relativamente desconocido para los científicos sociales, pero es una de las principales preocupaciones entre los científicos de datos cuidadosos. Y, a diferencia de algunos de los otros problemas con las huellas digitales, la confusión algorítmica es en gran parte invisible.

Un ejemplo relativamente simple de la confusión algorítmico es el hecho de que en Facebook hay un número anormalmente alto de usuarios con aproximadamente 20 amigos (Ugander et al. 2011) . Los científicos que analizan con estos datos sin ninguna comprensión de cómo funciona Facebook podría generar, sin duda, muchas historias sobre cómo 20 es una especie de número mágico sociales. Sin embargo, Ugander y sus colegas tenían un profundo conocimiento sobre el proceso que genera los datos, y se dieron cuenta de que Facebook animó a la gente con pocas conexiones en Facebook para hacer más amigos hasta que llegaron a 20 amigos. Aunque Ugander y sus colegas no dicen esto en el papel, esta política fue supuestamente creado por Facebook con el fin de animar a los nuevos usuarios a ser más activos. Sin necesidad de conocer la existencia de esta política, sin embargo, es fácil llegar a la conclusión errónea de los datos. En otras palabras, el número sorprendentemente alto de personas con unos 20 amigos nos dice más acerca de Facebook de la conducta humana.

Más pernicioso que este ejemplo anterior, donde la confusión algorítmica produjo un resultado peculiar que una cuidadosa investigadores podrían investigar más a fondo, hay una versión aún más difícil de confusión algorítmica que se produce cuando los diseñadores de sistemas en línea son conscientes de las teorías sociales y luego hornear estas teorías en el trabajo de sus sistemas. Los científicos sociales llaman a esta performatividad: cuando las teorías cambian el mundo de una manera tal que traen el mundo más en consonancia con la teoría. En los casos de confusión algorítmica performativo, la naturaleza confundido de los datos probablemente invisible.

Un ejemplo de un patrón creado por la performatividad es la transitividad en las redes sociales en línea. En las décadas de 1970 y 1980, los investigadores encontraron en repetidas ocasiones que si usted es amigo de Alice y usted es amigo de Bob, entonces Bob y Alice son más propensos a ser amigos entre sí de dos personas elegidas al azar. Y, este mismo patrón se encontró en el gráfico social en Facebook (Ugander et al. 2011) . Por lo tanto, se podría concluir que los patrones de amistad en Facebook replican patrones de amistades fuera de línea, por lo menos en términos de transitividad. Sin embargo, la magnitud de transitividad en el gráfico social Facebook es impulsado en parte por factores de confusión algorítmica. Es decir, los científicos de datos en Facebook sabían de la investigación empírica y teórica sobre la transitividad y luego se cuecen en cómo funciona Facebook. Facebook tiene un "la gente puede saber", característica que sugiere nuevos amigos, y una manera de que Facebook decide que para sugerir a usted es la transitividad. Es decir, Facebook es más probable que sugiera que usted se convierte en amigo de los amigos de tus amigos. Por tanto, esta característica tiene el efecto de aumentar la transitividad en el gráfico social Facebook; en otras palabras, la teoría de la transitividad trae al mundo en línea con las predicciones de la teoría (Healy 2015) . Por lo tanto, cuando las grandes fuentes de datos aparece para reproducir las predicciones de la teoría social, debemos estar seguros de que la teoría en sí no se horneó en el funcionamiento del sistema.

En lugar de pensar de fuentes de datos grandes como la observación de las personas en un entorno natural, una metáfora más apta es la observación de la gente en un casino. Los casinos están entornos diseñados para inducir determinados comportamientos de alta ingeniería, y unos investigadores nunca esperaría que el comportamiento en un casino proporcionaría una ventana sin restricciones en el comportamiento humano. Por supuesto, podríamos aprender algo sobre el comportamiento estudio de las personas humanas en los casinos, de hecho un casino podría ser un escenario ideal para el estudio de la relación entre el consumo de alcohol y el riesgo de preferencias, pero si ignoramos que los datos se está creando en un casino podríamos extraer algunas conclusiones malas.

Por desgracia, se trata de la confusión algorítmica es particularmente difícil debido a que muchas características de los sistemas en línea son propietarias, pobremente documentada, y en constante cambio. Por ejemplo, como explicaré más adelante en este capítulo, los factores de confusión algorítmica era una posible explicación para el desglose gradual de Google Flu Trends (Sección 2.4.2), pero esta afirmación fue difícil de evaluar debido a los trabajos internos de búsqueda de Google algoritmo son propietarios. La naturaleza dinámica de los factores de confusión algorítmico es una forma de la deriva del sistema. confusión algorítmica significa que debemos tener cuidado con cualquier reclamación de la conducta humana que proviene de un único sistema digital, no importa lo grande.