Le comportement dans les systèmes Big Data n'est pas naturel. il est piloté par les objectifs d'ingénierie des systèmes.
Bien que de nombreuses sources de données volumineuses ne soient pas réactives parce que les gens ne savent pas que leurs données sont enregistrées (section 2.3.3), les chercheurs ne devraient pas considérer le comportement de ces systèmes en ligne comme «naturel». hautement conçu pour induire des comportements spécifiques tels que le fait de cliquer sur des publicités ou d'afficher du contenu. Les façons dont les objectifs des concepteurs de systèmes peuvent introduire des modèles dans les données sont appelées confusion algorithmique . La confusion algorithmique est relativement inconnue des chercheurs en sciences sociales, mais elle constitue une préoccupation majeure chez les scientifiques spécialisés dans les données. Et, contrairement à d'autres problèmes avec les traces numériques, la confusion algorithmique est largement invisible.
Un exemple relativement simple de confusion algorithmique est le fait que sur Facebook, il y a un nombre anormalement élevé d'utilisateurs avec environ 20 amis, comme l'ont découvert Johan Ugander et ses collègues (2011) . Les scientifiques analysant ces données sans aucune compréhension du fonctionnement de Facebook pourraient sans doute générer beaucoup d'histoires sur la façon dont 20 est une sorte de numéro social magique. Heureusement, Ugander et ses collègues avaient une compréhension substantielle du processus qui a généré les données, et ils savaient que Facebook encourageait les gens avec peu de connexions sur Facebook à se faire plus d'amis jusqu'à ce qu'ils atteignent 20 amis. Bien que Ugander et ses collègues ne le disent pas dans leur article, cette politique a vraisemblablement été créée par Facebook afin d'encourager les nouveaux utilisateurs à devenir plus actifs. Cependant, sans connaître l'existence de cette politique, il est facile de tirer la mauvaise conclusion des données. En d'autres termes, le nombre étonnamment élevé de personnes avec environ 20 amis nous en dit plus sur Facebook que sur le comportement humain.
Dans cet exemple précédent, la confusion algorithmique a produit un résultat bizarre qu'un chercheur prudent pourrait détecter et étudier plus avant. Cependant, il existe une version encore plus délicate de la confusion algorithmique qui se produit lorsque les concepteurs de systèmes en ligne sont conscients des théories sociales et font ensuite ces théories dans le fonctionnement de leurs systèmes. Les spécialistes des sciences sociales appellent cette performativité : quand une théorie change le monde de telle manière qu'elle amène le monde à s'aligner davantage sur la théorie. Dans le cas de la confusion algorithmique performative, la nature confuse des données est très difficile à détecter.
Un exemple de pattern créé par la performativité est la transitivité dans les réseaux sociaux en ligne. Dans les années 1970 et 1980, les chercheurs ont constaté à plusieurs reprises que si vous êtes amis avec Alice et Bob, alors Alice et Bob sont plus susceptibles d'être amis les uns avec les autres que s'ils étaient deux personnes choisies au hasard. Ce même modèle a été trouvé dans le graphique social sur Facebook (Ugander et al. 2011) . Ainsi, on pourrait conclure que les schémas d'amitié sur Facebook reproduisent des schémas d'amitiés hors ligne, au moins en termes de transitivité. Cependant, l'ampleur de la transitivité dans le graphe social de Facebook est partiellement déterminée par la confusion algorithmique. C'est-à-dire que les scientifiques de Facebook connaissaient les recherches empiriques et théoriques sur la transitivité, puis les ont intégrées dans le fonctionnement de Facebook. Facebook a une fonctionnalité "People You May Know" qui suggère de nouveaux amis, et une façon dont Facebook décide qui vous suggérer est la transitivité. C'est, Facebook est plus susceptible de suggérer que vous devenez amis avec les amis de vos amis. Cette caractéristique a donc pour effet d'augmenter la transitivité dans le graphe social Facebook; En d'autres termes, la théorie de la transitivité met le monde en accord avec les prédictions de la théorie (Zignani et al. 2014; Healy 2015) . Ainsi, lorsque les grandes sources de données semblent reproduire les prédictions de la théorie sociale, nous devons nous assurer que la théorie elle-même n'a pas été intégrée au fonctionnement du système.
Plutôt que de penser aux grandes sources de données comme observant les gens dans un cadre naturel, une métaphore plus appropriée est d'observer les gens dans un casino. Les casinos sont des environnements hautement conçus conçus pour induire certains comportements, et un chercheur ne s'attendrait jamais à ce que le comportement dans un casino fournisse une fenêtre ouverte sur le comportement humain. Bien sûr, vous pourriez apprendre quelque chose sur le comportement humain en étudiant les gens dans les casinos, mais si vous ignorez le fait que les données ont été créées dans un casino, vous pourriez tirer de mauvaises conclusions.
Malheureusement, il est particulièrement difficile de traiter la confusion algorithmique car de nombreuses fonctionnalités des systèmes en ligne sont propriétaires, mal documentées et en constante évolution. Par exemple, comme je l'expliquerai plus loin dans ce chapitre, la confusion algorithmique était une explication possible de la dégradation progressive de Google Flu Trends (section 2.4.2), mais cette affirmation était difficile à évaluer car les mécanismes internes de l'algorithme de recherche de Google propriétaire. La nature dynamique de la confusion algorithmique est une forme de dérive du système. La confusion algorithmique signifie que nous devons être prudents quant à toute affirmation concernant le comportement humain provenant d'un système numérique unique, quelle que soit sa taille.