Comportement dans les données trouvées est pas naturel, il est entraîné par les objectifs de l' ingénierie des systèmes.
Bien que de nombreuses sources de données trouvées sont non réactif parce que les gens ne sont pas conscients de leurs données sont en cours d'enregistrement (section 2.3.1.3), les chercheurs ne devraient pas considérer le comportement de ces systèmes en ligne pour être «d'origine naturelle» ou «pur». En réalité, le systèmes numériques que le comportement d'enregistrement sont de haute technologie pour induire des comportements spécifiques tels que cliquer sur des annonces ou l'affichage du contenu. Les moyens que les objectifs des concepteurs de systèmes peuvent introduire des modèles en données est appelée confusion algorithmique. confusionnel Algorithmic est relativement inconnue des sciences sociales, mais il est une préoccupation majeure parmi les scientifiques de données prudentes. Et, contrairement à certains des autres problèmes avec des traces numériques, confondant algorithmique est en grande partie invisible.
Un exemple relativement simple de confusion algorithmique est le fait que sur Facebook il y a un nombre anormalement élevé d'utilisateurs avec environ 20 amis (Ugander et al. 2011) , (Ugander et al. 2011) . Les scientifiques qui analysent ces données sans comprendre comment Facebook fonctionne pourrait sans doute générer beaucoup d'histoires sur la façon dont 20 est une sorte de nombre magique sociale. Cependant, Ugander et ses collègues avaient une compréhension importante du processus qui a généré les données, et ils savaient que Facebook a encouragé les gens avec peu de connexions sur Facebook pour faire plus d'amis jusqu'à ce qu'ils atteignent 20 amis. Bien que Ugander et ses collègues ne disent pas cela dans le papier, cette politique a probablement été créé par Facebook afin d'encourager les nouveaux utilisateurs à devenir plus actifs. Sans connaître l'existence de cette politique, cependant, il est facile de tirer la mauvaise conclusion à partir des données. En d'autres termes, le nombre étonnamment élevé de personnes avec environ 20 amis nous en dit plus sur Facebook que le comportement humain.
Plus pernicieux que cet exemple précédent, où la confusion algorithmique a produit un résultat bizarre qu'un chercheurs prudents pourraient enquêter plus loin, il existe une version encore plus délicate de confusion algorithmique qui se produit lorsque les concepteurs de systèmes en ligne sont conscients des théories sociales, puis faire cuire ces théories dans le travail de leurs systèmes. Les sociologues appellent cette performativité: lorsque les théories changent le monde d'une manière telle qu'ils apportent le monde plus conforme à la théorie. Dans les cas de confusion algorithmique performative, la nature maudite des données est susceptible invisible.
Un exemple d'un motif créé par performativité est transitivité dans les réseaux sociaux en ligne. Dans les années 1970 et 1980, les chercheurs ont constaté à plusieurs reprises que si vous êtes amis avec Alice et vous êtes amis avec Bob, puis Bob et Alice sont plus susceptibles d'être amis avec l'autre que deux personnes choisies au hasard. Et, ce même modèle a été trouvé dans le graphe social sur Facebook (Ugander et al. 2011) , (Ugander et al. 2011) . Ainsi, on pourrait conclure que les modèles d'amitié sur Facebook répliquent les modèles d'amitiés hors ligne, au moins en termes de transitivité. Toutefois, l'ampleur de la transitivité dans le graphe social Facebook est partiellement entraîné par confusion algorithmique. Autrement dit, les scientifiques de données à Facebook savaient de la recherche empirique et théorique sur transitivité puis cuits dans la façon dont Facebook fonctionne. Facebook a un "Personnes que vous connaissez peut" fonctionnalité qui suggère de nouveaux amis, et d'une façon que Facebook décide qui vous suggère est transitivité. C'est, Facebook est plus susceptible de suggérer que vous devenez amis avec les amis de vos amis. Cette fonction a donc pour effet d'augmenter la transitivité dans le graphe social Facebook; en d' autres termes, la théorie de la transitivité met le monde en conformité avec les prédictions de la théorie (Healy 2015) . Ainsi, lorsque les sources de données de grandes semble reproduire les prédictions de la théorie sociale, nous devons nous assurer que la théorie elle-même n'a pas été cuit dans le fonctionnement du système.
Plutôt que de penser des sources de données gros comme observer les gens dans un cadre naturel, une métaphore plus apte observe les gens dans un casino. Les casinos sont très environnements conçus pour induire certains comportements conçus, et un des chercheurs ne seraient jamais attendre à ce que le comportement dans un casino offrirait une fenêtre sans entraves sur le comportement humain. Bien sûr, nous pourrions apprendre quelque chose sur le comportement étudiant des personnes humaines dans les casinos, en fait un casino pourrait être un cadre idéal pour étudier la relation entre la consommation d'alcool et le risque préférences, mais si nous ignorions que les données ont été créé dans un casino que nous pourrions tirer des mauvaises conclusions.
Malheureusement, face à la confusion algorithmique est particulièrement difficile parce que beaucoup de caractéristiques des systèmes en ligne sont propriétaires, mal documentés, et en constante évolution. Par exemple, comme je l'expliquerai plus loin dans ce chapitre, confondant algorithmique est une explication possible de l'effondrement progressif de Google Flu Trends (section 2.4.2), mais cette affirmation est difficile à évaluer parce que les rouages de la recherche de Google algorithme sont exclusifs. La nature dynamique de confusion algorithmique est une forme de dérive du système. confusionnel Algorithmic signifie que nous devons être prudents sur toute demande de comportement humain qui provient d'un système numérique unique, peu importe la taille.