2.3.2.5 încurcată algoritmic în

Comportamentul în datele constatatnu este natural, este determinată de obiectivele de inginerie ale sistemelor.

Cu toate că multe surse de date găsite sunt non-reactive, deoarece oamenii nu sunt conștienți de datele lor sunt înregistrate (secțiunea 2.3.1.3), cercetătorii nu ar trebui să ia în considerare comportamentul în aceste sisteme on-line pentru a fi "în mod natural" sau "pur". In realitate, sisteme digitale care sunt un comportament de înregistrare extrem de inginerie pentru a induce comportamente specifice, cum ar fi clic pe anunțuri sau postarea de conținut. Modurile în care obiectivele proiectanții de sisteme pot introduce modele în date se numește intricate algoritmică. intricate algoritmică este relativ necunoscut pentru oamenii de știință sociale, dar este o preocupare majoră în rândul oamenilor de știință atent de date. Si, spre deosebire de unele dintre celelalte probleme cu urme digitale, intricate algoritmică este în mare măsură invizibil.

Un exemplu relativ simplu de intricate algoritmice este faptul că pe Facebook există un număr mare de utilizatori anomalously cu aproximativ 20 de prieteni (Ugander et al. 2011) . Oamenii de stiinta au analizarea acestor date, fără nici o înțelegere a modului în care funcționează Facebook ar putea genera doubtlessly multe povești despre modul în care 20 este un fel de număr magic sociale. Cu toate acestea, Ugander si colegii sai au avut o înțelegere substanțială a procesului care a generat datele și au știut că Facebook a încurajat oamenii cu puține conexiuni pe Facebook pentru a face mai mulți prieteni până când au ajuns la 20 de prieteni. Cu toate ca Ugander si colegii nu spun acest lucru în ziar, această politică a fost probabil creată de Facebook, în scopul de a încuraja noii utilizatori să devină mai activi. Fără să știe despre existența acestei politici, cu toate acestea, este ușor de a trage concluzia greșită din datele. Cu alte cuvinte, numărul surprinzător de mare de oameni cu aproximativ 20 de prieteni ne spune mai multe despre Facebook decât comportamentul uman.

Mai pernicioasă decât acest exemplu anterior în cazul în care intricate algoritmică a produs un rezultat quirky că o evaluare atentă cercetătorii s-ar putea investiga în continuare, există o versiune chiar mai complicată a intricate algoritmică, care are loc atunci când proiectanții de sisteme on-line sunt conștienți de teoriile sociale și apoi se coace aceste teorii în lucrarea sistemelor lor. Oamenii de stiinta sociale numesc acest performativitatea: atunci când teoriile schimba lumea în așa fel încât să aducă lumea mai mult în concordanță cu teoria. În cazurile de intricate algoritmice performativă, natura contrariată a datelor este probabil invizibil.

Un exemplu de un model creat de performativitate este tranzitiv în rețelele de socializare online. În anii 1970 și 1980, cercetătorii în mod repetat, a constatat că, dacă sunteți prieteni cu Alice și sunteți prieteni cu Bob, atunci Bob si Alice sunt mai susceptibile de a fi prieteni cu unul de altul decât cele două persoane alese în mod aleatoriu. Și acest lucru foarte același model a fost găsit în grafic sociale pe Facebook (Ugander et al. 2011) , (Ugander et al. 2011) . Astfel, s-ar putea trage concluzia că modelele de prietenie pe Facebook replica modele de prietenii offline, cel puțin în ceea ce privește tranzitivitatea. Cu toate acestea, amploarea tranzitivității în grafic sociale Facebook este parțial determinată de intricate algoritmice. Aceasta este, oamenii de știință de date de la Facebook a cunoscut cercetării empirice și teoretice despre tranzitivitate și apoi coapte-l în modul în care funcționează pe Facebook. Facebook are un "People-ar putea să știți", facilitate care sugereaza prieteni noi, și o modalitate prin care Facebook decide cine să sugereze tine este tranzitivitatea. Că este, Facebook este mult mai probabil să sugereze că deveniți prieteni cu prietenii prietenilor tăi. Această caracteristică a astfel efectul creșterii tranzitivitatea în grafic sociale Facebook; cu alte cuvinte, teoria tranzitivitate aduce lumea în conformitate cu predictiile teoriei (Healy 2015) . Astfel, atunci când sursele de date mari pare să reproducă predicții ale teoriei sociale, noi trebuie să fim siguri că teoria în sine nu a fost coaptă în modul în care sistemul a lucrat.

Mai degrabă decât de gândire de surse de date de mare ca observarea oamenilor într-un cadru natural, o metaforă mai apt este observarea oamenilor într-un cazinou. Cazinouri sunt extrem de medii concepute pentru a induce anumite comportamente prin inginerie, si un cercetatorii nu s-ar astepta ca un comportament într-un cazinou ar oferi o fereastră nestingherit în comportamentul uman. Desigur, am putea invata ceva despre studierea comportamentului persoanelor umane în cazinouri, de fapt, un cazinou ar putea fi un cadru ideal pentru a studia relația dintre consumul de alcool și de risc preferințe, dar dacă am ignorat faptul că datele au fost create într-un cazinou am putea trage câteva concluzii proaste.

Din păcate, se ocupă cu intricate algoritmice este deosebit de dificilă, deoarece multe caracteristici ale sistemelor on-line sunt brevetate, prost documentate, și în continuă schimbare. De exemplu, așa cum voi explica mai târziu în acest capitol, a fost o confuzie algoritmică explicație posibilă pentru treptată break-jos a serviciului Google Tendințele gripei (secțiunea 2.4.2), dar această afirmație a fost greu de evaluat, deoarece lucrările interioare ale căutare Google algoritmul sunt brevetate. Caracterul dinamic al intricate algoritmice este o formă de sistem de drift. intricate algoritmică înseamnă că trebuie să fim prudenți cu privire la orice pretenție de comportament uman, care provine dintr-un sistem digital unic, indiferent cât de mare.