Elgesys rastų duomenų nėra natūralus, jis yra varomas inžinerinių tikslų sistemų.
Nors daugelis nerasta duomenų šaltiniai yra nereaguoti, nes žmonės nežino jų duomenys registruojami (2.3.1.3 skyrius), mokslininkai neturėtų svarstyti elgesį šių internetinių sistemų turi būti "natūraliai" arba "tyra." Iš tikrųjų, skaitmeninės sistemos, kad įrašas elgesys yra labai inžinerijos sukelti specifinius elgesio, kaip antai Naršyti skelbimus ar Rašymui. Būdai, kad sistemos dizainerių tikslai gali įvesti modeliais duomenimis vadinamas algoritminės kebli. Algoritminės kebli yra palyginti nežinoma socialinių mokslininkų, tačiau tai yra didelė problema tarp atsargūs duomenų mokslininkai. Ir, skirtingai nuo kai kurių kitų problemų, susijusių su skaitmeninių pėdsakų, algoritminės kebli daugiausia nematomas.
Santykinai paprastas pavyzdys algoritminės komplikuota yra tai, kad "Facebook" yra yra anomalously didelis skaičius vartotojų maždaug 20 draugų (Ugander et al. 2011) . Mokslininkai analizuodami su šiais duomenimis be jokių kaip "Facebook" veikia galėtų neabejotinai generuoti daug istorijų apie tai, kaip 20 yra tam tikra stebuklinga socialinės skaičius rūšies supratimą. Tačiau Ugander ir jo kolegos turėjo didelę supratimą apie šį procesą, kad generuoja duomenis, ir jie žinojo, kad "Facebook" paskatino žmones su kelių jungtys Facebook padaryti daugiau draugų, kol jie pasiekė 20 draugų. Nors Ugander ir jo kolegos ne tai sakau popieriaus, ši politika buvo matyt sukūrė Facebook siekiant paskatinti naujus vartotojus aktyviau. Nežinant apie šios politikos egzistavimo, tačiau tai lengva padaryti klaidingą išvadą, iš duomenų. Kitaip tariant, stebėtinai didelis skaičius žmonių, turinčių apie 20 draugai pasako daugiau apie "Facebook" nei žmogaus elgesį.
Daugiau Žalingi nei ankstesnis pavyzdžiui, kai algoritminės kebli pagamintos egzotiškos rezultatą, kad atidžiai mokslininkai gali ištirti toliau, yra dar sudėtingiau versija algoritminės komplikuota, kuri atsiranda, kai dizaineriai internetinių sistemų suvokia socialinių teorijų ir tada kepti šių teorijų į darbo jų sistemų. Socialiniai mokslininkai vadina šį performatyvumas: kai teorijos pakeisti pasaulį tokiu būdu, kad jie duoda pasauliui labiau suderinta su teorija. Siekiant performatyvios algoritminės komplikuota atvejais sukrėstas duomenų pobūdis gali nematomas.
Vienas iš pavyzdžių modelis sukurtas performatyvumo yra Tranzityvumas internetiniuose socialiniuose tinkluose. Per 1970 ir 1980, mokslininkai ne kartą konstatavo, kad, jei esate draugai su Alice ir esate draugai su Bob, tada Bob ir Alisa yra labiau linkę draugauti su viena kitos, nei dviejų atsitiktinai pasirinktų žmonių. Ir tai labai pats modelis buvo rastas socialinės diagramoje Facebook (Ugander et al. 2011) . Taigi, galima daryti išvadą, kad modeliai draugystei "Facebook atkartoti modelius neprisijungęs draugystę, bent jau kalbant apie Tranzityvumas. Tačiau Tranzityvumas dydis į Facebook socialinio diagramoje yra dalinai lemia algoritminės komplikuota. Tai reiškia, kad duomenų mokslininkai Facebook žinojo apie empirinių ir teorinių tyrimų apie Tranzityvumas ir tada kepti jį į kaip "Facebook" veikia. "Facebook" turi "pažįstamų žmonių" funkcija, kuri rodo, naujų draugų, ir vienas iš būdų, kad "Facebook nusprendžia, kas pasiūlyti jums yra Tranzityvumas. Tai reiškia, kad "Facebook" yra labiau linkę manyti, kad jums tapti draugais su savo draugais draugais. Taigi ši funkcija turi padidinti tranzityvumas į Facebook socialinio diagramoje poveikį; kitaip tariant, Tranzityvumas teorija duoda pasauliui suderinti su teorijos prognozėmis (Healy 2015) . Taigi, kai dideli duomenų šaltiniai, atrodo, atgaminti prognozes socialinės teorijos, mes turime būti tikri, kad pati teorija buvo ne kepti į tai, kaip sistema veikė.
Užuot galvoju didelių duomenų šaltinių, stebint žmones natūralioje aplinkoje, daugiau apt metafora stebint žmones kazino. Kazino yra labai inžinerijos aplinkas, skirtas sukelti tam tikrus elgesio, o mokslininkai niekada tikėtis, kad elgesys kazino suteiktų nekliudomą langą į žmogaus elgesį. Žinoma, mes galime išmokti ką nors apie žmogaus elgesį studijuoja žmonių kazino-iš tiesų kazino gali būti ideali vieta mokytis tarp alkoholio vartojimo ir rizikos santykį pageidavimus-bet jei mes ignoruoti, kad duomenys buvo kuriama kazino Galėtume atkreipti blogų išvadas.
Deja, susiduriame su algoritminės komplikuota yra ypač sunku, nes daug funkcijų internetinių sistemų patentuota, prastai dokumentuotos, ir nuolat keičiasi. Pavyzdžiui, kaip aš paaiškinsiu vėliau šiame skyriuje, algoritminės kebli buvo vienas galimas paaiškinimas dėl laipsniško skaidymą Google "gripo tendencijose (2.4.2 skirsnis), tačiau šis prašymas buvo sunku įvertinti, nes vidaus darbu" Google "paieškoje algoritmas yra patentuota. Dinamiška algoritminės komplikuota yra viena forma sistemos dreifo. Algoritminės kebli reiškia, kad mes turime būti atsargūs apie bet kokios pretenzijos dėl žmogaus elgesio, kuris ateina iš vieno skaitmeninės sistemos, nesvarbu, kaip didelis.