Sjellja në sistemet e të dhënave të mëdha nuk është e natyrshme; ajo nxitet nga qëllimet inxhinierike të sistemeve.
Megjithëse shumë burime të mëdha të të dhënave janë jo reaktive, sepse njerëzit nuk janë në dijeni se të dhënat e tyre po regjistrohen (seksioni 2.3.3), hulumtuesit nuk duhet të konsiderojnë sjelljen në këto sisteme online të "natyrshëm." Në të vërtetë, sistemet digjitale që sjellin rekord engineered shumë për të sjellë sjellje të veçanta të tilla si duke klikuar mbi reklama ose postimin e përmbajtjes. Mënyrat se synimet e sistemeve të sistemeve mund të futin modele në të dhëna quhen konfuzion algoritmik . Konflikti algoritmik është relativisht i panjohur për shkencëtarët socialë, por është një shqetësim i madh midis shkencëtarëve të kujdesshëm të të dhënave. Dhe, ndryshe nga disa nga problemet e tjera me gjurmë dixhitale, konfuzion algoritmik është kryesisht i padukshëm.
Një shembull relativisht i thjeshtë i konfuzionit algoritmik është fakti se në Facebook ka një numër anormalisht të lartë përdoruesish me rreth 20 miq, siç u zbulua nga Johan Ugander dhe kolegët (2011) . Shkencëtarët që analizojnë këto të dhëna pa ndonjë kuptim të asaj se si punon Facebook mund të krijojnë pa dyshim shumë tregime rreth asaj se si 20 është një lloj numri magjik shoqëror. Për fat të mirë, Ugander dhe kolegët e tij kishin një kuptim thelbësor të procesit që gjeneroi të dhënat, dhe ata e dinin se Facebook inkurajoi njerëzit me pak lidhje në Facebook për të bërë më shumë miq derisa arritën 20 miq. Megjithëse Ugander dhe kolegët nuk e thonë këtë në dokumentin e tyre, kjo politikë u krijua me sa duket nga Facebook me qëllim që të inkurajojë përdoruesit e rinj të bëhen më aktivë. Pa e ditur për ekzistencën e kësaj politike, megjithatë, është e lehtë të nxjerrim konkluzion të gabuar nga të dhënat. Me fjalë të tjera, numri çuditërisht i lartë i njerëzve me rreth 20 miq na tregon më shumë për Facebook sesa për sjelljen njerëzore.
Në këtë shembull të mëparshëm, konfuzion algoritmik krijoi një rezultat të çuditshëm që një studiues i kujdesshëm mund të zbulojë dhe hetojë më tej. Megjithatë, ka një version edhe më të komplikuar të konfuzionit algoritmik që ndodh kur projektuesit e sistemeve online janë të vetëdijshëm për teoritë sociale dhe pastaj piqen këto teori në funksionimin e sistemeve të tyre. Shkencëtarët socialë e quajnë këtë performativitet : kur një teori ndryshon botën në një mënyrë të tillë që të sjellë botën më në linjë me teorinë. Në rastin e konfuzionit algoritmik performues, natyra e hutuar e të dhënave është shumë e vështirë për t'u zbuluar.
Një shembull i një modeli të krijuar nga performativiteti është tranzicioni në rrjetet sociale online. Në vitet 1970 dhe 1980, studiuesit gjetën në mënyrë të përsëritur që nëse jeni miq me Alice dhe Bob, atëherë Alice dhe Bob kanë më shumë gjasa të jenë miq me njëri-tjetrin se nëse ishin dy njerëz të zgjedhur në mënyrë të rastësishme. Ky model shumë i njëjtë u gjet në grafikun social në Facebook (Ugander et al. 2011) . Kështu, mund të konkludohet se modelet e miqësisë në Facebook kopjojnë modelet e miqësisë jashtë linje, të paktën në aspektin e tranzicionit. Megjithatë, madhësia e tranzicionit në grafikun social të Facebook është pjesërisht i nxitur nga konfuzion algoritmik. Pra, shkencëtarët e të dhënave në Facebook dinin për hulumtimin empirik dhe teorik në lidhje me tranzicionin dhe më pas e pjekur atë në atë se si funksionon Facebook. Facebook ka një tipar "People You May Know" që sugjeron miq të rinj dhe një mënyrë që Facebook vendos se kush të sugjerojë për ju është tranzicioni. Kjo është, Facebook ka më shumë gjasa të sugjerojë që të bëheni miq me miqtë e miqve tuaj. Kjo veçori kështu ka efektin e rritjes së tranzicionit në grafikun social të Facebook; me fjalë të tjera, teoria e tranzicionit e sjell botën në përputhje me parashikimet e teorisë (Zignani et al. 2014; Healy 2015) . Kështu, kur burimet e mëdha të të dhënave duket se riprodhojnë parashikimet e teorisë sociale, duhet të jemi të sigurt se vetë teoria nuk ishte e pjekur në mënyrën se si funksiononte sistemi.
Në vend që të mendojnë për burime të mëdha të të dhënave, si vëzhgimi i njerëzve në një mjedis natyror, një metaforë më e përshtatshme është t'i vëzhgojë njerëzit në një kazino. Kazinot janë mjedise të dizajnuara shumë për të nxitur sjellje të caktuara dhe një studiues kurrë nuk do të presin që sjellja në një kazino të sigurojë një dritare të papenguar në sjelljen njerëzore. Sigurisht, mund të mësoni diçka rreth sjelljes njerëzore duke studiuar njerëzit në kazino, por nëse e injoroni faktin se të dhënat janë duke u krijuar në një kazino, mund të nxirrni disa përfundime të këqija.
Për fat të keq, trajtimi i konfuzionit algoritmik është veçanërisht i vështirë për shkak se shumë tipare të sistemeve online janë të pronarit, të dokumentuara dobët dhe vazhdimisht ndryshojnë. Për shembull, siç do të shpjegoj më vonë në këtë kapitull, konfuzion algoritmik ishte një shpjegim i mundshëm për ndarjen graduale të Trendit të Infeksionit të Google (Seksioni 2.4.2), por ky pretendim ishte vështirë të vlerësohej, sepse veprimet e brendshme të algoritmit të kërkimit të Google janë pronarit. Natyra dinamike e konfuzionit algoritmik është një formë e domethënies së sistemit. Algoritmike ngatërruar do të thotë që ne duhet të jemi të kujdesshëm në lidhje me çdo pretendim në lidhje me sjelljen e njeriut që vjen nga një sistem i vetëm dixhital, pa marrë parasysh sa i madh.