2.3.2.5 Algoritamski zbunjen

Ponašanje u naći podatak nije prirodno, to je vođen inženjering ciljevima sistema.

Iako su mnogi naći izvori podataka su non-reaktivni jer ljudi nisu svjesni svoje podatke snimaju (Odjeljak 2.3.1.3), istraživači ne treba uzeti u obzir ponašanje u tim online sistema da bude "prirodno" ili "čisti". U stvarnosti, digitalne sisteme koji rekord ponašanje su visoko dizajnirani da izazivaju specifične ponašanja, kao što su klikom na oglase ili postavljanje sadržaja. Načina na koji su ciljevi sistema dizajneri mogu uvesti obrasce u podacima se zove algoritamske zbunjujući. Algoritamski zbunjujući je relativno nepoznata sociolozi, ali to je veliki problem među oprezan naučnicima podataka. I, za razliku od nekih drugih problema sa digitalnim tragovima, algoritamski confounding je uglavnom nevidljiv.

Relativno jednostavan primjer algoritamske zbunjujućih je činjenica da na Facebooku postoji anomalno veliki broj korisnika sa oko 20 prijateljima (Ugander et al. 2011) . Naučnici analizirajući sa ove podatke bez ikakvog razumijevanja o tome kako Facebook radi mogao nesumnjivo proizvesti mnoge priče o tome kako 20 je neka vrsta magične socijalne broj. Međutim, Ugander i njegove kolege su imali značajan razumijevanje procesa koji generiraju podaci, a oni su znali da je Facebook ohrabriti ljude sa nekoliko priključaka na Facebook da bi više prijatelja dok nisu stigli do 20 prijatelji. Iako Ugander i kolege ne kažem u novinama, ova politika je po svoj prilici stvorio Facebook u cilju podsticanja novim korisnicima da postanu aktivniji. Ne znajući o postojanju ove politike, međutim, to je lako izvući pogrešan zaključak iz podataka. Drugim riječima, iznenađujuće veliki broj ljudi sa oko 20 prijatelji nam govori više o Facebook-u nego ljudskog ponašanja.

Više pogubna od ovog prethodnog primjera gdje algoritamske zbunjujućih napravio neobičan rezultat koji pažljivo istraživači može dalje istraživati, postoji još teže verziju algoritamske zbunjujućih koja se javlja kada dizajneri online sistema su svjesni socijalnih teorija, a zatim ispeći ove teorije u radni njihovih sistema. Sociolozi zovu performativnosti: kada teorije promijeniti svijet na takav način da oni donose na svijetu više u skladu s teorijom. U slučajevima performativnih algoritamske zbunjujućih je prokleta priroda podataka je vjerojatno nevidljiv.

Jedan primjer obrazac stvorio performativnosti je tranzitivnosti u online društvenim mrežama. U 1970-ih i 1980-ih, istraživači su u više navrata otkrili da ako ste prijatelji s Alice i vi ste prijatelji sa Bob, zatim Bob i Alice su veće šanse da budu prijatelji jedni druge od dvije slučajno izabrani narod. I, ovaj isti obrazac je pronađen u društvenom grafu na Facebooku (Ugander et al. 2011) . Dakle, moglo bi se zaključiti da su obrasci prijateljstvo na Facebooku kopiraju obrasce na mreži prijateljstava, barem u smislu tranzitivnosti. Međutim, veličine tranzitivnosti u Facebook social grafa je djelomično pokreće algoritamske zbunjujući. To je, podaci su naučnici na Facebooku znao empirijskog i teorijskog istraživanja o tranzitivnosti, a zatim pečeni ga u tome kako Facebook radi. Facebook ima "Ljudi You May Know" funkcija koja predlaže nove prijatelje, a jedan od načina da Facebook odlučuje ko da tvrdim da je tranzitivnosti. To jest, Facebook je češće ukazuju na to da ste postali prijatelji s prijateljima među prijateljima. Ova opcija stoga ima učinak povećanja tranzitivnosti u Facebook social grafa; drugim riječima, teorija tranzitivnosti dovodi svijet u skladu s predviđanjima teorije (Healy 2015) . Stoga, kada se pojavi veliki izvor podataka za reprodukciju predviđanja društvene teorije, moramo biti sigurni da je sama teorija nije pekao u kako sistem radio.

Bolje nego da mislim velikih izvora podataka kao posmatranje ljudi u prirodnom ambijentu, a više apt metafora je posmatranje ljudi u kazinu. Kockarnice su visoko projektirana okruženja dizajniran da izazove određena ponašanja, kao i istraživači nikada ne bi očekivali da ponašanje u kasinu bi pružiti nesputan prozor u ljudsko ponašanje. Naravno, nismo mogli naučiti nešto o ljudskom ponašanju studiranja ljudi u kockarnicama-u zapravo casino može biti idealne uvjete za proučavanje odnosa između konzumiranja alkohola i sklonosti riziku ali ako smo ignorisali da podaci se stvara u kasinu bismo mogli izvući neke loše zaključke.

Nažalost, koje se bave algoritamski zbunjujući je posebno teško jer mnoge karakteristike online sistema su vlasnički, slabo dokumentovane, i stalno mijenja. Na primjer, kao što ću kasnije objasniti u ovom poglavlju, algoritamski confounding je bio jedan od mogućih objašnjenja za postepeno break-down Google Flu Trends (Poglavlje 2.4.2), ali ova tvrdnja je teško procijeniti, jer je unutrašnji rad Google pretraživanje algoritam su vlasnički. Dinamična priroda algoritamske zbunjujućih je jedan oblik sistema drift. Algoritamski zbunjujućih znači da treba biti oprezan oko zahtjev za ljudsko ponašanje koje dolazi iz jednog digitalni sistem, bez obzira na to koliko je velika.