2.3.2.5 Algorithmically confosos

Comportament en les dades trobats no és natural, és impulsada pels objectius d'enginyeria dels sistemes.

Encara que moltes fonts de dades trobats no són reactives perquè les persones no són conscients de les seves dades es graven (Secció 2.3.1.3), els investigadors no ha de considerar el comportament d'aquests sistemes en línia per a ser "natural" o "pur". En realitat, la sistemes digitals que el comportament de registre van d'alta enginyeria per induir comportaments específics, com ara fer clic als anuncis o la publicació de contingut. Les formes en què els objectius dels dissenyadors de sistemes poden introduir patrons en les dades s'anomena confusió algorísmica. confusió algorísmica és relativament desconegut per als científics socials, però és una de les principals preocupacions entre els científics de dades curosos. I, a diferència d'alguns dels altres problemes amb les empremtes digitals, la confusió algorísmica és en gran part invisible.

Un exemple relativament simple de la confusió algorítmic és el fet que a Facebook hi ha un nombre anormalment alt d'usuaris amb aproximadament 20 amics (Ugander et al. 2011) . Els científics que analitzen amb aquestes dades sense cap comprensió de com funciona Facebook podria generar, sens dubte, moltes històries sobre com 20 és una espècie de nombre màgic socials. No obstant això, Ugander i els seus col·legues tenien un profund coneixement sobre el procés que genera les dades, i es van adonar que Facebook va animar a la gent amb poques connexions a Facebook per fer més amics fins que van arribar a 20 amics. Encara Ugander i els seus col·legues no diuen això en el paper, aquesta política va ser suposadament creat per Facebook per tal d'animar els nous usuaris a ser més actius. Sense necessitat de conèixer l'existència d'aquesta política, però, és fàcil arribar a la conclusió errònia de les dades. En altres paraules, el nombre sorprenentment alt de persones amb uns 20 amics ens diu més sobre Facebook de la conducta humana.

Més perniciós que aquest exemple anterior, on la confusió algorísmica va produir un resultat peculiar que una acurada investigadors podrien investigar més a fons, hi ha una versió encara més difícil de confusió algorísmica que es produeix quan els dissenyadors de sistemes en línia són conscients de les teories socials i després coure aquestes teories en el treball dels seus sistemes. Els científics socials criden a aquesta performativitat: quan les teories canvien el món d'una manera que porten el món més d'acord amb la teoria. En els casos de confusió algorísmica performatiu, la naturalesa confós de les dades probablement invisible.

Un exemple d'un patró creat per la performativitat és la transitivitat en les xarxes socials en línia. En les dècades de 1970 i 1980, els investigadors van trobar en repetides ocasions que si vostè és amic d'Alice i vostè és amic de Bob, llavors Bob i Alice són més propensos a ser amics entre si de dues persones triades a l'atzar. I, aquest mateix patró es va trobar en el gràfic social a Facebook (Ugander et al. 2011) . Per tant, es podria concloure que els patrons d'amistat a Facebook repliquen patrons d'amistats fora de línia, almenys en termes de transitivitat. No obstant això, la magnitud de transitivitat en el gràfic social Facebook és impulsat en part per factors de confusió algorísmica. És a dir, els científics de dades a Facebook sabien de la investigació empírica i teòrica sobre la transitivitat i després es couen en com funciona Facebook. Facebook té un "la gent pot saber", característica que suggereix nous amics, i una manera de que Facebook decideix que per suggerir a vostè és la transitivitat. És a dir, Facebook és més probable que suggereixi que vostè es converteix en amic dels amics dels teus amics. Per tant, aquesta característica té l'efecte d'augmentar la transitivitat en el gràfic social Facebook; en altres paraules, la teoria de la transitivitat porta al món en línia amb les prediccions de la teoria (Healy 2015) . Per tant, quan les grans fonts de dades apareix per reproduir les prediccions de la teoria social, hem d'estar segurs que la teoria en si no es horneó en el funcionament del sistema.

En lloc de pensar de fonts de dades grans com l'observació de les persones en un entorn natural, una metàfora més apta és l'observació de la gent en un casino. Els casinos estan entorns dissenyats per induir determinats comportaments d'alta enginyeria, i uns investigadors mai esperaria que el comportament en un casino proporcionaria una finestra sense restriccions en el comportament humà. Per descomptat, podríem aprendre alguna cosa sobre el comportament estudi de les persones humanes en els casinos, de fet un casino podria ser un escenari ideal per a l'estudi de la relació entre el consum d'alcohol i el risc de preferències, però si ignorem que les dades s'està creant en un casino podríem extreure algunes conclusions dolentes.

Malauradament, es tracta de la confusió algorísmica és particularment difícil a causa que moltes característiques dels sistemes en línia són propietàries, pobrament documentada, i en constant canvi. Per exemple, com explicaré més endavant en aquest capítol, els factors de confusió algorítmica era una possible explicació per al desglossament gradual de Google Flu Trends (Secció 2.4.2), però aquesta afirmació va ser difícil d'avaluar a causa dels treballs interns de cerca de Google algoritme són propietaris. La naturalesa dinàmica dels factors de confusió algorítmic és una forma de la deriva del sistema. confusió algorísmica vol dir que hem de tenir cura amb qualsevol reclamació de la conducta humana que prové d'un únic sistema digital, no importa el gran.