2.3.2.5 математически алгоритъм посрамиха

Поведение в намерена информация не е естествена, тя се определя от инженерните цели на системите.

Въпреки че много открити източници на данни не са реактивни, защото хората не са наясно с техните данни се записват (раздел 2.3.1.3), изследователите не трябва да обмислят поведение в тези онлайн системи да бъдат "естествено срещащи се" или "чиста". В действителност, цифрови системи, които рекорд поведение са силно проектирани за предизвикване на конкретни действия, като например кликване върху реклами или публикуване на съдържание. Начините, че целите на системните дизайнери могат да въведат модели в данните, се нарича алгоритмичен погрешни изводи. Алгоритмичната объркващ е сравнително непознат за социални учени, но това е основен проблем сред внимателни учени данни. И, за разлика от някои от другите проблеми с цифрови следи, алгоритмична объркващ е до голяма степен невидими.

A сравнително прост пример за алгоритмична объркващ е фактът, че във Фейсбук има една аномално голям брой потребители с около 20 приятели (Ugander et al. 2011) . Учените анализират с тази информация без каквато и разбиране за това как Facebook работи можеше безспорно генерира много истории за това как 20 е някаква магическа социален номер. Въпреки това, Ugander и колегите му са имали значително разбиране на процеса, което генерира данните, и те са знаели, че Facebook насърчава хората с няколко връзки на Facebook да направи повече приятели, докато те достигнат 20 приятели. Въпреки Ugander и колегите не казват това във вестника, тази политика се предполага, че е създадена от Facebook, за да се насърчи създаването на нови потребители да станат по-активни. Без да знае за съществуването на тази политика, обаче, че е лесно да се направи погрешен извод от данните. С други думи, на изненадващо висок броят на хората с около 20 приятели ни казва повече за Facebook, отколкото човешкото поведение.

Повече вредна, отколкото този предишния пример, където алгоритмична смущаващи произведени чудат резултат, че един внимателен изследователи може да разследва допълнително, там е още по-сложни версия на алгоритмична погрешни изводи, че се случва, когато дизайнерите на онлайн системи са наясно социални теории и след това се пекат тези теории в работата на техните системи. Социолозите наричат ​​този перформативност: когато теории променят света по такъв начин, че те носят на света по-голямо съответствие с теорията. В случаите на перформативен алгоритмична погрешни изводи, на смутено характера на данните е вероятно невидимо.

Един пример за модел, създаден от перформативност е преходност в онлайн социални мрежи. През 1970-те и 1980-те години, изследователи многократно са установили, че ако са приятели с Алис и сте приятели с Боб, след това Боб и Алис е по-вероятно да бъдат приятели с всеки, с изключение на два случайно избрани хора. И, още същия този модел е бил намерен в социалната графиката на Facebook (Ugander et al. 2011) . По този начин, може да се заключи, че моделите на приятелството на Facebook възпроизвеждат модели на офлайн приятелства, най-малко по отношение на преходност. Въпреки това, степента на преходност в социалната графиката Facebook е частично задвижва от алгоритмичен погрешни изводи. Това означава, че учените данни на Facebook знаели за емпирично и теоретично изследване за преходност и след това изпечени в начина на работа на Facebook. Facebook има "хора, може би знаете" функцията, която предлага нови приятели, и един път, че Facebook решава кой да предложа да ви е преходност. Това означава, Facebook е по-вероятно да се предположи, че вие ​​ставате приятели с приятелите на приятелите си. Така Тази функция има ефект на увеличаване на преходност в социалната графиката Facebook; с други думи, теорията на преходност носи света в съответствие с предвижданията на теорията (Healy 2015) . По този начин, когато големите източници на данни се появява, за да се възпроизведе прогнози на социалната теория, трябва да сме сигурни, че самата теория не се пече в това как работи системата.

Вместо да мисли за големите източници на данни, както е при спазване на хората в естествена среда, а по-склонни метафора се наблюдават хора в казино. Казина са силно инженерство среди, предназначени да убедят някои поведения, както и изследователи никога няма да очакват, че поведението в казино ще осигурява безпрепятствен прозорец към човешкото поведение. Разбира се, бихме могли да научим нещо за поведение учи хората на човека в казина в действителност казино може да бъде идеалното място за изучаване на връзката между консумацията на алкохол и рисковите предпочитания, но ако ние не обърна внимание, че данните, е бил създаден в казино бихме могли изготвят някои лоши заключения.

За съжаление, занимаващи се с алгоритмичен объркващ е особено трудно, тъй като много от характеристиките на онлайн системи са патентовани, зле документирани, и постоянно променящи се. Например, както ще обясня по-късно в тази глава, алгоритмична объркващ беше едно от възможните обяснения за постепенното Разбивката на Google Flu Trends (раздел 2.4.2), но това твърдение е трудно да се прецени, защото вътрешната изработки на търсене на Google алгоритъм са патентовани. Динамичният характер на алгоритмична объркващ е една форма на система за дрифт. Алгоритмичната смущаващи означава, че ние трябва да бъдем предпазливи за всеки иск за човешкото поведение, което идва от една единствена цифрова система, без значение колко е голям.