2.3.2.5 алгарытмічныя пасаромленыя

Паводзіны ў знойдзеных дадзеных не з'яўляецца натуральным, ён прыводзіцца ў рух інжынерных задач сістэм.

Хаця многія знойдзеныя крыніцы дадзеных не рэагуюць, таму што людзі не ведаюць, іх дадзеныя запісваюцца (раздел 2.3.1.3), даследчыкі не павінны разглядаць паводзіны ў гэтых інтэрнэт-сістэмах, каб быць "натуральным" або "чыстым". У рэчаіснасці, лічбавыя сістэмы якія запісваюць паводзіны высока спраектаваныя, каб выклікаць пэўныя паводзіны, такія як націск на рэкламу або размяшчэння кантэнту. Шляху , што мэты распрацоўшчыкаў сістэмы можна ўвесці шаблоны ў дадзеных называецца алгарытмічнай ўмешваліся. Алгарытмічны ўмешваецца адносна невядомых сацыяльных навукоўцаў, але гэта з'яўляецца сур'ёзнай праблемай сярод асцярожных навукоўцаў дадзеных. І, у адрозненне ад некаторых іншых праблем, звязаных з лічбавымі слядамі, алгарытмічны ўмешваецца ў значнай ступені нябачным.

Адносна просты прыклад алгарытмічнага змешванню з'яўляецца той факт , што на Facebook ёсць анамальна вялікая колькасць карыстальнікаў з прыблізна 20 сяброў (Ugander et al. 2011) і (Ugander et al. 2011) . Навукоўцы, якія аналізуюць з гэтымі дадзенымі без якога-небудзь разумення таго, як Facebook працуе можа генераваць шмат несумненна гісторыі пра тое, як 20 з'яўляецца свайго роду магічным сацыяльнае лік. Тым не менш, Ugander і яго калегі аказалі істотнае разуменне працэсу, які стварыў гэтыя дадзеныя, і яны ведалі, што Facebook заклікаў людзей з невялікім колькасцю злучэнняў на Facebook, каб зрабіць больш сяброў, пакуль яны не дасягнулі 20 сяброў. Хоць Ugander і яго калегі не гавораць пра гэта ў газеце, гэтая палітыка была меркавана створана Facebook для таго, каб заахвоціць новых карыстальнікаў, каб стаць больш актыўнымі. Ня ведаючы пра існаваньне гэтай палітыкі, аднак, гэта лёгка зрабіць няправільны вывад з дадзеных. Іншымі словамі, на здзіўленне вялікая колькасць людзей, каля 20 сяброў кажа нам больш пра Facebook, чым паводзіны чалавека.

Больш пагібельным, чым гэта ў папярэднім прыкладзе, дзе алгарытмічная ўмешваецца вытворчасці Выкрутлівы вынік, што дбайнае даследчыкі маглі б даследаваць далей, ёсць яшчэ больш хітрым версія алгарытмічнай змешванню, што адбываецца, калі распрацоўшчыкі анлайнавых сістэм ведаюць аб сацыяльных тэорый, а затым выпякаць гэтыя тэорыі ў працоўны іх сістэм. Сацыёлагі называюць гэтую перфарматыўнасць: калі тэорыі змяніць свет такім чынам , што яны прыносяць свет у адпаведнасць з тэорыяй. У выпадках творчай алгарытмічнай змешванню, то пракляты характар ​​дадзеных, хутчэй за ўсё, нябачным.

Адным з прыкладаў ўзору, створанага перфарматыўнасць з'яўляецца транзітыўнасць ў анлайнавых сацыяльных сетках. У 1970-х і 1980-х гадах, даследчыкі выявілі, што некалькі разоў, калі вы сябруеце з Алісай, і вы сябруеце з Бобам, то Боб і Аліса маюць больш шанцаў быць сябрамі адзін з адным, чым двух выпадкова выбраных людзей. І гэтая ж карціна была знойдзена ў сацыяльны граф на Facebook (Ugander et al. 2011) і (Ugander et al. 2011) . Такім чынам, можна зрабіць выснову аб тым, што ўзоры дружбы на Facebook тыражаваць мадэлі ў аўтаномным рэжыме сяброўствам, па меншай меры, з пункту гледжання транзітыўнасць. Тым не менш, велічыня транзітыўнасць ў сацыяльны граф Facebook часткова кіруецца алгарытмічнай змешванню. Гэта значыць, навукоўцы дадзеных на Facebook ведаў пра эмпірычных і тэарэтычных даследаванняў аб транзітыўнасць і затым запякаюць яго ў тым, як працуе Facebook. Facebook мае "Магчыма, вы знаёмыя", якая прадугледжвае новых сяброў, і адзін з спосабаў, што facebook вырашае, хто прапанаваць вам гэта транзітыўнасць. Гэта значыць, Facebook, больш верагодна выказаць здагадку, што вы сталі сябрамі з сябрамі вашых сяброў. Такім чынам, гэтая функцыя мае эфект павелічэння транзітыўнасць ў сацыяльны граф Facebook; Іншымі словамі, тэорыя пераходнасці прыносіць свет ў адпаведнасць з прадказаннямі тэорыі (Healy 2015) . Такім чынам, калі вялікія крыніцы дадзеных, як уяўляецца, прайграваюць прадказанні сацыяльнай тэорыі, мы павінны быць упэўнены, што сама тэорыя не выпякалі ў тым, як гэтая сістэма працавала.

Замест таго, каб думаць пра вялікія крыніц дадзеных, як назірання за людзьмі ў натуральнай абстаноўцы, больш падыходная метафара назірае людзей у казіно. Казіно высока інжынерыі асяроддзя, распрацаваныя, каб выклікаць пэўныя тыпы паводзін, і яшчэ даследчыкі ніколі не маглі б чакаць, што паводзіны ў казіно забяспечыць неабмежаваную акно ў паводзінах чалавека. Вядома, мы маглі б даведацца што-то аб паводзінах вывучэння людзей чалавека ў казіно, на самай справе казіно можа быць ідэальным месцам для вывучэння ўзаемасувязі паміж спажываннем алкаголю і рызыкай пераваг, але калі мы не ўлічвалі, што дадзеныя стваралася ў казіно мы маглі б зрабіць некаторыя дрэнныя высновы.

На жаль, справа з алгарытмічнай змешванню асабліва цяжка, таму што многія асаблівасці анлайнавых сістэм з'яўляюцца ўласнасцю кампаніі, дрэнна дакументаваны, і ўвесь час змяняецца. Напрыклад, як я растлумачу пазней у гэтым раздзеле, алгарытмічны ўмешваецца быў адным з магчымых тлумачэнняў паступовага развалу Google Flu Trends (раздел 2.4.2), але гэта патрабаванне было цяжка ацаніць, бо ўнутраная праца пошуку кампаніі Google алгарытм з'яўляюцца прыватнай уласнасцю. Дынамічны характар ​​алгарытмічнай змешванню з'яўляецца адной з формаў дрэйфу сістэмы. Алгарытмічны ўмешваецца азначае, што мы павінны праяўляць асцярожнасць ў дачыненні да любых прэтэнзій да чалавечага паводзін, якое зыходзіць з адзінай лічбавай сістэмы, незалежна ад таго, наколькі вялікая.