2.3.2.6 Брудныя

Вялікія крыніцы дадзеных могуць быць загружаны з непажаданай і спаму.

Некаторыя даследчыкі лічаць, што вялікія крыніцы дадзеных, асабліва з крыніц у Інтэрнэце, некранутым, таму што яны збіраюцца аўтаматычна. На самай справе, людзі , якія працавалі з вялікімі крыніцамі дадзеных ведаюць , што яны часта забруджаныя. Гэта значыць, яны часта ўключаюць у сябе дадзеныя, якія не адлюстроўваюць рэальныя дзеянні, якія прадстаўляюць інтарэс для даследчыкаў. Многія сацыёлагі ўжо знаёмыя з працэсам ачысткі буйнамаштабнага сацыяльнага абследавання дадзеных, але ачыстка вялікіх крыніц дадзеных больш складана па двух прычынах: 1) яны не былі створаны даследнікамі для даследчыкаў і 2) даследчыкаў, як правіла, менш разумення таго, як яны былі створаны.

Небяспекі брудных лічбавых дадзеных трасіроўкі ілюструюцца Назад і калегі » (2010) даследаванні эмацыйнай рэакцыі на тэракты 11 верасня 2001 г. Даследнікі , як правіла , вывучаюць рэакцыю на трагічныя падзеі з выкарыстаннем рэтраспектыўных дадзеных , сабраных у працягу некалькіх месяцаў ці нават гадоў. Але, Назад і яго калегі выявілі, заўсёды на крыніцу лічбавых слядоў-на датаваныя, аўтаматычна запісаныя паведамленні ад 85000 амерыканскіх пэйджары-і гэта дазволіла даследчыкам вывучыць эмацыянальны водгук на значна больш тонкай часовай шкале. Таму і яго калегі стварылі штохвіліннай эмацыйны графік 11 верасня шляхам кадавання эмацыянальны змест пэйджара паведамленняў на працэнт слоў, звязаных з (1) смутак (напрыклад, плач, гора), (2) трывогі (напрыклад, хвалявалася, страшна), і (3) гнеў (напрыклад, нянавісць, крытычны). Яны выявілі, што смутак і трывога вагаліся на працягу ўсяго дня без моцнага малюнка, але што было дзіўнае павелічэнне гневу на працягу ўсяго дня. Гэта даследаванне, здаецца, выдатная ілюстрацыя сілы заўсёды на крыніцах дадзеных: з дапамогай стандартных метадаў было б немагчыма мець такога высокага дазволу храналогію неадкладнага рэагавання на нечаканае падзея.

Толькі адзін год праз, аднак, Сінція Pury (2011) паглядзеў на дадзеныя больш старанна. Яна выявіла, што вялікая колькасць нібыта гнеўных паведамленняў былі атрыманы адным пэйджарам і ўсе яны былі ідэнтычныя. Вось што сказаў, што гэтыя нібыта гнеўныя паведамлення:

"Перазагрузка NT машына [імя] у кабінет [імя] на [месцы]: фатальным: [дата і час]"

Гэтыя паведамленні былі пазначаныя злуюся, таму што яны ўключалі ў сябе слова "Крытычнае", які звычайна можа паказваць гнеў, але не ў гэтым выпадку. Выдаленне паведамленняў, генераваных гэтай адзінай аўтаматызаванай пэйджара цалкам выключае відавочнае павелічэнне гневу за працягу дня (малюнак 2.2). Іншымі словамі, асноўнай вынік Back, Küfner, and Egloff (2010) быў артэфакт аднаго пэйджара. Як паказвае гэты прыклад, адносна просты аналіз адносна складаных і заблытаных дадзеных мае патэнцыял, каб ісці сур'ёзна не так.

Малюнак 2.2: Меркаваныя тэндэнцыі ў гневе ў працягу 11 верасня 2001 году на базе 85000 амерыканскіх пэйджараў (Back, Куфнер і Эглофф 2010; Pury 2011; Назад, Куфнер і Эглофф 2011). Першапачаткова, Back, Куфнер і Эглофф (2010) паведамілі карціну нарастальнага гневу на працягу ўсяго дня. Тым не менш, большасць з гэтых відавочных гнеўных паведамленняў былі атрыманы з дапамогай аднаго пэйджара, які неаднаразова разаслана наступнае паведамленне: машына Reboot NT [імя] ў кабінеце [імя] ў [месца]: Крытычнае: [дата і час]. Пры гэтым паведамленне выдаляецца, відавочнае павелічэнне гневу знікае (Pury 2011, спіна, Куфнер і Эглофф 2011). Гэтая лічба з'яўляецца рэпрадукцыяй мал 1В ў Pury (2011).

Малюнак 2.2: Меркаваныя тэндэнцыі ў гневе ў працягу 11 верасня 2001 году на базе 85000 амерыканскіх пэйджараў (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Першапачаткова, Back, Küfner, and Egloff (2010) паведамілі карціну нарастальнага гневу ў працягу ўсяго дня. Тым не менш, большасць з гэтых відавочных гнеўных паведамленняў былі атрыманы з дапамогай аднаго пэйджара, які неаднаразова разаслана наступнае паведамленне: "Машына Reboot NT [імя] у кабінет [імя] ў [месца]: Крытычнае: [дата і час]". Пры гэтым паведамленне выдаляецца, відавочнае павелічэнне гневу знікае (Pury 2011; Back, Küfner, and Egloff 2011) . Гэтая лічба з'яўляецца рэпрадукцыяй мал 1В ў Pury (2011) .

У той час як брудныя дадзеныя, якія ствараюцца ненаўмысна, напрыклад, ад адной шумнай пэйджара-можна выявіць з дапамогай дастаткова стараннага даследчыка, існуюць таксама некаторыя інтэрнэт-сістэмы, якія прыцягваюць наўмысныя спамераў. Гэтыя спамеры актыўна генеруюць ілжывыя дадзеныя, і, часта матываванае прыбытку працаваць вельмі цяжка, каб трымаць іх рассылання спаму схаваныя. Напрыклад, палітычная дзейнасць на Twitter , здаецца, уключае па меншай меры некаторыя досыць складаныя спам, у выніку чаго некаторыя палітычныя прычыны наўмысна зроблены , каб выглядаць больш папулярным , чым яны з'яўляюцца фактычнай (Ratkiewicz et al. 2011) і (Ratkiewicz et al. 2011) . Даследчыкі, якія працуюць з дадзенымі, якія могуць утрымліваць наўмыснае спам сутыкаюцца з праблемай пераканаць сваю аўдыторыю, што яны выяўленыя і выдаленыя адпаведныя спам.

І, нарэшце, тое, што лічыцца брудныя дадзеныя могуць залежаць тонкая магчымасць вашых даследаванняў пытанняў. Напрыклад, многія праўкі ў Вікіпедыі ствараюцца з дапамогай аўтаматызаваных робатаў (Geiger 2014) . Калі вы зацікаўлены ў экалогіі Вікіпедыі, то гэтыя боты з'яўляюцца важнымі. Але, калі вы зацікаўлены ў тым, як людзі ўнесці свой уклад у Вікіпедыі, гэтыя змены, унесеныя гэтымі ботамі павінны быць выключаныя.

Лепшыя спосабы, каб пазбегнуць у зман брудных дадзеных, каб зразумець, якім чынам вашыя дадзеныя былі створаны для выканання простага пошукавага аналізу, такія як стварэнне простых графікаў рассейвання.