Вялікія крыніцы дадзеных могуць быць загружаны з непажаданай і спаму.
Некаторыя даследчыкі лічаць, што вялікія крыніцы дадзеных, асабліва крыніц у Інтэрнэце, некранутым, таму што яны збіраюцца аўтаматычна. На самай справе, людзі , якія працавалі з вялікімі крыніцамі дадзеных ведаюць , што яны часта забруджаныя. Гэта значыць, яны часта ўключаюць у сябе дадзеныя, якія не адлюстроўваюць рэальныя дзеянні, якія прадстаўляюць інтарэс для даследчыкаў. Большасць сацыёлагаў ўжо знаёмыя з працэсам ачысткі буйнамаштабных сацыяльнага абследавання дадзеных, але ачыстка вялікіх крыніц дадзеных ўяўляюцца больш цяжкімі. Я думаю, што асноўная крыніца гэтай цяжкасці з'яўляецца тое, што многія з гэтых буйных крыніц дадзеных ніколі не былі прызначаныя для выкарыстання ў даследаванні, і таму яны не збіраюцца, захоўваюцца і дакументаваны такім чынам, што палягчае ачыстку дадзеных.
Небяспекі брудных лічбавых дадзеных трасіроўкі ілюструюцца Назад і калегамі (2010) вывучэнне эмацыйнай рэакцыі на атакі 11 верасня 2001 года, якія я коратка згадвалася раней у гэтай чале. Даследчыкі, як правіла, вывучаюць рэакцыю на трагічныя падзеі з выкарыстаннем рэтраспектыўных дадзеных, сабраных на працягу некалькіх месяцаў ці нават гадоў. Але, Back і яго калегі выявілі, заўсёды на крыніцы лічбавых слядоў-на датаваным, аўтаматычна запісаныя паведамленні ад 85000 амерыканскіх пэйджараў-і гэта дазволіла ім вывучыць эмацыянальны водгук на значна больш тонкай часовай шкале. Яны стварылі штохвіліннай эмацыйны графік 11 верасня кадавання эмацыянальны змест пэйджара паведамленняў на працэнт слоў, звязаных з (1) смутак (напрыклад, «плач» і «смутак»), (2) трывожнасць ( напрыклад, «занепакоеныя» і «страшна»), і (3) гнеў (напрыклад, «нянавісць» і «крытычны»). Яны выявілі, што смутак і трывога вагаліся на працягу ўсяго дня без моцнай мадэлі, але што было дзіўнае павелічэнне гневу на працягу ўсяго дня. Гэта даследаванне, здаецца, выдатная ілюстрацыя сілы заўсёды на крыніцах дадзеных: калі былі выкарыстаныя традыцыйныя крыніцы дадзеных, было б немагчыма атрымаць такую высокага дазвол храналогіі неадкладнага рэагавання на нечаканае падзея.
Толькі адзін год праз, аднак, Сінція Pury (2011) паглядзеў на дадзеныя больш старанна. Яна выявіла, што вялікая колькасць нібыта гнеўныя паведамленні былі атрыманы з дапамогай аднаго пэйджара і ўсе яны былі ідэнтычныя. Вось што сказаў, што гэтыя нібыта гнеўныя паведамлення:
"Перазагрузка NT машына [імя] у кабінет [імя] на [месцы]: фатальным: [дата і час]"
Гэтыя паведамленні былі пазначаныя злуецца, таму што яны ўключалі ў сябе слова «Крытычнае», які звычайна можа паказаць гнеў, але ў гэтым выпадку не робіць. Выдаленне паведамленняў, якія генерыруюцца гэты адзіны аўтаматызаваны пэйджар цалкам ліквідуе ўяўнае павелічэнне гневу па ходзе дня (малюнак 2.4). Іншымі словамі, асноўнай вынік Back, Küfner, and Egloff (2010) быў артэфакт аднаго пэйджара. Гэты прыклад ілюструе, адносна просты аналіз адносна складаных і заблытаных дадзеных мае патэнцыял, каб пайсці сур'ёзна не так.
У той час як брудныя дадзеныя, якія ствараюцца ненаўмысна, напрыклад, як ад аднаго шумнага пэйджара-можна выявіць з дапамогай дастаткова стараннага даследчыка, існуюць таксама некаторыя інтэрнэт-сістэмы, якія прыцягваюць наўмысныя спамераў. Гэтыя спамеры актыўна генераваць ілжывыя дадзеныя, і, часта матываваныя прыбытку працуюць вельмі цяжка, каб трымаць іх спам хавала. Напрыклад, палітычная дзейнасць на Twitter , здаецца, уключае па крайняй меры некаторыя досыць складаны спам, у выніку чаго некаторыя палітычныя прычыны наўмысна зрабілі , каб выглядаць больш папулярнымі , чым яны на самой справе (Ratkiewicz et al. 2011) і (Ratkiewicz et al. 2011) . На жаль, выдаленне гэтага наўмыснага спам можа быць даволі цяжка.
Вядома, тое, што лічыцца брудныя дадзеныя могуць залежаць, у прыватнасці, на пытанне даследавання. Напрыклад, многія праўкі ў Вікіпедыі ствараюцца аўтаматызаваныя ботаў (Geiger 2014) . Калі вы зацікаўлены ў экалогіі Вікіпедыі, то гэтыя боты створаны рэдагуе маюць важнае значэнне. Але калі вы зацікаўлены ў тым, як людзі, ўнесці свой уклад у Вікіпедыю, то бот, створаных рэдагуе павінны быць выключаныя.
Там няма адзінага статыстычнага метаду або падыходу, які можа гарантаваць, што вы досыць ачысціць брудныя дадзеныя. У рэшце рэшт, я думаю, што лепшы спосаб пазбегнуць падманвайце брудных дадзеных, каб зразумець, як мага больш аб тым, як былі створаны вашы дадзеныя.