2.3.2.6 Dirty

Големите източници на данни могат да бъдат натоварени с боклуци и спам.

Някои изследователи смятат, че големите източници на данни, особено тези от източници в интернет, са девствени, защото те се събират автоматично. В действителност, хората, които са работили с големи източници на данни да знаят, че те са често мръсен. Това означава, че те често включват данни, които не отразяват реалните действия от интерес за изследователите. Много социални учени вече са запознати с процеса на почистване данни социално проучване мащабна, но почистване на големи източници на данни е по-трудно, поради две причини: 1) те не са били създадени от изследователи за изследователи и 2) изследователи обикновено имат по-малко разбиране за това как те са били създадени.

Опасностите от мръсни данни цифров следи са илюстрирани с Back и колеги " (2010) проучване на емоционален отговор на атаките от 11 септември 2001 г. Изследователите обикновено учат в отговор на трагичните събития, използващи ретроспективни данни, събрани през месеца или дори години. Но, Back и колеги намираше винаги-на източник на цифрови следи-на timestamped, автоматично записани съобщения от 85,000 американски пейджъри-и това е дало възможност на изследователите да изучават емоционална реакция на много по-фина срок. Обратно и колеги създадоха минути по-минутна емоционална график на 11 септември чрез кодиране на емоционалното съдържание на съобщенията за пейджър с процента на думи, свързани с (1) тъга (например, плач, скръб), (2) тревожност (например, притеснен, страхливи), и (3) гняв (например, омраза, критична). Те откриват, че тъга и безпокойство варира през целия ден без силно модел, но това не е поразително увеличение на гняв през целия ден. Това изследване изглежда да е една прекрасна илюстрация на силата на винаги-на източници на данни: използване на стандартни методи е невъзможно да има такава висока резолюция график на незабавен отговор на неочаквано събитие.

Само една година по-късно, обаче, Синтия Pury (2011) погледна към данните по-внимателно. Тя открива, че голям брой от уж гневни съобщения са били генерирани от един пейджър и всички те са идентични. Ето какво казаха тези уж гневни съобщения:

"Reboot NT машина [име] в кабинета [име] в [място]: Критичен: [дата и час]"

Тези съобщения са били етикетирани ядосани, защото те са включени думата "критична", които могат най-общо да показва гняв, но не го прави в този случай. Премахване на съобщенията, генерирани от този единен автоматизиран пейджър напълно елиминира видимо повишение в гняв в течение на деня (Фигура 2.2). С други думи, основната резултата в Back, Küfner, and Egloff (2010) е един артефакт на един пейджър. Тъй като този пример показва, сравнително лесен анализ на относително сложни и объркани данни има потенциал да отиде сериозно погрешно.

Фигура 2.2: Прогнозни тенденции в гняв в течение на 11-ти септември, 2001 въз основа на 85,000 американски пейджъри (Обратно, Kufner, и Еглофф 2010; Pury 2011; Обратно, Kufner, и Еглофф 2011). Първоначално, Back, Kufner, и Еглофф (2010) съобщава модел на увеличаване на гняв през целия ден. Въпреки това, повечето от тези очевидни гневни съобщения са били генерирани от един пейджър, че многократно изпрати следното съобщение: Reboot NT машина [име] в кабинета [име] в [място]: Критичен: [дата и час]. С отстранен това съобщение, видимо повишение в гняв изчезва (Pury 2011; Обратно, Kufner, и Еглофф 2011). Тази цифра е възпроизвеждане на фигура 1В в Pury (2011).

Фигура 2.2: Прогнозни тенденции в гняв в течение на 11-ти септември, 2001 въз основа на 85,000 американски пейджъри (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Първоначално, Back, Küfner, and Egloff (2010) съобщава модел на увеличаване на гняв през целия ден. Въпреки това, повечето от тези очевидни гневни съобщения са били генерирани от един пейджър, че многократно изпрати следното съобщение: "Reboot NT машина [име] в кабинета [име] в [място]: Критичен: [дата и час]". С отстранен това съобщение, видимо повишение в гняв изчезва (Pury 2011; Back, Küfner, and Egloff 2011) . Тази цифра е възпроизвеждане на фигура 1В в Pury (2011) .

Докато мръсни данни, че е създадена неволно-като от една шумна пейджър-могат да бъдат открити чрез разумно внимателен изследовател, има и някои онлайн системи, които привличат умишлени спамъри. Тези спамърите активно генерират фалшиви данни, и-често мотивирани от печалбата работа много трудно да се поддържа тяхната спам скрит. Например, политическа дейност на Twitter изглежда да включва най-малко някои разумно сложни спам, при което някои политически причини са умишлено направени да изглеждат по-популярни, отколкото действителната са (Ratkiewicz et al. 2011) . Изследователите, работещи с данни, които могат да съдържат умишлено спам са изправени пред предизвикателството да убеди аудиторията, че те са открити и отстранени съответната спам.

И накрая, това, което се смята за мръсни данни могат да зависят от фини начини за вашите изследователски въпроси. Например, много редакции на Wikipedia са създадени от автоматизирани ботове (Geiger 2014) . Ако се интересувате от екологията на Wikipedia, тогава тези ботове са важни. Но, ако се интересувате от това как хората допринасят за Wikipedia, тези редакции, направени от тези ботове трябва да бъдат изключени.

Най-добрият начин да се избегне се заблуждавайте от мръсни данни са да се разбере как са създадени вашите данни за извършване на прости изследователския анализ, като например вземане на прости разсейване.