Велики извори података могу бити напуњен са смећа и спам.
Неки истраживачи верују да су велики извори података, посебно онлине извори, чисти јер се аутоматски прикупљају. Заправо, људи који су радили са великим изворима података знају да су често прљави . То јест, они често укључују податке који не одражавају праве акције од интереса за истраживаче. Већина друштвених научника већ је упозната са процесом чишћења података великог обима социјалног истраживања, али изгледа да је чишћење великих извора података теже. Мислим да је крајњи извор ове потешкоће тај што многи од ових великих извора података никада нису имали намеру да буду искоришћени за истраживање, тако да се они не прикупљају, чувају и документују на начин који олакшава чишћење података.
Опасност прљавих података о дигиталном трагову илустрована је из студије Бацк анд цоллеагуес (2010) о емотивном одговору на нападе 11. септембра 2001. године, о којима сам кратко споменуо раније у поглављу. Истраживачи обично проучавају одговор на трагичне догађаје користећи ретроспективне податке прикупљене током месеци или чак година. Међутим, Бацк и колеге су пронашли извор дигиталних трагова - аутоматско снимљене поруке од 85.000 америчких пејџера - и то им омогућило да проучавају емотивни одговор на много финији временски рок. Они су створили минуте од минуте емоционалне временске линије 11. септембра шифрирањем емотивног садржаја пејџер порука процентом речи које се тичу (1) туга (нпр. "Плач" и "жалости"), (2) анксиозност ( нпр. "забринути" и "уплашени") и (3) бес (нпр. "мржња" и "критички"). Открили су да је туга и анксиозност током дана ненаметљиво флуктуирала без снажног узорка, али да је током дана било наглашено повећање беса. Изгледа да ово истраживање представља изврсну илустрацију моћи изворних извора података: уколико би се користили традиционални извори података, било би немогуће добити такав временски оквир високе резолуције за тренутни одговор на неочекиван догађај.
Међутим, само годину дана касније, Цинтхиа Пури (2011) је пажљиво погледала податке. Открила је да је велики број наводно бесних порука генерисао један пејџер и сви су били идентични. Ево шта су наводно љуте поруке рекле:
"Ребоот НТ машина [име] у кабинету [име] на [лоцатион]: Цритицал: [датум и време]"
Ове поруке су биле означене љутито зато што су садржавали ријеч "КРИТИЧНА", која уопштено говори о бесу али у овом случају не. Уклањање порука које генерише овај појединачни аутоматизовани пагер потпуно елиминише очигледан пораст беса у току дана (слика 2.4). Другим речима, главни резултат у Back, Küfner, and Egloff (2010) био је артефакт једног пејџера. Као што овај пример илуструје, релативно једноставна анализа релативно сложених и неуредних података има потенцијал да озбиљно погријеши.
Док прљавим подацима који се стварају ненамјерно - попут оног из једног бучног пејџера - може бити откривен од стране разумно пажљивог истраживача, постоје и неки онлајн системи који привлаче намерне спамере. Ови спамери активно генеришу лажне податке и често мотивишу профитним радом веома тешко задржати спамовање. На примјер, политичка активност на Твиттер-у чини се да укључује барем неке разумно софистициране спаме, при чему су неки политички узроци намерно учињени како би изгледали популарније него што су заправо били (Ratkiewicz et al. 2011) . Нажалост, уклањање ове намерне нежељене поште може бити прилично тешко.
Наравно, оно што се сматра прљавим подацима може дјелимично зависити од истраживачког питања. На пример, многе измене у Википедији креиране су аутоматизованим ботовима (Geiger 2014) . Ако сте заинтересовани за екологију Википедије, онда су ове измене креиране од ботова важне. Али, ако сте заинтересовани за то како људи доприносе Википедији, тада би требали бити искључени измени ботова.
Не постоји једна статистичка техника или приступ који може осигурати да сте довољно очистили своје прљаве податке. На крају, мислим да је најбољи начин да се избегнете преварити прљавим подацима да бисте разумели што је могуће више о томе како су ваши подаци створени.