Үлкен деректер көздері сынықтары мен спам тиелген болады.
Кейбір зерттеушілердің пікірінше, үлкен дерек көздері, әсіресе онлайн-дерек көздері, олар автоматты түрде жинақталғандықтан таза емес. Іс жүзінде, үлкен деректер көздерімен жұмыс істеген адамдар жиі лас болып жатқандығын біледі. Яғни, олар көбінесе зерттеушілерге қызығушылықтың нақты әрекеттерін көрсетпейтін деректерді қамтиды. Көптеген әлеуметтік ғалымдар кең ауқымды әлеуметтік деректерді жинау үдерісімен таныс, бірақ үлкен деректер көздерін тазарту күрделі болып көрінеді. Бұл қиындықтың түпкілікті көзі, осы үлкен деректер көздерінің көбісі ешқашан зерттеуге арналмаған, сондықтан олар деректер жинауды жеңілдететін түрде жиналмайды, сақталмайды және құжатталмайды.
Лас зияткерлік сандық деректердің қауіптерін «Артқа» және әріптестердің (2010) 11 қыркүйектегі шабуылдарына эмоционалды жауапты зерттеуі сипатталған. Зерттеушілер әдетте айлар мен тіпті жылдар бойы жиналған ретроспективалық деректерді пайдалана отырып қайғылы оқиғаларға жауапты зерттейді. Бірақ, Арт және әріптестер әрдайым 85 000 американдық пейджердің уақытша жазылған, автоматты түрде жазылған хабарламаларын цифрлық ізденістер көзін тапты және бұл оларға эмоциялық реакцияны әлдеқайда нақтыланған уақыт бойынша зерделеуге мүмкіндік берді. Олар 11 қыркүйектегі минуттық минуттық эмоционалдық уақыт шкаласы (1) қайғылы (мысалы, «жылау» және «қайғы»), (2) алаңдаушылық ( мысалы, «алаңдату» және «қорқыныш») және (3) ашу (мысалы, «жек көру» және «сын»). Олар қайғылық пен алаңдаушылық күнделікті күшті үлгісімен ауытқып кеткенін байқады, алайда күн сайын гневтің ұлғаюы байқалды. Бұл зерттеу әдеттегі деректер көздерінің күші туралы керемет суреттейді: егер дәстүрлі дерек көздері қолданылған болса, күтпеген оқиғаға дереу жауап берудің осындай жоғары рұқсат етілген шекті уақытын алу мүмкін емес еді.
Алайда, бір жылдан кейін Синтия Пьюри (2011) деректерді мұқият қарады. Ол ашуланған хабарлардың көптігін бір пейджер жасаған және олардың бәрі бірдей екенін анықтады. Міне, осы ашулы хабарлар:
«Қайта іске қосу NT машина [ат] кабинетте [ат] [Орын] кезінде: сыни: [күні мен уақыты]»
Бұл хабарламалар «CRITICAL» деген сөзді енгізгендіктен, ашуланған деп белгіленді, әдетте олар гневті көрсете алады, бірақ бұл жағдайда ол жоқ. Осы бір автоматтандырылған пейджерден алынған хабарларды алып тастау күннің ішінде ашуланудың айқын жоғарылауын толығымен жояды (2.4 сурет). Басқаша айтқанда, Back, Küfner, and Egloff (2010) негізгі нәтижесі бір Back, Küfner, and Egloff (2010) артефакті болды. Бұл мысалда суреттелгендей салыстырмалы түрде күрделі және бұрмаланған деректерге қатысты салыстырмалы қарапайым талдау қате жіберуге әлеуеті бар.
Әлдеқайда мұқият жасалынған, мысалы, бір шулы пейджерден жасалған лас деректерді мұқият зерттеуші анықтайтын болса да, қасақана спаммерлерді тартатын кейбір интернеттегі жүйелер де бар. Бұл спаммерлер жалған деректерді белсенді түрде жасайды, және көбінесе пайда табу арқылы оларды спаммен жасырын ұстау үшін өте қиын. Мысалы, Twitter-дегі саяси белсенділік, кем дегенде, кейбір ақылға қонымды талғампаз спамды қамтиды, сол себепті кейбір саяси себептер әдейі, олар шынымен де танымал болып көрінеді (Ratkiewicz et al. 2011) . Өкінішке орай, бұл қасақана спамның алынуы өте қиын болуы мүмкін.
Әрине, лас деп саналатын деректер, ішінара зерттеу сұрағына байланысты болуы мүмкін. Мысалы, Википедияның көптеген түзетулері автоматтандырылған боттармен жасалады (Geiger 2014) . Егер сіз Википедия экологиясына қызығушылық танытсаңыз, онда бұл бот жасаған түзетулер маңызды. Бірақ егер сіз адамдар Уикипедияға қалай көмектесетінін білсеңіз, бот жасаған түзетулерді алып тастау керек.
Сіздің лас деректеріңізді жеткілікті түрде тазалағаныңызды қамтамасыз ететін бірыңғай статистикалық әдіс немесе тәсіл жоқ. Соңында, менің ойымша, лас деректермен алданудан аулақ болудың ең жақсы жолы - деректеріңіздің қалай жасалуы туралы мүмкіндігінше түсіну.