2.3.2.6 Dirty

Үлкен деректер көздері сынықтары мен спам тиелген болады.

Кейбір зерттеушілер бұл үлкен деректер көздерін есептейміз олар автоматты түрде жиналады, себебі, әсіресе онлайн көздерден, баспаған болып табылады. Шын мәнінде, үлкен деректер көздерімен жұмыс істеген адамдар, олар жиі лас екенін білеміз. Яғни, олар жиі зерттеушілер үшін қызықты нақты іс-шараларды көрсете алмайды деректерді қамтиды, болып табылады. Көптеген әлеуметтік ғалымдар қазірдің өзінде кең ауқымды әлеуметтік зерттеу деректерін тазарту процесін таныс, бірақ үлкен деректер көздерін тазалау екі себептермен көп қиын: 1) олар зерттеушілер мен 2 зерттеушілер жасамаған,) зерттеушілер әдетте, қалай кем түсінік бар олар құрылды.

Лас сандық ізі деректер Алдынғы және әріптестерімен «суреттейді қауіп (2010) 11 қыркүйек, шабуылдарға эмоционалдық жауап зерттеу, 2001 Зерттеушілер әдетте тіпті ай немесе жыл бойы жиналған ретроспективті деректерді пайдаланып қайғылы оқиғаларға жауап оқиды. Бірақ, кері және әріптестер сандық іздері-timestamped көзінен әрқашан-туралы тауып, 85,000 американдық пейджерлер және осы автоматты түрде жазылған хабарлар әлдеқайда жұқа шкаласының эмоциялық жауап оқуға мүмкіндік зерттеушілерге. Артқа мен әріптестер (1) мұң (мысалы, жылап, қайғы), (2) мазасыздану (мысалы, байланысты сөздер пайызы пейджер хабарламаларды эмоционалдық мазмұнын кодтау арқылы 11 қыркүйек минуттық-BY-минутта эмоционалдық шкаласын құрылды , алаңдаушылық) қорыққан, және (3) қаһары (мысалы, өшпенділік, сыни). Олар мұң мен уайым күшті үлгі жоқ күні бойы ауытқып, бұл табылған, бірақ күні бойы ашуланып жарқын өсуі байқалды, деп. Бұл зерттеу деректер көздеріне әрдайым бойынша қуатын тамаша мульфильм болып көрінеді: стандартты әдістерін пайдалана отырып, ол күтпеген оқиғаға дереу жауап осындай жоғары ажыратымдылығы мерзімін болуы мүмкін емес еді.

Тек бір жыл өткеннен кейін, алайда, Синтия Pury (2011) көп мұқият деректер қарап. Ол мыс ашулы хабарлардың үлкен саны бір пейджер арқылы жасалған және олар барлық бірдей болды деп табылған. Мұнда сол мыс ашулы хабарлар деді қандай:

«Қайта іске қосу NT машина [ат] кабинетте [ат] [Орын] кезінде: сыни: [күні мен уақыты]»

олар, әдетте, ашуын көрсетеді, бірақ бұл жағдайда емес, мүмкін сөзді «сындарлы», енгізілген, өйткені Бұл хабарлар ашулы деп белгіленген болды. Осы бірыңғай автоматтандырылған пейджер арқылы жасалған хабарламаларды алып тастау толығымен күні ішінде ашуланып айқын артуы (сурет 2.2) жояды. Басқаша айтқанда, оның басты нәтижесі Back, Küfner, and Egloff (2010) бір пейджер артефакт болды. Бұл мысал көрсетілгендей, салыстырмалы күрделі және лас деректерді салыстырмалы қарапайым талдау шындап дұрыс баруға әлеуетке ие.

(; Pury 2011 оралу, Küfner және Egloff 2011 Артқа, Küfner және Egloff 2010) 85,000 американдық пейджерлер негізделген 2001 жылғы 11 қыркүйектегі ішінде ашуланып Болжамды үрдістерді: 2.2 сурет. Алғашында, Артқа, Küfner және Egloff (2010) күні бойы ашуын арттыру үлгісін хабарлады. МАҢЫЗДЫ: [күні мен уақыты] [Орын] бойынша кабинетте Қайта іске қосу NT машина [ат] [аты]: Алайда, бұл айқын ашулы хабарлардың ең бірнеше рет келесі хабарды жіберді бір пейджер арқылы жасалған. Бұл хабар жойылған кезде, ашу-ыза айқын өсуі (Pury 2011; Артқа, Küfner және Egloff 2011) жоғалады. Бұл көрсеткіш Pury жылы сур 1B (2011) бір молайту болып табылады.

85,000 американдық пейджерлер негізделген 2001 жылғы 11 қыркүйектегі ішінде ашуланып Болжамды үрдістерді: 2.2-сурет (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Алғашында, Back, Küfner, and Egloff (2010) күні бойы ашуын арттыру үлгісін хабарлады. «Кабинетте Қайта іске қосу NT машина [аты] [аты] [Орын] кезінде:: сыни: [күні мен уақыты]» Алайда, бұл айқын ашулы хабарлардың ең бірнеше рет келесі хабарды жіберді бір пейджер арқылы жасалған. Бұл хабар жойылған кезде, ашу-ыза айқын ұлғайту жоғалады (Pury 2011; Back, Küfner, and Egloff 2011) . Бұл көрсеткіш бойынша сурет 1B бір молайту болып табылады Pury (2011) .

Бір шулы бастап байқаусызда-осындай құрылады лас деректер ақылға қонымды мұқият зерттеуші арқылы анықталмайды пейджер-болады, ал, қасақана Спамеры тарту кейбір онлайн жүйелері, сондай-ақ бар. Бұл спамеры белсенді жалған деректер генерациялау, және-жиі жасырын олардың спам сақтау өте қиын пайда жұмысы дәлелді. Мысалы, Twitter саяси белсенділігі кейбір саяси себептері әдейі олар нақты астам танымал қарауға жасалған, оған сәйкес, кем дегенде, кейбір ақылға күрделі спам, қамтиды, меніңше, олар (Ratkiewicz et al. 2011) . қасақана спам болуы мүмкін деректермен жұмыс Зерттеушілер олар анықталған және тиісті спам алып тастадық деп өз аудиториясын сендіру кезігуде.

Ақыр соңында, қандай лас деректер болып саналады сіздің зерттеу мәселелері бойынша нәзік жолмен байланысты болады. Мысалы, Уикипедияға көптеген өңдеулер автоматтандырылған боттардан жасаған (Geiger 2014) . Сіз Уикипедия экологиясын мүдделі болса, онда бұл боттарды маңызды болып табылады. Сіз адамдар Уикипедия ықпал ететін қалай мүдделіміз Бірақ, егер, осы боттардан жасаған осы өңдемелерін алып тасталсын.

лас деректермен алдап жатқан болдырмау үшін ең жақсы тәсілдері Егер деректер осындай қарапайым нүктелік учаскелерін қабылдау-ақ, қарапайым барлау талдау жүргізу үшін құрылған қалай түсінуіміз керек.