2.3.2.6 Brudny

Duże źródła danych mogą być ładowane z śmieci i spam.

Niektórzy badacze uważają, że duże źródła danych, zwłaszcza ze źródeł internetowych, są krystalicznie czyste, ponieważ są one pobierane automatycznie. W rzeczywistości, ludzie, którzy pracowali z dużych źródeł danych wiemy, że są one często brudne. Oznacza to, że często zawierają dane, które nie odzwierciedlają rzeczywistych działań będących przedmiotem zainteresowania badaczy. Wielu naukowców społeczne są już zaznajomieni z procesem czyszczenia na dużą skalę danych Social Survey, ale czyszczenia dużych źródeł danych jest trudniejsze z dwóch powodów: 1) nie zostały stworzone przez naukowców dla naukowców i 2) badacze na ogół mają mniej zrozumienia, jak zostały one utworzone.

Niebezpieczeństwa brudnych danych cyfrowych śladowych są zilustrowane Back i współpracowników (2010) studium emocjonalnej reakcji na ataki z 11 września 2001. Badacze zwykle zbadania reakcji na tragiczne wydarzenia na podstawie danych retrospektywnych zbierane przez wiele miesięcy lub nawet lat. Ale powrót i jego koledzy odkryli always-on źródłem cyfrowym ślady-na czas utworzenia automatycznie nagranych wiadomości od 85.000 amerykańskich pagery, a to pozwoliło naukowcom zbadać reakcję emocjonalną na znacznie drobniejsze terminie. Powrót ze współpracownikami stworzył minuta po minucie emocjonalny osi czasu 11 września kodując emocjonalną treść komunikatów przywoławczych przez procent słów związanych z (1) smutek (np, płacz, smutek), (2) niepokój (np zmartwiony, strach), oraz (3) gniewu (np nienawiść, krytyczny). Stwierdzili oni, że smutek i lęku w ciągu dnia wahała się bez silnego wzoru, ale że uderzający wzrost gniewu w ciągu dnia. To badanie wydaje się być wspaniałą ilustracją potęgi zawsze na źródłach danych: za pomocą standardowych metod niemożliwe byłoby mieć takiego wysokiej rozdzielczości timeline bezpośredniej reakcji na nieoczekiwane zdarzenia.

Zaledwie rok później, jednak Cynthia Pury (2011) spojrzał na dane dokładniej. Odkryła, że ​​duża liczba przypuszczalnie zły wiadomości były generowane przez jeden pagera i były identyczne. Oto, co te podobno zły komunikaty powiedział:

"Maszyna Reboot NT [nazwa] w szafie [nazwa] w [miejscu]: Krytyczna: [data i godzina]"

Wiadomości te zostały oznakowane zły, bo one zawarte słowo "krytyczny", co może wskazywać na ogół gniew, ale nie w tym przypadku. Usuwanie komunikaty generowane przez tego pojedynczego automatycznego pagera całkowicie eliminuje wyraźny wzrost gniewu nad ciągu dnia (Figura 2.2). Innymi słowy, głównym rezultatem w Back, Küfner, and Egloff (2010) był artefaktem jeden pager. Ponieważ ten przykład ilustruje, stosunkowo prosta analiza stosunkowo złożonych i nieuporządkowanych danych ma potencjał, aby przejść bardzo złego.

Rysunek 2.2: Szacunkowa trendy w złości ciągu 11 września 2001 roku w oparciu o 85.000 amerykańskich pagery (Back, Küfner i Egloff 2010; Pury 2011; Back, Küfner i Egloff 2011). Początkowo, z powrotem, Küfner i Egloff (2010) donoszą o wzór zwiększenia gniew w ciągu dnia. Jednak większość z tych pozornych wściekłych wiadomości były generowane przez jednego pagera, które wielokrotnie wysłał następujący komunikat: Maszyna Reboot NT [nazwa] w szafie [nazwa] w [LOKALIZACJA]: Krytyczna: [data i godzina]. Z usunąć tę wiadomość, pozorny wzrost gniewu znika (PURY 2011; Back, KUFNER i Egloff 2011). Liczba ta jest reprodukcją rys 1B w Pury (2011).

Rysunek 2.2: Szacunkowa trendy w złości ciągu 11 września 2001 roku w oparciu o 85.000 amerykańskich pagery (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Początkowo Back, Küfner, and Egloff (2010) odnotował wzór zwiększenia gniew w ciągu dnia. Jednak większość z tych pozornych wściekłych wiadomości były generowane przez jednego pagera, które wielokrotnie wysłał następujący komunikat: "Reboot maszyny NT [nazwa] w szafie [nazwa] w [LOKALIZACJA]: Krytyczna: [data i godzina]". Z usunąć tę wiadomość, pozorny wzrost gniewu znika (Pury 2011; Back, Küfner, and Egloff 2011) . Liczba ta jest reprodukcją rys 1B w Pury (2011) .

Natomiast brudne dane, które są utworzone w sposób niezamierzony, na przykład z jednym z głośnym pager, można wykryć za pomocą stosunkowo starannego badacza, istnieją również systemy on-line, które przyciągają zamierzone spamu,. Te spamerzy aktywnie generować fałszywe dane, a-często motywowane zysków bardzo ciężko pracować, aby utrzymać ich spam ukryty. Na przykład, aktywność polityczna na Twitterze wydaje się to co najmniej kilka racjonalnie wyrafinowanego spamu, przy czym niektóre przyczyny polityczne celowo szukać bardziej popularne niż rzeczywiste są (Ratkiewicz et al. 2011) . Naukowcy pracujący z danymi, które mogą zawierać celowe spamu sprostać wyzwaniu przekonać swoich odbiorców, że mają wykrywane i usuwane odpowiednie spamu.

Wreszcie, co jest uważane za brudne dane mogą zależeć w subtelny sposób na pytania badawcze. Na przykład, wiele edycje Wikipedii są tworzone przez zautomatyzowane boty (Geiger 2014) . Jeśli jesteś zainteresowany ekologią Wikipedia, to te boty są ważne. Ale, jeśli jesteś zainteresowany w jaki ludzie przyczyniają się do Wikipedii, te zmiany dokonane przez te roboty powinny być wyłączone.

Najlepszym sposobem, aby uniknąć nabrać brudne dane do zrozumienia w jaki sposób dane te zostały stworzone, aby przeprowadzić prostą analizę rozpoznawczą, takich jak wykonywanie prostych Wykresy rozrzutu.