2.3.2.6 murdar

Sursele de date mari pot fi încărcate cu nedorită și spam.

Unii cercetători cred că sursele de date mari, în special cele din surse on-line, sunt curat, deoarece acestea sunt colectate automat. De fapt, oamenii care au lucrat cu surse de date mari , știu că acestea sunt în mod frecvent murdare. Cu alte cuvinte, ele includ în mod frecvent date care nu reflectă acțiunile reale de interes pentru cercetători. Mulți oameni de știință sociale sunt deja familiarizați cu procesul de curățare a datelor anchetei sociale la scară largă, dar de curățare surse de date de mare este mai dificil din două motive: 1) nu au fost create de cercetători pentru cercetători și 2), cercetătorii au, în general, mai puțin de înțelegere a modului în care au fost create.

Pericolele de date în urme digitale murdare sunt ilustrate prin spate si colegii " (2010) , studiul răspunsului emoțional la atacurile din 11 septembrie 2001. Cercetatorii de obicei studia răspunsul la evenimente tragice folosind datele retrospective colectate timp de luni sau chiar ani. Dar, Back si colegii sai au descoperit un mesaje mereu pe sursa de urme-digital cu Timestamped, înregistrate în mod automat de la 85.000 de americani pagere iar acest lucru a permis cercetatorilor sa studieze răspunsul emoțional pe un interval de timp mult mai fina. Spate si colegii sai au creat un calendar minut cu minut emoțională din 11 septembrie prin codarea conținutului emoțional al mesajelor de pager cu procentul de cuvinte legate de (1) tristețe (de exemplu, plâns, durere), (2) anxietate (de exemplu, îngrijorat, temător) și (3) furie (de exemplu, ura, critică). Ei au descoperit că tristețea și anxietatea fluctuat pe tot parcursul zilei, fără un model puternic, dar că a existat o creștere izbitoare în furie pe tot parcursul zilei. Aceasta cercetare pare a fi o ilustrare minunată a puterii mereu pe surse de date: folosind metode standard, ar fi imposibil să aibă un astfel de calendar cu rezoluție înaltă a răspunsului imediat la un eveniment neașteptat.

Doar un an mai târziu, cu toate acestea, Cynthia Pury (2011) a analizat datele mai atent. Ea a descoperit că un număr mare de mesaje presupuse furioase au fost generate de un singur pager și toate acestea au fost identice. Iată ce a spus aceste mesaje se presupune supărat:

"Mașină Reboot NT [numele] în dulap [numele] la [location]: CRITICE: [data și ora]"

Aceste mesaje au fost etichetate furios pentru că au inclus termenul "critic", care poate indica, în general, furie, dar nu în acest caz. Eliminarea mesajelor generate de acest singur pager automatizat elimină complet creșterea aparentă în furie pe parcursul zilei (figura 2.2). Cu alte cuvinte, rezultatul principal din Back, Küfner, and Egloff (2010) a fost un artefact de un pager. Așa cum acest exemplu ilustrează, o analiză relativ simplă a datelor relativ complexe și murdar are potențialul de a merge greșit grav.

Figura 2.2: Tendințe estimate în furie pe parcursul a 11 septembrie 2001 bazat pe 85.000 de pagere americane (Back, Kufner și Egloff 2010; Pury 2011; Back, Kufner și Egloff 2011). Inițial, spate, Kufner și Egloff (2010) au raportat un model de crestere furie pe tot parcursul zilei. Cu toate acestea, cele mai multe dintre aceste mesaje furioase aparente au fost generate de un singur pager, care a trimis în mod repetat următorul mesaj: Masina de Reboot NT [numele] în dulap [numele] la [location]: CRITICE: [data și ora]. Cu acest mesaj eliminat, creșterea aparentă în mânia dispare (Pury 2011; Back, Kufner și Egloff 2011). Această cifră este o reproducere a figura 1B în Pury (2011).

Figura 2.2: Tendințe estimate în furie pe parcursul a 11 septembrie 2001 bazat pe 85.000 de pagere americane (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Inițial, Back, Küfner, and Egloff (2010) au raportat un model de crestere furie pe tot parcursul zilei. Cu toate acestea, cele mai multe dintre aceste mesaje furioase aparente au fost generate de un singur pager, care a trimis în mod repetat următorul mesaj: "mașină Reboot NT [numele] în dulap [numele] la [location]: CRITICE: [data și ora]". Cu acest mesaj eliminat, creșterea aparentă în mânia dispare (Pury 2011; Back, Küfner, and Egloff 2011) . Această cifră este o reproducere a figura 1B în Pury (2011) .

În timp ce datele murdare pe care este creat în mod neintenționat, cum ar fi de la un zgomotos pager poate fi detectat de către un cercetător în mod rezonabil atent, există, de asemenea, unele sisteme on-line, care atrag autorii de spam intenționate. Aceste spammerii generează în mod activ de date false, și adesea motivate de profit foarte greu de lucru pentru a păstra spam-ul lor ascuns. De exemplu, activitatea politică pe Twitter pare să includă cel puțin unele de spam destul de sofisticate, prin care unele cauze politice sunt făcute în mod intenționat să arate mai popular decât ele reale sunt (Ratkiewicz et al. 2011) , (Ratkiewicz et al. 2011) . Cercetătorii care lucrează cu date care ar putea conține spam-intenționate se confruntă cu provocarea de a convinge publicul că le-au detectat și eliminate de spam relevante.

În cele din urmă, ceea ce este considerat de date murdare pot depinde în moduri subtile cu privire la întrebările de cercetare. De exemplu, multe modificări la Wikipedia sunt create de roboții automate (Geiger 2014) . În cazul în care sunteți interesat în ecologia Wikipedia, atunci aceste roboții sunt importante. Dar, dacă sunteți interesat de modul în care oamenii contribuie la Wikipedia, aceste modificări făcute de acești roboți ar trebui să fie excluse.

Cele mai bune moduri de a evita să fie induși în eroare de date murdare sunt pentru a înțelege modul în care au fost create datele dvs. pentru a efectua analize simple de explorare, cum ar fi efectuarea parcele simple de împrăștiere.