Big πηγές δεδομένων μπορεί να φορτωθεί με σκουπίδια και spam.
Μερικοί ερευνητές πιστεύουν ότι οι μεγάλες πηγές δεδομένων, ειδικά σε απευθείας σύνδεση πηγές, είναι παρθένα, επειδή συλλέγονται αυτόματα. Στην πραγματικότητα, οι άνθρωποι που έχουν εργαστεί με μεγάλες πηγές δεδομένων γνωρίζουν ότι είναι συχνά βρώμικες . Δηλαδή, περιλαμβάνουν συχνά δεδομένα που δεν αντικατοπτρίζουν πραγματικές ενέργειες ενδιαφέροντος για τους ερευνητές. Οι περισσότεροι κοινωνικοί επιστήμονες είναι ήδη εξοικειωμένοι με τη διαδικασία καθαρισμού δεδομένων κοινωνικής έρευνας μεγάλης κλίμακας, αλλά ο καθαρισμός μεγάλων πηγών δεδομένων φαίνεται να είναι πιο δύσκολος. Πιστεύω ότι η τελική πηγή αυτής της δυσκολίας είναι ότι πολλές από αυτές τις μεγάλες πηγές δεδομένων δεν προορίζονταν ποτέ να χρησιμοποιηθούν για έρευνα και συνεπώς δεν συλλέγονται, αποθηκεύονται και τεκμηριώνονται κατά τρόπο που διευκολύνει τον καθαρισμό των δεδομένων.
Οι κίνδυνοι των βρώμικων δεδομένων ψηφιακού ίχνους απεικονίζονται από τη μελέτη Back and colleagues (2010) σχετικά με τη συναισθηματική αντίδραση στις επιθέσεις της 11ης Σεπτεμβρίου 2001, τις οποίες ανέφερα εν συντομία στο κεφάλαιο. Οι ερευνητές συνήθως μελετούν την ανταπόκριση σε τραγικά γεγονότα χρησιμοποιώντας αναδρομικά δεδομένα που συλλέγονται για μήνες ή και χρόνια. Όμως, ο Back και οι συνάδελφοί του βρήκαν πάντα μια πηγή ψηφιακών ιχνών - τα χρονικά επισημασμένα, αυτόματα καταγεγραμμένα μηνύματα από 85.000 Αμερικανούς τηλεειδοποιητές - και αυτό τους επέτρεψε να μελετήσουν τη συναισθηματική ανταπόκριση σε ένα πολύ λεπτότερο χρονικό διάστημα. Δημιούργησαν ένα σύντομο συναισθηματικό χρονοδιάγραμμα της 11ης Σεπτεμβρίου κωδικοποιώντας το συναισθηματικό περιεχόμενο των μηνυμάτων pager με το ποσοστό των λέξεων που σχετίζονται με (1) τη θλίψη (π.χ. «κλάμα» και «θλίψη»), (2) άγχος ( π.χ. "ανησυχούν" και "φοβούνται"), και (3) ο θυμός (π.χ. "μίσος" και "κρίσιμο"). Διαπίστωσαν ότι η θλίψη και το άγχος κυμάνθηκαν καθ 'όλη τη διάρκεια της ημέρας χωρίς ένα ισχυρό μοτίβο, αλλά υπήρξε μια εντυπωσιακή αύξηση του θυμού καθ' όλη τη διάρκεια της ημέρας. Αυτή η έρευνα φαίνεται να είναι μια θαυμάσια απεικόνιση της δύναμης των πηγών δεδομένων που είναι πάντοτε διαθέσιμες: εάν χρησιμοποιηθούν παραδοσιακές πηγές δεδομένων, θα ήταν αδύνατο να αποκτήσουμε ένα χρονοδιάγραμμα υψηλής ανάλυσης για την άμεση ανταπόκριση σε ένα απροσδόκητο γεγονός.
Μόλις ένα χρόνο αργότερα, η Cynthia Pury (2011) εξέτασε τα δεδομένα με μεγαλύτερη προσοχή. Ανακάλυψε ότι ένας μεγάλος αριθμός από τα δήθεν θυμωμένα μηνύματα δημιουργήθηκαν από ένα μόνο τηλεειδοποιητή και όλα ήταν όμοια. Εδώ είναι αυτά που δήθεν θυμωμένα μηνύματα είπαν:
"Επανεκκίνηση NT μηχανή [όνομα] στο υπουργικό συμβούλιο [όνομα] στο [τοποθεσία]: ΚΡΙΤΙΚΗ: [ημερομηνία και ώρα]"
Αυτά τα μηνύματα χαρακτηρίστηκαν θυμωμένα επειδή περιελάμβαναν τη λέξη "CRITICAL", η οποία μπορεί γενικά να δείχνει θυμό, αλλά σε αυτή την περίπτωση δεν το κάνει. Η κατάργηση των μηνυμάτων που δημιουργούνται από αυτό το μοναδικό αυτόματο τηλεειδοποιητή εξαλείφει πλήρως την εμφανή αύξηση του θυμού κατά τη διάρκεια της ημέρας (εικόνα 2.4). Με άλλα λόγια, το κύριο αποτέλεσμα των Back, Küfner, and Egloff (2010) ήταν ένα τεχνούργημα ενός τηλεειδοποιητή. Όπως δείχνει αυτό το παράδειγμα, η σχετικά απλή ανάλυση σχετικά σύνθετων και ακατάστατων δεδομένων έχει τη δυνατότητα να πάει σοβαρά λάθος.
Ενώ τα βρώμικα δεδομένα που δημιουργούνται ακούσια - όπως αυτά που προέρχονται από έναν θορυβώδη τηλεειδοποιητή - μπορούν να ανιχνευθούν από έναν αρκετά προσεκτικό ερευνητή, υπάρχουν και ορισμένα ηλεκτρονικά συστήματα που προσελκύουν εσκεμμένα spammers. Αυτοί οι αποστολείς ανεπιθύμητης αλληλογραφίας δημιουργούν ενεργά ψεύτικα δεδομένα και, συχνά, κίνητρα από το κέρδος, δουλεύουν πολύ σκληρά για να κρατήσουν κρυμμένα τα spamming τους. Παραδείγματος χάριν, η πολιτική δραστηριότητα στο Twitter φαίνεται να περιλαμβάνει τουλάχιστον κάποιο λογικά περίπλοκο spam, οπότε κάποιες πολιτικές αιτίες σκοπίμως γίνονται πιο δημοφιλείς από ό, τι στην πραγματικότητα (Ratkiewicz et al. 2011) . Δυστυχώς, η κατάργηση αυτού του σκόπιμου spam μπορεί να είναι αρκετά δύσκολη.
Φυσικά, αυτό που θεωρείται βρώμικο μπορεί να εξαρτηθεί εν μέρει από το ερευνητικό ζήτημα. Για παράδειγμα, πολλές τροποποιήσεις στη Wikipedia δημιουργούνται από αυτοματοποιημένα bots (Geiger 2014) . Αν ενδιαφέρεστε για την οικολογία της Wikipedia, τότε αυτές οι τροποποιήσεις που δημιουργούνται από το bot είναι σημαντικές. Αλλά αν σας ενδιαφέρει ο τρόπος με τον οποίο οι άνθρωποι συμβάλλουν στη Wikipedia, τότε θα πρέπει να αποκλείσετε τις επεξεργασίες που δημιουργήθηκαν από το bot.
Δεν υπάρχει ενιαία στατιστική τεχνική ή προσέγγιση που να διασφαλίζει ότι έχετε καθαρίσει επαρκώς τα βρώμικα δεδομένα σας. Τελικά, πιστεύω ότι ο καλύτερος τρόπος να αποφύγετε να ξεγελάσετε τα βρώμικα δεδομένα είναι να κατανοήσετε όσο το δυνατόν περισσότερο τον τρόπο με τον οποίο δημιουργήθηκαν τα δεδομένα σας.