Big πηγές δεδομένων μπορεί να φορτωθεί με σκουπίδια και spam.
Μερικοί ερευνητές πιστεύουν ότι οι μεγάλες πηγές δεδομένων, ιδίως εκείνων που προέρχονται από ηλεκτρονικές πηγές, είναι παρθένα επειδή συλλέγονται αυτόματα. Στην πραγματικότητα, οι άνθρωποι που έχουν συνεργαστεί με μεγάλα πηγές δεδομένων ξέρουν ότι είναι συχνά βρώμικα. Δηλαδή, συχνά περιλαμβάνουν στοιχεία που δεν αντανακλούν τις πραγματικές δράσεις που παρουσιάζουν ενδιαφέρον για τους ερευνητές. Πολλοί κοινωνικοί επιστήμονες είναι ήδη εξοικειωμένοι με τη διαδικασία του καθαρισμού μεγάλης κλίμακας δεδομένων κοινωνικής έρευνας, αλλά τον καθαρισμό μεγάλες πηγές δεδομένων είναι πιο δύσκολο για δύο λόγους: 1) δεν δημιουργήθηκαν από ερευνητές για τους ερευνητές και 2) οι ερευνητές έχουν γενικά λιγότερο κατανόηση του τρόπου δημιουργήθηκαν.
Οι κίνδυνοι του βρώμικου ψηφιακών δεδομένων ίχνος φαίνεται από πίσω και οι συνεργάτες του » (2010) μελέτη της συναισθηματικής ανταπόκρισης στις επιθέσεις της 11ης Σεπτεμβρίου, 2001. Οι ερευνητές συνήθως μελετήσει την απάντηση σε τραγικά γεγονότα χρησιμοποιώντας αναδρομικά στοιχεία που συλλέγονται κατά μήνες ή ακόμη και χρόνια. Αλλά, πίσω και οι συνεργάτες του διαπίστωσαν μια πάντα-την πηγή των ψηφιακών ιχνών-the timestamped, αυτόματα ηχογραφημένα μηνύματα από 85.000 αμερικανικές συσκευές τηλεειδοποίησης, και αυτό έδωσε τη δυνατότητα στους ερευνητές να μελετήσουν συναισθηματική αντίδραση σε μια πολύ πιο λεπτή χρονική κλίμακα. Επιστροφή και οι συνεργάτες του δημιούργησαν ένα λεπτό-προς-λεπτό συναισθηματική χρονοδιάγραμμα της 11ης Σεπτεμβρίου με την κωδικοποίηση της συναισθηματικό περιεχόμενο των μηνυμάτων τηλεειδοποίησης με το ποσοστό των λέξεων που σχετίζονται με (1) θλίψη (π.χ., κλάμα, θλίψη), (2) άγχος (π.χ., ανησυχούν, φοβούνται), και (3) θυμός (π.χ., το μίσος, την κριτική). Βρήκαν ότι θλίψη και το άγχος διακυμάνσεις καθ 'όλη την ημέρα χωρίς μια ισχυρή μοτίβο, αλλά ότι υπήρχε μια εντυπωσιακή αύξηση στην οργή διάρκεια της ημέρας. Η έρευνα αυτή φαίνεται να είναι ένα θαυμάσιο παράδειγμα της δύναμης της πάντα-σχετικά με τις πηγές δεδομένων: χρησιμοποιώντας τυποποιημένες μεθόδους θα ήταν αδύνατο να έχουμε ένα τέτοιο χρονοδιάγραμμα υψηλής ανάλυσης της άμεσης ανταπόκρισης σε ένα απροσδόκητο γεγονός.
Μόλις ένα χρόνο αργότερα, όμως, Cynthia Pury (2011) εξέτασαν τα δεδομένα πιο προσεκτικά. Ανακάλυψε ότι ένας μεγάλος αριθμός των δήθεν θυμωμένος μηνύματα που παράγονται από ένα και μόνο συσκευή τηλεειδοποίησης και ήταν όλα ταυτόσημα. Εδώ είναι τι είπε αυτά τα δήθεν θυμωμένος μηνύματα:
"Επανεκκίνηση NT μηχανή [όνομα] στο υπουργικό συμβούλιο [όνομα] στο [τοποθεσία]: ΚΡΙΤΙΚΗ: [ημερομηνία και ώρα]"
Αυτά τα μηνύματα είχαν επισημανθεί θυμωμένος επειδή περιλαμβάνεται η λέξη "κρίσιμη", που μπορεί να δείχνουν σε γενικές γραμμές ο θυμός, αλλά δεν το κάνει σε αυτή την περίπτωση. Αφαίρεση των μηνυμάτων που παράγονται από την παρούσα μία αυτοματοποιημένη συσκευή τηλεειδοποίησης εξαλείφει πλήρως τη φαινομενική αύξηση στο θυμό κατά τη διάρκεια της ημέρας (Σχήμα 2.2). Με άλλα λόγια, το κύριο αποτέλεσμα Back, Küfner, and Egloff (2010) ήταν ένα τεχνούργημα ενός pager. Δεδομένου ότι αυτό το παράδειγμα απεικονίζει, σχετικά απλή ανάλυση σχετικά πολύπλοκη και μπερδεμένη δεδομένων έχει τη δυνατότητα να πάει στραβά σοβαρά.
Ενώ βρώμικο δεδομένων που έχει δημιουργηθεί ακούσια, όπως από ένα θορυβώδες μπίπερ-μπορεί να ανιχνευθεί από ένα αρκετά προσεκτικός ερευνητής, υπάρχουν και κάποια ηλεκτρονικά συστήματα που προσελκύουν προθέσεως spammers. Αυτές οι spammers δημιουργούν ενεργά ψεύτικα στοιχεία, και, συχνά υποκινούνται από το κέρδος-εργαστούμε πολύ σκληρά για να κρατήσει το spamming τους κρυφό. Για παράδειγμα, η πολιτική δραστηριότητα στο Twitter φαίνεται να περιλαμβάνουν τουλάχιστον κάποια λογικά εξελιγμένα spam, σύμφωνα με την οποία ορισμένοι πολιτικοί αιτίες σκόπιμα έκανε να φαίνονται πιο δημοφιλής από ό, τι πραγματικά είναι (Ratkiewicz et al. 2011) . Οι ερευνητές που εργάζονται με δεδομένα τα οποία μπορεί να περιέχουν σκόπιμη ανεπιθύμητα αντιμετωπίζουν την πρόκληση να πείσουν το κοινό τους ότι έχουν εντοπιστεί και να αφαιρεθεί σχετικές spam.
Τέλος, αυτό που θεωρείται βρώμικο δεδομένων μπορεί να εξαρτάται από τους λεπτούς τρόπους για την έρευνα στις ερωτήσεις σας. Για παράδειγμα, πολλές αλλαγές στο Wikipedia δημιουργήθηκε από αυτοματοποιημένα bots (Geiger 2014) . Αν σας ενδιαφέρει η οικολογία της Wikipedia, τότε αυτά τα bots είναι σημαντικές. Αλλά, αν σας ενδιαφέρει το πώς οι άνθρωποι να συμβάλει στην Wikipedia, οι αλλαγές γίνονται από αυτά τα bots θα πρέπει να αποκλειστεί.
Οι καλύτεροι τρόποι για να μην ξεγελαστούν από βρώμικο δεδομένα είναι να κατανοήσουμε πώς δημιουργήθηκαν τα στοιχεία σας για να εκτελέσει απλές διερευνητική ανάλυση, όπως είναι η πραγματοποίηση απλών διαγράμματα διασποράς.