2.3.2.3 Μη αντιπροσωπευτική

Δύο πηγές της μη αντιπροσωπευτικότητας είναι διαφορετικοί πληθυσμοί και διάφορους τρόπους χρήσης.

Big δεδομένα τείνουν να είναι προκατειλημμένη συστηματικά με δύο βασικούς τρόπους. Αυτό δεν χρειάζεται να προκαλέσει ένα πρόβλημα για όλα τα είδη της ανάλυσης, αλλά για κάποιο ανάλυση μπορεί να είναι ένα κρίσιμο ελάττωμα.

Μια πρώτη πηγή συστηματική προκατάληψη είναι ότι οι άνθρωποι σταματούν είναι συνήθως ούτε ένα πλήρες σύμπαν όλων των ανθρώπων ή ένα τυχαίο δείγμα από κάθε συγκεκριμένο πληθυσμό. Για παράδειγμα, οι Αμερικανοί στο Twitter δεν είναι ένα τυχαίο δείγμα των Αμερικανών (Hargittai 2015) . Μια δεύτερη πηγή συστηματική προκατάληψη είναι ότι πολλές μεγάλες συστήματα δεδομένων συλλάβει δράσεις, και μερικοί άνθρωποι συνεισφέρουν πολλά περισσότερες ενέργειες από άλλα. Για παράδειγμα, μερικοί άνθρωποι στο Twitter συνεισφέρουν εκατοντάδες φορές πιο tweets από άλλους. Ως εκ τούτου, τα γεγονότα σε μια συγκεκριμένη πλατφόρμα μπορεί να είναι όλο και πιο βαριά αντανακλαστική ορισμένων υποομάδων από την ίδια την πλατφόρμα.

Κανονικά οι ερευνητές θέλουν να γνωρίζουν πολλά για τα δεδομένα που έχουν. Όμως, δεδομένης της μη αντιπροσωπευτικό χαρακτήρα των μεγάλων δεδομένων, είναι χρήσιμο να αναστρέψετε και τη σκέψη σας. Θα πρέπει επίσης να γνωρίζουν πολλά για τα δεδομένα που δεν έχετε. Αυτό ισχύει ιδιαίτερα όταν τα δεδομένα που δεν έχετε είναι συστηματικά διαφορετικό από τα δεδομένα που έχετε. Για παράδειγμα, αν έχετε τα αρχεία κλήσεων από μια εταιρεία κινητής τηλεφωνίας σε αναπτυσσόμενες χώρες, θα πρέπει να σκεφτούμε όχι μόνο για τους ανθρώπους στο σύνολο δεδομένων σας, αλλά και για τους ανθρώπους που θα μπορούσαν να είναι πολύ φτωχοί για να αγοράσω ένα κινητό τηλέφωνο. Περαιτέρω, στο κεφάλαιο 3, θα μάθουμε για το πώς στάθμιση μπορεί να επιτρέψει στους ερευνητές να κάνουν καλύτερες εκτιμήσεις από μη-αντιπροσωπευτικά δεδομένα.