Τα μη αντιπροσωπευτικά δεδομένα είναι κακά για τις γενικεύσεις εκτός δείγματος, αλλά μπορούν να είναι πολύ χρήσιμες για συγκρίσεις εντός του δείγματος.
Μερικοί κοινωνικοί επιστήμονες συνηθίζουν να εργάζονται με δεδομένα που προέρχονται από ένα πιθανοτικό τυχαίο δείγμα από έναν καλά καθορισμένο πληθυσμό, όπως όλοι οι ενήλικες σε μια συγκεκριμένη χώρα. Αυτό το είδος δεδομένων ονομάζεται αντιπροσωπευτικά δεδομένα επειδή το δείγμα "αντιπροσωπεύει" τον μεγαλύτερο πληθυσμό. Πολλοί ερευνητές αποδίδουν αντιπροσωπευτικά δεδομένα και σε ορισμένα αντιπροσωπευτικά δεδομένα είναι συνώνυμο με την αυστηρή επιστήμη, ενώ τα μη αντιπροσωπευτικά στοιχεία είναι συνώνυμα της δυσκολίας. Το πιο ακραίο, μερικοί σκεπτικιστές φαίνεται να πιστεύουν ότι τίποτα δεν μπορεί να αντληθεί από μη αντιπροσωπευτικά στοιχεία. Εάν είναι αλήθεια, αυτό φαίνεται να περιορίζει σοβαρά αυτό που μπορεί να αντληθεί από τις μεγάλες πηγές δεδομένων, επειδή πολλές από αυτές δεν είναι αντιπροσωπευτικές. Ευτυχώς, αυτοί οι σκεπτικιστές είναι μόνο μερικώς σωστοί. Υπάρχουν ορισμένοι ερευνητικοί στόχοι για τους οποίους τα μη αντιπροσωπευτικά στοιχεία είναι σαφώς ακατάλληλα, αλλά υπάρχουν και άλλα για τα οποία μπορεί να είναι πραγματικά χρήσιμο.
Για να κατανοήσουμε αυτή τη διάκριση, ας εξετάσουμε ένα επιστημονικό κλασικό: μελέτη του John Snow σχετικά με την επιδημία χολέρας του 1853-54 στο Λονδίνο. Εκείνη την εποχή, πολλοί γιατροί πίστευαν ότι η χολέρα προκλήθηκε από «κακό αέρα», αλλά ο Χιόνι πίστευε ότι ήταν μολυσματική ασθένεια, ίσως εξάπλωσε με πόσιμο νερό που έφερε νερό. Για να δοκιμάσει αυτή την ιδέα, ο Snow εκμεταλλεύτηκε αυτό που μπορούμε τώρα να ονομάσουμε ένα φυσικό πείραμα. Συγκρίνει τα ποσοστά χολέρας των νοικοκυριών που εξυπηρετούνται από δύο διαφορετικές εταιρείες νερού: Lambeth και Southwark & Vauxhall. Αυτές οι εταιρείες εξυπηρετούσαν παρόμοια νοικοκυριά, αλλά διέφεραν κατά ένα σημαντικό τρόπο: το 1849-λίγα χρόνια πριν από την έναρξη της επιδημίας, η Lambeth μετέφερε το σημείο πρόσληψης από την κύρια αποχέτευση στο Λονδίνο, ενώ η Southwark & Vauxhall άφησε τον σωλήνα εισαγωγής τους απόρριψη λυμάτων. Όταν ο Χιόνι συνέκρινε τα ποσοστά θνησιμότητας από τη χολέρα σε νοικοκυριά που εξυπηρετούνται από τις δύο εταιρείες, διαπίστωσε ότι οι πελάτες της Southwark & Vauxhall -της εταιρείας που παρείχε στους πελάτες πετρέλαιο με νερό-ήταν 10 φορές πιο πιθανό να πεθάνουν από τη χολέρα. Το αποτέλεσμα αυτό παρέχει ισχυρές επιστημονικές αποδείξεις για το επιχείρημα του Snow σχετικά με την αιτία της χολέρας, αν και δεν βασίζεται σε αντιπροσωπευτικό δείγμα ανθρώπων στο Λονδίνο.
Ωστόσο, τα δεδομένα από τις δύο αυτές εταιρείες δεν θα ήταν ιδανικά για να απαντήσουμε σε μια διαφορετική ερώτηση: Ποια ήταν η επικράτηση της χολέρας στο Λονδίνο κατά τη διάρκεια της επιδημίας; Για αυτό το δεύτερο ερώτημα, το οποίο είναι επίσης σημαντικό, θα ήταν πολύ καλύτερο να έχουμε ένα αντιπροσωπευτικό δείγμα ανθρώπων από το Λονδίνο.
Όπως δείχνει το έργο του Snow, υπάρχουν ορισμένα επιστημονικά ερωτήματα για τα οποία τα μη αντιπροσωπευτικά δεδομένα μπορούν να είναι αρκετά αποτελεσματικά και υπάρχουν άλλα για τα οποία δεν είναι κατάλληλα. Ένας απλός τρόπος για να διακρίνουμε αυτά τα δύο είδη ερωτήσεων είναι ότι μερικές ερωτήσεις αφορούν συγκρίσεις εντός του δείγματος και μερικές είναι για γενικεύσεις εκτός του δείγματος. Η διάκριση αυτή μπορεί να περιγραφεί περαιτέρω από μια άλλη κλασσική μελέτη στην επιδημιολογία: τη βρετανική μελέτη γιατρών, η οποία διαδραμάτισε σημαντικό ρόλο στην απόδειξη ότι το κάπνισμα προκαλεί καρκίνο. Στη μελέτη αυτή, οι Richard Doll και Α. Μπράντφορντ Χιλ ακολούθησαν περίπου 25.000 αρσενικούς γιατρούς για αρκετά χρόνια και συνέκριναν τα ποσοστά θανάτου τους με βάση το ποσό που καπνίζουν όταν ξεκίνησε η μελέτη. Η κούκλα και ο λόφος (1954) βρήκαν μια ισχυρή σχέση έκθεσης-απόκρισης: όσο πιο καπνισμένοι άνθρωποι ήταν, τόσο πιο πιθανό ήταν να πεθάνουν από καρκίνο του πνεύμονα. Φυσικά, θα ήταν παράλογο να εκτιμηθεί ο επιπολασμός του καρκίνου του πνεύμονα σε όλους τους Βρετανούς βάσει αυτής της ομάδας αρσενικών γιατρών, αλλά η σύγκριση εντός του δείγματος εξακολουθεί να αποδεικνύει ότι το κάπνισμα προκαλεί καρκίνο του πνεύμονα.
Τώρα που έχω παρουσιάσει τη διαφορά μεταξύ των συγκρίσεων μεταξύ των δειγμάτων και των γενικευμένων δειγμάτων, υπάρχουν δύο προειδοποιήσεις. Πρώτον, υπάρχουν φυσικά ερωτήματα σχετικά με το βαθμό στον οποίο μια σχέση που ανήκει σε ένα δείγμα αντρών βρετανών γιατρών θα περιλαμβάνει επίσης ένα δείγμα γυναικών, βρετανών γιατρών ή αντρών βρετανών εργοστασίων ή γυναικών εργοστασίων Γερμανίας ή πολλών άλλων ομάδων. Αυτά τα ερωτήματα είναι ενδιαφέροντα και σημαντικά, αλλά είναι διαφορετικά από τα ερωτήματα σχετικά με το βαθμό στον οποίο μπορούμε να γενικεύσουμε από ένα δείγμα σε έναν πληθυσμό. Παρατηρήστε, για παράδειγμα, ότι πιθανώς υποψιάζεστε ότι η σχέση μεταξύ του καπνίσματος και του καρκίνου που βρέθηκε στους άνδρες βρετανούς γιατρούς θα είναι πιθανώς παρόμοια σε αυτές τις άλλες ομάδες. Η ικανότητά σας να κάνετε αυτή την παρέκταση δεν προέρχεται από το γεγονός ότι οι άνδρες βρετανοί γιατροί είναι ένα πιθανό τυχαίο δείγμα από οποιοδήποτε πληθυσμό. Πρόκειται μάλλον για την κατανόηση του μηχανισμού που συνδέει το κάπνισμα και τον καρκίνο. Έτσι, η γενίκευση από ένα δείγμα στον πληθυσμό από τον οποίο αντλείται είναι σε μεγάλο βαθμό ένα στατιστικό ζήτημα, αλλά ερωτήσεις σχετικά με τη δυνατότητα μεταφοράς των προτύπων που βρέθηκαν σε μία ομάδα σε άλλη ομάδα είναι σε μεγάλο βαθμό nonstatistical θέμα (Pearl and Bareinboim 2014; Pearl 2015) .
Σε αυτό το σημείο, ένας σκεπτικιστής μπορεί να επισημάνει ότι τα περισσότερα κοινωνικά πρότυπα είναι κατά πάσα πιθανότητα λιγότερο μεταφερόμενα σε όλες τις ομάδες από τη σχέση μεταξύ καπνίσματος και καρκίνου. Και συμφωνώ. Ο βαθμός στον οποίο πρέπει να περιμένουμε τα μοντέλα να μεταφέρονται είναι τελικά ένα επιστημονικό ζήτημα που πρέπει να αποφασιστεί με βάση τη θεωρία και τα αποδεικτικά στοιχεία. Δεν πρέπει να θεωρείται αυτόματα ότι τα πρότυπα θα είναι μεταφερόμενα, αλλά ούτε πρέπει να υποθέσουμε ότι δεν θα μεταφερθούν. Αυτά τα κάπως αφηρημένα ερωτήματα σχετικά με τη μεταφορά μπορούν να σας εξοικειωθούν, εάν έχετε παρακολουθήσει τις συζητήσεις σχετικά με το πόσο οι ερευνητές μπορούν να μάθουν για την ανθρώπινη συμπεριφορά με τη μελέτη των προπτυχιακών φοιτητών (Sears 1986, [@henrich_most_2010] ) . Παρά τις συζητήσεις αυτές, θα ήταν παράλογο να πούμε ότι οι ερευνητές δεν μπορούν να μάθουν τίποτα από τη μελέτη προπτυχιακών φοιτητών.
Η δεύτερη προειδοποίηση είναι ότι οι περισσότεροι ερευνητές με μη αντιπροσωπευτικά δεδομένα δεν είναι τόσο προσεκτικοί όσο το Snow or Doll and Hill. Για να καταδείξουμε τι μπορεί να πάει στραβά όταν οι ερευνητές προσπαθούν να κάνουν γενίκευση εκτός δειγμάτων από μη αντιπροσωπευτικά στοιχεία, θα ήθελα να σας πω μια μελέτη για τις γερμανικές κοινοβουλευτικές εκλογές του 2009 από τον Andranik Tumasjan και τους συναδέλφους του (2010) . Αναλύοντας περισσότερα από 100.000 tweets, διαπίστωσαν ότι το ποσοστό των tweets που αναφέρουν ένα πολιτικό κόμμα ταιριάζει με το ποσοστό των ψήφων που έλαβε το κόμμα στις κοινοβουλευτικές εκλογές (σχήμα 2.3). Με άλλα λόγια, φαίνεται ότι τα δεδομένα Twitter, τα οποία ήταν ουσιαστικά δωρεάν, θα μπορούσαν να αντικαταστήσουν τις παραδοσιακές έρευνες για την κοινή γνώμη, οι οποίες είναι ακριβές λόγω της έμφασης που δίνουν σε αντιπροσωπευτικά δεδομένα.
Λαμβάνοντας υπόψη αυτό που ίσως γνωρίζετε ήδη για το Twitter, θα πρέπει να είστε αμέσως σκεπτικοί για αυτό το αποτέλεσμα. Οι Γερμανοί στο Twitter το 2009 δεν ήταν ένα πιθανοτικό τυχαίο δείγμα γερμανών ψηφοφόρων και οι υποστηρικτές ορισμένων κομμάτων ενδέχεται να τιτίζουν πολύ περισσότερο για την πολιτική από τους υποστηρικτές άλλων κομμάτων. Επομένως, φαίνεται εκπληκτικό ότι όλες οι πιθανές προκαταλήψεις που θα μπορούσατε να φανταστείτε με κάποιο τρόπο θα ακυρωνόταν, έτσι ώστε τα δεδομένα αυτά να αντικατοπτρίζουν άμεσα τους Γερμανούς ψηφοφόρους. Στην πραγματικότητα, τα αποτελέσματα στο Tumasjan et al. (2010) αποδείχθηκε πολύ καλό για να είναι αλήθεια. Ένα έγγραφο παρακολούθησης των Andreas Jungherr, Pascal Jürgens και Harald Schoen (2012) επεσήμανε ότι η αρχική ανάλυση είχε αποκλείσει το πολιτικό κόμμα που είχε λάβει τις περισσότερες αναφορές στο Twitter: το Κόμμα των Πειρατών, ένα μικρό κόμμα που αγωνίζεται για κυβερνητική ρύθμιση του Διαδικτύου. Όταν το Πειρατικό Κόμμα συμπεριλήφθηκε στην ανάλυση, το Twitter αναφέρει ότι αποτελεί τρομερό παράγοντα πρόβλεψης των αποτελεσμάτων των εκλογών (σχήμα 2.3). Όπως δείχνει αυτό το παράδειγμα, η χρήση μη αντιπροσωπευτικών μεγάλων πηγών δεδομένων για να κάνουν γενικεύσεις εκτός δειγμάτων μπορεί να πάει πολύ λάθος. Επίσης, θα πρέπει να παρατηρήσετε ότι το γεγονός ότι υπήρχαν 100.000 tweets ήταν ουσιαστικά άσχετο: πολλά μη αντιπροσωπευτικά στοιχεία εξακολουθούν να είναι μη αντιπροσωπευτικά, ένα θέμα στο οποίο θα επιστρέψω στο κεφάλαιο 3 όταν συζητώ τις έρευνες.
Συμπερασματικά, πολλές μεγάλες πηγές δεδομένων δεν είναι αντιπροσωπευτικά δείγματα από κάποιο καλά καθορισμένο πληθυσμό. Για ερωτήσεις που απαιτούν γενίκευση των αποτελεσμάτων από το δείγμα στον πληθυσμό από τον οποίο προέρχεται, αυτό είναι ένα σοβαρό πρόβλημα. Αλλά για ερωτήσεις σχετικά με τις συγκρίσεις εντός του δείγματος, τα μη αντιπροσωπευτικά δεδομένα μπορούν να είναι ισχυρά, εφόσον οι ερευνητές είναι σαφείς σχετικά με τα χαρακτηριστικά των δειγμάτων τους και υποστηρίζουν ισχυρισμούς σχετικά με τη δυνατότητα μεταφοράς με θεωρητικά ή εμπειρικά στοιχεία. Στην πραγματικότητα, η ελπίδα μου είναι ότι οι μεγάλες πηγές δεδομένων θα επιτρέψουν στους ερευνητές να κάνουν περισσότερες συγκρίσεις εντός των δειγμάτων σε πολλές μη αντιπροσωπευτικές ομάδες και πιστεύω ότι οι εκτιμήσεις από πολλές διαφορετικές ομάδες θα κάνουν περισσότερα για την προώθηση της κοινωνικής έρευνας από μια ενιαία εκτίμηση από ένα πιθανοτικό τυχαίο δείγμα.