Ανεξάρτητα από το πόσο μεγάλα είναι τα μεγάλα σας δεδομένα, πιθανότατα δεν έχουν τις πληροφορίες που θέλετε.
Οι περισσότερες μεγάλες πηγές δεδομένων είναι ελλιπείς , υπό την έννοια ότι δεν διαθέτουν τις πληροφορίες που θα θέλατε για την έρευνά σας. Αυτό είναι ένα κοινό χαρακτηριστικό των δεδομένων που δημιουργήθηκαν για σκοπούς άλλους από την έρευνα. Πολλοί κοινωνικοί επιστήμονες είχαν ήδη την εμπειρία αντιμετώπισης ελλείψεων, όπως μια υπάρχουσα έρευνα που δεν έθεσε την ερώτηση που χρειαζόταν. Δυστυχώς, τα προβλήματα της ατέλειας τείνουν να είναι πιο ακραίες στα μεγάλα δεδομένα. Σύμφωνα με την εμπειρία μου, στα μεγάλα δεδομένα τείνουν να λείπουν τρεις τύποι πληροφοριών χρήσιμων για την κοινωνική έρευνα: δημογραφικές πληροφορίες για τους συμμετέχοντες, συμπεριφορά σε άλλες πλατφόρμες και δεδομένα για την υλοποίηση θεωρητικών δομών.
Από τα τρία είδη ατελειών, το πρόβλημα των ελλιπών δεδομένων για την υλοποίηση των θεωρητικών δομών είναι το πιο δύσκολο να λυθεί. Και από την εμπειρία μου, συχνά παραβλέπεται τυχαία. Σχεδόν οι θεωρητικές κατασκευές είναι αφηρημένες ιδέες που οι κοινωνικοί επιστήμονες μελετούν και λειτουργούν ένα θεωρητικό κατασκεύασμα και προτείνουν κάποιο τρόπο για να συλλάβουν αυτό το κατασκεύασμα με παρατηρήσιμα δεδομένα. Δυστυχώς, αυτή η απλή διαδικασία ακούγεται συχνά αρκετά δύσκολη. Για παράδειγμα, ας φανταστούμε ότι προσπαθούμε να δοκιμάσουμε εμπειρικά τον προφανώς απλό ισχυρισμό ότι οι πιο έξυπνοι άνθρωποι κερδίζουν περισσότερα χρήματα. Για να δοκιμάσετε αυτόν τον ισχυρισμό, θα πρέπει να μετρήσετε τη "νοημοσύνη". Αλλά τι είναι η νοημοσύνη; Gardner (2011) υποστήριξε ότι υπάρχουν στην πραγματικότητα οκτώ διαφορετικές μορφές πληροφοριών. Και υπάρχουν διαδικασίες που θα μπορούσαν να μετρήσουν με ακρίβεια οποιαδήποτε από αυτές τις μορφές νοημοσύνης; Παρά τις τεράστιες ποσότητες εργασίας από τους ψυχολόγους, αυτά τα ερωτήματα εξακολουθούν να μην έχουν ξεκάθαρες απαντήσεις.
Έτσι, ακόμη και ένας σχετικά απλός ισχυρισμός - οι άνθρωποι που είναι πιο έξυπνοι κερδίζουν περισσότερα χρήματα - μπορεί να είναι δύσκολο να εκτιμηθεί εμπειρικά επειδή μπορεί να είναι δύσκολο να λειτουργήσει η θεωρητική κατασκευή σε δεδομένα. Άλλα παραδείγματα θεωρητικών κατασκευών που είναι σημαντικά αλλά δύσκολο να λειτουργικοποιηθούν περιλαμβάνουν «κανόνες», «κοινωνικό κεφάλαιο» και «δημοκρατία». Οι κοινωνικοί επιστήμονες καλούν την αντιστοιχία μεταξύ θεωρητικών δομών και εγκυρότητας δεδομένων (Cronbach and Meehl 1955) . Όπως δείχνει αυτή η σύντομη λίστα κατασκευών, η οικοδόμηση της εγκυρότητας είναι ένα πρόβλημα που οι κοινωνικοί επιστήμονες έχουν αγωνιστεί εδώ και πολύ καιρό. Αλλά από την εμπειρία μου, τα προβλήματα της εγκυρότητας κατασκευών είναι ακόμη μεγαλύτερα όταν εργάζομαι με δεδομένα που δεν δημιουργήθηκαν για σκοπούς έρευνας (Lazer 2015) .
Όταν αξιολογείτε ένα ερευνητικό αποτέλεσμα, ένας γρήγορος και χρήσιμος τρόπος για να εκτιμηθεί η εγκυρότητα της κατασκευής είναι να ληφθεί το αποτέλεσμα, το οποίο συνήθως εκφράζεται με όρους κατασκευών, και να το εκφραστεί εκ νέου με βάση τα δεδομένα που χρησιμοποιήθηκαν. Για παράδειγμα, εξετάστε δύο υποθετικές μελέτες που ισχυρίζονται ότι δείχνουν ότι οι πιο έξυπνοι άνθρωποι κερδίζουν περισσότερα χρήματα. Στην πρώτη μελέτη, ο ερευνητής διαπίστωσε ότι οι άνθρωποι που βαθμολογούν καλά την δοκιμασία των Προοδευτικών Πηκτωμάτων Raven - ένα καλά μελετημένο τεστ αναλυτικής νοημοσύνης (Carpenter, Just, and Shell 1990) - έχουν υψηλότερα αναγραφόμενα εισοδήματα στις φορολογικές δηλώσεις τους. Στη δεύτερη μελέτη, ο ερευνητής διαπίστωσε ότι οι άνθρωποι στο Twitter που χρησιμοποίησαν μακρύτερες λέξεις είναι πιο πιθανό να αναφέρουν τις μάρκες πολυτελείας. Και στις δύο περιπτώσεις, αυτοί οι ερευνητές θα μπορούσαν να ισχυριστούν ότι έχουν δείξει ότι οι πιο έξυπνοι άνθρωποι κερδίζουν περισσότερα χρήματα. Ωστόσο, στην πρώτη μελέτη οι θεωρητικές κατασκευές λειτουργούν καλά από τα δεδομένα, ενώ στη δεύτερη δεν είναι. Επιπλέον, όπως δείχνει αυτό το παράδειγμα, περισσότερα δεδομένα δεν επιλύουν αυτόματα τα προβλήματα με την εγκυρότητα δομής. Θα πρέπει να αμφισβητήσετε τα αποτελέσματα της δεύτερης μελέτης, είτε πρόκειται για ένα εκατομμύριο tweets, ένα δισεκατομμύριο tweets, είτε ένα τρισεκατομμύριο tweets. Για τους ερευνητές που δεν είναι εξοικειωμένοι με την ιδέα της εγκυρότητας κατασκευής, ο πίνακας 2.2 παρέχει μερικά παραδείγματα μελετών που έχουν λειτουργικοποιήσει τις θεωρητικές δομές χρησιμοποιώντας ψηφιακά δεδομένα ίχνους.
Πηγή δεδομένων | Θεωρητική κατασκευή | βιβλιογραφικές αναφορές |
---|---|---|
Μητρώα ηλεκτρονικού ταχυδρομείου από πανεπιστήμιο (μόνο μετα-δεδομένα) | ΚΟΙΝΩΝΙΚΕΣ σχεσεις | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Δημοσιεύσεις κοινωνικών μέσων στο Weibo | Πολιτική εμπλοκή | Zhang (2016) |
Τα αρχεία καταγραφής ηλεκτρονικού ταχυδρομείου από μια επιχείρηση (μεταδεδομένα και πλήρες κείμενο) | Πολιτιστική προσαρμογή σε έναν οργανισμό | Srivastava et al. (2017) |
Αν και το πρόβλημα των ελλιπών δεδομένων για τη λήψη θεωρητικών κατασκευών είναι αρκετά δύσκολο να επιλυθεί, υπάρχουν κοινές λύσεις για τα άλλα κοινά είδη ελλείψεων: ελλιπείς δημογραφικές πληροφορίες και ελλιπείς πληροφορίες σχετικά με τη συμπεριφορά σε άλλες πλατφόρμες. Η πρώτη λύση είναι πραγματικά να συλλέξετε τα δεδομένα που χρειάζεστε. Θα σας το πω σε αυτό στο κεφάλαιο 3 όταν σας λέω για τις έρευνες. Η δεύτερη κύρια λύση είναι να κάνουμε ό, τι οι επιστήμονες δεδομένων αποκαλούν συσχετισμό χρήστη-χαρακτηριστικών και οι κοινωνικοί επιστήμονες καλούν τον καταλογισμό . Σε αυτή την προσέγγιση, οι ερευνητές χρησιμοποιούν τις πληροφορίες που έχουν σε μερικούς ανθρώπους για να συναγάγουν χαρακτηριστικά άλλων ανθρώπων. Μια τρίτη δυνατή λύση είναι να συνδυάσουμε πολλαπλές πηγές δεδομένων. Αυτή η διαδικασία ονομάζεται συχνά σύνδεσμος εγγραφής . Η αγαπημένη μου μεταφορά για αυτή τη διαδικασία γράφτηκε από τον Dunn (1946) στην πρώτη παράγραφο του πρώτου εγγράφου που γράφτηκε ποτέ στη δισκογραφική διασύνδεση:
"Κάθε άνθρωπος στον κόσμο δημιουργεί ένα βιβλίο της ζωής. Αυτό το βιβλίο αρχίζει με τη γέννηση και τελειώνει με το θάνατο. Οι σελίδες του αποτελούνται από αρχεία των κύριων γεγονότων στη ζωή. Η σύνδεση εγγραφής είναι το όνομα που δίνεται στη διαδικασία της συγκέντρωσης των σελίδων αυτού του βιβλίου σε έναν τόμο. "
Όταν ο Νταν έγραψε αυτό το απόσπασμα φαντάζετο ότι το Βιβλίο της Ζωής θα μπορούσε να περιλαμβάνει σημαντικά γεγονότα της ζωής όπως η γέννηση, ο γάμος, το διαζύγιο και ο θάνατος. Ωστόσο, τώρα που καταγράφονται τόσο πολλές πληροφορίες για τους ανθρώπους, το Βιβλίο της Ζωής θα μπορούσε να είναι ένα απίστευτα λεπτομερές πορτρέτο, αν αυτές οι διαφορετικές σελίδες (δηλαδή τα ψηφιακά μας ίχνη) μπορούν να συνδεθούν μαζί. Αυτό το Βιβλίο της Ζωής θα μπορούσε να είναι μια μεγάλη πηγή για τους ερευνητές. Αλλά, θα μπορούσε επίσης να ονομαστεί μια βάση δεδομένων ερείπιας (Ohm 2010) , η οποία θα μπορούσε να χρησιμοποιηθεί για κάθε είδους ανήθικους σκοπούς, όπως θα περιγράψω στο κεφάλαιο 6 (Ηθική).