2.3.2.1 Ατελής

Δεν έχει σημασία πόσο "μεγάλο" "μεγάλα δεδομένα" σας πιθανώς δεν έχουν τις πληροφορίες που θέλετε.

Οι περισσότερες μεγάλες πηγές δεδομένων είναι ελλιπείς, με την έννοια ότι δεν έχουν τις πληροφορίες που θα θέλετε για την έρευνά σας. Αυτό είναι ένα κοινό χαρακτηριστικό των δεδομένων που δημιουργήθηκαν για σκοπούς άλλους από την έρευνα. Πολλοί κοινωνικοί επιστήμονες είχαν ήδη την εμπειρία της που ασχολούνται με την ελλιπή, όπως μια υπάρχουσα έρευνα που δεν ζήτησε από την ερώτηση που ήθελε. Δυστυχώς, τα προβλήματα της μη πληρότητας έχουν την τάση να είναι πιο ακραίες σε μεγάλα δεδομένα. Στην εμπειρία μου, μεγάλο δεδομένα τείνει να λείπουν τρεις τύπους πληροφοριών που είναι χρήσιμες για την κοινωνική έρευνα: δημογραφικά στοιχεία, η συμπεριφορά σε άλλες πλατφόρμες, και δεδομένων σε λειτουργική θεωρητικές κατασκευές.

Και οι τρεις από αυτές τις μορφές ελλιπή απεικονίζονται σε μια μελέτη από Gueorgi Kossinets και Duncan Watts (2006) σχετικά με την εξέλιξη του κοινωνικού δικτύου σε ένα πανεπιστήμιο. Kossinets και Watts ξεκίνησε με τα αρχεία καταγραφής email από το πανεπιστήμιο, το οποίο είχε ακριβείς πληροφορίες σχετικά με το ποιος έστειλε e-mail σε ποιον σε ποια χρονική στιγμή (οι ερευνητές δεν έχουν πρόσβαση στο περιεχόμενο των μηνυμάτων ηλεκτρονικού ταχυδρομείου). Αυτά τα αρχεία ηλεκτρονικού ταχυδρομείου ακούγεται σαν ένα καταπληκτικό σύνολο δεδομένων, αλλά, είναι, παρά το μέγεθός τους και την αναλυτικότητα-θεμελιωδώς ελλιπής. Για παράδειγμα, οι κορμοί email δεν περιλαμβάνουν στοιχεία για τα δημογραφικά χαρακτηριστικά των μαθητών, όπως το φύλο και την ηλικία. Περαιτέρω, οι κορμοί email δεν περιλαμβάνουν πληροφορίες σχετικά με την επικοινωνία με άλλα μέσα, όπως τηλεφωνικές κλήσεις, μήνυμα κειμένου, ή πρόσωπο-με-πρόσωπο συνομιλίες. Τέλος, οι κορμοί email δεν περιλαμβάνουν άμεσα πληροφορίες σχετικά με τις σχέσεις, τις θεωρητικές κατασκευές σε πολλές υπάρχουσες θεωρίες. Αργότερα, στο κεφάλαιο, όταν μιλάω για τις στρατηγικές της έρευνας, θα δείτε πώς Kossinets και Watts λυθούν αυτά τα προβλήματα.

Τρία είδη του ανολοκλήρωτου, το πρόβλημα των ελλιπών στοιχείων για την λειτουργική θεωρητικά κατασκευάσματα είναι το πιο δύσκολο να λυθεί, και από την εμπειρία μου, είναι συχνά λάθος παραβλέπεται από τους επιστήμονες δεδομένων. Χονδρικά, θεωρητικά κατασκευάσματα είναι αφηρημένες ιδέες που μελετούν οι κοινωνικοί επιστήμονες, αλλά, δυστυχώς, αυτές οι δομές δεν μπορούν πάντα να ορίζονται με σαφήνεια και να μετρηθούν. Για παράδειγμα, ας φανταστούμε προσπαθεί να δοκιμάσει εμπειρικά το φαινομενικά απλό ισχυρισμό ότι οι άνθρωποι που είναι πιο έξυπνο να κερδίσουν περισσότερα χρήματα. Για να ελέγξετε το αίτημα αυτό θα πρέπει να μετρήσετε «νοημοσύνη». Αλλά, τι είναι νοημοσύνη; Για παράδειγμα, Gardner (2011) υποστήριξε ότι υπάρχουν πράγματι οκτώ διαφορετικές μορφές νοημοσύνης. Και, υπάρχουν διαδικασίες που θα μπορούσαν να μετρήσουν με ακρίβεια οποιαδήποτε από αυτές τις μορφές νοημοσύνης; Παρά τα τεράστια ποσά της εργασίας από τους ψυχολόγους, αυτές οι ερωτήσεις ακόμη δεν έχουν σαφείς απαντήσεις. Έτσι, ακόμη και μια σχετικά απλή διεκδίκηση-οι άνθρωποι που είναι πιο έξυπνο να κερδίσουν περισσότερα χρήματα, μπορεί να είναι δύσκολο να εκτιμηθεί εμπειρικά, διότι μπορεί να είναι δύσκολο να καταστεί λειτουργική θεωρητικά κατασκευάσματα στα δεδομένα. Άλλα παραδείγματα των θεωρητικών κατασκευών που είναι σημαντικό, αλλά δύσκολο να καταστεί λειτουργική περιλαμβάνουν "κανόνες", "κοινωνικό κεφάλαιο" και "δημοκρατία". Οι κοινωνικοί επιστήμονες αποκαλούν τον αγώνα μεταξύ των θεωρητικών κατασκευασμάτων και δομική εγκυρότητα δεδομένων (Cronbach and Meehl 1955) . Και, όπως ο κατάλογος αυτός των κατασκευών προτείνει, δομική εγκυρότητα είναι ένα πρόβλημα που οι κοινωνικοί επιστήμονες έχουν αγωνιστεί με ένα πολύ μεγάλο χρονικό διάστημα, ακόμα και όταν εργάζονταν με δεδομένα που συλλέγονται για τους σκοπούς της έρευνας. Όταν εργάζεστε με δεδομένα που συλλέγονται για σκοπούς άλλους από την έρευνα, τα προβλήματα ισχύος κατασκευάσματος είναι ακόμη πιο δύσκολο (Lazer 2015) .

Όταν διαβάζετε μια ερευνητική εργασία, ένα γρήγορο και χρήσιμο τρόπο για να αξιολογήσει τις ανησυχίες σχετικά με το κύρος κατασκεύασμα είναι να πάρετε το κύριο αίτημα στο χαρτί, το οποίο συνήθως εκφράζεται σε κατασκευές, και ξανά εκφράζουν την άποψη των δεδομένων που χρησιμοποιήθηκαν. Για παράδειγμα, σκεφτείτε δύο υποθετικές μελέτες που ισχυρίζονται για να δείξει ότι οι περισσότεροι ευφυείς άνθρωποι κερδίζουν περισσότερα χρήματα:

  • Μελέτη 1: οι άνθρωποι που τα καταφέρνουν καλά στο Raven Προοδευτική Πίνακες Test-ένα καλά μελετημένο δοκιμή της αναλυτικής νοημοσύνης (Carpenter, Just, and Shell 1990) -να υψηλότερη αναφερθεί εισοδήματα στις φορολογικές δηλώσεις τους
  • Μελέτη 2: τους ανθρώπους στο Twitter που χρησιμοποιούνται πλέον λέξεις είναι πιο πιθανό να αναφέρουν μάρκες πολυτελείας

Και στις δύο περιπτώσεις, οι ερευνητές θα μπορούσαν να ισχυρίζονται ότι έχουν δείξει ότι οι πιο έξυπνοι άνθρωποι κερδίζουν περισσότερα χρήματα. Αλλά, στην πρώτη μελέτη οι θεωρητικές κατασκευές είναι καλά υλοποιηθούν από τα δεδομένα, και στη δεύτερη δεν είναι. Περαιτέρω, δεδομένου ότι αυτό το παράδειγμα απεικονίζει, περισσότερα δεδομένα δεν λύνει αυτόματα τα προβλήματα με το κύρος κατασκεύασμα. Θα πρέπει να αμφισβητούν τα αποτελέσματα της μελέτης 2 αν εμπλέκεται ένα εκατομμύριο tweets, ένα δισεκατομμύριο tweets, ή ένα τρισεκατομμύριο tweets. Για τους ερευνητές δεν είναι εξοικειωμένοι με την ιδέα της εγκυρότητας κατασκεύασμα, πίνακας 2.2 παρέχει μερικά παραδείγματα των μελετών που έχουν τεθεί σε εφαρμογή ως θεωρητικές κατασκευές με τη χρήση ψηφιακών δεδομένων ίχνος.

Πίνακας 2.2: Παραδείγματα των ψηφιακών ιχνών που χρησιμοποιούνται ως μέτρα πιο αφηρημένες θεωρητικές έννοιες. Οι κοινωνικοί επιστήμονες καλούν αυτήν την δομική εγκυρότητα του αγώνα και αυτό είναι μια σημαντική πρόκληση με τη χρήση μεγάλων πηγές δεδομένων για την κοινωνική έρευνα (Lazer 2015) .
ψηφιακή ίχνος θεωρητικό κατασκεύασμα Παραπομπή
κούτσουρα ηλεκτρονικού ταχυδρομείου από ένα πανεπιστήμιο (μετα-δεδομένα μόνο) κοινωνικές σχέσεις Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Μηνύματα τα social media για Weibo Civic αρραβώνων Zhang (2016)
κούτσουρα e-mail από μια επιχείρηση (μετα-δεδομένων και πλήρες κείμενο) Πολιτιστικό ταιριάζει σε έναν οργανισμό Goldberg et al. (2015)

Αν και το πρόβλημα των ελλιπών στοιχείων για την λειτουργικότητά θεωρητικές κατασκευές είναι αρκετά δύσκολο να λυθεί, υπάρχουν τρεις κοινές λύσεις για το πρόβλημα των ελλιπών δημογραφικές πληροφορίες και ελλιπείς πληροφορίες σχετικά με τη συμπεριφορά σε άλλες πλατφόρμες. Η πρώτη είναι η συλλογή στην πραγματικότητα τα δεδομένα που χρειάζεστε? Θα σας πω για παράδειγμα ότι στο κεφάλαιο 3, όταν σας λέω για τις έρευνες. Δυστυχώς, αυτό το είδος της συλλογής στοιχείων δεν είναι πάντα δυνατή. Η δεύτερη κύρια λύση είναι να κάνουμε αυτό που οι επιστήμονες αποκαλούν τα δεδομένα χρήστη χαρακτηριστικό συμπέρασμα και τι κοινωνικοί επιστήμονες αποκαλούν τον καταλογισμό. Σε αυτή την προσέγγιση, οι ερευνητές χρησιμοποιούν τις πληροφορίες που έχουν σε μερικούς ανθρώπους να συναγάγει τα χαρακτηριστικά των άλλων ανθρώπων. Η τρίτη πιθανή λύση, αυτή που χρησιμοποιείται από Kossinets και Watts, ήταν να συνδυάσει πολλαπλές πηγές δεδομένων. Αυτή η διαδικασία ονομάζεται μερικές φορές τη συγχώνευση ή την εγγραφή σύνδεση. Το αγαπημένο μου αλληγορία για τη διαδικασία αυτή προτάθηκε στην πρώτη παράγραφο του πρώτου πολύ χαρτί που γράφτηκε ποτέ στο αρχείο σύνδεση (Dunn 1946) :

"Κάθε άνθρωπος στον κόσμο, δημιουργεί ένα Βιβλίο της Ζωής. Αυτό το βιβλίο ξεκινά με τη γέννηση και τελειώνει με το θάνατο. Οι σελίδες του αποτελούνται από τα αρχεία της αρχής γεγονότα στη ζωή. σύνδεση εγγραφή είναι το όνομα που δίνεται στη διαδικασία της συναρμολόγησης τις σελίδες αυτού του βιβλίου σε όγκο. "

Το απόσπασμα αυτό γράφτηκε το 1946, και εκείνη τη στιγμή, οι άνθρωποι σκέφτονται ότι το Βιβλίο της Ζωής θα μπορούσε να περιλαμβάνει σημαντικά γεγονότα της ζωής όπως η γέννηση, ο γάμος, το διαζύγιο και τον θάνατο. Ωστόσο, τώρα που τόσο πολύ πληροφορίες για τους ανθρώπους που καταγράφεται, το Βιβλίο της Ζωής θα μπορούσε να είναι ένα απίστευτα λεπτομερές πορτρέτο, αν αυτές οι διαφορετικές σελίδες (δηλαδή, ψηφιακή ίχνη μας), μπορούν να συνδέονται μεταξύ τους. Αυτό το βιβλίο της ζωής θα μπορούσε να είναι ένας μεγάλος πόρος για τους ερευνητές. Όμως, το Βιβλίο της Ζωής θα μπορούσε επίσης να ονομαστεί μια βάση δεδομένων της καταστροφής (Ohm 2010) , το οποίο θα μπορούσε να χρησιμοποιηθεί για όλα τα είδη των ανήθικη σκοπούς, όπως περιγράφεται πιο κάτω, όταν μιλάω για την ευαίσθητη φύση των πληροφοριών που συλλέγονται από τις μεγάλες πηγές δεδομένων παρακάτω και στο κεφάλαιο 6 (Ηθική).