2.3.1.1 Big

Μεγάλα σύνολα δεδομένων είναι ένα μέσο για ένα τέλος? δεν είναι αυτοσκοπός.

Η πρώτη από τις τρεις καλές χαρακτηριστικά των μεγάλων δεδομένα είναι η πιο συζητήθηκαν: αυτά είναι μεγάλα στοιχεία. Αυτές οι πηγές των δεδομένων μπορεί να είναι μεγάλη με τρεις διαφορετικούς τρόπους: πολλοί άνθρωποι, πολλές πληροφορίες ανά άτομο, ή πολλές παρατηρήσεις πάροδο του χρόνου. Έχοντας ένα μεγάλο σύνολο δεδομένων επιτρέπει κάποια συγκεκριμένους τύπους έρευνας μέτρησης ετερογένεια, τη μελέτη σπάνιων γεγονότων, ανίχνευση μικρές διαφορές, και κάνοντας αιτιώδης εκτιμήσεις από δεδομένα παρατήρησης. Φαίνεται επίσης να οδηγήσει σε ένα συγκεκριμένο είδος προχειρότητα.

Το πρώτο πράγμα για το οποίο το μέγεθος είναι ιδιαίτερα χρήσιμη κινείται πέρα ​​από μέσους να κάνουν εκτιμήσεις για συγκεκριμένες υποομάδες. Για παράδειγμα, ο Gary King, Jennifer Pan, και Molly Roberts (2013) μέτρησε την πιθανότητα ότι οι θέσεις των κοινωνικών μέσων μαζικής ενημέρωσης στην Κίνα θα πρέπει να λογοκρίνονται από την κυβέρνηση. Από μόνη της αυτή η μέση πιθανότητα διαγραφής δεν είναι πολύ χρήσιμη για την κατανόηση γιατί η κυβέρνηση λογοκρίνει κάποιες θέσεις, αλλά όχι τους άλλους. Όμως, επειδή το σύνολο δεδομένων τους περιλαμβάνονται 11 εκατομμύρια θέσεις εργασίας, ο βασιλιάς και οι συνεργάτες παράγονται επίσης εκτιμήσεις για την πιθανότητα της λογοκρισίας για τις θέσεις σε 85 διαφορετικές κατηγορίες (π.χ., η πορνογραφία, το Θιβέτ, και Κυκλοφορίας στο Πεκίνο). Με τη σύγκριση την πιθανότητα της λογοκρισίας για θέσεις σε διάφορες κατηγορίες, ήταν σε θέση να καταλάβουν περισσότερα για το πώς και γιατί η κυβέρνηση λογοκρίνει ορισμένους τύπους μηνυμάτων. Με 11.000 θέσεων (και όχι 11 εκατομμύρια θέσεις), δεν θα ήταν σε θέση να παράγουν αυτές τις εκτιμήσεις συγκεκριμένες κατηγορίες.

Δεύτερον, το μέγεθος είναι ιδιαίτερα χρήσιμο για μελετά σπάνιων γεγονότων. Για παράδειγμα, Goel και οι συνεργάτες του (2015) θέλησαν να μελετήσουν τους διαφορετικούς τρόπους που tweets μπορεί να πάει ιού. Επειδή μεγάλες καταρράκτες του νέου tweets είναι μια εξαιρετικά σπάνια, περίπου σε 3.000 που απαιτούνται για να μελετήσει περισσότερα από ένα δισεκατομμύριο tweets για να βρει αρκετά μεγάλο καταρράκτες για την ανάλυσή τους.

Τρίτον, μεγάλα σύνολα δεδομένων επιτρέπουν στους ερευνητές να ανιχνεύσει μικρές διαφορές. Στην πραγματικότητα, ένα μεγάλο μέρος της εστίασης σε μεγάλα δεδομένα στον κλάδο είναι σχετικά με αυτές τις μικρές διαφορές: αξιόπιστα την ανίχνευση της διαφοράς μεταξύ των επιτοκίων κατά 1% και 1,1% click-through σε μια διαφήμιση μπορεί να μεταφραστεί σε εκατομμύρια δολάρια σε επιπλέον έσοδα. Σε ορισμένες επιστημονικές ρυθμίσεις, όπως οι μικρές διαφορές μπορεί να μην είναι ιδιαίτερα σημαντικό (ακόμη και αν είναι στατιστικά σημαντική). Όμως, σε ορισμένες ρυθμίσεις πολιτικής, όπως οι μικρές διαφορές μπορεί να γίνει σημαντικό όταν είδαν το συνολικό ποσό. Για παράδειγμα, εάν υπάρχουν δύο παρεμβάσεις για τη δημόσια υγεία και το ένα είναι ελαφρώς πιο αποτελεσματικό από το άλλο, τότε να στραφούν σε πιο αποτελεσματική παρέμβαση θα μπορούσε να καταλήξει εξοικονομώντας χιλιάδες επιπλέον ζωές.

Τέλος, τα μεγάλα σύνολα δεδομένων αυξήσει σημαντικά την ικανότητά μας να κάνουν αιτιώδης εκτιμήσεις από δεδομένα παρατήρησης. Αν και μεγάλα σύνολα δεδομένων δεν αλλάζουν ριζικά τα προβλήματα με την παραγωγή αιτιώδη συμπέρασμα από παρατηρησιακά δεδομένα, που ταιριάζουν και φυσικά πειράματα δύο τεχνικές που οι ερευνητές έχουν αναπτύξει για την πραγματοποίηση αιτιώδη απαιτήσεις από παρατηρησιακά δεδομένα, τόσο επωφεληθούν τα μέγιστα από μεγάλα σύνολα δεδομένων. Θα εξηγήσω και απεικονίζουν τον ισχυρισμό αυτό με περισσότερες λεπτομέρειες αργότερα σε αυτό το κεφάλαιο, όταν έχω περιγράψει ερευνητικές στρατηγικές.

Αν και μεγαλοπρέπεια είναι γενικά μια καλή ιδιότητα όταν χρησιμοποιούνται σωστά, έχω παρατηρήσει ότι bigness οδηγεί συνήθως σε ένα εννοιολογικό σφάλμα. Για κάποιο λόγο, bigness φαίνεται να οδηγεί τους ερευνητές να αγνοούν το πώς δημιουργήθηκε δεδομένων τους. Ενώ μεγαλοπρέπεια δεν μειώνει την ανάγκη να ανησυχείτε για τυχαίο σφάλμα, στην πραγματικότητα αυξάνει την ανάγκη να ανησυχείτε για συστηματικά σφάλματα, τα είδη των λαθών που θα περιγράψω πιο κάτω ώστε να προκύψουν από προκαταλήψεις για το πώς τα δεδομένα που δημιουργούνται και συλλέγονται. Σε ένα μικρό σύνολο δεδομένων, τόσο τυχαίο σφάλμα και συστηματικό σφάλμα μπορεί να είναι σημαντική, αλλά σε ένα μεγάλο σύνολο δεδομένων τυχαίο σφάλμα μπορεί να μέσος όρος μακριά και να κυριαρχεί συστηματικό σφάλμα. Οι ερευνητές οι οποίοι δεν σκέφτονται για συστηματικό σφάλμα, θα καταλήξετε με μεγάλα σύνολα δεδομένων τους για να πάρετε μια ακριβή εκτίμηση του λάθος πράγμα? θα είναι ακριβώς ανακριβής (McFarland and McFarland 2015) .