Πάντα-για μεγάλο δεδομένων επιτρέπει τη μελέτη των απροσδόκητων γεγονότων και μέτρηση σε πραγματικό χρόνο.
Πολλά μεγάλα συστήματα δεδομένων είναι πάντα-on? είναι συνεχώς τη συλλογή δεδομένων. Αυτό πάντα-για το χαρακτηριστικό παρέχει στους ερευνητές διαχρονικά δεδομένα (δηλαδή, τα δεδομένα την πάροδο του χρόνου). Όντας πάντα-on έχει δύο σημαντικές συνέπειες για την έρευνα.
Πρώτον, η συνεχής συλλογή δεδομένων επιτρέπει στους ερευνητές να μελετούν απρόσμενα γεγονότα με τρόπους που διαφορετικά δεν θα ήταν δυνατοί. Για παράδειγμα, οι ερευνητές που ενδιαφέρονται να μελετήσουν τις διαμαρτυρίες για το Occupy Gezi στην Τουρκία το καλοκαίρι του 2013 θα επικεντρωθούν συνήθως στη συμπεριφορά των διαδηλωτών κατά τη διάρκεια του γεγονότος. Ο Ceren Budak και ο Duncan Watts (2015) κατάφεραν να κάνουν περισσότερα χρησιμοποιώντας τη συνεχή φύση του Twitter για να μελετήσουν τους διαδηλωτές που χρησιμοποίησαν το Twitter πριν, κατά τη διάρκεια και μετά την εκδήλωση. Και, μπόρεσαν να δημιουργήσουν μια ομάδα σύγκρισης των μη συμμετεχόντων πριν, κατά τη διάρκεια και μετά την εκδήλωση (σχήμα 2.2). Συνολικά, η εκ των υστέρων ομάδα τους περιελάμβανε τα tweets των 30.000 ατόμων σε διάστημα δύο ετών. Με την αύξηση των κοινώς χρησιμοποιούμενων δεδομένων από τις διαμαρτυρίες με αυτές τις άλλες πληροφορίες, οι Budak και Watts κατάφεραν να μάθουν πολύ περισσότερο: ήταν σε θέση να εκτιμήσουν ποιοι άνθρωποι ήταν πιο πιθανό να συμμετάσχουν στις διαμαρτυρίες Gezi και να εκτιμήσουν τις αλλαγές στις στάσεις των των συμμετεχόντων και των μη συμμετεχόντων, τόσο βραχυπρόθεσμα (συγκρίνοντας την προ-Gezi με τον Gezi) όσο και μακροπρόθεσμα (συγκρίνοντας τον προ-Gezi με τον μετα-Gezi).
Ένας σκεπτικιστής μπορεί να επισημάνει ότι ορισμένες από αυτές τις εκτιμήσεις θα μπορούσαν να γίνουν χωρίς πάντοτε πηγές συλλογής δεδομένων (π.χ. μακροπρόθεσμες εκτιμήσεις αλλαγής συμπεριφοράς) και αυτό είναι σωστό, αν και μια τέτοια συλλογή δεδομένων για 30.000 άτομα θα ήταν αρκετά ακριβός. Ακόμα και με έναν απεριόριστο προϋπολογισμό, δεν μπορώ να σκεφτώ κάποια άλλη μέθοδο που ουσιαστικά επιτρέπει στους ερευνητές να ταξιδεύουν πίσω στο χρόνο και να παρακολουθούν άμεσα τη συμπεριφορά των συμμετεχόντων στο παρελθόν. Η πλησιέστερη εναλλακτική λύση θα ήταν η συλλογή αναδρομικών αναφορών συμπεριφοράς, αλλά οι εκθέσεις αυτές θα έχουν περιορισμένη λεπτομέρεια και αμφισβητήσιμη ακρίβεια. ο πίνακας 2.1 παρέχει άλλα παραδείγματα μελετών που χρησιμοποιούν μια πηγή δεδομένων πάντα για να μελετήσουν ένα απροσδόκητο γεγονός.
Μη αναμενόμενο συμβάν | Πάντα πηγή δεδομένων | Παραπομπή |
---|---|---|
Καταλαμβάνουν το κίνημα Gezi στην Τουρκία | Κελάδημα | Budak and Watts (2015) |
Ομπρέλα διαδηλώνει στο Χονγκ Κονγκ | Zhang (2016) | |
Πυροβολισμοί της αστυνομίας στη Νέα Υόρκη | Αναφορές Stop-and-Frisk | Legewie (2016) |
Πρόσωπο που συμμετέχει στο ISIS | Κελάδημα | Magdy, Darwish, and Weber (2016) |
11 Σεπτεμβρίου 2001 επίθεση | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11 Σεπτεμβρίου 2001 επίθεση | μηνύματα pager | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Εκτός από τη μελέτη απροσδόκητων γεγονότων, τα μεγάλα συστήματα δεδομένων επιτρέπουν επίσης στους ερευνητές να παράγουν εκτιμήσεις σε πραγματικό χρόνο, οι οποίες μπορεί να είναι σημαντικές σε χώρους όπου οι υπεύθυνοι χάραξης πολιτικής - στην κυβέρνηση ή στη βιομηχανία - θέλουν να ανταποκριθούν με βάση την επίγνωση της κατάστασης. Για παράδειγμα, τα δεδομένα των κοινωνικών μέσων μπορούν να χρησιμοποιηθούν για την αντιμετώπιση της αντιμετώπισης έκτακτων καταστροφών σε φυσικές καταστροφές (Castillo 2016) και μπορούν να χρησιμοποιηθούν ποικίλες διαφορετικές πηγές δεδομένων για την παραγωγή εκτιμήσεων της οικονομικής δραστηριότητας σε πραγματικό χρόνο (Choi and Varian 2012) .
Συμπερασματικά, τα συστήματα δεδομένων που είναι πάντα διαθέσιμα επιτρέπουν στους ερευνητές να μελετούν απροσδόκητα γεγονότα και να παρέχουν πληροφορίες σε πραγματικό χρόνο στους υπεύθυνους χάραξης πολιτικής. Ωστόσο, δεν πιστεύω ότι τα συστήματα δεδομένων που είναι πάντοτε κατάλληλα για την παρακολούθηση αλλαγών σε πολύ μεγάλες χρονικές περιόδους. Αυτό οφείλεται στο γεγονός ότι πολλά μεγάλα συστήματα δεδομένων αλλάζοντας-ένα συνεχώς διαδικασία που θα καλέσω παρασύρει αργότερα στο κεφάλαιο (ενότητα 2.3.7).