2.3.1.2 πάντα-on

Πάντα-για μεγάλο δεδομένων επιτρέπει τη μελέτη των απροσδόκητων γεγονότων και μέτρηση σε πραγματικό χρόνο.

Πολλά μεγάλα συστήματα δεδομένων είναι πάντα-on? είναι συνεχώς τη συλλογή δεδομένων. Αυτό πάντα-για το χαρακτηριστικό παρέχει στους ερευνητές διαχρονικά δεδομένα (δηλαδή, τα δεδομένα την πάροδο του χρόνου). Όντας πάντα-on έχει δύο σημαντικές συνέπειες για την έρευνα.

Πρώτον, πάντα-για τη συλλογή δεδομένων επιτρέπει στους ερευνητές να μελετήσουν απρόβλεπτα γεγονότα με τρόπους που δεν ήταν δυνατό στο παρελθόν. Για παράδειγμα, οι ερευνητές που ενδιαφέρονται να σπουδάσουν το Occupy Gezi διαδηλώσεις στην Τουρκία το καλοκαίρι του 2013 θα συνήθως επικεντρώνονται στη συμπεριφορά των διαδηλωτών κατά τη διάρκεια της εκδήλωσης. Ceren Budak και Duncan Watts (2015) ήταν σε θέση να κάνει περισσότερο με τη χρήση του πάντα-για τη φύση του Twitter για να μελετήσει Twitter χρησιμοποιούν διαδηλωτές πριν, κατά τη διάρκεια και μετά την εκδήλωση. Και, ήταν σε θέση να δημιουργήσει μια ομάδα σύγκρισης των μη συμμετεχόντων (ή συμμετέχοντες που δεν τιτίβισμα για τη διαμαρτυρία) πριν, κατά τη διάρκεια και μετά την εκδήλωση (Σχήμα 2.1). Συνολικά εκ των υστέρων πάνελ τους περιλαμβάνονται τα tweets των 30.000 ατόμων ηλικίας άνω των δύο ετών. Βελτιώνοντας τα δεδομένα που χρησιμοποιούνται συχνά από τις διαδηλώσεις με αυτό άλλες πληροφορίες, Budak και Watts ήταν σε θέση να μάθουν πολύ περισσότερα: θα ήταν σε θέση να εκτιμήσει τι είδους άνθρωποι ήταν πιο πιθανό να συμμετάσχουν στις Gezi διαμαρτυρίες και να εκτιμηθούν οι αλλαγές στη στάση της συμμετεχόντων και μη συμμετεχόντων, τόσο βραχυπρόθεσμα (συγκρίνοντας προ-Gezi στην διάρκεια Gezi) και στη μακροπρόθεσμη (συγκρίνοντας προ-Gezi να δημοσιεύσετε-Gezi).

Σχήμα 2.1: Σχεδιασμός που χρησιμοποιείται από Budak και Watts (2015) για να μελετήσει το Occupy Gezi διαδηλώσεις στην Τουρκία το καλοκαίρι του 2013. Με τη χρήση του πάντα-για τη φύση του Twitter, οι ερευνητές δημιούργησαν αυτό που ονομάζεται εκ των υστέρων πίνακα που περιελάμβανε περίπου 30.000 άτομα ηλικίας άνω των δύο ετών. Σε αντίθεση με το τυπικό μελέτη που επικεντρώθηκε στους συμμετέχοντες κατά τη διάρκεια των διαδηλώσεων, η εκ των υστέρων πίνακα προσθέτει 1) τα στοιχεία από τους συμμετέχοντες πριν και μετά την εκδήλωση και 2) δεδομένα από μη-συμμετέχοντες πριν, κατά τη διάρκεια και μετά την εκδήλωση. Αυτό το εμπλουτισμένο δομή δεδομένων είναι ενεργοποιημένη Budak και Watts να εκτιμηθεί τι είδους άνθρωποι ήταν πιο πιθανό να συμμετάσχουν στις Gezi διαμαρτυρίες και να εκτιμηθούν οι αλλαγές στη στάση των συμμετεχόντων και μη συμμετεχόντων, τόσο βραχυπρόθεσμα (συγκρίνοντας προ-Gezi με διάρκεια Gezi) και στη μακροπρόθεσμη (συγκρίνοντας προ-Gezi να δημοσιεύσετε-Gezi).

Σχήμα 2.1: Σχεδιασμός που χρησιμοποιείται από Budak and Watts (2015) για να μελετήσει το Occupy Gezi διαδηλώσεις στην Τουρκία το καλοκαίρι του 2013. Με τη χρήση του πάντα-για τη φύση του Twitter, οι ερευνητές δημιούργησαν αυτό που ονομάζεται εκ των υστέρων πίνακα που περιελάμβανε περίπου 30.000 άτομα ηλικίας άνω των δύο ετών. Σε αντίθεση με το τυπικό μελέτη που επικεντρώθηκε στους συμμετέχοντες κατά τη διάρκεια των διαδηλώσεων, η εκ των υστέρων πίνακα προσθέτει 1) τα στοιχεία από τους συμμετέχοντες πριν και μετά την εκδήλωση και 2) δεδομένα από μη-συμμετέχοντες πριν, κατά τη διάρκεια και μετά την εκδήλωση. Αυτό το εμπλουτισμένο δομή δεδομένων είναι ενεργοποιημένη Budak και Watts να εκτιμηθεί τι είδους άνθρωποι ήταν πιο πιθανό να συμμετάσχουν στις Gezi διαμαρτυρίες και να εκτιμηθούν οι αλλαγές στη στάση των συμμετεχόντων και μη συμμετεχόντων, τόσο βραχυπρόθεσμα (συγκρίνοντας προ-Gezi με διάρκεια Gezi) και στη μακροπρόθεσμη (συγκρίνοντας προ-Gezi να δημοσιεύσετε-Gezi).

Είναι αλήθεια ότι ορισμένες από αυτές τις εκτιμήσεις θα μπορούσαν να έχουν γίνει χωρίς πάντα-σχετικά με τις πηγές συλλογής δεδομένων (π.χ., μακροπρόθεσμες εκτιμήσεις της αλλαγής στάσης), αν και τη συλλογή αυτών των δεδομένων για 30.000 άτομα θα ήταν αρκετά ακριβό. Και, ακόμη και δεδομένου απεριόριστο προϋπολογισμό, δεν μπορώ να σκεφτώ οποιαδήποτε άλλη μέθοδο που επιτρέπει ουσιαστικά στους ερευνητές να ταξιδέψει πίσω στο χρόνο και να παρατηρήσουν άμεσα τη συμπεριφορά των συμμετεχόντων στο παρελθόν. Η πλησιέστερη εναλλακτική λύση θα ήταν να συλλέξει αναδρομικές εκθέσεις του συμπεριφορά, αλλά οι εκθέσεις αυτές θα είναι περιορισμένης διακριτότητας και αμφίβολη ακρίβεια. Ο πίνακας 2.1 παρέχει άλλα παραδείγματα μελετών που χρησιμοποιούν ένα always-on πηγή δεδομένων για να μελετήσει ένα απροσδόκητο γεγονός.

Πίνακας 2.1: Μελέτες απροσδόκητων γεγονότων χρησιμοποιώντας πάντα-για μεγάλες πηγές δεδομένων.
απροσδόκητο συμβάν Always-on δεδομένων πηγής Παραπομπή
Occupy Gezi κίνημα στην Τουρκία Τουίτερ Budak and Watts (2015)
Ομπρέλα διαδηλώσεις στο Χονγκ Κονγκ Weibo Zhang (2016)
Γυρίσματα της αστυνομίας στην πόλη της Νέας Υόρκης Stop-and-σκίρτημα εκθέσεις Legewie (2016)
Πρόσωπο που ενώνει ISIS Τουίτερ Magdy, Darwish, and Weber (2016)
11 Σεπτέμβρη 2001 επίθεσης livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 Σεπτέμβρη 2001 επίθεσης μηνυμάτων τηλεειδοποίησης Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Δεύτερον, πάντα-για τη συλλογή δεδομένων επιτρέπει στους ερευνητές να παράγουν μετρήσεις σε πραγματικό χρόνο, το οποίο μπορεί να είναι σημαντικό σε περιβάλλοντα όπου οι φορείς χάραξης πολιτικής θέλουν όχι μόνο να μάθουμε από την υπάρχουσα συμπεριφορά αλλά και να απαντήσετε σε αυτό. Για παράδειγμα, τα δεδομένα των κοινωνικών μέσων μαζικής ενημέρωσης μπορεί να χρησιμοποιηθεί για να κατευθύνει τις απαντήσεις σε φυσικές καταστροφές (Castillo 2016) .

Εν κατακλείδι, πάντα-για τα δεδομένα συστήματα επιτρέπουν στους ερευνητές να μελετήσουν απροσδόκητα γεγονότα και να παρέχουν πληροφορίες σε πραγματικό χρόνο για τους φορείς χάραξης πολιτικής. Δεν είχα, όμως, προτείνω ότι πάντα-για τα δεδομένα συστήματα επιτρέπουν στους ερευνητές να παρακολουθείτε τις αλλαγές για μεγάλες χρονικές περιόδους. Αυτό οφείλεται στο γεγονός ότι πολλά μεγάλα συστήματα δεδομένα αλλάζουν συνεχώς ένα αερομεταφοράς διαδικασία που ονομάζεται (Ενότητα 2.3.2.4).