[ , ] Η αλγοριθμική σύγχυση ήταν ένα πρόβλημα με την Google Flu Trends. Διαβάστε το χαρτί από τους Lazer et al. (2014) και γράψτε ένα σύντομο και σαφές μήνυμα ηλεκτρονικού ταχυδρομείου σε έναν μηχανικό της Google που εξηγεί το πρόβλημα και προσφέρει μια ιδέα για τον τρόπο επίλυσής του.
[ ] Οι Bollen, Mao, and Zeng (2011) υποστηρίζουν ότι τα δεδομένα από το Twitter μπορούν να χρησιμοποιηθούν για την πρόβλεψη της χρηματιστηριακής αγοράς. Αυτό το εύρημα οδήγησε στη δημιουργία ενός hedge fund - Derwent Capital Markets - για να επενδύσει στη χρηματιστηριακή αγορά με βάση στοιχεία που συλλέχθηκαν από το Twitter (Jordan 2010) . Ποιες αποδείξεις θα θέλατε να δείτε πριν βάλετε τα χρήματά σας σε αυτό το ταμείο;
[ ] Ενώ ορισμένοι υποστηρικτές της δημόσιας υγείας θεωρούν τα ηλεκτρονικά τσιγάρα αποτελεσματική βοήθεια για την παύση του καπνίσματος, άλλοι προειδοποιούν για τους πιθανούς κινδύνους, όπως τα υψηλά επίπεδα νικοτίνης. Φανταστείτε ότι ένας ερευνητής αποφασίζει να μελετήσει την κοινή γνώμη για τα ηλεκτρονικά τσιγάρα, συλλέγοντας μηνύματα Twitter σχετικά με τα ηλεκτρονικά τσιγάρα και διεξάγοντας ανάλυση συναισθημάτων.
[ ] Τον Νοέμβριο του 2009, το Twitter άλλαξε την ερώτηση στο τιτίβισμα από "Τι κάνεις;" στο "Τι συμβαίνει;" (https://blog.twitter.com/2009/whats-happening).
[ ] Τα "Retweets" χρησιμοποιούνται συχνά για να μετρήσουν την επιρροή και την εξάπλωση της επιρροής στο Twitter. Αρχικά, οι χρήστες έπρεπε να αντιγράψουν και να επικολλήσουν το τιτίβισμα που τους άρεσε, να επισημάνουν τον αρχικό συγγραφέα με τη λαβή του και να πληκτρολογήσουν με το χέρι "RT" πριν από το τιτίβισμα για να δείξουν ότι ήταν ένα retweet. Στη συνέχεια, το 2009, το Twitter πρόσθεσε ένα κουμπί "retweet". Τον Ιούνιο του 2016, το Twitter επέτρεψε στους χρήστες να επαναλάβουν τα δικά τους tweets (https://twitter.com/twitter/status/742749353689780224). Πιστεύετε ότι αυτές οι αλλαγές θα πρέπει να επηρεάσουν τον τρόπο με τον οποίο χρησιμοποιείτε τα "retweets" στην έρευνά σας; Γιατί ή γιατί όχι?
[ , , , ] Σε ένα ευρέως συζητημένο έγγραφο, οι Michel και οι συνεργάτες του (2011) ανέλυσαν το περιεχόμενο περισσότερων από πέντε εκατομμυρίων ψηφιοποιημένων βιβλίων σε μια προσπάθεια προσδιορισμού των μακροπρόθεσμων πολιτιστικών τάσεων. Τα δεδομένα που χρησιμοποίησαν έχουν πλέον κυκλοφορήσει ως το σύνολο δεδομένων του Google NGrams και έτσι μπορούμε να χρησιμοποιήσουμε τα δεδομένα για να αναπαράγουμε και να επεκτείνουμε μέρος της δουλειάς τους.
Σε ένα από τα πολλά αποτελέσματα της εργασίας, ο Michel και οι συνάδελφοί του ισχυρίστηκαν ότι ξεχνάμε γρηγορότερα και ταχύτερα. Για ένα συγκεκριμένο έτος, π.χ. "1883", υπολογίζουν το ποσοστό των 1 γραμμαρίων που δημοσιεύεται κάθε χρόνο μεταξύ 1875 και 1975 που ήταν "1883". Υποστήριξαν ότι το ποσοστό αυτό αποτελεί μέτρο του ενδιαφέροντος για γεγονότα που συνέβησαν εκείνο το έτος. Στο σχήμα 3α, σχεδίασαν τις τροχιές χρήσης για τρία χρόνια: 1883, 1910 και 1950. Αυτά τα τρία χρόνια μοιράζονται ένα κοινό μοτίβο: λίγη χρήση πριν από εκείνο το έτος, τότε μια ακίδα, στη συνέχεια αποσύνθεση. Στη συνέχεια, για να ποσοτικοποιήσει το ποσοστό αποσύνθεσης για κάθε έτος, ο Michel και οι συνάδελφοί του υπολόγισαν τον «χρόνο ημιζωής» κάθε έτους για όλα τα έτη μεταξύ 1875 και 1975. Στο σχήμα 3α (ένθετο), έδειξαν ότι ο χρόνος ημιζωής καθενός έτος μειώνεται και ισχυρίστηκαν ότι αυτό σημαίνει ότι ξεχνάμε το παρελθόν γρηγορότερα και ταχύτερα. Χρησιμοποίησαν την έκδοση 1 του corpus αγγλικής γλώσσας, αλλά στη συνέχεια η Google κυκλοφόρησε μια δεύτερη έκδοση του corpus. Παρακαλούμε διαβάστε όλα τα μέρη της ερώτησης προτού ξεκινήσετε την κωδικοποίηση.
Αυτή η δραστηριότητα θα σας δώσει τη δυνατότητα να γράφετε επαναχρησιμοποιήσιμο κώδικα, να ερμηνεύετε τα αποτελέσματα και να διαφωνείτε με τα δεδομένα (όπως η εργασία με αδέξια αρχεία και ο χειρισμός δεδομένων που λείπουν). Αυτή η δραστηριότητα θα σας βοηθήσει επίσης να ξεκινήσετε τη λειτουργία σας με ένα πλούσιο και ενδιαφέρον σύνολο δεδομένων.
Αποκτήστε τα ανεπεξέργαστα δεδομένα από τον ιστότοπο του προγράμματος προβολής του Google Books NGram. Συγκεκριμένα, θα πρέπει να χρησιμοποιήσετε την έκδοση 2 του αγγλικού corpus, η οποία κυκλοφόρησε την 1η Ιουλίου 2012. Ασυμπίεστος, αυτό το αρχείο είναι 1,4GB.
Αναδημιουργήστε το κύριο μέρος του σχήματος 3a των Michel et al. (2011) . Για να αναδημιουργήσετε αυτό το σχήμα, θα χρειαστείτε δύο αρχεία: αυτό που έχετε κατεβάσει εν μέρει (α) και το αρχείο "total counts", το οποίο μπορείτε να χρησιμοποιήσετε για να μετατρέψετε τις πρώτες μετρήσεις σε αναλογίες. Σημειώστε ότι το σύνολο των αρχείων μετρήσεων έχει μια δομή που μπορεί να το κάνει λίγο δύσκολο να διαβαστεί. Η έκδοση 2 των δεδομένων NGram παράγει παρόμοια αποτελέσματα με αυτά που παρουσιάζονται στο Michel et al. (2011) , τα οποία βασίζονται σε δεδομένα της έκδοσης 1;
Τώρα ελέγξτε το γράφημά σας σε σχέση με το γράφημα που δημιουργήθηκε από το NGram Viewer.
Αναδημιουργήστε το σχήμα 3α (κύρια εικόνα), αλλά αλλάξτε την τιμή \(y\) -αξέως για να μετρήσετε την ακατέργαστη μνεία (όχι το ποσοστό των αναφορών).
Η διαφορά μεταξύ των στοιχείων (β) και (δ) σας οδηγεί να επαναξιολογήσετε οποιοδήποτε από τα αποτελέσματα των Michel et al. (2011). Γιατί ή γιατί όχι?
Τώρα, χρησιμοποιώντας τη αναλογία των αναφορών, αντιγράψτε το ένθετο του σχήματος 3α. Δηλαδή, για κάθε έτος μεταξύ του 1875 και του 1975, υπολογίστε τον χρόνο ημίσειας ζωής του ίδιου έτους. Ο χρόνος ημίσειας ζωής ορίζεται ως ο αριθμός των ετών που περνούν πριν το ποσοστό των αναφερθέντων φτάσει στο ήμισυ της μέγιστης τιμής. Σημειώστε ότι οι Michel et al. (2011) κάνουν κάτι πιο περίπλοκο για την εκτίμηση του χρόνου ημιζωής - βλ. Τμήμα III.6 της Υποστήριξης Ηλεκτρονικών Πληροφοριών - αλλά υποστηρίζουν ότι και οι δύο προσεγγίσεις παράγουν παρόμοια αποτελέσματα. Η έκδοση 2 των δεδομένων NGram παράγει παρόμοια αποτελέσματα με αυτά που παρουσιάζονται στους Michel et al. (2011) , τα οποία βασίζονται σε δεδομένα της έκδοσης 1; (Συμβουλή: Μην εκπλαγείτε αν δεν το κάνει.)
Υπήρχαν κάποια χρόνια που ήταν υπερβολικά μεγάλα, όπως τα χρόνια που ξεχάστηκαν ιδιαίτερα γρήγορα ή ιδιαίτερα αργά; Συνειδητοποιήστε συνοπτικά τους πιθανούς λόγους για αυτό το μοτίβο και εξηγήστε τον τρόπο με τον οποίο εντοπίσατε τα υπερβολικά υψηλά ποσοστά.
Τώρα αντιγράψτε αυτό το αποτέλεσμα για την έκδοση 2 των δεδομένων NGrams στα κινέζικα, γαλλικά, γερμανικά, εβραϊκά, ιταλικά, ρωσικά και ισπανικά.
Συγκρίνοντας σε όλες τις γλώσσες, υπήρχαν κάποια χρόνια που ήταν υπερβολικά μεγάλα, όπως τα χρόνια που ξεχάστηκαν ιδιαίτερα γρήγορα ή ιδιαίτερα αργά; Συνειδητοποιήστε συνοπτικά τους πιθανούς λόγους για αυτό το μοτίβο.
[ , , , ] Η Penney (2016) διερεύνησε κατά πόσο η ευρεία δημοσιότητα για την εποπτεία των NSA / PRISM τον Ιούνιο του 2013 συνδέεται με την απότομη και απότομη μείωση της κυκλοφορίας στα άρθρα Wikipedia σχετικά με θέματα που αφορούν ανησυχίες σχετικά με την προστασία της ιδιωτικής ζωής. Αν ναι, αυτή η αλλαγή στη συμπεριφορά θα είναι συνεπής με την επίδραση ψύξης που προκύπτει από την μαζική επιτήρηση. Η προσέγγιση του Penney (2016) καλείται μερικές φορές ένας σχεδιασμός διακοπτόμενης χρονοσειράς και σχετίζεται με τις προσεγγίσεις που περιγράφονται στην ενότητα 2.4.3.
Για να επιλέξει τις λέξεις-κλειδιά θεμάτων, η Penney αναφέρθηκε στον κατάλογο που χρησιμοποιείται από το αμερικανικό Υπουργείο Εσωτερικής Ασφάλειας για την παρακολούθηση και την παρακολούθηση των κοινωνικών μέσων ενημέρωσης. Ο κατάλογος DHS κατηγοριοποιεί ορισμένους όρους αναζήτησης σε μια σειρά θεμάτων, δηλαδή "Υγειονομική ανησυχία", "Ασφάλεια υποδομής" και "Τρομοκρατία". Για την ομάδα μελέτης, η Penney χρησιμοποίησε τις 48 λέξεις-κλειδιά που σχετίζονται με την "Τρομοκρατία" ). Στη συνέχεια συγκεντρώνει την προβολή του άρθρου του Wikipedia μετρά σε μηνιαία βάση για τα αντίστοιχα 48 άρθρα Wikipedia για μια περίοδο 32 μηνών, από τις αρχές Ιανουαρίου 2012 έως τα τέλη Αυγούστου 2014. Για να ενισχύσει το επιχείρημά του, δημιούργησε επίσης διάφορες ομάδες σύγκρισης εντοπίζοντας προβολές άρθρου σε άλλα θέματα.
Τώρα, πρόκειται να αναπαραγάγετε και να επεκτείνετε την Penney (2016) . Όλα τα πρωτογενή δεδομένα που θα χρειαστείτε για αυτή τη δραστηριότητα είναι διαθέσιμα από τη Wikipedia. Ή μπορείτε να το πάρετε από το R-πακέτο wikipediatrend (Meissner and R Core Team 2016) . Όταν γράφετε τις απαντήσεις σας, σημειώστε ποια πηγή δεδομένων χρησιμοποιήσατε. (Σημειώστε ότι αυτή η ίδια δραστηριότητα εμφανίζεται επίσης στο κεφάλαιο 6.) Αυτή η δραστηριότητα θα σας δώσει την πρακτική στην ανταλλαγή δεδομένων και τη σκέψη για φυσικά πειράματα σε μεγάλες πηγές δεδομένων. Θα σας δώσει επίσης τη δυνατότητα να δημιουργήσετε μια δυνητικά ενδιαφέρουσα πηγή δεδομένων για μελλοντικά έργα.
[ ] Efrati (2016) ανέφερε, με βάση εμπιστευτικές πληροφορίες, ότι το "συνολικό μερίδιο" στο Facebook είχε μειωθεί κατά περίπου 5,5% ετησίως, ενώ η "αρχική κατανομή εκπομπών" μειώθηκε κατά 21% σε ετήσια βάση. Η μείωση αυτή ήταν ιδιαίτερα έντονη με τους χρήστες του Facebook ηλικίας κάτω των 30 ετών. Η έκθεση απέδωσε την παρακμή σε δύο παράγοντες. Το ένα είναι η αύξηση του αριθμού των "φίλων" που έχουν οι άνθρωποι στο Facebook. Το άλλο είναι ότι κάποια δραστηριότητα κοινής χρήσης έχει μετατοπιστεί στα μηνύματα και σε ανταγωνιστές όπως το Snapchat. Η έκθεση αποκάλυψε επίσης τις διάφορες τακτικές που προσπάθησε το Facebook να ενισχύσει την κοινή χρήση, συμπεριλαμβανομένων των τροποποιήσεων των αλγόριθμων News Feed που κάνουν τις πρωτότυπες θέσεις πιο εμφανείς, καθώς και τις περιοδικές υπενθυμίσεις των αρχικών δημοσιεύσεων με τη λειτουργία "Στις Ημέρες". Ποιες είναι οι συνέπειες, αν υπάρχουν, για τα ερευνητικά στοιχεία που θέλουν να χρησιμοποιήσουν το Facebook ως πηγή δεδομένων;
[ ] Ποια είναι η διαφορά μεταξύ ενός κοινωνιολόγου και ενός ιστορικού; Σύμφωνα με τον Goldthorpe (1991) , η κύρια διαφορά είναι ο έλεγχος της συλλογής δεδομένων. Οι ιστορικοί αναγκάζονται να χρησιμοποιούν λείψανα, ενώ οι κοινωνιολόγοι μπορούν να προσαρμόσουν τη συλλογή τους σε συγκεκριμένους σκοπούς. Διαβάστε το Goldthorpe (1991) . Πώς είναι η διαφορά ανάμεσα στην κοινωνιολογία και την ιστορία που σχετίζεται με την ιδέα των custommades και των readymades;
[ ] Αυτό βασίζεται στο προηγούμενο ερώτημα. Goldthorpe (1991) επέστησε μια σειρά κρίσιμων απαντήσεων, συμπεριλαμβανομένου ενός από τον Nicky Hart (1994) που αμφισβήτησε την αφοσίωση του Goldthorpe σε εξατομικευμένα δεδομένα. Για να αποσαφηνίσει τους πιθανούς περιορισμούς των εξατομικευμένων δεδομένων, ο Χαρτ περιέγραψε το έργο Ευημερού Εργαζομένου, μια μεγάλη έρευνα για τη μέτρηση της σχέσης μεταξύ κοινωνικής τάξης και ψηφοφορίας που διεξήχθη από την Goldthorpe και τους συναδέλφους της στα μέσα της δεκαετίας του 1960. Όπως θα περίμενε κανείς από έναν μελετητή που ευνόησε σχεδιασμένα δεδομένα πάνω από τα δεδομένα που βρέθηκαν, το έργο Affluent Worker Collection συγκέντρωσε δεδομένα που προσαρμόστηκαν για να αντιμετωπίσουν μια πρόσφατα προτεινόμενη θεωρία σχετικά με το μέλλον της κοινωνικής τάξης σε μια εποχή αυξανόμενου βιοτικού επιπέδου. Όμως, η Goldthorpe και οι συνάδελφοί της κατά κάποιον τρόπο «ξέχασαν» να συλλέξουν πληροφορίες σχετικά με τη συμπεριφορά των γυναικών στην ψηφοφορία. Ορίστε πώς ο Nicky Hart (1994) συνοψίζει ολόκληρο το επεισόδιο:
"... είναι δύσκολο να αποφευχθεί το συμπέρασμα ότι οι γυναίκες παραλείφθηκαν επειδή αυτό το σύνολο δεδομένων« εξατομικευμένων »περιορίστηκε από μια παραδειγματική λογική που απέκλειε την εμπειρία της γυναίκας. Ο Goldthorpe και οι συνάδελφοί του δημιούργησαν ένα θεωρητικό όραμα για την ταξική συνείδηση και τη δράση ως αρσενικές ανησυχίες ... και δημιούργησαν ένα σύνολο εμπειρικών αποδείξεων που τροφοδοτούσαν και τροφοδοτούσαν τις δικές τους θεωρητικές υποθέσεις αντί να τις εκθέτουν σε μια έγκυρη δοκιμασία επάρκειας ».
Ο Χαρτ συνέχισε:
"Τα εμπειρικά ευρήματα του Έργου Ευημερού Εργαζομένου μας λένε περισσότερα για τις αξίες των ανδρεικέλων της κοινωνιολογίας του στα μέσα του αιώνα απ 'ότι πληροφορούν τις διαδικασίες της στρωματοποίησης, της πολιτικής και της υλικής ζωής".
Μπορείτε να σκεφτείτε άλλα παραδείγματα όπου η εξατομικευμένη συλλογή δεδομένων έχει ενσωματωμένες τις προκαταλήψεις του συλλέκτη δεδομένων; Πώς συγκρίνεται αυτό με την αλγοριθμική σύγχυση; Ποιες είναι οι συνέπειες αυτού του γεγονότος όταν οι ερευνητές πρέπει να χρησιμοποιήσουν έτοιμα έτοιμα σχέδια και πότε πρέπει να χρησιμοποιήσουν έθιμα;
[ ] Σε αυτό το κεφάλαιο, έχω αντιπαραβάλει τα δεδομένα που συλλέγονται από ερευνητές για ερευνητές με διοικητικά αρχεία που δημιουργούνται από εταιρείες και κυβερνήσεις. Μερικοί άνθρωποι αποκαλούν αυτές τις διοικητικές εγγραφές "βρήκαν δεδομένα", τα οποία αντιτίθενται με τα "σχεδιασμένα δεδομένα". Είναι αλήθεια ότι οι διοικητικοί φάκελοι εντοπίζονται από τους ερευνητές, αλλά είναι επίσης εξαιρετικά σχεδιασμένοι. Για παράδειγμα, οι σύγχρονες εταιρείες τεχνολογίας εργάζονται πολύ σκληρά για τη συλλογή και την επεξεργασία των δεδομένων τους. Έτσι, αυτά τα διοικητικά αρχεία είναι και τα δύο που βρίσκονται και σχεδιάζονται, εξαρτώνται μόνο από την προοπτική σας (σχήμα 2.12).
Δώστε ένα παράδειγμα πηγής δεδομένων όπου το βλέπουμε τόσο ως βρέθηκε όσο και ως σχεδιασμένο, είναι χρήσιμο όταν χρησιμοποιείτε αυτήν την πηγή δεδομένων για έρευνα.
[ ] Σε ένα προσεκτικό δοκίμιο, οι Christian Sandvig και Eszter Hargittai (2015) χώρισαν την ψηφιακή έρευνα σε δύο ευρείες κατηγορίες ανάλογα με το αν το ψηφιακό σύστημα είναι ένα «όργανο» ή ένα «αντικείμενο μελέτης». Ένα παράδειγμα του πρώτου είδους - όπου το σύστημα είναι ένα εργαλείο-είναι η έρευνα από τους Bengtsson και συνεργάτες (2011) σχετικά με τη χρήση δεδομένων κινητής τηλεφωνίας για την παρακολούθηση της μετανάστευσης μετά τον σεισμό στην Αϊτή το 2010. Ένα παράδειγμα του δεύτερου είδους - όπου το σύστημα είναι αντικείμενο μελέτης - είναι η έρευνα του Jensen (2007) σχετικά με τον τρόπο με τον οποίο η εισαγωγή κινητών τηλεφώνων σε όλη την Κεράλα της Ινδίας επηρέασε τη λειτουργία της αγοράς ψαριών. Θεωρώ ότι αυτή η διάκριση είναι χρήσιμη επειδή διευκρινίζει ότι οι μελέτες που χρησιμοποιούν ψηφιακές πηγές δεδομένων μπορούν να έχουν τελείως διαφορετικούς στόχους ακόμα και αν χρησιμοποιούν το ίδιο είδος πηγής δεδομένων. Για να διευκρινιστεί περαιτέρω αυτή η διάκριση, περιγράψτε τέσσερις μελέτες που έχετε δει: δύο που χρησιμοποιούν ένα ψηφιακό σύστημα ως όργανο και δύο που χρησιμοποιούν ένα ψηφιακό σύστημα ως αντικείμενο μελέτης. Μπορείτε να χρησιμοποιήσετε παραδείγματα από αυτό το κεφάλαιο αν θέλετε.