Κλειδί:
[ , ] Αλγοριθμική σύγχυσης ήταν ένα πρόβλημα με το Google Flu Trends. Διαβάστε το χαρτί από Lazer et al. (2014) , και να γράψει ένα σύντομο, σαφές μήνυμα ηλεκτρονικού ταχυδρομείου σε έναν μηχανικό της Google εξηγεί το πρόβλημα και να προσφέρουν μια ιδέα για το πώς να διορθώσετε το πρόβλημα.
[ ] Bollen, Mao, and Zeng (2011) υποστηρίζει ότι τα δεδομένα από το Twitter μπορεί να χρησιμοποιηθεί για να προβλέψει το χρηματιστήριο. Η διαπίστωση αυτή οδήγησε στη δημιουργία ενός Hedge Fund-Derwent Capital Markets, για να επενδύσουν στο χρηματιστήριο με βάση τα δεδομένα που συλλέγονται από το Twitter (Jordan 2010) . Ποιες αποδείξεις θα θέλετε να δείτε πριν βάλετε τα χρήματά σας σε αυτό το ταμείο;
[ ] Ενώ μερικοί υποστηρικτές της δημόσιας υγείας χαλάζι e-τσιγάρα ως ένα αποτελεσματικό βοήθημα για τη διακοπή του καπνίσματος, άλλοι προειδοποιούν για τους πιθανούς κινδύνους, όπως τα υψηλά-επίπεδα της νικοτίνης. Φανταστείτε ότι ένας ερευνητής αποφασίζει να μελετήσει την κοινή γνώμη προς e-τσιγάρων από τη συλλογή e-τσιγάρα-σχετικές θέσεις Twitter και τη διεξαγωγή ανάλυσης συναισθήματος.
[ ] Το Νοέμβριο του 2009, Twitter άλλαξε το ζήτημα στο πλαίσιο tweet από το "Τι κάνεις;" στο "Τι συμβαίνει;" (https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) ανέλυσαν 41.700.000 προφίλ χρηστών, 1470000000 κοινωνικών σχέσεων, 4262 trending θέματα, και 106 εκατομμύρια tweets μεταξύ 6 Ιουνίου και την 31η Ιουνίου 2009. Με βάση αυτή την ανάλυση, κατέληξε στο συμπέρασμα ότι το Twitter εξυπηρετεί περισσότερους ως ένα νέο μέσο της ανταλλαγής πληροφοριών από το ένα κοινωνικό δίκτυο.
[ ] "Επαναλήψεις tweet" χρησιμοποιούνται συχνά για τη μέτρηση της επιρροής και την εξάπλωση της επιρροής στο Twitter. Αρχικά, οι χρήστες έπρεπε να αντιγράψετε και να επικολλήσετε το tweet τους άρεσε, επισημάνετε το αρχικό συγγραφέα με τη λαβή του / της, και με το χέρι πληκτρολογήστε "RT" πριν από το tweet για να δείξει ότι είναι ένα retweet. Στη συνέχεια, το 2009 Twitter προσθέσει ένα κουμπί "retweet". Τον Ιούνιο του 2016 Twitter κατέστησε δυνατό για τους χρήστες να retweet τα δικά τους tweets (https://twitter.com/twitter/status/742749353689780224). Νομίζετε ότι οι αλλαγές αυτές θα πρέπει να επηρεάσει τον τρόπο που χρησιμοποιείτε "retweets" στην έρευνα σας; Γιατί ή γιατί όχι?
[ , , ] Michel et al. (2011) κατασκεύασε ένα σώμα που προκύπτουν από την προσπάθεια της Google να ψηφιοποιήσει τα βιβλία. Χρησιμοποιώντας την πρώτη έκδοση του corpus, η οποία δημοσιεύθηκε το 2009 και περιείχε πάνω από 5 εκατομμύρια ψηφιοποιημένα βιβλία, οι συγγραφείς ανέλυσαν λέξη συχνότητα χρήσης για τη διερεύνηση της γλωσσικής αλλαγές και πολιτισμικές τάσεις. Σύντομα η Βιβλία Corpus Google έγινε δημοφιλής πηγή δεδομένων για τους ερευνητές, και μια 2η έκδοση της βάσης δεδομένων που κυκλοφόρησε το 2012.
Ωστόσο, Pechenick, Danforth, and Dodds (2015) προειδοποίησε ότι οι ερευνητές πρέπει να χαρακτηρίζουν πλήρως τη διαδικασία δειγματοληψίας του σώματος πριν από τη χρήση για την κατάρτιση γενικά συμπεράσματα. Το κύριο ζήτημα είναι ότι το σώμα είναι η βιβλιοθήκη-όπως, περιέχει ένα από κάθε βιβλίο. Ως αποτέλεσμα, ένα άτομο, πολυγραφότατος συγγραφέας είναι σε θέση να εισάγει σημαντικά νέα φράσεις στο λεξικό Βιβλίων Google. Επιπλέον, επιστημονικά κείμενα αποτελούν ένα ολοένα και πιο ουσιαστικό μέρος του σώματος καθ 'όλη τη δεκαετία του 1900. Επιπλέον, από τη σύγκριση δύο εκδόσεις των συνόλων δεδομένων Φαντασίας αγγλικά, Pechenick et al. βρέθηκαν αποδείξεις ότι η ανεπαρκής φιλτράρισμα χρησιμοποιήθηκε για την παραγωγή της πρώτης έκδοσης. Όλα τα δεδομένα που απαιτούνται για την δραστηριότητα είναι διαθέσιμη εδώ: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) διερευνά κατά πόσον η ευρεία δημοσιότητα σχετικά με NSA επιτήρησης / PRISM (δηλαδή, οι αποκαλύψεις Σνόουντεν) τον Ιούνιο του 2013 συνδέεται με μια μεγάλη και απότομη μείωση της κυκλοφορίας με τα άρθρα της Wikipedia σχετικά με θέματα που εγείρουν ανησυχίες προστασία της ιδιωτικής ζωής. Αν ναι, αυτή η αλλαγή στη συμπεριφορά θα ήταν σύμφωνη με μια ανατριχιαστική αποτέλεσμα που προκύπτει από τη μαζική επιτήρηση. Η προσέγγιση της Penney (2016) είναι μερικές φορές ονομάζεται διακοπεί σχεδιασμού χρονολογικών σειρών και έχει σχέση με τις προσεγγίσεις στο κεφάλαιο σχετικά με την προσέγγιση των πειραμάτων από παρατηρησιακά δεδομένα (Ενότητα 2.4.3).
Για να επιλέξετε τις λέξεις-κλειδιά θέμα, Penney που αναφέρονται στον κατάλογο που χρησιμοποιείται από το Τμήμα Εσωτερικής Ασφάλειας των ΗΠΑ για τον εντοπισμό και την παρακολούθηση των κοινωνικών μέσων μαζικής ενημέρωσης. Ο κατάλογος DHS κατηγοριοποιεί ορισμένων όρων αναζήτησης σε ένα ευρύ φάσμα θεμάτων, δηλαδή «Υγεία Concern", "Ασφάλεια Υποδομών," και "τρομοκρατία". Για την ομάδα μελέτης, Penney χρησιμοποιούνται οι σαράντα οκτώ λέξεις-κλειδιά που σχετίζονται με την "τρομοκρατία" (βλέπε πίνακα 8 Παράρτημα). Στη συνέχεια αθροίζονται Wikipedia μετράει άποψη άρθρο σε μηνιαία βάση για τις αντίστοιχες σαράντα οκτώ άρθρα της Wikipedia για μια περίοδο τριάντα δύο μήνες, από τις αρχές Ιανουαρίου 2012 έως το τέλος Αυγούστου του 2014. Για να ενισχύσει το επιχείρημά του, δημιούργησε επίσης πολλά σύγκριση ομάδες με την παρακολούθηση απόψεις άρθρο σχετικά με άλλα θέματα.
Τώρα, θα έχετε την ευκαιρία να αναπαράγουν και να επεκτείνει Penney (2016) . Όλα τα ανεπεξέργαστα δεδομένα που θα χρειαστείτε για τη δραστηριότητα αυτή είναι διαθέσιμη από τη Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ή μπορείτε να το πάρετε από το wikipediatrend πακέτο R (Meissner and Team 2016) . Όταν γράφετε-up απαντήσεις σας, παρακαλούμε σημειώστε ποια πηγή δεδομένων που χρησιμοποιείται. (Σημείωση: Η ίδια δραστηριότητα εμφανίζεται επίσης στο Κεφάλαιο 6)
[ ] Efrati (2016) εκθέσεις, με βάση εμπιστευτικές πληροφορίες, ότι «συνολική ανταλλαγή" στο Facebook είχε μειωθεί κατά περίπου 5,5% σε ετήσια βάση, ενώ "αρχική ανταλλαγή εκπομπή" ήταν κάτω από 21% σε ετήσια βάση. Η μείωση αυτή ήταν ιδιαίτερα έντονη με τους χρήστες του Facebook κάτω των 30 ετών. Η έκθεση απέδωσε τη μείωση σε δύο παράγοντες. Το ένα είναι η αύξηση του αριθμού των "φίλων" οι άνθρωποι έχουν στο Facebook. Το άλλο είναι ότι κάποια δραστηριότητα κοινής χρήσης έχει μετατοπιστεί προς μηνυμάτων και σε ανταγωνιστές όπως Snapchat. Η έκθεση αποκάλυψε επίσης τις διάφορες τακτικές Facebook είχε προσπαθήσει να ενισχύσει την ανταλλαγή, συμπεριλαμβανομένων των tweaks αλγόριθμο News Feed που κάνουν αρχική θέσεις πιο εμφανή, καθώς και περιοδικές υπενθυμίσεις των αρχικών χρηστών δημοσιεύσεις "Σε αυτήν την ημέρα" πριν από αρκετά χρόνια. Ποιες συνέπειες, αν υπάρχουν, δεν τα ευρήματα αυτά έχουν για τους ερευνητές που θέλουν να χρησιμοποιούν το Facebook ως πηγή δεδομένων;
[ ] Tumasjan et al. (2010) ανέφεραν ότι η αναλογία των tweets που παραπέμπουν σε ένα πολιτικό κόμμα ταίριαζε με την αναλογία των ψήφων που έλαβαν μέρος στη γερμανική βουλευτικές εκλογές του 2009 (Σχήμα 2.9). Με άλλα λόγια, φαίνεται ότι θα μπορούσατε να χρησιμοποιήσετε το Twitter για να προβλέψουν τις εκλογές. Κατά τη στιγμή αυτή η μελέτη δημοσιεύτηκε θεωρήθηκε εξαιρετικά συναρπαστικό, επειδή φαινόταν να προτείνουν ένα πολύτιμο χρήση για την κοινή πηγή των μεγάλων δεδομένων.
Λαμβάνοντας υπόψη τα κακά χαρακτηριστικά των μεγάλων δεδομένων, ωστόσο, θα πρέπει αμέσως να είναι επιφυλακτικοί αυτού του αποτελέσματος. Γερμανοί στο Twitter, το 2009 ήταν μια αρκετά μη-αντιπροσωπευτική ομάδα, και οι υποστηρικτές του ένα μέρος θα μπορούσε να τιτίβισμα για την πολιτική πιο συχνά. Έτσι, φαίνεται έκπληξη το γεγονός ότι όλες οι πιθανές προκαταλήψεις που θα μπορούσατε να φανταστείτε, θα με κάποιο τρόπο να ακυρώσει έξω. Στην πραγματικότητα, τα αποτελέσματα σε Tumasjan et al. (2010) αποδείχθηκε ότι είναι πάρα πολύ καλό για να είναι αληθινό. Στην εργασία τους, Tumasjan et al. (2010) εξέτασε έξι πολιτικά κόμματα: Χριστιανοδημοκράτες (CDU), Christian Σοσιαλδημοκρατών (CSU), SPD, οι Φιλελεύθεροι (FDP), η Αριστερά (Die Linke), και το Πράσινο Κόμμα (Grüne). Ωστόσο, η πιο προαναφερόμενο γερμανικό πολιτικό κόμμα στο Twitter εκείνη την εποχή ήταν το Κόμμα των Πειρατών (Piraten), ένα κόμμα που μάχεται κυβερνητική ρύθμιση του Διαδικτύου. Όταν το Κόμμα των Πειρατών συμπεριλήφθηκε στην ανάλυση, Twitter αναφέρει γίνεται μια φοβερή ικανότητα πρόβλεψης των αποτελεσμάτων των εκλογών (Σχήμα 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Στη συνέχεια, άλλοι ερευνητές σε όλο τον κόσμο έχουν χρησιμοποιήσει εκτροφέα μεθόδους -όπως χρησιμοποιώντας ανάλυση συναίσθημα να γίνει διάκριση μεταξύ θετικών και αρνητικών αναφέρει των μερών-προκειμένου να βελτιωθεί η ικανότητα των δεδομένων Twitter να προβλέψει μια ποικιλία διαφορετικών τύπων των εκλογών (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Εδώ είναι πώς Huberty (2015) συνόψισε τα αποτελέσματα αυτών των προσπαθειών να προβλέψει τις εκλογές:
"Όλες οι γνωστές μέθοδοι πρόβλεψης με βάση την κοινωνική μέσων μαζικής ενημέρωσης έχουν αποτύχει όταν υποβάλλεται στις απαιτήσεις της αληθινής μελλοντικές εκλογικές προβλέψεις. Αυτές οι αποτυχίες φαίνεται να οφείλεται σε θεμελιώδεις ιδιότητες των κοινωνικών μέσων μαζικής ενημέρωσης, αντί να μεθοδολογικές ή αλγοριθμική δυσκολίες. Εν ολίγοις, τα social media δεν το κάνουν, και ίσως ποτέ δεν θα προσφέρει μια σταθερή, αμερόληπτη, αντιπροσωπευτική εικόνα του εκλογικού σώματος? και τα δείγματα ευκολία των κοινωνικών μέσων μαζικής ενημέρωσης δεν διαθέτουν επαρκή στοιχεία για να διορθώσετε αυτά τα προβλήματα δημοσιεύσετε hoc ».
Διαβάστε μερικές από τις έρευνες που οδηγούν Huberty (2015) σε αυτό το συμπέρασμα, και να γράψει ένα σημείωμα μία σελίδα σε ένα πολιτικό υποψήφιο που περιγράφει εάν και πώς Twitter θα πρέπει να χρησιμοποιείται για την πρόβλεψη των εκλογών.
[ ] Ποια είναι η διαφορά ανάμεσα σε ένα κοινωνιολόγος και ιστορικός; Σύμφωνα με Goldthorpe (1991) , η κύρια διαφορά μεταξύ κοινωνιολόγος και ιστορικός είναι ο έλεγχος πάνω από τη συλλογή δεδομένων. Οι ιστορικοί αναγκάζονται να χρησιμοποιούν τα λείψανα, ενώ οι κοινωνιολόγοι μπορούν να προσαρμόσουν τη συλλογή των δεδομένων τους για ειδικούς σκοπούς. Διαβάστε Goldthorpe (1991) . Ποια είναι η διαφορά μεταξύ της κοινωνιολογίας και της ιστορίας που συνδέονται με την ιδέα της Custommades και readymades;
[ ] Με βάση την προηγούμενη ερώτηση, Goldthorpe (1991) κατέληξε σε σειρά κρίσιμων απαντήσεων, μεταξύ των οποίων μία από Nicky Hart (1994) , που αμφισβήτησε την αφοσίωση Goldthorpe να προσαρμόσει έκανε δεδομένων. Να διευκρινιστούν οι πιθανούς περιορισμούς των tailor-made στοιχεία, Hart περιγράφονται οι εύποροι Έργου Εργαζομένων, μια μεγάλη έρευνα για να μετρήσει τη σχέση μεταξύ κοινωνικής τάξης και την ψηφοφορία που διεξήχθη από Goldthorpe και οι συνεργάτες του στα μέσα της δεκαετίας του 1960. Όπως θα περίμενε κανείς από έναν μελετητή ο οποίος ευνόησε σχεδιαστεί δεδομένων μέσω βρήκε στοιχεία, οι εύποροι Εργαζόμενος έργου συλλέχθηκαν στοιχεία που προσαρμόζονται για να καλύψουν ένα προτάθηκε πρόσφατα θεωρία για το μέλλον της κοινωνικής τάξης σε μια εποχή αύξησης του βιοτικού επιπέδου. Αλλά, Goldthorpe και οι συνεργάτες του με κάποιο τρόπο "ξέχασε" να συλλέγει πληροφορίες σχετικά με τη συμπεριφορά ψήφου των γυναικών. Εδώ είναι πώς Nicky Hart (1994) περιλήψεις ολόκληρο το επεισόδιο:
". . . ότι [είναι] δύσκολο να αποφύγει κανείς το συμπέρασμα ότι οι γυναίκες είχαν παραλειφθεί, διότι αυτή η «tailor made» σύνολο δεδομένων περιορίστηκε από μια παραδειγματική λογική που εξαιρούνται γυναικεία εμπειρία. Καθοδηγείται από ένα θεωρητικό όραμα της ταξικής συνείδησης και δράσης, όπως αρσενικό ανησυχίες. . . , Goldthorpe και οι συνεργάτες του κατασκεύασαν μια σειρά από εμπειρικές αποδείξεις που τρέφονται και να προωθούνται τα δικά τους θεωρητικές παραδοχές, αντί να τους εκθέτουν σε μία έγκυρη δοκιμασία επάρκειας ».
Hart συνέχισε:
«Τα εμπειρικά ευρήματα της Εύποροι Έργου Worker μας πείτε περισσότερα για τις αρσενικοποιημένο αξίες της κοινωνιολογίας μέσα του αιώνα από ό, τι ενημερώνουν τις διαδικασίες της διαστρωμάτωσης, πολιτική και υλική ζωή."
Μπορείτε να σκεφτείτε άλλα παραδείγματα όπου η συλλογή tailor-made δεδομένων έχει τις προκαταλήψεις του συλλέκτη δεδομένων χτισμένη σε αυτό; Πώς αυτό συγκρίνεται με αλγοριθμική σύγχυση; Τι επιπτώσεις μπορεί να έχει αυτό για το πότε οι ερευνητές θα πρέπει να χρησιμοποιούν readymades και πότε θα πρέπει να χρησιμοποιούν Custommades;
[ ] Σε αυτό το κεφάλαιο, σε αντίθεση δεδομένα που συλλέγονται από τους ερευνητές για ερευνητές με διοικητικά αρχεία που δημιουργούνται από εταιρείες και κυβερνήσεις. Μερικοί άνθρωποι αποκαλούν αυτά τα διοικητικά αρχεία "βρήκε στοιχεία», τα οποία έρχονται σε αντίθεση με "σχεδιασμένο δεδομένων." Είναι αλήθεια ότι τα διοικητικά αρχεία βρίσκονται από τους ερευνητές, αλλά είναι επίσης εξαιρετικά σχεδιασμένα. Για παράδειγμα, η σύγχρονη εταιρείες τεχνολογίας ξοδεύουν τεράστια ποσά του χρόνου και των πόρων για τη συλλογή και επιμέλεια των δεδομένων τους. Έτσι, αυτά τα διοικητικά αρχεία και οι δύο βρέθηκαν και έχουν σχεδιαστεί, αυτό εξαρτάται μόνο από την προοπτική σας (Εικόνα 2.10).
Παρέχουν ένα παράδειγμα της πηγής δεδομένων όπου βλέπουμε τόσο ως βρεθεί και να σχεδιαστεί είναι χρήσιμη όταν χρησιμοποιούν αυτή την πηγή δεδομένων για την έρευνα.
[ ] Σε ένα στοχαστικό δοκίμιο, χριστιανική Sandvig και Εστέρ Hargittai (2015) περιγράφουν δύο είδη ψηφιακής έρευνας, όπου το ψηφιακό σύστημα είναι «όργανο» ή «αντικείμενο της μελέτης." Ένα παράδειγμα του πρώτου είδους της μελέτης, όπου Bengtsson και οι συνεργάτες του (2011) χρησιμοποιήθηκαν τα δεδομένα του κινητού τηλεφώνου για να παρακολουθείτε τη μετανάστευση μετά το σεισμό στην Αϊτή το 2010. Ένα παράδειγμα του δεύτερου είδους είναι όπου Jensen (2007) μελέτες πώς η εισαγωγή των κινητών τηλεφώνων σε όλη την Κεράλα, Ινδία επηρέασε τη λειτουργία της αγοράς για τα ψάρια. Θεωρώ ότι αυτό είναι χρήσιμο, διότι διευκρινίζει ότι οι μελέτες που χρησιμοποιούν ψηφιακές πηγές δεδομένων μπορούν να έχουν αρκετά διαφορετικούς στόχους, ακόμη και αν χρησιμοποιείτε το ίδιο είδος της πηγής δεδομένων. Προκειμένου να αποσαφηνίσει περαιτέρω τη διάκριση αυτή, περιγράφουν τέσσερις μελέτες που έχετε δει: δύο που χρησιμοποιούν ένα ψηφιακό σύστημα ως μέσο και δύο που χρησιμοποιούν ένα ψηφιακό σύστημα ως αντικείμενο της μελέτης. Μπορείτε να χρησιμοποιήσετε παραδείγματα από αυτό το κεφάλαιο, αν θέλετε.