Δραστηριότητες

Κλειδί:

  • βαθμός δυσκολίας: εύκολη εύκολος , μέσο μέσον , σκληρά σκληρά , πολύ δύσκολο πολύ δύσκολο
  • απαιτεί μαθηματικά ( απαιτεί μαθηματικά )
  • απαιτεί κωδικοποίησης ( απαιτεί την κωδικοποίηση )
  • συλλογή δεδομένων ( συλλογή δεδομένων )
  • τα αγαπημένα μου ( το αγαπημένο μου )
  1. [ μέσον , το αγαπημένο μου ] Αλγοριθμική σύγχυσης ήταν ένα πρόβλημα με το Google Flu Trends. Διαβάστε το χαρτί από Lazer et al. (2014) , και να γράψει ένα σύντομο, σαφές μήνυμα ηλεκτρονικού ταχυδρομείου σε έναν μηχανικό της Google εξηγεί το πρόβλημα και να προσφέρουν μια ιδέα για το πώς να διορθώσετε το πρόβλημα.

  2. [ μέσον ] Bollen, Mao, and Zeng (2011) υποστηρίζει ότι τα δεδομένα από το Twitter μπορεί να χρησιμοποιηθεί για να προβλέψει το χρηματιστήριο. Η διαπίστωση αυτή οδήγησε στη δημιουργία ενός Hedge Fund-Derwent Capital Markets, για να επενδύσουν στο χρηματιστήριο με βάση τα δεδομένα που συλλέγονται από το Twitter (Jordan 2010) . Ποιες αποδείξεις θα θέλετε να δείτε πριν βάλετε τα χρήματά σας σε αυτό το ταμείο;

  3. [ εύκολος ] Ενώ μερικοί υποστηρικτές της δημόσιας υγείας χαλάζι e-τσιγάρα ως ένα αποτελεσματικό βοήθημα για τη διακοπή του καπνίσματος, άλλοι προειδοποιούν για τους πιθανούς κινδύνους, όπως τα υψηλά-επίπεδα της νικοτίνης. Φανταστείτε ότι ένας ερευνητής αποφασίζει να μελετήσει την κοινή γνώμη προς e-τσιγάρων από τη συλλογή e-τσιγάρα-σχετικές θέσεις Twitter και τη διεξαγωγή ανάλυσης συναισθήματος.

    1. Ποιες είναι οι τρεις πιθανές προκαταλήψεις που σας ανησυχούν περισσότερο για σε αυτή τη μελέτη;
    2. Clark et al. (2016) έτρεξε μόνο μια τέτοια μελέτη. Πρώτον, συγκεντρώνονται 850.000 tweets που χρησιμοποιούνται λέξεις-κλειδιά e-τσιγάρο που σχετίζονται από τον Ιανουάριο του 2012 μέχρι το Δεκέμβριο του 2014. Με μια πιο προσεκτική εξέταση, συνειδητοποίησαν ότι πολλά από αυτά τα tweets ήταν αυτοματοποιημένη (δηλαδή, που δεν παράγονται από τον άνθρωπο) και πολλά από αυτά τα αυτοματοποιημένα tweets ήταν ουσιαστικά διαφημίσεις. Ανέπτυξαν μια Ανθρώπινα ανίχνευσης αλγόριθμο για να διαχωρίσετε αυτοματοποιημένα tweets από οργανικά tweets. Χρησιμοποιώντας αυτή την ανθρώπινη Εντοπισμός Αλγόριθμος διαπίστωσαν ότι το 80% των tweets ήταν αυτοματοποιημένη. Μήπως αυτό το εύρημα αλλάξετε την απάντησή σας στο τμήμα (α);
    3. Όταν σε σύγκριση με το συναίσθημα σε οργανικά και αυτοματοποιημένα tweets βρήκαν ότι τα αυτοματοποιημένα tweets είναι πιο θετική από οργανικό tweets (6.17 έναντι 5.84). Μήπως αυτό το εύρημα αλλάξετε την απάντησή σας στο (β);
  4. [ εύκολος ] Το Νοέμβριο του 2009, Twitter άλλαξε το ζήτημα στο πλαίσιο tweet από το "Τι κάνεις;" στο "Τι συμβαίνει;" (https://blog.twitter.com/2009/whats-happening).

    1. Πώς νομίζετε ότι η αλλαγή θα επηρεάσει προτροπές που tweet ή / και τι τιτίβισμα;
    2. Ονομάστε ένα ερευνητικό πρόγραμμα για το οποίο θα προτιμούσατε την προτροπή «Τι κάνεις;» Εξηγήστε γιατί.
    3. Ονομάστε ένα ερευνητικό πρόγραμμα για το οποίο θα προτιμούσατε την προτροπή «Τι συμβαίνει;» Εξηγήστε γιατί.
  5. [ μέσον ] Kwak et al. (2010) ανέλυσαν 41.700.000 προφίλ χρηστών, 1470000000 κοινωνικών σχέσεων, 4262 trending θέματα, και 106 εκατομμύρια tweets μεταξύ 6 Ιουνίου και την 31η Ιουνίου 2009. Με βάση αυτή την ανάλυση, κατέληξε στο συμπέρασμα ότι το Twitter εξυπηρετεί περισσότερους ως ένα νέο μέσο της ανταλλαγής πληροφοριών από το ένα κοινωνικό δίκτυο.

    1. Λαμβάνοντας υπόψη τη διαπίστωση Kwak et al, το τι είδους έρευνα θα κάνουμε με τα δεδομένα Twitter; Τι είδους έρευνα θα δεν κάνουμε με τα δεδομένα Twitter; Γιατί;
    2. Το 2010, το Twitter προστεθεί Ποιος να ακολουθήσει την υπηρεσία κάνοντας προσαρμοσμένη πρόταση για τους χρήστες. Οι τρεις προτάσεις παρουσιάζονται σε ένα χρόνο στην κεντρική σελίδα. Οι συστάσεις που συχνά προέρχονται από κάποιου «φίλους-of-φίλων," και αμοιβαίες επαφές εμφανίζονται επίσης στη σύσταση. Οι χρήστες μπορούν να ανανεώσετε για να δείτε μια νέα σειρά συστάσεων ή να επισκεφθείτε μια σελίδα με μια μεγαλύτερη λίστα των συστάσεων. Νομίζετε ότι αυτό το νέο χαρακτηριστικό θα αλλάξει την απάντησή σας στο σημείο α); Γιατί ή γιατί όχι?
    3. Su, Sharma, and Goel (2016) αξιολόγησε την επίδραση του Ποιος να ακολουθήσει την υπηρεσία και διαπιστώθηκε ότι ενώ οι χρήστες του σε όλο το φάσμα δημοτικότητα επωφελήθηκαν από τις συστάσεις, οι πιο δημοφιλείς χρήστες ωφεληθεί σημαντικά πάνω από τον μέσο όρο. Μήπως αυτό το εύρημα αλλάξετε την απάντησή σας στο τμήμα β); Γιατί ή γιατί όχι?
  6. [ εύκολος ] "Επαναλήψεις tweet" χρησιμοποιούνται συχνά για τη μέτρηση της επιρροής και την εξάπλωση της επιρροής στο Twitter. Αρχικά, οι χρήστες έπρεπε να αντιγράψετε και να επικολλήσετε το tweet τους άρεσε, επισημάνετε το αρχικό συγγραφέα με τη λαβή του / της, και με το χέρι πληκτρολογήστε "RT" πριν από το tweet για να δείξει ότι είναι ένα retweet. Στη συνέχεια, το 2009 Twitter προσθέσει ένα κουμπί "retweet". Τον Ιούνιο του 2016 Twitter κατέστησε δυνατό για τους χρήστες να retweet τα δικά τους tweets (https://twitter.com/twitter/status/742749353689780224). Νομίζετε ότι οι αλλαγές αυτές θα πρέπει να επηρεάσει τον τρόπο που χρησιμοποιείτε "retweets" στην έρευνα σας; Γιατί ή γιατί όχι?

  7. [ μέσον , συλλογή δεδομένων , απαιτεί την κωδικοποίηση ] Michel et al. (2011) κατασκεύασε ένα σώμα που προκύπτουν από την προσπάθεια της Google να ψηφιοποιήσει τα βιβλία. Χρησιμοποιώντας την πρώτη έκδοση του corpus, η οποία δημοσιεύθηκε το 2009 και περιείχε πάνω από 5 εκατομμύρια ψηφιοποιημένα βιβλία, οι συγγραφείς ανέλυσαν λέξη συχνότητα χρήσης για τη διερεύνηση της γλωσσικής αλλαγές και πολιτισμικές τάσεις. Σύντομα η Βιβλία Corpus Google έγινε δημοφιλής πηγή δεδομένων για τους ερευνητές, και μια 2η έκδοση της βάσης δεδομένων που κυκλοφόρησε το 2012.

    Ωστόσο, Pechenick, Danforth, and Dodds (2015) προειδοποίησε ότι οι ερευνητές πρέπει να χαρακτηρίζουν πλήρως τη διαδικασία δειγματοληψίας του σώματος πριν από τη χρήση για την κατάρτιση γενικά συμπεράσματα. Το κύριο ζήτημα είναι ότι το σώμα είναι η βιβλιοθήκη-όπως, περιέχει ένα από κάθε βιβλίο. Ως αποτέλεσμα, ένα άτομο, πολυγραφότατος συγγραφέας είναι σε θέση να εισάγει σημαντικά νέα φράσεις στο λεξικό Βιβλίων Google. Επιπλέον, επιστημονικά κείμενα αποτελούν ένα ολοένα και πιο ουσιαστικό μέρος του σώματος καθ 'όλη τη δεκαετία του 1900. Επιπλέον, από τη σύγκριση δύο εκδόσεις των συνόλων δεδομένων Φαντασίας αγγλικά, Pechenick et al. βρέθηκαν αποδείξεις ότι η ανεπαρκής φιλτράρισμα χρησιμοποιήθηκε για την παραγωγή της πρώτης έκδοσης. Όλα τα δεδομένα που απαιτούνται για την δραστηριότητα είναι διαθέσιμη εδώ: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Σε Michel et al. Αρχικό χαρτί (2011) , χρησιμοποίησαν την 1η έκδοση του συνόλου δεδομένων αγγλικά, καταγράφεται η συχνότητα χρήσης των ετών «1880», «1912» και «1973», και κατέληξε στο συμπέρασμα ότι «είμαστε ξεχνώντας το παρελθόν μας γρηγορότερα με κάθε χρόνο που περνάει »(Εικ. 3Α, Michel et al.). Αναπαράγουν το ίδιο οικόπεδο, χρησιμοποιώντας 1) 1η έκδοση του corpus, Αγγλικά σύνολο δεδομένων (όπως Εικ. 3Α, Michel et al.)
    2. Τώρα αναπαράγουν το ίδιο οικόπεδο με την πρώτη εκδοχή, αγγλική μυθιστοριογραφία σύνολο δεδομένων.
    3. Τώρα αναπαράγουν το ίδιο οικόπεδο με την 2η έκδοση του corpus, αγγλικά σύνολο δεδομένων.
    4. Τέλος, αναπαράγουν το ίδιο οικόπεδο με το 2ο έκδοση, αγγλική μυθιστοριογραφία σύνολο δεδομένων.
    5. Περιγράψτε τις διαφορές και τις ομοιότητες μεταξύ αυτών των τεσσάρων οικοπέδων. Συμφωνείτε με τον Michel et al. Πρωτότυπη ερμηνεία της παρατηρούμενης τάσης; (Υπόδειξη: γ) και δ) θα πρέπει να είναι η ίδια όπως το Σχήμα 16 σε Pechenick et al).
    6. Τώρα που έχουν αναπαραχθεί αυτό το ένα εύρημα που χρησιμοποιούν διαφορετικές Βιβλίων Google σώματα, επιλέξτε μια άλλη γλωσσική αλλαγή ή πολιτιστικά φαινόμενα που παρουσιάζονται στο Michel et al. Αρχικό έγγραφο. Συμφωνείτε με την ερμηνεία τους υπό το πρίσμα των περιορισμών που παρουσιάζονται στο Pechenick et al.; Για να κάνετε το επιχείρημά σας ισχυρότερη, δοκιμάστε να αναπαράγουν το ίδιο γράφημα, χρησιμοποιώντας διαφορετικές εκδόσεις των δεδομένων που όπως παραπάνω.
  8. [ πολύ δύσκολο , συλλογή δεδομένων , απαιτεί την κωδικοποίηση , το αγαπημένο μου ] Penney (2016) διερευνά κατά πόσον η ευρεία δημοσιότητα σχετικά με NSA επιτήρησης / PRISM (δηλαδή, οι αποκαλύψεις Σνόουντεν) τον Ιούνιο του 2013 συνδέεται με μια μεγάλη και απότομη μείωση της κυκλοφορίας με τα άρθρα της Wikipedia σχετικά με θέματα που εγείρουν ανησυχίες προστασία της ιδιωτικής ζωής. Αν ναι, αυτή η αλλαγή στη συμπεριφορά θα ήταν σύμφωνη με μια ανατριχιαστική αποτέλεσμα που προκύπτει από τη μαζική επιτήρηση. Η προσέγγιση της Penney (2016) είναι μερικές φορές ονομάζεται διακοπεί σχεδιασμού χρονολογικών σειρών και έχει σχέση με τις προσεγγίσεις στο κεφάλαιο σχετικά με την προσέγγιση των πειραμάτων από παρατηρησιακά δεδομένα (Ενότητα 2.4.3).

    Για να επιλέξετε τις λέξεις-κλειδιά θέμα, Penney που αναφέρονται στον κατάλογο που χρησιμοποιείται από το Τμήμα Εσωτερικής Ασφάλειας των ΗΠΑ για τον εντοπισμό και την παρακολούθηση των κοινωνικών μέσων μαζικής ενημέρωσης. Ο κατάλογος DHS κατηγοριοποιεί ορισμένων όρων αναζήτησης σε ένα ευρύ φάσμα θεμάτων, δηλαδή «Υγεία Concern", "Ασφάλεια Υποδομών," και "τρομοκρατία". Για την ομάδα μελέτης, Penney χρησιμοποιούνται οι σαράντα οκτώ λέξεις-κλειδιά που σχετίζονται με την "τρομοκρατία" (βλέπε πίνακα 8 Παράρτημα). Στη συνέχεια αθροίζονται Wikipedia μετράει άποψη άρθρο σε μηνιαία βάση για τις αντίστοιχες σαράντα οκτώ άρθρα της Wikipedia για μια περίοδο τριάντα δύο μήνες, από τις αρχές Ιανουαρίου 2012 έως το τέλος Αυγούστου του 2014. Για να ενισχύσει το επιχείρημά του, δημιούργησε επίσης πολλά σύγκριση ομάδες με την παρακολούθηση απόψεις άρθρο σχετικά με άλλα θέματα.

    Τώρα, θα έχετε την ευκαιρία να αναπαράγουν και να επεκτείνει Penney (2016) . Όλα τα ανεπεξέργαστα δεδομένα που θα χρειαστείτε για τη δραστηριότητα αυτή είναι διαθέσιμη από τη Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ή μπορείτε να το πάρετε από το wikipediatrend πακέτο R (Meissner and Team 2016) . Όταν γράφετε-up απαντήσεις σας, παρακαλούμε σημειώστε ποια πηγή δεδομένων που χρησιμοποιείται. (Σημείωση: Η ίδια δραστηριότητα εμφανίζεται επίσης στο Κεφάλαιο 6)

    1. Διαβάστε Penney (2016) και αναπαράγουν το Σχήμα 2, το οποίο παρουσιάζει τις απόψεις της σελίδας για-σχετικών σελίδων "Τρομοκρατία" πριν και μετά την αποκάλυψη Snowden. Ερμηνεύσει τα ευρήματα.
    2. Στη συνέχεια, αναπαράγουν Σχήμα 4Α, το οποίο συγκρίνει την ομάδα μελέτης ( «τρομοκρατία»-σχετικών άρθρων) με μια ομάδα σύγκρισης χρησιμοποιώντας λέξεις-κλειδιά κατηγοριοποιούνται σε "DHS & Άλλα Γραφεία" από τη λίστα DHS (βλέπε Παράρτημα Πίνακας 10). Ερμηνεύσει τα ευρήματα.
    3. Στο μέρος β) που σε σύγκριση με την ομάδα μελέτης σε μια ομάδα σύγκρισης. Penney, επίσης, σε σύγκριση με άλλες δύο ομάδες σύγκρισης: "Ασφάλεια Υποδομών»-σχετικών άρθρων (Παράρτημα Πίνακας 11) και δημοφιλείς σελίδες της Wikipedia (Παράρτημα Πίνακας 12). Ελάτε επάνω με μια εναλλακτική ομάδα σύγκρισης, και να ελέγξετε αν τα ευρήματα από το μέρος β) είναι ευαίσθητη στην επιλογή της ομάδας σύγκρισης. Ποια επιλογή της ομάδας σύγκρισης κάνει περισσότερο νόημα; Γιατί;
    4. Ο συγγραφέας δήλωσε ότι οι λέξεις-κλειδιά που αφορούν την "τρομοκρατία" χρησιμοποιήθηκαν για να επιλέξετε τα άρθρα της Wikipedia, επειδή η κυβέρνηση των ΗΠΑ αναφέρθηκε τρομοκρατίας ως βασικό δικαιολογία για τις online πρακτικές επιτήρησης. Ως έλεγχος αυτών των 48 «Τρομοκρατία»-σχετικών λέξεις-κλειδιά, Penney (2016) διεξήγαγε επίσης μια έρευνα σχετικά με MTurk ζητώντας από τους ερωτηθέντες να βαθμολογήσουν κάθε μία από τις λέξεις-κλειδιά από την άποψη της κυβέρνησης Trouble, Privacy-Ευαίσθητο και Αποφυγή (Παράρτημα Πίνακας 7 και 8). Αναπαράγουν την έρευνα για MTurk και να συγκρίνουν τα αποτελέσματά σας.
    5. Με βάση τα αποτελέσματα εν μέρει δ) και ανάγνωσης του άρθρου, συμφωνείτε με την επιλογή του συντάκτη του θέματος λέξεις-κλειδιά στην ομάδα μελέτης; Γιατί ή γιατί όχι? Εάν όχι, τι θα προτείνατε αντ 'αυτού;
  9. [ εύκολος ] Efrati (2016) εκθέσεις, με βάση εμπιστευτικές πληροφορίες, ότι «συνολική ανταλλαγή" στο Facebook είχε μειωθεί κατά περίπου 5,5% σε ετήσια βάση, ενώ "αρχική ανταλλαγή εκπομπή" ήταν κάτω από 21% σε ετήσια βάση. Η μείωση αυτή ήταν ιδιαίτερα έντονη με τους χρήστες του Facebook κάτω των 30 ετών. Η έκθεση απέδωσε τη μείωση σε δύο παράγοντες. Το ένα είναι η αύξηση του αριθμού των "φίλων" οι άνθρωποι έχουν στο Facebook. Το άλλο είναι ότι κάποια δραστηριότητα κοινής χρήσης έχει μετατοπιστεί προς μηνυμάτων και σε ανταγωνιστές όπως Snapchat. Η έκθεση αποκάλυψε επίσης τις διάφορες τακτικές Facebook είχε προσπαθήσει να ενισχύσει την ανταλλαγή, συμπεριλαμβανομένων των tweaks αλγόριθμο News Feed που κάνουν αρχική θέσεις πιο εμφανή, καθώς και περιοδικές υπενθυμίσεις των αρχικών χρηστών δημοσιεύσεις "Σε αυτήν την ημέρα" πριν από αρκετά χρόνια. Ποιες συνέπειες, αν υπάρχουν, δεν τα ευρήματα αυτά έχουν για τους ερευνητές που θέλουν να χρησιμοποιούν το Facebook ως πηγή δεδομένων;

  10. [ μέσον ] Tumasjan et al. (2010) ανέφεραν ότι η αναλογία των tweets που παραπέμπουν σε ένα πολιτικό κόμμα ταίριαζε με την αναλογία των ψήφων που έλαβαν μέρος στη γερμανική βουλευτικές εκλογές του 2009 (Σχήμα 2.9). Με άλλα λόγια, φαίνεται ότι θα μπορούσατε να χρησιμοποιήσετε το Twitter για να προβλέψουν τις εκλογές. Κατά τη στιγμή αυτή η μελέτη δημοσιεύτηκε θεωρήθηκε εξαιρετικά συναρπαστικό, επειδή φαινόταν να προτείνουν ένα πολύτιμο χρήση για την κοινή πηγή των μεγάλων δεδομένων.

    Λαμβάνοντας υπόψη τα κακά χαρακτηριστικά των μεγάλων δεδομένων, ωστόσο, θα πρέπει αμέσως να είναι επιφυλακτικοί αυτού του αποτελέσματος. Γερμανοί στο Twitter, το 2009 ήταν μια αρκετά μη-αντιπροσωπευτική ομάδα, και οι υποστηρικτές του ένα μέρος θα μπορούσε να τιτίβισμα για την πολιτική πιο συχνά. Έτσι, φαίνεται έκπληξη το γεγονός ότι όλες οι πιθανές προκαταλήψεις που θα μπορούσατε να φανταστείτε, θα με κάποιο τρόπο να ακυρώσει έξω. Στην πραγματικότητα, τα αποτελέσματα σε Tumasjan et al. (2010) αποδείχθηκε ότι είναι πάρα πολύ καλό για να είναι αληθινό. Στην εργασία τους, Tumasjan et al. (2010) εξέτασε έξι πολιτικά κόμματα: Χριστιανοδημοκράτες (CDU), Christian Σοσιαλδημοκρατών (CSU), SPD, οι Φιλελεύθεροι (FDP), η Αριστερά (Die Linke), και το Πράσινο Κόμμα (Grüne). Ωστόσο, η πιο προαναφερόμενο γερμανικό πολιτικό κόμμα στο Twitter εκείνη την εποχή ήταν το Κόμμα των Πειρατών (Piraten), ένα κόμμα που μάχεται κυβερνητική ρύθμιση του Διαδικτύου. Όταν το Κόμμα των Πειρατών συμπεριλήφθηκε στην ανάλυση, Twitter αναφέρει γίνεται μια φοβερή ικανότητα πρόβλεψης των αποτελεσμάτων των εκλογών (Σχήμα 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Σχήμα 2.9: Twitter αναφέρει φαίνεται να προβλέψουμε τα αποτελέσματα των εκλογών στη Γερμανία το 2009 (Tumasjan et al 2010)., Αλλά το αποτέλεσμα αυτό αποδεικνύεται να εξαρτάται από ορισμένες αυθαίρετες και αδικαιολόγητες επιλογές (Jungherr, Jürgens, και Schoen 2012).

    Σχήμα 2.9: Twitter αναφέρει φαίνεται να προβλέψουμε τα αποτελέσματα των εκλογών στη Γερμανία το 2009 (Tumasjan et al. 2010) , Αλλά το αποτέλεσμα αυτό αποδεικνύεται να εξαρτάται από ορισμένες αυθαίρετες και αδικαιολόγητες επιλογές (Jungherr, Jürgens, and Schoen 2012) .

    Στη συνέχεια, άλλοι ερευνητές σε όλο τον κόσμο έχουν χρησιμοποιήσει εκτροφέα μεθόδους -όπως χρησιμοποιώντας ανάλυση συναίσθημα να γίνει διάκριση μεταξύ θετικών και αρνητικών αναφέρει των μερών-προκειμένου να βελτιωθεί η ικανότητα των δεδομένων Twitter να προβλέψει μια ποικιλία διαφορετικών τύπων των εκλογών (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Εδώ είναι πώς Huberty (2015) συνόψισε τα αποτελέσματα αυτών των προσπαθειών να προβλέψει τις εκλογές:

    "Όλες οι γνωστές μέθοδοι πρόβλεψης με βάση την κοινωνική μέσων μαζικής ενημέρωσης έχουν αποτύχει όταν υποβάλλεται στις απαιτήσεις της αληθινής μελλοντικές εκλογικές προβλέψεις. Αυτές οι αποτυχίες φαίνεται να οφείλεται σε θεμελιώδεις ιδιότητες των κοινωνικών μέσων μαζικής ενημέρωσης, αντί να μεθοδολογικές ή αλγοριθμική δυσκολίες. Εν ολίγοις, τα social media δεν το κάνουν, και ίσως ποτέ δεν θα προσφέρει μια σταθερή, αμερόληπτη, αντιπροσωπευτική εικόνα του εκλογικού σώματος? και τα δείγματα ευκολία των κοινωνικών μέσων μαζικής ενημέρωσης δεν διαθέτουν επαρκή στοιχεία για να διορθώσετε αυτά τα προβλήματα δημοσιεύσετε hoc ».

    Διαβάστε μερικές από τις έρευνες που οδηγούν Huberty (2015) σε αυτό το συμπέρασμα, και να γράψει ένα σημείωμα μία σελίδα σε ένα πολιτικό υποψήφιο που περιγράφει εάν και πώς Twitter θα πρέπει να χρησιμοποιείται για την πρόβλεψη των εκλογών.

  11. [ μέσον ] Ποια είναι η διαφορά ανάμεσα σε ένα κοινωνιολόγος και ιστορικός; Σύμφωνα με Goldthorpe (1991) , η κύρια διαφορά μεταξύ κοινωνιολόγος και ιστορικός είναι ο έλεγχος πάνω από τη συλλογή δεδομένων. Οι ιστορικοί αναγκάζονται να χρησιμοποιούν τα λείψανα, ενώ οι κοινωνιολόγοι μπορούν να προσαρμόσουν τη συλλογή των δεδομένων τους για ειδικούς σκοπούς. Διαβάστε Goldthorpe (1991) . Ποια είναι η διαφορά μεταξύ της κοινωνιολογίας και της ιστορίας που συνδέονται με την ιδέα της Custommades και readymades;

  12. [ σκληρά ] Με βάση την προηγούμενη ερώτηση, Goldthorpe (1991) κατέληξε σε σειρά κρίσιμων απαντήσεων, μεταξύ των οποίων μία από Nicky Hart (1994) , που αμφισβήτησε την αφοσίωση Goldthorpe να προσαρμόσει έκανε δεδομένων. Να διευκρινιστούν οι πιθανούς περιορισμούς των tailor-made στοιχεία, Hart περιγράφονται οι εύποροι Έργου Εργαζομένων, μια μεγάλη έρευνα για να μετρήσει τη σχέση μεταξύ κοινωνικής τάξης και την ψηφοφορία που διεξήχθη από Goldthorpe και οι συνεργάτες του στα μέσα της δεκαετίας του 1960. Όπως θα περίμενε κανείς από έναν μελετητή ο οποίος ευνόησε σχεδιαστεί δεδομένων μέσω βρήκε στοιχεία, οι εύποροι Εργαζόμενος έργου συλλέχθηκαν στοιχεία που προσαρμόζονται για να καλύψουν ένα προτάθηκε πρόσφατα θεωρία για το μέλλον της κοινωνικής τάξης σε μια εποχή αύξησης του βιοτικού επιπέδου. Αλλά, Goldthorpe και οι συνεργάτες του με κάποιο τρόπο "ξέχασε" να συλλέγει πληροφορίες σχετικά με τη συμπεριφορά ψήφου των γυναικών. Εδώ είναι πώς Nicky Hart (1994) περιλήψεις ολόκληρο το επεισόδιο:

    ". . . ότι [είναι] δύσκολο να αποφύγει κανείς το συμπέρασμα ότι οι γυναίκες είχαν παραλειφθεί, διότι αυτή η «tailor made» σύνολο δεδομένων περιορίστηκε από μια παραδειγματική λογική που εξαιρούνται γυναικεία εμπειρία. Καθοδηγείται από ένα θεωρητικό όραμα της ταξικής συνείδησης και δράσης, όπως αρσενικό ανησυχίες. . . , Goldthorpe και οι συνεργάτες του κατασκεύασαν μια σειρά από εμπειρικές αποδείξεις που τρέφονται και να προωθούνται τα δικά τους θεωρητικές παραδοχές, αντί να τους εκθέτουν σε μία έγκυρη δοκιμασία επάρκειας ».

    Hart συνέχισε:

    «Τα εμπειρικά ευρήματα της Εύποροι Έργου Worker μας πείτε περισσότερα για τις αρσενικοποιημένο αξίες της κοινωνιολογίας μέσα του αιώνα από ό, τι ενημερώνουν τις διαδικασίες της διαστρωμάτωσης, πολιτική και υλική ζωή."

    Μπορείτε να σκεφτείτε άλλα παραδείγματα όπου η συλλογή tailor-made δεδομένων έχει τις προκαταλήψεις του συλλέκτη δεδομένων χτισμένη σε αυτό; Πώς αυτό συγκρίνεται με αλγοριθμική σύγχυση; Τι επιπτώσεις μπορεί να έχει αυτό για το πότε οι ερευνητές θα πρέπει να χρησιμοποιούν readymades και πότε θα πρέπει να χρησιμοποιούν Custommades;

  13. [ μέσον ] Σε αυτό το κεφάλαιο, σε αντίθεση δεδομένα που συλλέγονται από τους ερευνητές για ερευνητές με διοικητικά αρχεία που δημιουργούνται από εταιρείες και κυβερνήσεις. Μερικοί άνθρωποι αποκαλούν αυτά τα διοικητικά αρχεία "βρήκε στοιχεία», τα οποία έρχονται σε αντίθεση με "σχεδιασμένο δεδομένων." Είναι αλήθεια ότι τα διοικητικά αρχεία βρίσκονται από τους ερευνητές, αλλά είναι επίσης εξαιρετικά σχεδιασμένα. Για παράδειγμα, η σύγχρονη εταιρείες τεχνολογίας ξοδεύουν τεράστια ποσά του χρόνου και των πόρων για τη συλλογή και επιμέλεια των δεδομένων τους. Έτσι, αυτά τα διοικητικά αρχεία και οι δύο βρέθηκαν και έχουν σχεδιαστεί, αυτό εξαρτάται μόνο από την προοπτική σας (Εικόνα 2.10).

    Σχήμα 2.10: Η εικόνα είναι τόσο μια πάπια και ένα κουνέλι? αυτό που βλέπετε εξαρτάται από την προοπτική σας. Κυβέρνησης και των επιχειρήσεων διοικητικά αρχεία και οι δύο βρέθηκαν και σχεδιασμένα? αυτό που βλέπετε εξαρτάται από την προοπτική σας. Για παράδειγμα, τα αρχεία κλήσεων που συλλέγονται από μια εταιρεία κινητής τηλεφωνίας που βρέθηκαν δεδομένα από τη σκοπιά του ερευνητή. Όμως, τα ακριβή αυτά τα ίδια αρχεία έχουν σχεδιαστεί προοπτική δεδομένα κάποιος που εργάζεται στο τμήμα χρέωσης της τηλεφωνικής εταιρείας. Πηγή: Wikimedia Commons

    Σχήμα 2.10: Η εικόνα είναι τόσο μια πάπια και ένα κουνέλι? αυτό που βλέπετε εξαρτάται από την προοπτική σας. Κυβέρνησης και των επιχειρήσεων διοικητικά αρχεία και οι δύο βρέθηκαν και σχεδιασμένα? αυτό που βλέπετε εξαρτάται από την προοπτική σας. Για παράδειγμα, τα αρχεία κλήσεων που συλλέγονται από μια εταιρεία κινητής τηλεφωνίας που βρέθηκαν δεδομένα από τη σκοπιά του ερευνητή. Όμως, τα ακριβή αυτά τα ίδια αρχεία έχουν σχεδιαστεί προοπτική δεδομένα κάποιος που εργάζεται στο τμήμα χρέωσης της τηλεφωνικής εταιρείας. Πηγή: Wikimedia Commons

    Παρέχουν ένα παράδειγμα της πηγής δεδομένων όπου βλέπουμε τόσο ως βρεθεί και να σχεδιαστεί είναι χρήσιμη όταν χρησιμοποιούν αυτή την πηγή δεδομένων για την έρευνα.

  14. [ εύκολος ] Σε ένα στοχαστικό δοκίμιο, χριστιανική Sandvig και Εστέρ Hargittai (2015) περιγράφουν δύο είδη ψηφιακής έρευνας, όπου το ψηφιακό σύστημα είναι «όργανο» ή «αντικείμενο της μελέτης." Ένα παράδειγμα του πρώτου είδους της μελέτης, όπου Bengtsson και οι συνεργάτες του (2011) χρησιμοποιήθηκαν τα δεδομένα του κινητού τηλεφώνου για να παρακολουθείτε τη μετανάστευση μετά το σεισμό στην Αϊτή το 2010. Ένα παράδειγμα του δεύτερου είδους είναι όπου Jensen (2007) μελέτες πώς η εισαγωγή των κινητών τηλεφώνων σε όλη την Κεράλα, Ινδία επηρέασε τη λειτουργία της αγοράς για τα ψάρια. Θεωρώ ότι αυτό είναι χρήσιμο, διότι διευκρινίζει ότι οι μελέτες που χρησιμοποιούν ψηφιακές πηγές δεδομένων μπορούν να έχουν αρκετά διαφορετικούς στόχους, ακόμη και αν χρησιμοποιείτε το ίδιο είδος της πηγής δεδομένων. Προκειμένου να αποσαφηνίσει περαιτέρω τη διάκριση αυτή, περιγράφουν τέσσερις μελέτες που έχετε δει: δύο που χρησιμοποιούν ένα ψηφιακό σύστημα ως μέσο και δύο που χρησιμοποιούν ένα ψηφιακό σύστημα ως αντικείμενο της μελέτης. Μπορείτε να χρησιμοποιήσετε παραδείγματα από αυτό το κεφάλαιο, αν θέλετε.