περαιτέρω σχόλια

Αυτό το τμήμα έχει σχεδιαστεί για να χρησιμοποιείται ως σημείο αναφοράς, αντί να διαβαστεί ως μια αφήγηση.

  • Εισαγωγή (Ενότητα 2.1)

Ένα είδος παρατηρώντας ότι δεν περιλαμβάνεται σε αυτό το κεφάλαιο είναι εθνογραφία. Για περισσότερες πληροφορίες σχετικά με την εθνογραφία στην ψηφιακή χώρους δείτε Boellstorff et al. (2012) , και για περισσότερες πληροφορίες σχετικά με την εθνογραφία σε μικτές ψηφιακών και φυσικών χώρων δείτε Lane (2016) .

  • Big δεδομένων (Ενότητα 2.2)

Όταν αναπροσανατολισμό δεδομένα, υπάρχουν δύο ψυχική κόλπα που μπορεί να σας βοηθήσει να κατανοήσετε τα πιθανά προβλήματα που μπορεί να συναντήσετε. Κατ 'αρχάς, μπορείτε να προσπαθήσετε να φανταστείτε το ιδανικό σύνολο δεδομένων για το πρόβλημά σας και να το συγκρίνουμε με το σύνολο δεδομένων που χρησιμοποιείτε. Πώς είναι παρόμοια και σε τι διαφέρουν; Αν δεν συλλέγουν οι ίδιοι δεδομένα σας, είναι πιθανό να υπάρχει διαφορά ανάμεσα σε ό, τι θέλετε και τι έχετε. Αλλά, θα πρέπει να αποφασίσετε εάν αυτές οι διαφορές είναι μικρές ή μεγάλες.

Δεύτερον, να θυμάστε ότι κάποιος που δημιουργούνται και να συλλέγονται τα δεδομένα σας για κάποιο λόγο. Θα πρέπει να προσπαθήσουμε να κατανοήσουμε το σκεπτικό τους. Αυτού του είδους η αντίστροφη μηχανική μπορεί να σας βοηθήσει να εντοπίσετε πιθανά προβλήματα και τις προκαταλήψεις σε repurposed δεδομένα σας.

Δεν υπάρχει ενιαίος ορισμός συναίνεση των «μεγάλων δεδομένων», αλλά πολλοί ορισμοί φαίνεται να επικεντρωθεί στο 3 Vs: (π.χ., τον όγκο, την ποικιλία, και την ταχύτητα Japec et al. (2015) ). Αντί να επικεντρώνονται στα χαρακτηριστικά των δεδομένων, ορισμός μου εστιάζει περισσότερο στο γιατί δημιουργήθηκε τα δεδομένα.

συμπερίληψη μου κυβερνητικών διοικητικών στοιχείων μέσα στην κατηγορία των μεγάλων δεδομένα είναι λίγο ασυνήθιστα. Άλλοι που έχουν κάνει αυτή την περίπτωση, περιλαμβάνουν Legewie (2015) , Connelly et al. (2016) , και Einav and Levin (2014) . Για περισσότερα σχετικά με την αξία των κρατικών διοικητικών δεδομένων για την έρευνα, βλέπε Card et al. (2010) , Taskforce (2012) , και Grusky, Smeeding, and Snipp (2015) .

Για ενόψει της διοικητικής έρευνας από το εσωτερικό του στατιστικού συστήματος της κυβέρνησης, ιδιαίτερα την Υπηρεσία Απογραφής των ΗΠΑ, δείτε Jarmin and O'Hara (2016) . Για μια θεραπεία διάρκειας βιβλίο της έρευνας διοικητικά αρχεία σε Στατιστική Υπηρεσία της Σουηδίας, δείτε Wallgren and Wallgren (2007) .

Στο κεφάλαιο, σε σύγκριση με συντομία μια παραδοσιακή έρευνα όπως η Γενική Κοινωνική Έρευνα (GSS) με μια πηγή δεδομένων μέσα κοινωνικής δικτύωσης όπως το Twitter. Για μια ενδελεχή και προσεκτική σύγκριση μεταξύ των παραδοσιακών έρευνες και τα δεδομένα των κοινωνικών μέσων μαζικής ενημέρωσης, δείτε Schober et al. (2016) .

  • Κοινά χαρακτηριστικά των μεγάλων δεδομένων (Ενότητα 2.3)

Αυτά τα 10 χαρακτηριστικά των μεγάλων δεδομένων έχουν περιγραφεί σε μια ποικιλία διαφορετικών τρόπων με μια ποικιλία από διαφορετικούς συγγραφείς. Γραφής που επηρέασαν τη σκέψη μου σε αυτά τα θέματα περιλαμβάνουν: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , και Goldstone and Lupyan (2016) .

Σε όλο αυτό το κεφάλαιο, έχω χρησιμοποιήσει τον όρο ψηφιακών ιχνών, η οποία νομίζω ότι είναι σχετικά ουδέτερη. Μια άλλη δημοφιλής όρος για την ψηφιακή ίχνη είναι ψηφιακά ίχνη (Golder and Macy 2014) , αλλά όπως Hal Abelson, Ken Ledeen, και ο Χάρι Lewis (2008) επισημαίνουν, ένας πιο κατάλληλος όρος είναι πιθανώς ψηφιακά αποτυπώματα. Όταν δημιουργείτε ίχνη, έχετε επίγνωση του τι συμβαίνει και τα ίχνη σας δεν μπορούν γενικά να διαιρεθούν σε εσάς προσωπικά. Το ίδιο δεν ισχύει και για την ψηφιακή ίχνη σας. Στην πραγματικότητα, είστε αφήνοντας ίχνη όλη την ώρα για την οποία έχετε πολύ λίγη γνώση. Και, παρόλο που τα ίχνη αυτά δεν έχουν το όνομά σας πάνω τους, μπορούν συχνά να συνδέεται πίσω σε σας. Με άλλα λόγια, είναι περισσότερο σαν τα δακτυλικά αποτυπώματα: αόρατο και προσωπικά τον εντοπισμό.

Μεγάλος

Για περισσότερες πληροφορίες σχετικά με τους οποίους μεγάλα σύνολα δεδομένων, καθιστούν τις στατιστικές δοκιμές προβληματική, δείτε Lin, Lucas, and Shmueli (2013) και McFarland and McFarland (2015) . Τα ζητήματα αυτά θα πρέπει να οδηγήσει τους ερευνητές να επικεντρωθούν στην πρακτική σημασία και όχι στατιστική σημαντικότητα.

Πάντα ανοιχτό

Κατά την εξέταση πάντα-για τα δεδομένα, είναι σημαντικό να εξεταστεί αν είστε συγκρίνοντας τα ίδια ακριβώς άτομα πάροδο του χρόνου ή αν είστε συγκρίνοντας κάποια αλλαγή ομάδα ανθρώπων? βλέπε για παράδειγμα, Diaz et al. (2016) .

Που δεν αντιδραει

Ένα κλασικό βιβλίο για μη αντιδραστικά μέτρα είναι Webb et al. (1966) . Τα παραδείγματα στην προ-ημερομηνία βιβλίο η ψηφιακή εποχή, αλλά εξακολουθούν να είναι διαφωτιστική. Για παραδείγματα των ανθρώπων που αλλάζουν τη συμπεριφορά τους λόγω της παρουσίας της μαζικής επιτήρησης, δείτε Penney (2016) και Brayne (2014) .

Ατελής

Για περισσότερες πληροφορίες σχετικά με ρεκόρ σύνδεση, δείτε Dunn (1946) και Fellegi and Sunter (1969) (ιστορικά) και Larsen and Winkler (2014) (σύγχρονο). Παρόμοια πλησίασε έχουν επίσης αναπτυχθεί στην επιστήμη των υπολογιστών με τα ονόματα όπως deduplication δεδομένων, π.χ. ταυτοποίηση, όνομα που ταιριάζουν, εις διπλούν ανίχνευση, και εις διπλούν ανίχνευση ρεκόρ (Elmagarmid, Ipeirotis, and Verykios 2007) . Υπάρχουν, επίσης, προστασία της ιδιωτικής ζωής διατηρώντας προσεγγίσεις για την εγγραφή σύνδεση που δεν απαιτούν τη μετάδοση προσωπικές πληροφορίες (Schnell 2013) . Το Facebook έχει επίσης αναπτύξει ένα προχωρήσει να συνδέσουν τα αρχεία τους με τη συμπεριφορά ψήφου? Αυτό έγινε για να αξιολογήσει ένα πείραμα που θα σας πω σχετικά με το Κεφάλαιο 4 (Bond et al. 2012; Jones et al. 2013) .

Για περισσότερες πληροφορίες σχετικά με το κύρος κατασκεύασμα, δείτε Shadish, Cook, and Campbell (2001) , Κεφάλαιο 3.

Απρόσιτος

Για περισσότερες πληροφορίες σχετικά με την AOL αναζήτηση καταγραφής πανωλεθρία, δείτε Ohm (2010) . Δίνω συμβουλές σχετικά με τη συνεργασία με τις επιχειρήσεις και τις κυβερνήσεις στο κεφάλαιο 4, όταν περιγράφουν πειράματα. Μια σειρά από συγγραφείς έχουν εκφράσει ανησυχίες σχετικά με την έρευνα που βασίζεται σε απρόσιτα τα δεδομένα, δείτε Huberman (2012) και boyd and Crawford (2012) .

Ένας καλός τρόπος για πανεπιστημιακούς ερευνητές να αποκτήσουν πρόσβαση στα δεδομένα είναι να εργαστεί σε μια εταιρεία ως βοηθός ή επισκέπτης ερευνητής. Εκτός από τη δυνατότητα πρόσβασης στα δεδομένα, η διαδικασία αυτή θα βοηθήσει επίσης ο ερευνητής να μάθετε περισσότερα για το πώς δημιουργήθηκε τα δεδομένα, το οποίο είναι σημαντικό για την ανάλυση.

Μη αντιπροσωπευτική

Μη αντιπροσωπευτικότητα είναι ένα μεγάλο πρόβλημα για τους ερευνητές και τις κυβερνήσεις που επιθυμούν να κάνουν δηλώσεις για έναν ολόκληρο πληθυσμό. Αυτό είναι λιγότερο από την ανησυχία για τις εταιρείες που συνήθως επικεντρώνονται στους χρήστες τους. Για περισσότερες πληροφορίες σχετικά με το πώς Στατιστικά Ολλανδία θεωρεί ότι το ζήτημα της μη αντιπροσωπευτικότητας των επιχειρήσεων μεγάλων δεδομένων, δείτε Buelens et al. (2014) .

Στο κεφάλαιο 3, θα περιγράψω τη δειγματοληψία και εκτίμηση σε πολύ μεγαλύτερη λεπτομέρεια. Ακόμη και αν τα δεδομένα είναι μη-αντιπροσωπευτική, υπό ορισμένες προϋποθέσεις, μπορούν να σταθμίζονται για να παράγει καλές εκτιμήσεις.

Ξηρότερος

μετατόπιση του συστήματος είναι πολύ δύσκολο να δούμε από το εξωτερικό. Ωστόσο, το έργο MovieLens (συζητούνται περισσότερο στο κεφάλαιο 4) έχει εκτελεστεί για περισσότερα από 15 χρόνια από μια ακαδημαϊκή ερευνητική ομάδα. Ως εκ τούτου, έχουν τεκμηριωθεί και αντάλλαξαν πληροφορίες σχετικά με τον τρόπο που το σύστημα έχει εξελιχθεί με την πάροδο του χρόνου και πώς αυτό μπορεί να επηρεάσει την ανάλυση (Harper and Konstan 2015) .

Μια σειρά από μελετητές έχουν επικεντρωθεί σε drift στο Twitter: Liu, Kliman-Silver, and Mislove (2014) και Tufekci (2014) .

αλγοριθμικά συγχέονται

Άκουσα για πρώτη φορά ο όρος "αλγοριθμικά συγχέονται" που χρησιμοποιείται από τον Jon Κλάινμπεργκ σε μια ομιλία. Η κύρια ιδέα πίσω από επιτελεστικότητα είναι ότι μερικές θεωρίες των κοινωνικών επιστημών «δεν είναι μηχανές φωτογραφικές μηχανές" (Mackenzie 2008) . Δηλαδή, στην πραγματικότητα διαμορφώνουν τον κόσμο και όχι μόνο να συλλάβει.

Βρώμικος

Κυβερνητικές στατιστικές υπηρεσίες καλούν τον καθαρισμό των δεδομένων, την επεξεργασία των στατιστικών στοιχείων. De Waal, Puts, and Daas (2014) περιγράφουν τεχνικές στατιστικής επεξεργασίας των δεδομένων που αναπτύχθηκε για τα στοιχεία των ερευνών και να εξετάσει σε ποιο βαθμό εφαρμόζονται σε μεγάλες πηγές δεδομένων, και Puts, Daas, and Waal (2015) παρουσιάζει μερικές από τις ίδιες ιδέες για ένα πιο ευρύ κοινό.

Για μερικά παραδείγματα των μελετών επικεντρώθηκε σε spam στο Twitter, Clark et al. (2016) και Chu et al. (2012) . Τέλος, Subrahmanian et al. (2016) περιγράφει τα αποτελέσματα της DARPA Twitter Bot Challenge.

Ευαίσθητος

Ohm (2015) εξετάζει προηγούμενη έρευνα σχετικά με την ιδέα των ευαίσθητων πληροφοριών και προσφέρει ένα τεστ πολλαπλών παράγοντα. Οι τέσσερις παράγοντες που προτείνει είναι: η πιθανότητα βλάβης? πιθανότητα βλάβης? παρουσία μιας εμπιστευτικής σχέσης? και αν ο κίνδυνος αντανακλούν πλειοψηφικό ανησυχίες.

  • Μετρώντας τα πράγματα (Ενότητα 2.4.1)

Μελέτη Farber των ταξί στη Νέα Υόρκη βασίστηκε σε μια προηγούμενη μελέτη από Camerer et al. (1997) που χρησιμοποιούνται τρία διαφορετικά δείγματα ευκολία του ταξιδιού χαρτιού εντύπων φύλλα χαρτιού που χρησιμοποιείται από τους οδηγούς να καταγράφουν τον χρόνο έναρξης ταξιδιού, την ώρα λήξης, και των ναύλων. Αυτή η προηγούμενη μελέτη διαπίστωσε ότι οι οδηγοί φαινόταν να είναι μισθωτοί στόχο: να εργαστεί λιγότερο τις ημέρες όπου οι μισθοί τους ήταν υψηλότερες.

Kossinets and Watts (2009) επικεντρώθηκε σχετικά με την προέλευση των homophily σε κοινωνικά δίκτυα. Δείτε Wimmer and Lewis (2010) για μια διαφορετική προσέγγιση στο ίδιο πρόβλημα που χρησιμοποιεί δεδομένα από το Facebook.

Σε μεταγενέστερη εργασία, ο βασιλιάς και οι συνεργάτες του έχουν διερευνηθεί περαιτέρω σε απευθείας σύνδεση λογοκρισίας στην Κίνα (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Για μια σχετική προσέγγιση για τη μέτρηση σε απευθείας σύνδεση λογοκρισίας στην Κίνα, δείτε Bamman, O'Connor, and Smith (2012) . Για περισσότερες πληροφορίες σχετικά με τις στατιστικές μεθόδους, όπως αυτό που χρησιμοποιείται στο King, Pan, and Roberts (2013) για την εκτίμηση του συναίσθημα των 11 εκατομμυρίων θέσεων, δείτε Hopkins and King (2010) . Για περισσότερες πληροφορίες σχετικά εποπτευόμενη μάθηση, δείτε James et al. (2013) (λιγότερο τεχνική) και Hastie, Tibshirani, and Friedman (2009) (περισσότερες τεχνικές).

  • Προβλέψεων (Ενότητα 2.4.2)

Η πρόβλεψη είναι ένα μεγάλο μέρος της βιομηχανικής της επιστήμης δεδομένων (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ένας τύπος πρόβλεψης που γίνονται συνήθως από τους κοινωνικούς ερευνητές είναι οι δημογραφικές προβλέψεις, για παράδειγμα Raftery et al. (2012) .

Το Google Flu Trends δεν ήταν το πρώτο έργο να χρησιμοποιούν τα δεδομένα αναζήτησης για να πρόγνωση μικρής επικράτηση της γρίπης. Στην πραγματικότητα, οι ερευνητές στις Ηνωμένες Πολιτείες (Polgreen et al. 2008; Ginsberg et al. 2009) και τη Σουηδία (Hulth, Rydevik, and Linde 2009) έχουν διαπιστώσει ότι ορισμένοι όροι αναζήτησης (π.χ., "γρίπη") προέβλεψε εθνικά συστήματα επιτήρησης της δημόσιας υγείας δεδομένων πριν από την κυκλοφορία. Στη συνέχεια πολλά, πολλά άλλα έργα έχουν προσπαθήσει να χρησιμοποιήσουν τα ψηφιακά δεδομένα ίχνος για την ανίχνευση επιτήρηση της νόσου, δείτε Althouse et al. (2015) για επανεξέταση.

Εκτός από τη χρήση ψηφιακών δεδομένων ίχνος για την πρόβλεψη των αποτελεσμάτων στην υγεία, υπήρξε επίσης ένα τεράστιο ποσό της εργασίας χρησιμοποιώντας δεδομένα Twitter για να προβλέψει την εκλογή των αποτελεσμάτων? για σχόλια βλ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Κεφ. 7), και Huberty (2015) .

Χρησιμοποιώντας τα δεδομένα αναζήτησης με πρόβλεψη επικράτηση των πτηνών και τη χρήση των δεδομένων Twitter για να προβλέψει εκλογών είναι και τα δύο παραδείγματα που χρησιμοποιούν κάποιο είδος των ψηφιακών ιχνών να προβλέψουμε κάποια εκδήλωση στον κόσμο. Υπάρχει ένας τεράστιος αριθμός των μελετών που έχουν αυτή τη γενική δομή. Πίνακας 2.5 περιλαμβάνει μερικά άλλα παραδείγματα.

Πίνακας 2.5: Μερική κατάλογο των μελετών που χρησιμοποιούν κάποια ψηφιακά ίχνη για να προβλέψει κάποια εκδήλωση.
ψηφιακή ίχνος Αποτέλεσμα Παραπομπή
Τουίτερ Box έσοδα γραφείο των ταινιών στις ΗΠΑ Asur and Huberman (2010)
Αναζήτηση κούτσουρα Οι πωλήσεις των ταινίες, μουσική, βιβλία, βίντεο και παιχνίδια στις ΗΠΑ Goel et al. (2010)
Τουίτερ Dow Jones Industrial Average (US χρηματιστηριακή αγορά) Bollen, Mao, and Zeng (2011)
  • Προσέγγιση πειράματα (Ενότητα 2.4.3)

Το περιοδικό PS Πολιτικών Επιστημών είχε ένα συμπόσιο για μεγάλο δεδομένων, την αιτιώδη συμπέρασμα, και την επίσημη θεωρία, και Clark and Golder (2015) συνοψίζει κάθε συνεισφορά. Τα Πρακτικά περιοδικό της Εθνικής Ακαδημίας Επιστημών των Ηνωμένων Πολιτειών της Αμερικής είχε ένα συμπόσιο για την αιτιώδη συμπέρασμα και μεγάλα δεδομένα, και Shiffrin (2016) συνοψίζει κάθε συνεισφορά.

Από την άποψη των φυσικών πειραμάτων, Dunning (2012) παρέχει μια εξαιρετική θεραπεία μήκος του βιβλίου. Για περισσότερες πληροφορίες σχετικά με τη χρήση του σχεδίου λοταρία του Βιετνάμ ως ένα φυσικό πείραμα, δείτε Berinsky and Chatfield (2015) . Για μηχανικής μάθησης προσεγγίσεις που προσπαθούν να ανακαλύψουν αυτόματα τα φυσικά πειράματα στο εσωτερικό των μεγάλων πηγών δεδομένων, δείτε Jensen et al. (2008) και Sharma, Hofman, and Watts (2015) .

Από την άποψη της αντιστοίχισης, για μια αισιόδοξη αξιολόγηση, δείτε Stuart (2010) , και για μια απαισιόδοξη επισκόπηση βλέπε Sekhon (2009) . Για περισσότερες πληροφορίες σχετικά ταιριάζουν ως ένα είδος του κλαδέματος, δείτε Ho et al. (2007) . Για τα βιβλία που παρέχουν εξαιρετικές θεραπείες του ταιριάζουν, δείτε Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , και Imbens and Rubin (2015) .