Ένα είδος παρατήρησης που δεν περιλαμβάνεται σε αυτό το κεφάλαιο είναι η εθνογραφία. Για περισσότερα σχετικά με την εθνογραφία σε ψηφιακούς χώρους, βλ. Boellstorff et al. (2012) , και για περισσότερα σχετικά με την εθνογραφία σε μικτούς ψηφιακούς και φυσικούς χώρους, βλ. Lane (2016) .
Δεν υπάρχει κανένας ενιαίος ορισμός για τα "μεγάλα δεδομένα", αλλά πολλοί ορισμοί φαίνεται να επικεντρώνονται στα "3 Vs": τον όγκο, την ποικιλία και την ταχύτητα (π.χ., Japec et al. (2015) ). Βλέπε De Mauro et al. (2015) για την αναθεώρηση των ορισμών.
Η συμπερίληψη των κυβερνητικών διοικητικών δεδομένων στην κατηγορία των μεγάλων δεδομένων είναι λίγο ασυνήθιστη, αν και άλλοι έχουν κάνει αυτήν την υπόθεση, μεταξύ των οποίων οι Legewie (2015) , Connelly et al. (2016) , και Einav and Levin (2014) . Για περισσότερες πληροφορίες σχετικά με την αξία των κυβερνητικών διοικητικών δεδομένων για έρευνα, βλ. Card et al. (2010) , Adminstrative Data Taskforce (2012) Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) , και Grusky, Smeeding, and Snipp (2015) .
Για μια άποψη της διοικητικής έρευνας μέσα από το κυβερνητικό στατιστικό σύστημα, ιδιαίτερα το αμερικανικό γραφείο απογραφής, βλ. Jarmin and O'Hara (2016) . Για μια βιβλιογραφική επεξεργασία της έρευνας διοικητικών αρχείων στη Στατιστική Σουηδία, βλέπε Wallgren and Wallgren (2007) .
Στο κεφάλαιο, συνέταξα εν συντομία μια παραδοσιακή έρευνα όπως η Γενική Κοινωνική Έρευνα (GSS) με μια πηγή δεδομένων των κοινωνικών μέσων όπως το Twitter. Για μια λεπτομερή και προσεκτική σύγκριση μεταξύ των παραδοσιακών ερευνών και των δεδομένων των κοινωνικών μέσων, βλ. Schober et al. (2016) .
Αυτά τα 10 χαρακτηριστικά των μεγάλων δεδομένων έχουν περιγραφεί με ποικίλους διαφορετικούς τρόπους από μια ποικιλία διαφορετικών δημιουργών. Το γράψιμο που επηρέασε τη σκέψη μου σε αυτά τα θέματα περιλαμβάνει τους Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , και Goldstone and Lupyan (2016) .
Σε αυτό το κεφάλαιο, χρησιμοποίησα τον όρο ψηφιακά ίχνη , τα οποία νομίζω ότι είναι σχετικά ουδέτερα. Ένας άλλος δημοφιλής όρος για τα ψηφιακά ίχνη είναι τα ψηφιακά αποτυπώματα (Golder and Macy 2014) , αλλά όπως τονίζουν οι Hal Abelson, Ken Ledeen και Harry Lewis (2008) , ένας πιο κατάλληλος όρος είναι πιθανώς ψηφιακά δακτυλικά αποτυπώματα . Όταν δημιουργείτε αποτυπώματα, γνωρίζετε τι συμβαίνει και τα αποτυπώματα σας δεν μπορούν γενικά να εντοπιστούν σε εσάς προσωπικά. Το ίδιο δεν ισχύει για τα ψηφιακά σας ίχνη. Στην πραγματικότητα, αφήνετε ίχνη όλη την ώρα για την οποία έχετε πολύ λίγη γνώση. Και, παρόλο που αυτά τα ίχνη δεν έχουν το όνομά σας σε αυτά, συχνά μπορούν να συνδεθούν πίσω σε εσάς. Με άλλα λόγια, μοιάζουν περισσότερο με δακτυλικά αποτυπώματα: αόρατα και προσωπικά αναγνωρίσιμα.
Για περισσότερες πληροφορίες σχετικά με το γιατί τα μεγάλα σύνολα δεδομένων καθιστούν προβληματικές τις στατιστικές δοκιμές, βλ M. Lin, Lucas, and Shmueli (2013) και McFarland and McFarland (2015) . Τα θέματα αυτά πρέπει να οδηγήσουν τους ερευνητές να επικεντρωθούν στην πρακτική σημασία παρά στη στατιστική σημασία.
Για περισσότερες πληροφορίες σχετικά με τον τρόπο με τον οποίο ο Raj Chetty και οι συνάδελφοί του έχουν πρόσβαση στα φορολογικά μητρώα, βλ. Mervis (2014) .
Τα μεγάλα σύνολα δεδομένων μπορούν επίσης να δημιουργήσουν υπολογιστικά προβλήματα τα οποία είναι γενικά πέρα από τις δυνατότητες ενός μόνο υπολογιστή. Επομένως, οι ερευνητές που πραγματοποιούν υπολογισμούς σε μεγάλα σύνολα δεδομένων συχνά διαδίδουν το έργο σε πολλούς υπολογιστές, μια διαδικασία που ονομάζεται μερικές φορές παράλληλος προγραμματισμός . Για μια εισαγωγή στον παράλληλο προγραμματισμό, ιδιαίτερα μια γλώσσα που ονομάζεται Hadoop, βλ. Vo and Silvia (2016) .
Κατά την εξέταση πάντοτε δεδομένων, είναι σημαντικό να εξετάσετε αν συγκρίνετε τους ίδιους ανθρώπους με την πάροδο του χρόνου ή αν συγκρίνετε κάποια μεταβαλλόμενη ομάδα ανθρώπων. βλέπε για παράδειγμα Diaz et al. (2016) .
Ένα κλασικό βιβλίο για μη αντιδραστικά μέτρα είναι ο Webb et al. (1966) . Τα παραδείγματα σε αυτό το βιβλίο προηγούνται της ψηφιακής εποχής, αλλά εξακολουθούν να φωτίζονται. Για παραδείγματα ανθρώπων που αλλάζουν τη συμπεριφορά τους λόγω της μαζικής επιτήρησης, βλ. Penney (2016) και Brayne (2014) .
Η δραστικότητα σχετίζεται στενά με αυτό που οι ερευνητές ονομάζουν αποτελέσματα ζήτησης (Orne 1962; Zizzo 2010) και το φαινόμενο Hawthorne (Adair 1984; Levitt and List 2011) .
Για περισσότερες συνδέσεις, δείτε Dunn (1946) και Fellegi and Sunter (1969) (ιστορικός) και Larsen and Winkler (2014) (μοντέρνοι). Παρόμοιες προσεγγίσεις αναπτύχθηκαν επίσης στην επιστήμη των υπολογιστών με ονόματα όπως η deduplication των δεδομένων, η ταυτοποίηση των περιπτώσεων, η αντιστοίχιση ονομάτων, η ανίχνευση διπλών (Elmagarmid, Ipeirotis, and Verykios 2007) ανίχνευση διπλών εγγραφών (Elmagarmid, Ipeirotis, and Verykios 2007) . Υπάρχουν επίσης προσεγγίσεις διατήρησης της ιδιωτικής ζωής για τη σύνδεση των εγγραφών που δεν απαιτούν τη διαβίβαση πληροφοριών προσωπικής ταυτοποίησης (Schnell 2013) . Το Facebook έχει επίσης αναπτύξει μια διαδικασία σύνδεσης των αρχείων με τη συμπεριφορά των ψηφοφόρων. αυτό έγινε για να αξιολογήσει ένα πείραμα που θα σας πω στο κεφάλαιο 4 (Bond et al. 2012; Jones et al. 2013) .
Για περισσότερα σχετικά με την εγκυρότητα της δομής, βλ. Κεφάλαιο 3 των Shadish, Cook, and Campbell (2001) .
Για περισσότερα σχετικά με την καταστροφή του ημερολογίου αναζήτησης AOL, δείτε το Ohm (2010) . Προσφέρω συμβουλές σχετικά με τη συνεργασία με εταιρείες και κυβερνήσεις στο κεφάλαιο 4, όταν περιγράφω πειράματα. Ορισμένοι συγγραφείς εξέφρασαν ανησυχίες σχετικά με έρευνα που βασίζεται σε απρόσιτα δεδομένα, βλέπε Huberman (2012) και boyd and Crawford (2012) .
Ένας καλός τρόπος για πανεπιστημιακούς ερευνητές να αποκτήσουν πρόσβαση στα δεδομένα είναι να εργαστεί σε μια εταιρεία ως βοηθός ή επισκέπτης ερευνητής. Εκτός από τη δυνατότητα πρόσβασης στα δεδομένα, η διαδικασία αυτή θα βοηθήσει επίσης ο ερευνητής να μάθετε περισσότερα για το πώς δημιουργήθηκε τα δεδομένα, το οποίο είναι σημαντικό για την ανάλυση.
Από την άποψη της απόκτησης πρόσβασης σε κυβερνητικά στοιχεία, ο Mervis (2014) συζητά τον τρόπο με τον οποίο ο Raj Chetty και οι συνάδελφοί του είχαν πρόσβαση στα φορολογικά αρχεία που χρησιμοποιούνται στην έρευνα για την κοινωνική κινητικότητα.
Για περισσότερες πληροφορίες σχετικά με την ιστορία της «αντιπροσωπευτικότητας» ως έννοια, βλ. Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) και Kruskal and Mosteller (1980) .
Οι περιλήψεις μου για το έργο του Snow και το έργο της Doll and Hill ήταν σύντομες. Για περισσότερα σχετικά με το έργο του Χιόνι σχετικά με τη χολέρα, βλέπε Freedman (1991) . Για περισσότερες πληροφορίες σχετικά με τη βρετανική μελέτη γιατρών, βλ. Doll et al. (2004) και Keating (2014) .
Πολλοί ερευνητές θα εκπλαγούν από το γεγονός ότι παρόλο που η Doll και η Hill είχαν συλλέξει δεδομένα από γυναίκες γιατρούς και από γιατρούς κάτω των 35 ετών, σκόπιμα δεν χρησιμοποίησαν τα δεδομένα αυτά στην πρώτη τους ανάλυση. Όπως υποστήριξαν: "Καθώς ο καρκίνος του πνεύμονα είναι σχετικά σπάνιος σε γυναίκες και άνδρες κάτω των 35 ετών, είναι αδύνατο να υπάρξουν χρήσιμες πληροφορίες σε αυτές τις ομάδες για μερικά χρόνια. Στην παρούσα προκαταρκτική έκθεση περιορίσαμε την προσοχή μας σε άνδρες ηλικίας 35 ετών και άνω. »Οι Rothman, Gallacher, and Hatch (2013) , που φέρει τον προκλητικό τίτλο« Γιατί πρέπει να αποφευχθεί η αντιπροσωπευτικότητα », κάνουν πιο γενικό επιχείρημα για την αξία του δημιουργώντας σκόπιμα μη αντιπροσωπευτικά δεδομένα.
Η μη αντιπροσωπευτικότητα αποτελεί σημαντικό πρόβλημα για τους ερευνητές και τις κυβερνήσεις που επιθυμούν να κάνουν δηλώσεις για ολόκληρο τον πληθυσμό. Αυτό είναι λιγότερο ανησυχητικό για τις εταιρείες, οι οποίες συνήθως επικεντρώνονται στους χρήστες τους. Για περισσότερες πληροφορίες σχετικά με τον τρόπο με τον οποίο οι στατιστικές Ολλανδία θεωρούν το ζήτημα της μη αντιπροσωπευτικότητας των μεγάλων δεδομένων των επιχειρήσεων, βλ. Buelens et al. (2014) .
Για παραδείγματα ερευνητών που εκφράζουν την ανησυχία τους για τη μη αντιπροσωπευτική φύση των μεγάλων πηγών δεδομένων, βλ. boyd and Crawford (2012) , K. Lewis (2015b) και Hargittai (2015) .
Για μια πιο λεπτομερή σύγκριση των στόχων των κοινωνικών ερευνών και της επιδημιολογικής έρευνας, βλ. Keiding and Louis (2016) .
Για περισσότερες πληροφορίες σχετικά με τις προσπάθειες να χρησιμοποιήσετε το Twitter για να κάνετε γενικευμένες Jungherr (2013) σχετικά με τους ψηφοφόρους, ειδικά την περίπτωση των γερμανικών εκλογών του 2009, βλ. Jungherr (2013) και Jungherr (2015) . Μετά την εργασία των Tumasjan et al. (2010) ερευνητές σε όλο τον κόσμο έχουν χρησιμοποιήσει πιο φτηνές μεθόδους - όπως τη χρήση της αντίληψης των συναισθημάτων για να διακρίνουν τις θετικές και αρνητικές αναφορές των μερών - προκειμένου να βελτιωθεί η δυνατότητα των δεδομένων του Twitter να προβλέψουν μια ποικιλία διαφορετικών τύπων εκλογών (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Ακολουθεί ο τρόπος με τον οποίο ο Huberty (2015) συνόψισε τα αποτελέσματα αυτών των προσπαθειών για την πρόβλεψη των εκλογών:
"Όλες οι γνωστές μέθοδοι πρόβλεψης που βασίζονται σε κοινωνικά μέσα έχουν αποτύχει όταν υποβάλλονται στις απαιτήσεις μιας πραγματικής πρόβλεψης για προοπτικές. Αυτές οι αποτυχίες φαίνεται να οφείλονται σε θεμελιώδεις ιδιότητες των κοινωνικών μέσων και όχι σε μεθοδολογικές ή αλγοριθμικές δυσκολίες. Με λίγα λόγια, τα κοινωνικά μέσα μαζικής ενημέρωσης δεν προσφέρουν, και μάλλον ποτέ δεν θα προσφέρουν, μια σταθερή, αμερόληπτη και αντιπροσωπευτική εικόνα του εκλογικού σώματος. και τα δείγματα ευκολίας των κοινωνικών μέσων δεν διαθέτουν επαρκή δεδομένα για την επίλυση αυτών των προβλημάτων μετά την πάροδο του χρόνου ».
Στο κεφάλαιο 3, θα περιγράψω τη δειγματοληψία και την εκτίμηση σε πολύ περισσότερες λεπτομέρειες. Ακόμη και αν τα δεδομένα δεν είναι αντιπροσωπευτικά, υπό ορισμένες προϋποθέσεις, μπορούν να σταθμιστούν για να παράγουν καλές εκτιμήσεις.
Η μετακίνηση του συστήματος είναι πολύ δύσκολο να το δούμε από έξω. Ωστόσο, το πρόγραμμα MovieLens (που συζητήθηκε περισσότερο στο κεφάλαιο 4) εκτελέστηκε για περισσότερα από 15 χρόνια από μια ακαδημαϊκή ερευνητική ομάδα. Έτσι, μπόρεσαν να τεκμηριώσουν και να μοιραστούν πληροφορίες σχετικά με τον τρόπο με τον οποίο το σύστημα έχει εξελιχθεί με την πάροδο του χρόνου και πώς μπορεί να επηρεάσει την ανάλυση (Harper and Konstan 2015) .
Ένας αριθμός μελετητών έχει επικεντρωθεί στη μετατόπιση στο Twitter: Liu, Kliman-Silver, and Mislove (2014) και Tufekci (2014) .
Μια προσέγγιση για την αντιμετώπιση της μετατόπισης πληθυσμού είναι η δημιουργία μιας ομάδας χρηστών, η οποία επιτρέπει στους ερευνητές να μελετούν τους ίδιους ανθρώπους με την πάροδο του χρόνου, βλέπε Diaz et al. (2016) .
Άκουσα για πρώτη φορά τον όρο "αλγοριθμικά σύγχυση" που χρησιμοποίησε ο Jon Kleinberg σε μια ομιλία, αλλά δυστυχώς δεν θυμάμαι πότε ή πού δόθηκε ο λόγος. Την πρώτη φορά που είδα τον όρο σε έντυπη μορφή ήταν ο Anderson et al. (2015) , η οποία είναι μια ενδιαφέρουσα συζήτηση για το πώς οι αλγόριθμοι που χρησιμοποιούνται από τους χρονολογικούς ιστότοπους ενδέχεται να περιπλέξουν την ικανότητα των ερευνητών να χρησιμοποιούν δεδομένα από αυτές τις ιστοσελίδες για να μελετήσουν τις κοινωνικές προτιμήσεις. Αυτή η ανησυχία εγείρει ο K. Lewis (2015a) σε απάντηση στους Anderson et al. (2014) .
Εκτός από το Facebook, το Twitter συνιστά επίσης άτομα για τους χρήστες να ακολουθήσουν με βάση την ιδέα του τριαδικού κλεισίματος. βλέπε Su, Sharma, and Goel (2016) . Έτσι το επίπεδο της τριάδας κλεισίματος στο Twitter είναι ένας συνδυασμός κάποιας ανθρώπινης τάσης προς το τριαδικό κλείσιμο και κάποια αλγοριθμική τάση να προωθήσει το τριαδικό κλείσιμο.
Για περισσότερες πληροφορίες σχετικά με την απόδοση - ιδιαίτερα την ιδέα ότι ορισμένες θεωρίες κοινωνικών επιστημών είναι "κινητήρες που δεν είναι κάμερες" (δηλ. Διαμορφώνουν τον κόσμο και όχι απλά τον περιγράφουν) - βλέπε Mackenzie (2008) .
Οι κρατικές στατιστικές υπηρεσίες καλούν την επεξεργασία δεδομένων με στατιστικά στοιχεία . De Waal, Puts, and Daas (2014) περιγράφουν τεχνικές επεξεργασίας στατιστικών δεδομένων που αναπτύχθηκαν για δεδομένα έρευνας και εξετάζουν το βαθμό στον οποίο εφαρμόζονται σε μεγάλες πηγές δεδομένων και οι Puts, Daas, and Waal (2015) παρουσιάζουν μερικές από τις ίδιες ιδέες για ένα γενικότερο κοινό.
Για μια επισκόπηση των κοινωνικών bots, βλ. Ferrara et al. (2016) . Για μερικά παραδείγματα μελετών επικεντρωμένων στην εύρεση ανεπιθύμητων μηνυμάτων στο Twitter, βλ. Clark et al. (2016) και Chu et al. (2012) . Τέλος, οι Subrahmanian et al. (2016) περιγράφουν τα αποτελέσματα του DARPA Twitter Bot Challenge, μια μαζική συνεργασία που σχεδιάστηκε για να συγκρίνει προσεγγίσεις για την ανίχνευση bots στο Twitter.
Ohm (2015) σχολιάζει προηγούμενη έρευνα σχετικά με την ιδέα των ευαίσθητων πληροφοριών και προσφέρει μια δοκιμασία πολλαπλών παραγόντων. Οι τέσσερις παράγοντες που προτείνει είναι το μέγεθος της βλάβης, η πιθανότητα βλάβης, η ύπαρξη μιας εμπιστευτικής σχέσης και εάν ο κίνδυνος αντικατοπτρίζει τις ανησυχίες των μεγιστάνων.
Η μελέτη του Farber σχετικά με τα ταξί στη Νέα Υόρκη βασίστηκε σε μια προηγούμενη μελέτη του Camerer et al. (1997) που χρησιμοποίησε τρία διαφορετικά δείγματα ευκολίας φύλλων χαρτιού. Αυτή η προηγούμενη μελέτη διαπίστωσε ότι οι οδηγοί φαινόταν ότι ήταν στόχοι-στόχοι: εργάζονταν λιγότερο στις μέρες που οι μισθοί τους ήταν υψηλότεροι.
Σε επόμενες εργασίες, ο King και οι συνεργάτες του διερεύνησαν την ηλεκτρονική λογοκρισία στην Κίνα (King, Pan, and Roberts 2014, [@king_how_2016] ) . Για μια σχετική προσέγγιση για τη μέτρηση της ηλεκτρονικής λογοκρισίας στην Κίνα, βλ. Bamman, O'Connor, and Smith (2012) . Για περισσότερες πληροφορίες σχετικά με στατιστικές μεθόδους όπως αυτή που χρησιμοποιήθηκε στο King, Pan, and Roberts (2013) για να εκτιμήσετε το συναίσθημα των 11 εκατομμυρίων θέσεων, βλ. Hopkins and King (2010) . Για περισσότερα σχετικά με την εποπτευόμενη μάθηση, βλ. James et al. (2013) (λιγότερο τεχνικά) και Hastie, Tibshirani, and Friedman (2009) (πιο τεχνικό).
Η πρόβλεψη είναι ένα μεγάλο μέρος της επιστήμης των βιομηχανικών δεδομένων (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ένας τύπος προβλέψεων που γίνεται συνήθως από κοινωνικούς ερευνητές είναι η δημογραφική πρόβλεψη. βλέπε, για παράδειγμα, Raftery et al. (2012) .
Το Google Flu Trends δεν ήταν το πρώτο έργο που χρησιμοποίησε τα δεδομένα αναζήτησης για την επικράτηση της γρίπης Nowcast. Στην πραγματικότητα, οι ερευνητές των Ηνωμένων Πολιτειών (Polgreen et al. 2008; Ginsberg et al. 2009) και η Σουηδία (Hulth, Rydevik, and Linde 2009) διαπίστωσαν ότι ορισμένοι όροι αναζήτησης δεδομένα πριν από την απελευθέρωσή του. Στη συνέχεια πολλά, πολλά άλλα έργα προσπάθησαν να χρησιμοποιήσουν ψηφιακά δεδομένα ίχνους για ανίχνευση επιτήρησης ασθενειών. βλέπε Althouse et al. (2015) για ανασκόπηση.
Εκτός από τη χρήση δεδομένων ψηφιακού ίχνους για την πρόβλεψη των αποτελεσμάτων της υγείας, υπήρξε επίσης τεράστιο όγκο εργασίας με δεδομένα Twitter για την πρόβλεψη των αποτελεσμάτων των εκλογών. Για τις αναθεωρήσεις βλέπε Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (κεφάλαιο 7) και Huberty (2015) . Η παρουσίαση των οικονομικών δεικτών, όπως το ακαθάριστο εγχώριο προϊόν (ΑΕΠ), είναι επίσης κοινή στις κεντρικές τράπεζες, βλ. Bańbura et al. (2013) . ο πίνακας 2.8 περιλαμβάνει μερικά παραδείγματα μελετών που χρησιμοποιούν κάποιο είδος ψηφιακού ίχνους για την πρόβλεψη κάποιου είδους γεγονότος στον κόσμο.
Ψηφιακό ίχνος | Αποτέλεσμα | Παραπομπή |
---|---|---|
Κελάδημα | Έσοδα από ταινίες γραφικών στις ΗΠΑ | Asur and Huberman (2010) |
Αναζήτηση αρχείων καταγραφής | Πωλήσεις ταινιών, μουσικής, βιβλίων και βιντεοπαιχνιδιών στις ΗΠΑ | Goel et al. (2010) |
Κελάδημα | Dow Jones Industrial Average (χρηματιστηριακή αγορά των ΗΠΑ) | Bollen, Mao, and Zeng (2011) |
Κοινωνικά μέσα και αρχεία καταγραφής αναζήτησης | Έρευνες για το επενδυτικό κλίμα και τις χρηματιστηριακές αγορές στις Ηνωμένες Πολιτείες, το Ηνωμένο Βασίλειο, τον Καναδά και την Κίνα | Mao et al. (2015) |
Αναζήτηση αρχείων καταγραφής | Επικράτηση του πυρετού του δάγγειου πυρετού στη Σιγκαπούρη και τη Μπανγκόκ | Althouse, Ng, and Cummings (2011) |
Τέλος, ο Jon Kleinberg και οι συνάδελφοί του (2015) επεσήμαναν ότι τα προβλήματα πρόβλεψης εμπίπτουν σε δύο, διακριτικά διαφορετικές κατηγορίες και ότι οι κοινωνικοί επιστήμονες τείνουν να εστιάζουν σε ένα και να αγνοούν το άλλο. Φανταστείτε έναν υπεύθυνο χάραξης πολιτικής, θα την καλέσω την Άννα, η οποία αντιμετωπίζει μια ξηρασία και πρέπει να αποφασίσει εάν θα προσλάβει έναν σαμάν για να κάνει χορό βροχής για να αυξήσει την πιθανότητα βροχής. Ένας άλλος υπεύθυνος για τη χάραξη πολιτικής, θα την ονομάσω Betty, πρέπει να αποφασίσει αν θα πάρει μια ομπρέλα για να δουλέψει για να αποφύγει να βρέξει στο σπίτι. Τόσο η Άννα όσο και η Betty μπορούν να πάρουν μια καλύτερη απόφαση εάν κατανοήσουν τον καιρό, αλλά πρέπει να γνωρίζουν διαφορετικά πράγματα. Η Άννα πρέπει να καταλάβει εάν ο χορός βροχής προκαλεί βροχή. Η Betty, από την άλλη πλευρά, δεν χρειάζεται να καταλάβει τίποτα για την αιτιότητα. Απλά χρειάζεται μια ακριβή πρόβλεψη. Οι κοινωνικοί ερευνητές επικεντρώνονται συχνά σε προβλήματα όπως αυτή που αντιμετωπίζει η Άννα - την οποία ο Kleinberg και οι συνεργάτες του αποκαλούν προβλήματα πολιτικής "όπως το βόλτα του χορού" - επειδή αφορούν ζητήματα αιτιότητας. Ερωτήσεις όπως αυτή που αντιμετωπίζει η Betty - την οποία ο Kleinberg και οι συνάδελφοί του αποκαλούν «πολιτικά προβλήματα που μοιάζουν με ομπρέλα» - μπορεί επίσης να είναι πολύ σημαντική, αλλά έχουν λάβει πολύ λιγότερη προσοχή από τους κοινωνικούς ερευνητές.
Το περιοδικό PS Political Science είχε ένα συμπόσιο για μεγάλα δεδομένα, αιτιώδη συμπεράσματα και επίσημη θεωρία και οι Clark and Golder (2015) συνοψίζουν κάθε συμβολή. Το περιοδικό Proceedings της Εθνικής Ακαδημίας Επιστημών των Ηνωμένων Πολιτειών της Αμερικής είχε ένα συμπόσιο για την αιτιώδη συμπεράσματα και τα μεγάλα δεδομένα, και ο Shiffrin (2016) συνοψίζει κάθε συμβολή. Για προσεγγίσεις μηχανικής μάθησης που προσπαθούν να εντοπίσουν αυτόματα φυσικά πειράματα μέσα σε μεγάλες πηγές δεδομένων, βλ. Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , και Sharma, Hofman, and Watts (2016) .
Όσον αφορά τα φυσικά πειράματα, το Dunning (2012) παρέχει μια εισαγωγική, βιβλίο-length θεραπεία με πολλά παραδείγματα. Για μια σκεπτικιστική άποψη των φυσικών πειραμάτων βλέπε Rosenzweig and Wolpin (2000) (οικονομικά) ή Sekhon and Titiunik (2012) (πολιτική επιστήμη). Deaton (2010) και οι Heckman and Urzúa (2010) υποστηρίζουν ότι η εστίαση στα φυσικά πειράματα μπορεί να οδηγήσει τους ερευνητές να επικεντρωθούν στην εκτίμηση των ασήμαντων αιτιωδών επιπτώσεων. Imbens (2010) αντιπαραβάλλει αυτά τα επιχειρήματα με μια πιο αισιόδοξη άποψη της αξίας των φυσικών πειραμάτων.
Όταν περιγράφουμε πώς ένας ερευνητής θα μπορούσε να προχωρήσει από την εκτίμηση του αποτελέσματος της σύνταξης στο αποτέλεσμα της υπηρεσίας, περιγράφω μια τεχνική που ονομάζεται οργάνων μεταβλητών . Imbens and Rubin (2015) , στα κεφάλαια 23 και 24, παρέχουν μια εισαγωγή και χρησιμοποιούν το σχέδιο λοταρίας ως παράδειγμα. Η επίδραση της στρατιωτικής θητείας στους επιθεωρητές ονομάζεται μερικές φορές η μέση αιτιώδης επίδραση (CAcE) και κάποιες φορές το τοπικό αποτέλεσμα της θεραπείας (LATE). Sovey and Green (2011) , οι Angrist and Krueger (2001) και ο Bollen (2012) παρέχουν ανασκοπήσεις της χρήσης των οργανικών μεταβλητών στην πολιτική, την οικονομία και την κοινωνιολογία και ο Sovey and Green (2011) αξιολόγηση μελετών με τη χρήση οργάνων μεταβλητών.
Αποδεικνύεται ότι το ντοκιμαντέρ του 1970 δεν ήταν, στην πραγματικότητα, σωστά τυχαίο. υπήρχαν μικρές αποκλίσεις από την καθαρή τυχαία (Fienberg 1971) . Berinsky and Chatfield (2015) υποστηρίζουν ότι αυτή η μικρή απόκλιση δεν είναι ουσιαστικά σημαντική και συζητά τη σημασία της κατάλληλης διεξαγωγής τυχαιοποίησης.
Όσον αφορά την αντιστοίχιση, βλέπε Stuart (2010) για μια αισιόδοξη αναθεώρηση, και Sekhon (2009) για μια απαισιόδοξη αναθεώρηση. Για περισσότερα σχετικά με την αντιστοίχιση ως ένα είδος κλάδεμα, βλ. Ho et al. (2007) . Η εύρεση ενός μοναδικού τέλειου αγώνα για κάθε άτομο είναι συχνά δύσκολη, και αυτό εισάγει μια σειρά περιπλοκών. Πρώτον, όταν δεν υπάρχουν ακριβείς αντιστοιχίσεις, οι ερευνητές πρέπει να αποφασίσουν πώς να μετρήσουν την απόσταση μεταξύ δύο μονάδων και αν μια δεδομένη απόσταση είναι αρκετά κοντά. Μια δεύτερη πολυπλοκότητα προκύπτει αν οι ερευνητές θέλουν να χρησιμοποιήσουν πολλαπλούς αγώνες για κάθε περίπτωση στην ομάδα θεραπείας, καθώς αυτό μπορεί να οδηγήσει σε ακριβέστερες εκτιμήσεις. Και τα δύο αυτά ζητήματα, καθώς και άλλα, περιγράφονται λεπτομερώς στο κεφάλαιο 18 των Imbens and Rubin (2015) . Βλ. Επίσης Μέρος ΙΙ του ( ??? ) .
Βλ. Dehejia and Wahba (1999) για ένα παράδειγμα όπου οι μέθοδοι αντιστοίχισης ήταν σε θέση να παράγουν εκτιμήσεις παρόμοιες με εκείνες από ένα τυχαίο ελεγχόμενο πείραμα. Αλλά, βλ. Arceneaux, Gerber, and Green (2006) και Arceneaux, Gerber, and Green (2010) για παραδείγματα όπου οι μέθοδοι αντιστοίχισης απέτυχαν να αναπαράγουν ένα πειραματικό σημείο αναφοράς.
Rosenbaum (2015) και οι Hernán and Robins (2016) προσφέρουν άλλες συμβουλές για να ανακαλύψουν χρήσιμες συγκρίσεις μέσα σε μεγάλες πηγές δεδομένων.