Η σύνδεση της έρευνας σας σε ψηφιακά ίχνη μπορεί να είναι σαν να ζητάμε από τον καθένα τις ερωτήσεις σας ανά πάσα στιγμή.
Ζητώντας έρχεται γενικά σε δύο κύριες κατηγορίες: δειγματοληπτικές έρευνες και απογραφές. Δειγματοληπτικές έρευνες, όπου μπορείτε να αποκτήσετε πρόσβαση σε ένα μικρό αριθμό ανθρώπων, μπορεί να είναι ευέλικτη, έγκαιρη και σχετικά φθηνό. Ωστόσο, δειγματοληπτικές έρευνες, διότι βασίζονται σε ένα δείγμα, είναι συχνά περιορισμένες στο ψήφισμά τους? με τη διενέργεια δειγματοληπτικής έρευνας, είναι συχνά δύσκολο να γίνουν εκτιμήσεις για συγκεκριμένες γεωγραφικές περιοχές ή για συγκεκριμένες δημογραφικές ομάδες. Απογραφές, από την άλλη, να προσπαθήσει να πάρει συνέντευξη από όλους στον πληθυσμό. Έχουν μεγάλη ανάλυση, αλλά είναι γενικά ακριβά, στενά στην εστίαση (που περιλαμβάνει μόνο ένα μικρό αριθμό ερωτήσεων), και όχι η έγκαιρη (που συμβαίνουν σε ένα καθορισμένο χρονοδιάγραμμα, όπως κάθε 10 έτη) (Kish 1979) . Τώρα φανταστείτε εάν οι ερευνητές θα μπορούσε να συνδυάσει τα καλύτερα χαρακτηριστικά των δειγματοληπτικών ερευνών και απογραφών? φανταστείτε αν οι ερευνητές θα μπορούσε να ζητήσει σε κάθε ερώτηση σε όλους κάθε μέρα.
Προφανώς, αυτή η συνεχής, πανταχού παρούσα, πάντα-on έρευνα είναι ένα είδος της φαντασίας των κοινωνικών επιστημών. Όμως, φαίνεται ότι μπορούμε να αρχίσουμε την προσέγγιση αυτή, συνδυάζοντας ερωτήσεις της έρευνας από έναν μικρό αριθμό ανθρώπων με ψηφιακά ίχνη από πολλούς ανθρώπους. Καλώ αυτό το είδος του συνδυασμού ενισχύεται ζητώντας. Αν γίνει καλά, θα μπορούσε να μας βοηθήσει να παρέχει εκτίμηση που είναι περισσότερο τοπικές (για μικρότερες γεωγραφικές περιοχές), πιο αναλυτική (για συγκεκριμένες δημογραφικές ομάδες), και πιο επίκαιρη.
Ένα παράδειγμα του ενισχυμένου ζητώντας προέρχεται από το έργο του Ιησού του Ναυή Blumenstock, ο οποίος ήθελε να συλλέγουν δεδομένα που θα βοηθήσουν την ανάπτυξη οδηγό στις φτωχές χώρες. Πιο συγκεκριμένα, Blumenstock ήθελε να δημιουργήσει ένα σύστημα για τη μέτρηση του πλούτου και της ευημερίας που σε συνδυασμό με την πληρότητα της απογραφής με την ευελιξία και τη συχνότητα μιας έρευνας (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Στην πραγματικότητα, έχω ήδη περιγραφεί έργο Blumenstock είναι εν συντομία στο κεφάλαιο 1.
Για να ξεκινήσετε, Blumenstock συνεργάζεται με το μεγαλύτερο πάροχο κινητής τηλεφωνίας στη Ρουάντα. Η εταιρεία του παρέχονται ανώνυμα αρχεία συναλλαγής από περίπου 1,5 εκατομμύρια πελάτες που καλύπτουν τη συμπεριφορά από το 2005 και το 2009. Τα αρχεία καταγραφής περιέχουν πληροφορίες σχετικά με κάθε μήνυμα κλήσης και το κείμενο, όπως την ώρα έναρξης, τη διάρκεια και τον κατά προσέγγιση γεωγραφική θέση του καλούντος και του δέκτη. Πριν αρχίσουμε να μιλάμε για τα στατιστικά θέματα, αξίζει να σημειωθεί ότι αυτό το πρώτο βήμα μπορεί να είναι ένα από τα δυσκολότερα. Όπως περιγράφεται στο κεφάλαιο 2, τα περισσότερα ψηφιακά δεδομένα ίχνους είναι απρόσιτες για τους ερευνητές. Και, πολλές εταιρείες είναι δικαιολογημένα διστάζουν να μοιράζονται τα στοιχεία τους, διότι είναι ιδιωτική? που είναι οι πελάτες τους, κατά πάσα πιθανότητα δεν περίμενα ότι τα αρχεία τους, θα μοιραστούν-χύμα-με τους ερευνητές. Στην περίπτωση αυτή, οι ερευνητές πήραν προσεκτικά βήματα για την ανωνυμοποίηση των δεδομένων και το έργο τους ήταν εποπτεύεται από τρίτους (δηλαδή, IRB τους). Όμως, παρά τις προσπάθειες αυτές, τα στοιχεία αυτά είναι πιθανώς ακόμα αναγνωρίσιμα και ενδέχεται να περιέχουν ευαίσθητες πληροφορίες (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Θα επιστρέψουμε σε αυτά ηθικό ζήτημα στο Κεφάλαιο 6.
Υπενθυμίζουμε ότι Blumenstock ενδιαφερόταν για τη μέτρηση του πλούτου και της ευημερίας. Όμως, αυτά τα χαρακτηριστικά δεν είναι άμεσα στα αρχεία κλήσεων. Με άλλα λόγια, αυτά τα αρχεία κλήσεων είναι ελλιπή για την έρευνα αυτή, ένα κοινό χαρακτηριστικό των ψηφιακών ιχνών που συζητήθηκε αναλυτικά στο κεφάλαιο 2. Ωστόσο, φαίνεται πιθανό ότι τα αρχεία κλήσεων έχουν πιθανώς κάποιες πληροφορίες σχετικά με τον πλούτο και την ευημερία. Έτσι, ένας τρόπος για να ζητήσει ερώτηση Blumenstock θα μπορούσε να είναι: είναι δυνατόν να προβλεφθεί πώς κάποιος θα ανταποκριθεί σε μια έρευνα που βασίζεται σε ψηφιακά δεδομένα ίχνη τους; Αν ναι, τότε ζητώντας από μερικούς ανθρώπους που μπορούμε να μαντέψει τις απαντήσεις από όλους τους άλλους.
Για την εκτίμηση αυτή εμπειρικά, Blumenstock και της έρευνας βοηθούς από Κιγκάλι Ινστιτούτο Επιστήμης και Τεχνολογίας που ονομάζεται ένα δείγμα περίπου χίλια πελάτες κινητής τηλεφωνίας. Οι ερευνητές εξήγησαν τους στόχους του προγράμματος στους συμμετέχοντες, ζητώντας τη συγκατάθεσή τους για να συνδεθούν οι απαντήσεις στην έρευνα στα αρχεία κλήσεων, και στη συνέχεια τους ζήτησε μια σειρά από ερωτήματα που αφορούν τον πλούτο τους και την ευημερία, όπως "Μην έχετε στην κατοχή σας ένα ραδιόφωνο; "και" Do έχετε ένα ποδήλατο; »(βλέπε σχήμα 3.11 για μια μερική λίστα). Όλοι οι συμμετέχοντες στην έρευνα είχαν αποζημιωθεί οικονομικά.
Στη συνέχεια, Blumenstock χρησιμοποιείται μια διαδικασία δύο σταδίων κοινά στην επιστήμη δεδομένων: μηχανική λειτουργία που ακολουθείται από εποπτευόμενη μάθηση. Κατ 'αρχάς, στο βήμα χαρακτηριστικό της μηχανικής, για τον καθένα που έδωσε συνέντευξη, Blumenstock μετατρέπονται τα αρχεία κλήσεων σε ένα σύνολο χαρακτηριστικών για κάθε άτομο? οι επιστήμονες τα δεδομένα θα μπορούσαν να θέσουν αυτά τα χαρακτηριστικά "χαρακτηριστικά" και κοινωνικοί επιστήμονες θα τους αποκαλούν «μεταβλητές». Για παράδειγμα, για κάθε άτομο, Blumenstock υπολογίζεται συνολικός αριθμός των ημερών με δραστηριότητα, ο αριθμός των διακριτών ανθρώπων που ένα άτομο έχει έρθει σε επαφή με, το ποσό των χρημάτων που δαπανώνται για χρόνο ομιλίας, και ούτω καθεξής. Κριτικά, καλό χαρακτηριστικό μηχανικού απαιτεί γνώση της ρύθμισης της έρευνας. Για παράδειγμα, αν είναι σημαντικό να γίνει διάκριση μεταξύ εγχώριων και διεθνών κλήσεων (θα μπορούσαμε να περιμένουμε από τους ανθρώπους που καλούν σε διεθνές επίπεδο να είναι πλουσιότεροι), τότε αυτό πρέπει να γίνει στο στάδιο δυνατότητα μηχανικής. Ένας ερευνητής με λίγη κατανόηση της Ρουάντα δεν θα μπορούσαν να περιλαμβάνουν αυτή τη λειτουργία, και στη συνέχεια η προβλεπτική επίδοση του μοντέλου θα υποφέρουν.
Στη συνέχεια, στο βήμα εποπτευόμενης μάθησης, Blumenstock έχτισε ένα στατιστικό μοντέλο για την πρόβλεψη της ανταπόκρισης στην έρευνα για κάθε άτομο με βάση τα χαρακτηριστικά τους. Σε αυτή την περίπτωση, Blumenstock χρησιμοποιείται λογιστικής παλινδρόμησης με 10-πλάσια διασταυρωμένης επικύρωσης, αλλά θα μπορούσε να χρησιμοποιηθεί μια ποικιλία από άλλες προσεγγίσεις στατιστικής ή μηχανικής μάθησης.
Έτσι το πόσο καλά είχε λειτουργήσει; Ήταν Blumenstock σε θέση να προβλέψει απαντήσεις σε έρευνα ερωτήσεις όπως "Μην έχετε στην κατοχή σας ένα ραδιόφωνο;" και "Μην έχετε στην κατοχή σας ένα ποδήλατο;" χρησιμοποιώντας τα χαρακτηριστικά που προέρχονται από τα αρχεία κλήσεων; Περίπου. Η ακρίβεια των προβλέψεων ήταν υψηλό για ορισμένους χαρακτηριστικά (Σχήμα 3.11). Αλλά, είναι πάντα σημαντικό να συγκρίνουμε μια σύνθετη μέθοδος πρόβλεψης έναντι απλή εναλλακτική λύση. Σε αυτήν την περίπτωση, μια απλή εναλλακτική λύση είναι να προβλέψουμε ότι ο καθένας θα δώσει την πιο συνηθισμένη απάντηση. Για παράδειγμα, το 97,3% ανέφερε ιδιοκτησία ενός ραδιοφωνικού οπότε αν Blumenstock είχε προβλέψει ότι ο καθένας θα αναφέρουν την ιδιοκτησία ενός ραδιοφώνου που θα είχε μια ακρίβεια 97,3%, η οποία είναι εκπληκτικά παρόμοια με την απόδοση των πιο σύνθετη διαδικασία του (97,6% ακρίβεια). Με άλλα λόγια, όλα τα φανταχτερά δεδομένων και μοντελοποίηση αύξησε την ακρίβεια της πρόβλεψης από 97,3% σε 97,6%. Ωστόσο, για άλλα θέματα, όπως το "Do έχετε ένα ποδήλατο;», οι προβλέψεις βελτιώθηκε από 54,4% σε 67,6%. Γενικότερα, το Σχήμα 3.12 δείχνει για ορισμένα χαρακτηριστικά Blumenstock δεν βελτιωθεί πολύ πέρα από απλά κάνοντας την απλή βασική πρόβλεψη, αλλά ότι για άλλα γνωρίσματα υπήρξε κάποια βελτίωση.
Σε αυτό το σημείο ίσως να σκέφτεται ότι αυτά τα αποτελέσματα είναι λίγο απογοητευτικό, αλλά μόλις ένα χρόνο αργότερα, Blumenstock και δύο συναδέλφους-Γαβριήλ Cadamuro και Robert On-δημοσίευσε ένα έγγραφο στην επιστήμη με σημαντικά καλύτερα αποτελέσματα (Blumenstock, Cadamuro, and On 2015) . Υπήρχαν δύο κύριοι τεχνικοί λόγοι για τη βελτίωση: 1) που χρησιμοποιούνται πιο εξελιγμένες μεθόδους (δηλαδή, μια νέα προσέγγιση για να χαρακτηρίσει μηχανική και ένα πιο εξελιγμένο μοντέλο μηχανικής μάθησης) και 2) αντί να προσπαθεί να συμπεράνουμε απαντήσεις σε επιμέρους ερωτήσεις της έρευνας (π.χ., "να έχετε ένα ραδιόφωνο;"), προσπάθησαν να συναγάγει ένα σύνθετο δείκτη πλούτου.
Blumenstock και συνεργάτες έδειξαν την απόδοση της προσέγγισής τους με δύο τρόπους. Κατ 'αρχάς, βρήκαν ότι για τους ανθρώπους στο δείγμα τους, θα μπορούσαν να κάνουν πολύ καλή δουλειά από την πρόβλεψη του πλούτου τους από τα αρχεία κλήσεων (Σχήμα 3.14). Δεύτερον, και όλο και πιο σημαντικό, Blumenstock και οι συνεργάτες του έδειξαν ότι η διαδικασία τους θα μπορούσε να παράγει εκτιμήσεις υψηλής ποιότητας της γεωγραφικής κατανομής του πλούτου στη Ρουάντα. Πιο συγκεκριμένα, θα χρησιμοποιηθεί η μηχανή τους μάθησης μοντέλο, το οποίο είχε εκπαιδευτεί στο δείγμα τους περίπου 1.000 ανθρώπους, να προβλέψουμε τον πλούτο όλων των 1.5 εκατομμυρίων ανθρώπων στα αρχεία κλήσεων. Περαιτέρω, με τις γεωχωρικών δεδομένων ενσωματώνονται στα δεδομένα κλήσεων (υπενθυμίσει ότι τα δεδομένα κλήσεων περιλαμβάνει τη θέση του πλησιέστερου κελί πύργος για κάθε κλήση), οι ερευνητές ήταν σε θέση να εκτιμήσει το κατά προσέγγιση τόπο διαμονής του κάθε ατόμου. Κάνοντας αυτές τις δύο εκτιμήσεις από κοινού, η έρευνα παρήγαγε μια εκτίμηση της γεωγραφικής κατανομής του πλούτου συνδρομητή σε εξαιρετικά λεπτή χωρική διακριτότητα. Για παράδειγμα, θα μπορούσαν να υπολογίζουν το μέσο όρο του πλούτου σε καθένα από 2148 κύτταρα Ρουάντα (η μικρότερη διοικητική μονάδα στη χώρα). Αυτές οι προβλεπόμενες τιμές του πλούτου ήταν τόσο κοκκώδη ήταν δύσκολο να ελεγχθεί. Έτσι, οι ερευνητές συγκεντρωτικά αποτελέσματα τους να παράγουν εκτιμήσεις του μέσου όρου του πλούτου των 30 συνοικίες της Ρουάντα. Οι εκτιμήσεις αυτές συνοικία επίπεδο ήταν στενά συνδεδεμένες με τις εκτιμήσεις από ένα χρυσό πρότυπο παραδοσιακό έρευνα, η Ρουάντα δημογραφική και την Υγεία Έρευνας (Σχήμα 3.14). Αν και οι εκτιμήσεις από τις δύο πηγές ήταν παρόμοια, οι εκτιμήσεις από Blumenstock και οι συνεργάτες του ήταν περίπου 50 φορές φθηνότερα και 10 φορές πιο γρήγορα (όταν το κόστος στο μετράται με βάση το μεταβλητό κόστος). Αυτή η δραματική μείωση του κόστους σημαίνει ότι αντί να τρέχουν κάθε λίγα χρόνια, όπως είναι πρότυπο για την δημογραφική και την Υγεία Έρευνες-το υβριδικό της μικρής έρευνας σε συνδυασμό με τα μεγάλα ψηφιακά δεδομένα ίχνος θα μπορούσε να τρέξει κάθε μήνα.
Εν κατακλείδι, Blumenstock του ενισχυμένου ζητώντας προσέγγιση σε συνδυασμό στοιχείων της έρευνας με δεδομένα ψηφιακών ιχνών να παράγουν εκτιμήσεις συγκρίσιμες με τις εκτιμήσεις της έρευνας χρυσό πρότυπο. Αυτό το συγκεκριμένο παράδειγμα διευκρινίζει, επίσης, μερικά από τα συμβιβασμών μεταξύ ενισχύονται ζητώντας και τις παραδοσιακές μεθόδους έρευνας. Κατ 'αρχάς, τα ενισχυμένα ζητώντας εκτιμήσεις ήταν πιο έγκαιρη, σημαντικά φθηνότερη και πιο αναλυτική. Αλλά, από την άλλη πλευρά, αυτή τη στιγμή, δεν υπάρχει μια ισχυρή θεωρητική βάση για αυτό το είδος του ενισχυμένου ζητούμενη. Δηλαδή, αυτό το παράδειγμα δεν εμφανίζονται όταν αυτό θα λειτουργήσει και όταν δεν θα. Περαιτέρω, η ενισχυμένη προσέγγιση ζητούμενη δεν έχει ακόμα καλοί τρόποι για να ποσοτικοποιηθεί η αβεβαιότητα γύρω από τις εκτιμήσεις της. Ωστόσο, ενισχυμένο ζητούμενη έχει βαθιές συνδέσεις σε τρεις μεγάλες περιοχές στις στατιστικές-μοντέλο που βασίζεται σε μετα-διαστρωμάτωση (Little 1993) , τον καταλογισμό (Rubin 2004) , και την εκτίμηση μικρής περιοχής (Rao and Molina 2015) -και γι 'αυτό αναμένουμε ότι η πρόοδος θα είναι ταχεία.
Ενισχύεται ζητούμενη ακολουθεί μια βασική συνταγή που μπορεί να προσαρμοστεί στην ιδιαίτερη κατάστασή σας. Υπάρχουν δύο συστατικά και δύο βήματα. Τα δύο συστατικά είναι 1) ένα ψηφιακό ίχνος σύνολο δεδομένων που είναι ευρεία, αλλά λεπτό (δηλαδή, έχει πολλούς ανθρώπους, αλλά όχι τις πληροφορίες που χρειάζεστε για κάθε άτομα) και 2) μια έρευνα που είναι στενή, αλλά παχύ (δηλαδή, έχει μόνο λίγοι άνθρωποι, αλλά έχει τις πληροφορίες που χρειάζεστε σχετικά με αυτούς τους ανθρώπους). Στη συνέχεια, υπάρχουν δύο στάδια. Κατ 'αρχάς, για τους ανθρώπους και στις δύο πηγές δεδομένων, να χτίσουν ένα μοντέλο μηχανικής μάθησης που χρησιμοποιεί ψηφιακά δεδομένα ίχνος για την πρόβλεψη της έρευνας απαντήσεις. Στη συνέχεια, χρησιμοποιήστε αυτό το μοντέλο μηχανικής μάθησης για να καταλογίσει την έρευνα απαντήσεις του καθενός στα δεδομένα ψηφιακών ιχνών. Έτσι, αν υπάρχει κάποια ερώτηση που θέλετε να ρωτήσετε για πολλούς ανθρώπους, αναζητήστε τα ψηφιακά δεδομένα ίχνη από εκείνους τους ανθρώπους που θα μπορούσε να χρησιμοποιηθεί για να προβλέψει την απάντησή τους.
Συγκρίνοντας την πρώτη και δεύτερη απόπειρα Blumenstock για το πρόβλημα παρουσιάζει επίσης ένα σημαντικό μάθημα σχετικά με τη μετάβαση από τη δεύτερη εποχή σε τρίτο προσεγγίσεις εποχή να ερευνήσει την έρευνα: η αρχή δεν είναι το τέλος. Δηλαδή, πολλές φορές, η πρώτη προσέγγιση δεν θα είναι η καλύτερη, αλλά αν οι ερευνητές τη συνέχιση των εργασιών, τα πράγματα μπορούν να γίνουν καλύτερα. Γενικότερα, κατά την αξιολόγηση των νέων προσεγγίσεων για την κοινωνική έρευνα στην ψηφιακή εποχή, είναι σημαντικό να γίνουν δύο ξεχωριστές αξιολογήσεις: 1) πόσο καλά κάνει αυτή τη δουλειά τώρα και 2) πόσο καλά νομίζετε ότι αυτό θα μπορούσε να λειτουργήσει στο μέλλον, καθώς το τοπίο των δεδομένων αλλαγές και ως ερευνητές δώσουν μεγαλύτερη προσοχή στο πρόβλημα. Παρά το γεγονός ότι, οι ερευνητές εκπαιδεύονται για να κάνει την πρώτη του είδους της αξιολόγησης (πόσο καλό είναι αυτό το συγκεκριμένο κομμάτι της έρευνας), η δεύτερη είναι συχνά πιο σημαντική.