La vinculació de l'enquesta d'empremtes digitals pot ser com tothom demanant a les seves preguntes en tot moment.
Demanant ve generalment en dues categories principals: enquestes per mostreig i censos. Les enquestes per mostreig, on s'accedeix a un petit nombre de persones, pot ser flexible, oportuna, i relativament barat. No obstant això, les enquestes per mostreig, ja que es basen en una mostra, sovint són limitats en la seva resolució; amb una enquesta per mostreig, sovint és difícil fer estimacions sobre regions geogràfiques específiques o per a grups demogràfics específics. Censos, de l'altra, l'intent d'entrevistar a tots els membres de la població. Ells tenen una gran resolució, però en general són cars i estret en el focus (que només inclouen un petit nombre de preguntes), i no puntual (que ocorren en un horari fix, per exemple, cada 10 anys) (Kish 1979) . Ara imagini si els investigadors podrien combinar les millors característiques de les enquestes per mostreig i censos; imaginar si els investigadors podrien fer totes les preguntes a tothom tots els dies.
Òbviament, aquesta contínua, ubiqua i sempre actiu enquesta és una espècie de fantasia de la ciència social. Sembla, però, que podem començar a aproximar mitjançant la combinació de preguntes de l'enquesta a partir d'un petit nombre de persones amb les empremtes digitals de moltes persones. Jo dic a aquest tipus de combinació s'amplifica preguntar. Si es fa bé, podria ajudar ens proporciona estimen que són més local (per àrees geogràfiques més petites), més granular (per a grups demogràfics específics), i més oportuna.
Un exemple de preguntar amplificada prové de l'obra de Joshua Blumenstock, que volia recollir dades que ajudarien a guiar el desenvolupament en els països pobres. Més específicament, Blumenstock volia crear un sistema per mesurar la riquesa i el benestar que combina la integritat d'un cens amb la flexibilitat i la freqüència d'una enquesta (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . De fet, ja he descrit el treball de Blumenstock breument en el capítol 1.
Per començar, Blumenstock es va associar amb el major proveïdor de telefonia mòbil a Rwanda. La companyia li va proporcionar registres de transaccions anònimes d'al voltant de 1,5 milions de clients que cobreixen el comportament entre 2005 i 2009. Els registres contenen informació sobre cada missatge de crida i text, com l'hora d'inici, durada i ubicació geogràfica aproximada de la persona que truca i el receptor. Abans de començar a parlar de les qüestions estadístiques, val la pena assenyalar que aquest primer pas pot ser un dels més difícils. Com es descriu en el capítol 2, la majoria de traces de dades digital és inaccessible per als investigadors. I, moltes empreses estan justificadament reticents a compartir les seves dades, ja que és privat; és a dir, els seus clients probablement no esperaven que els seus registres seran compartits en massa a força d'investigadors. En aquest cas, els investigadors van prendre mesures acurades per anonimitzar les dades i el seu treball va ser supervisat per un tercer (és a dir, la seva IRB). Però, malgrat aquests esforços, aquestes dades són probablement encara identificables i són susceptibles de contenir informació sensible (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Vaig a tornar a aquesta qüestió ètica en el capítol 6.
Recordem que Blumenstock estava interessat en mesurar la riquesa i el benestar. No obstant això, aquests trets no són directament en els registres de trucades. En altres paraules, aquests són els registres de trucades incompletes per a aquesta investigació, una característica comuna d'empremtes digitals que es discuteix en detall en el capítol 2. No obstant això, sembla probable que els registres de trucades probable que tinguin alguna informació sobre la riquesa i el benestar. Per tant, una manera de plantejar la pregunta de Blumenstock podria ser: ¿és possible predir com algú va a respondre a una enquesta basada en les seves dades de rastreig digitals? Si és així, a continuació, fent unes quantes persones que podem endevinar les respostes de tots els altres.
Per avaluar això empíricament, Blumenstock i assistents d'investigació de Kigali Institut de Ciència i Tecnologia anomenen una mostra de prop d'un miler de clients de telefonia mòbil. Els investigadors van explicar els objectius del projecte als participants, els demana el seu consentiment per vincular les respostes de l'enquesta als registres de trucades, i després se'ls va demanar una sèrie de preguntes per mesurar la seva riquesa i el benestar, com ara "És propietari d'una ràdio? "i" És propietari d'una bicicleta? "(vegeu la figura 3.11 per a una llista parcial). Tots els participants en l'enquesta van ser compensats econòmicament.
A continuació, Blumenstock va utilitzar un procediment de dos passos comú en la ciència de dades: l'enginyeria funció seguit d'aprenentatge supervisat. En primer lloc, en l'etapa d'enginyeria de funció, per a cada un que va ser entrevistat, Blumenstock converteix els registres de trucades a un conjunt de característiques de cada persona; científics de dades recorren a aquestes característiques "característiques" i els científics socials es diuen "variables." Per exemple, per a cada persona, Blumenstock calcula el nombre total de dies d'activitat, el nombre de persones diferents que una persona ha estat en contacte amb, la quantitat de diners gastats en temps en l'aire, i així successivament. Fonamentalment, la bona enginyeria funció requereix el coneixement del context de la investigació. Per exemple, si és important distingir entre trucades nacionals i internacionals (podríem esperar que les persones que criden a nivell internacional per ser més rics), llavors això s'ha de fer en l'etapa d'enginyeria funció. Un investigador amb poca comprensió de Rwanda no inclogui aquesta funció i, a continuació, el rendiment de predicció del model es veurà afectada.
A continuació, en l'etapa d'aprenentatge supervisat, Blumenstock va construir un model estadístic per predir la resposta de l'enquesta per a cada persona en funció de les seves característiques. En aquest cas, Blumenstock va utilitzar la regressió logística amb 10 vegades la validació creuada, però podria haver utilitzat una varietat d'altres enfocaments d'aprenentatge estadístic o de la màquina.
Així ho bé que va funcionar? Blumenstock era capaç de predir les respostes a les preguntes de l'enquesta com "És propietari d'una ràdio?" I "És propietari d'una bicicleta?" Ús de les funcions derivades dels registres de trucades? Una mena de. L'exactitud de les prediccions eren alts per a alguns trets (Figura 3.11). No obstant això, sempre és important comparar un mètode de predicció complexa contra una alternativa simple. En aquest cas, una alternativa simple és predir que tothom va a donar la resposta més comuna. Per exemple, el 97,3% va informar posseir una ràdio per la qual cosa si Blumenstock havia predit que tothom es reporten posseir una ràdio que hauria tingut una precisió del 97,3%, que és sorprenentment similar a l'actuació del seu procediment més complex (el 97,6% de precisió). En altres paraules, totes les dades de fantasia i modelatge augmentat la precisió de la predicció de 97,3% al 97,6%. No obstant això, per a altres preguntes, com "És propietari d'una bicicleta?", Les prediccions va millorar de 54,4% al 67,6%. De manera més general, la figura 3.12 mostra alguns trets Blumenstock no van millorar molt més enllà de simplement fer una simple predicció de la línia de base, però que per a altres trets va haver alguna millora.
En aquest punt vostè pot estar pensant que aquests resultats són una mica decebedor, però només un any després, Blumenstock i dos col·legues-Gabriel Cadamuro i Robert on-publicat un article a Science amb resultats substancialment millors (Blumenstock, Cadamuro, and On 2015) . Hi havia dues raons principals tècniques per a la millora: 1) que utilitzen mètodes més sofisticats (és a dir, un nou enfocament per oferir l'enginyeria i un model d'aprenentatge de màquina més sofisticada) i 2) en lloc de tractar d'inferir les respostes a les preguntes de l'enquesta individuals (per exemple, "És propietari d'una ràdio?"), van tractar d'inferir un índex de riquesa material compost.
Blumenstock i els seus col·legues van demostrar el rendiment del seu enfocament de dues maneres. En primer lloc, van trobar que per a la gent de la seva mostra, que podrien fer una bona feina de predir la seva riquesa de registres de trucades (Figura 3.14). En segon lloc, i cada vegada més important, Blumenstock i els seus col·legues van mostrar que el seu procediment podria produir estimacions d'alta qualitat de la distribució geogràfica de la riquesa a Rwanda. Més específicament, van usar el seu model d'aprenentatge de màquina, que va ser entrenat en la seva mostra de prop de 1.000 persones, per predir la riquesa dels 1,5 milions de persones en els registres de trucades. A més, amb les dades geoespacials incrustats en les dades de l'anomenada (cal recordar que les dades de trucada inclou la ubicació de l'antena de telefonia mòbil més proper per cada trucada), els investigadors van ser capaços d'estimar el lloc aproximat de residència de cada persona. Posar aquestes dues estimacions en conjunt, la investigació va produir una estimació de la distribució geogràfica de la riquesa d'abonat en granularitat espacial extremadament fina. Per exemple, es podria estimar la riquesa mitjana en cadascuna de les cèl·lules de Rwanda 2148 (la unitat administrativa més petita del país). Aquests valors predits de riquesa eren tan granular que eren difícils de comprovar. Per tant, els investigadors afegeixen els seus resultats per produir estimacions de la riquesa mitjana dels 30 districtes de Rwanda. Aquestes estimacions a nivell de districte van ser fortament relacionats amb les estimacions d'una enquesta tradicional patró or, l'Enquesta Demogràfica i de Salut de Rwanda (Figura 3.14). Encara que les estimacions de les dues fonts van ser similars, les estimacions de Blumenstock i els seus col·legues van ser aproximadament 50 vegades més barat i 10 vegades més ràpid (quan el cost de mesurar en termes de costos variables). Aquesta dramàtica disminució en el cost significa que en lloc d'executar cada pocs anys, com és el normal en les enquestes demogràfiques i de salut, el híbrid de petita enquesta, combinats amb grans dades de rastreig digitals es podria executar tots els mesos.
En conclusió, de Blumenstock amplificat demanant enfocament combinat de dades de l'enquesta amb dades de rastreig digitals per produir estimacions comparables amb les estimacions de l'enquesta del patró or. En aquest exemple particular, també aclareix alguns dels avantatges i desavantatges entre demanar amplificada i mètodes d'estudi tradicionals. En primer lloc, les estimacions que demanen amplificats van ser més oportuna, substancialment més barat, i més granular. Però, d'altra banda, en aquest moment, no hi ha una forta base teòrica per a aquest tipus de preguntar amplificat. És a dir, aquest un exemple no demostra quan es va a treballar i quan no ho farà. A més, l'enfocament de venda amplificada encara no té bones maneres de quantificar la incertesa al voltant de les seves estimacions. No obstant això, demanar amplificada té profundes connexions amb tres grans àrees de post-estratificació basada en estadístiques-model (Little 1993) , d'imputació (Rubin 2004) , i estimació d'àrees petites (Rao and Molina 2015) -i pel que espero que el progrés ser ràpid.
Demanant amplificada segueix una recepta bàsica que es pot adaptar a la seva situació particular. Hi ha dos ingredients i dos passos. Els dos ingredients són: 1) un conjunt de dades de rastreig digital que és ample però prima (és a dir, que té molta gent, però no la informació que necessita sobre cada persona) i 2) una enquesta que és estreta però gruixuda (és a dir, que té només unes poques persones, però té la informació que necessita sobre aquestes persones). Llavors, hi ha dos passos. En primer lloc, per a la gent de les dues fonts de dades, construir un model d'aprenentatge automàtic que utilitza dades de rastreig digitals per predir les respostes de l'enquesta. A continuació, utilitzar aquest model d'aprenentatge automàtic per a imputar les respostes de l'enquesta de tot el món en les dades de rastreig digitals. Per tant, si hi ha alguna pregunta que desitja demanar a un munt de gent, buscar dades de rastreig digitals d'aquelles persones que podrien ser utilitzats per predir la seva resposta.
Comparant el primer i el segon intent de Blumenstock al problema també il·lustra una lliçó important sobre la transició de la segona era d'enfocaments tercera era per a la investigació d'enquesta: el principi no és el final. És a dir, moltes vegades, el primer enfocament no serà el millor, però si els investigadors de treball continu, les coses poden millorar. De manera més general, en l'avaluació de nous enfocaments per a la investigació social a l'era digital, és important fer dues avaluacions diferents: 1) què tan bé funciona això ara i 2) Què tan bé pensa que això podria funcionar en el futur com el paisatge de dades canvis i com a investigadors dediquen més atenció al problema. Encara que, els investigadors estan capacitats per fer el primer tipus d'avaluació (el bo que és aquest tros particular de la investigació), la segona és sovint més important.