Amplified preguntant sobre un model predictiu per combinar dades d'enquestes d'algunes persones amb una gran font de dades de moltes persones.
Una manera diferent de combinar enquestes i grans fonts de dades és un procés al que vaig a trucar a la pregunta amplificada . En un qüestionari amplificat, un investigador utilitza un model predictiu per combinar una petita quantitat de dades d'enquestes amb una gran font de dades per produir estimacions a escala o granularitat que no serien possibles amb cap font de dades de forma individual. Un exemple important d'una pregunta amplificada prové del treball de Joshua Blumenstock, que volia recollir dades que podrien ajudar a guiar el desenvolupament dels països pobres. En el passat, els investigadors que recopilaven aquest tipus de dades en general havien de prendre un dels dos enfocaments: enquestes de mostra o censos. Les enquestes de mostres, on els investigadors entrevien a un nombre reduït de persones, poden ser flexibles, puntuals i relativament barates. No obstant això, aquestes enquestes, ja que es basen en una mostra, sovint estan limitades en la seva resolució. Amb una enquesta de mostra, sovint és difícil realitzar estimacions sobre regions geogràfiques específiques o sobre grups demogràfics específics. Els censos, d'altra banda, intenten entrevistar a tothom, de manera que es poden utilitzar per produir estimacions de petites regions geogràfiques o grups demogràfics. Tanmateix, els censos són generalment cars, estrets en l'enfocament (només inclouen un petit nombre de preguntes), i no puntuals (ocorren en un horari fix, com cada 10 anys) (Kish 1979) . En comptes d'enquadernar-se amb enquestes o censos de mostra, imagineu si els investigadors podrien combinar les millors característiques d'ambdós. Imagineu si els investigadors podrien fer cada pregunta a cada persona cada dia. Òbviament, aquesta enquesta omnipresent sempre és una espècie de fantasia de ciències socials. Però sembla que podem començar a aproximar-ho combinant preguntes d'enquestes d'un nombre reduït de persones amb petjades digitals de moltes persones.
La investigació de Blumenstock va començar quan es va associar amb el major proveïdor de telefonia mòbil a Rwanda i la companyia va proporcionar registres de transaccions anònims d'aproximadament 1,5 milions de clients entre 2005 i 2009. Aquests registres contenien informació sobre cada trucada i missatge de text, com ara l'hora d'inici, la durada , i localització geogràfica aproximada de la persona que truca i el receptor. Abans de parlar dels problemes estadístics, val la pena assenyalar que aquest primer pas pot ser un dels més difícils per a molts investigadors. Com he descrit al capítol 2, la majoria de les grans fonts de dades són inaccessibles per als investigadors. La meta-dades telefòniques, en particular, són especialment inaccessibles perquè, bàsicament, és impossible d'anonimizar i gairebé amb seguretat conté informació que els participants considerarien sensibles (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . En aquest cas, els investigadors van tenir cura de protegir les dades i el seu treball va ser supervisat per un tercer (és a dir, el seu IRB). Tornaré a aquestes qüestions ètiques amb més detall al capítol 6.
Blumenstock estava interessat a mesurar riquesa i benestar. Però aquests trets no són directament en els registres de trucades. En altres paraules, aquests registres de trucades són incomplets per a aquesta investigació, una característica comuna de grans fonts de dades que es va tractar detalladament en el capítol 2. No obstant això, sembla probable que els registres de trucades probablement tinguin certa informació que indirectament podria proporcionar informació sobre la riquesa i benestar. Davant aquesta possibilitat, Blumenstock va preguntar si era possible formar un model d'aprenentatge automàtic per predir com algú respondrà a una enquesta basada en els seus registres de trucades. Si això fos possible, Blumenstock podria utilitzar aquest model per predir les respostes de l'enquesta dels 1.5 milions de clients.
Per tal de construir i entrenar un model d'aquest tipus, Blumenstock i els assistents de recerca de l'Institut Kigali de Ciència i Tecnologia van convocar una mostra aleatòria d'uns mil clients. Els investigadors van explicar els objectius del projecte als participants, van sol·licitar el seu consentiment per vincular les respostes de l'enquesta als registres de les convocatòries, i després els va demanar una sèrie de preguntes per mesurar la seva riquesa i benestar, com ara "És propietari d'un ràdio "i" Tens una bicicleta? "(vegeu la figura 3.14 per a una llista parcial). Tots els participants en l'enquesta van ser compensats econòmicament.
A continuació, Blumenstock va utilitzar un procediment de dos passos comú en l'aprenentatge automàtic: l'enginyeria de característiques seguida de l'aprenentatge supervisat. En primer lloc, en l'etapa d' enginyeria de característiques , per a tots els entrevistats, Blumenstock va convertir els registres de trucades en un conjunt de característiques sobre cada persona; els científics de les dades podrien cridar a aquestes característiques "característiques" i els científics socials els anominarien "variables". Per exemple, per a cada persona, Blumenstock va calcular el nombre total de dies amb activitat, el nombre de persones diferents que una persona ha estat en contacte amb, quantitat de diners gastats en temps d'aire, etc. L'enginyeria crítica, de bona qualitat, requereix coneixements sobre l'entorn de recerca. Per exemple, si és important distingir entre les trucades nacionals i internacionals (és possible que les persones que diuen internacionalment siguin més riques), això s'ha de fer en l'etapa d'enginyeria de característiques. Un investigador amb poca comprensió de Rwanda podria no incloure aquesta característica i, a continuació, el rendiment predictiu del model pateix.
A continuació, en el pas d' aprenentatge tutelat , Blumenstock va construir un model per predir la resposta de l'enquesta a cada persona segons les seves característiques. En aquest cas, Blumenstock va utilitzar la regressió logística, però podria haver utilitzat una varietat d'altres enfocaments estadístics o d'aprenentatge automàtic.
Llavors, què tan bé va funcionar? Va ser que Blumenstock va poder predir respostes a preguntes d'enquestes com "És propietari d'una ràdio?" I "És propietari d'una bicicleta?" Usant funcions derivades dels registres de trucades? Per tal d'avaluar el rendiment del seu model predictiu, Blumenstock va utilitzar la validació creuada , una tècnica que s'utilitza habitualment en ciències de la informació, però rarament en ciències socials. L'objectiu de la validació creuada és proporcionar una avaluació justa del rendiment predictiu d'un model mitjançant la formació i la prova en diferents subconjunts de dades. En concret, Blumenstock divideix les seves dades en 10 trossos de 100 persones cadascuna. Després, va utilitzar nou trossos per entrenar el seu model, i es va avaluar el rendiment predictiu del model entrenat en la part restant. Va repetir aquest procediment 10 vegades, amb cada tros de dades obtenint un torn com a dades de validació i va promediar els resultats.
La precisió de les prediccions va ser alta per alguns trets (figura 3.14); per exemple, Blumenstock podria predir amb un 97.6% de precisió si algú posseïa una ràdio. Això pot semblar impressionant, però sempre és important comparar un mètode de predicció complex contra una alternativa senzilla. En aquest cas, una alternativa senzilla és predir que tothom donarà la resposta més comuna. Per exemple, el 97,3% dels enquestats va informar que era propietari d'una ràdio, de manera que si Blumenstock havia pronosticat que tots informarien que tenien una ràdio, hauria tingut una precisió del 97,3%, sorprenentment similar al rendiment del seu procediment més complex (97,6% d'exactitud) . En altres paraules, totes les dades i models de luxe van augmentar la precisió de la predicció del 97,3% al 97,6%. No obstant això, per a altres preguntes, com ara "Tens una bicicleta?", Les prediccions van millorar del 54,4% al 67,6%. Més generalment, la figura 3.15 mostra que, per a alguns trets, Blumenstock no va millorar molt més enllà de fer la simple predicció de línia de base, però que per a altres trets hi va haver alguna millora. Tanmateix, si observeu només aquests resultats, és possible que no consideri que aquest enfocament sigui particularment prometedor.
No obstant això, només un any més tard, Blumenstock i dos col·legues-Gabriel Cadamuro i Robert On-van publicar un article a Science amb resultats substancialment millors (Blumenstock, Cadamuro, and On 2015) . Hi havia dos motius tècnics principals per a aquesta millora: (1) van utilitzar mètodes més sofisticats (és a dir, un nou enfocament per a l'enginyeria de característiques i un model més sofisticat per predir respostes de les característiques) i (2) en comptes d'intentar inferir respostes a individus preguntes de l'enquesta (p. ex., "Tens una ràdio?"), van intentar deduir un índex de riquesa compost. Aquestes millores tècniques van permetre fer un treball raonable d'utilitzar registres de trucades per predir la riquesa de les persones en la seva mostra.
Predir la riquesa de la gent en la mostra, però, no era l'objectiu final de la investigació. Recordeu que l'objectiu final era combinar algunes de les millors característiques d'enquestes de mostra i censos per produir estimacions precises i d'alta resolució de la pobresa als països en desenvolupament. Per avaluar la seva capacitat d'assolir aquest objectiu, Blumenstock i els seus col·legues van utilitzar el seu model i les seves dades per predir la riquesa de tots els 1,5 milions de persones en els registres de les trucades. I van utilitzar la informació geoespacial incrustada en els registres de les trucades (recordeu que les dades incloïen la ubicació de la torre cel·lular més propera per a cada trucada) per estimar el lloc de residència aproximat de cada persona (figura 3.17). Amb aquestes dues estimacions junts, Blumenstock i col·legues van elaborar una estimació de la distribució geogràfica de la riquesa dels subscriptors a granularitat espacial extremadament fina. Per exemple, podrien estimar la riquesa mitjana en cadascuna de les 2.148 cel·les de Rwanda (la unitat administrativa més petita del país).
Què tan bé aquestes estimacions coincideixen amb el nivell actual de pobresa en aquestes regions? Abans de respondre a aquesta pregunta, vull destacar el fet que hi ha molts motius per ser escèptics. Per exemple, la capacitat de fer prediccions a nivell individual era bastant sorollosa (figura 3.17). I, potser més important, les persones amb telèfons mòbils poden ser sistemàticament diferents de les persones sense telèfons mòbils. D'aquesta manera, Blumenstock i col·legues podrien patir els tipus d'errors de cobertura que incloïen l'enquesta de 1936 Literary Digest que he descrit anteriorment.
Per obtenir una idea de la qualitat de les seves estimacions, Blumenstock i els seus col·legues necessitaven comparar-los amb una altra cosa. Afortunadament, al mateix temps que el seu estudi, un altre grup d'investigadors va fer una enquesta social més tradicional a Rwanda. Aquesta altra enquesta, que forma part del ampli programa de Demografia i Salut, ha tingut un gran pressupost i ha utilitzat mètodes tradicionals d'alta qualitat. Per tant, les estimacions de l'Enquesta demogràfica i de salut es podrien considerar raonablement estimacions d'or estàndard. Quan es van comparar les dues estimacions, eren molt similars (figura 3.17). En altres paraules, combinant una petita quantitat de dades d'enquestes amb els registres de la trucada, Blumenstock i els seus col·legues van poder produir estimacions comparables a les d'enfocaments estàndard d'or.
Un escèptic podria veure aquests resultats com una decepció. Després de tot, una manera de veure-les és dir que, mitjançant l'ús de grans dades i l'aprenentatge automàtic, Blumenstock i els seus col·legues van poder produir estimacions que podien ser fetes de manera més fiable per mètodes ja existents. Però no crec que aquesta sigui la forma correcta de pensar aquest estudi per dos motius. En primer lloc, les estimacions de Blumenstock i col·legues eren unes 10 vegades més ràpides i 50 vegades més barates (quan el cost es mesura en termes de costos variables). Com he argumentat anteriorment en aquest capítol, els investigadors ignoren els costos pel seu perill. En aquest cas, per exemple, la dramàtica disminució del cost implica que, en comptes d'executar-se cada pocs anys, com és habitual a les enquestes demogràfiques i de salut, aquest tipus d'enquesta es pot executar cada mes, la qual cosa proporcionaria nombrosos avantatges per als investigadors i les polítiques fabricants. La segona raó per no tenir en compte l'escèptic és que aquest estudi ofereix una recepta bàsica que es pot adaptar a moltes situacions de recerca diferents. Aquesta recepta només té dos ingredients i dos passos. Els ingredients són (1) una gran font de dades àmplia però prima (és a dir, té moltes persones però no la informació que necessita sobre cada persona) i (2) una enquesta que és estreta però gruixuda (és a dir, només té algunes persones, però té la informació que necessita sobre aquestes persones). Aquests ingredients es combinen en dos passos. En primer lloc, per a les persones en ambdues fonts de dades, construïu un model d'aprenentatge automàtic que utilitzi la gran font de dades per predir les respostes de l'enquesta. A continuació, utilitzeu aquest model per imputar les respostes de les enquestes de tothom a l'origen de dades grans. Per tant, si hi ha alguna pregunta que voleu demanar a moltes persones, busqueu una gran font de dades d'aquelles persones que podrien utilitzar-se per predir la seva resposta, fins i tot si no us importa el gran origen de dades . És a dir, Blumenstock i els seus col·legues no es preocupaven per sí mateixos dels registres de les trucades; només es preocupaven pels registres de trucades, ja que podien utilitzar-se per predir les respostes de les enquestes que tenien cura. Aquest interès indirecte, només indirecte, a la gran font de dades, fa que l'amplificació es faci diferent de la pregunta incrustada, que he descrit anteriorment.
En conclusió, l'enfocament ampliat de Blumenstock combinat les dades de les enquestes amb una gran font de dades per produir estimacions comparables a les d'una enquesta estàndard d'or. Aquest exemple en particular també aclareix algunes de les compensacions entre els mètodes d'enquesta amplificats i tradicionals. Les estimacions de pregunta amplificades van ser més oportunes, considerablement més barates i més granulars. Però, d'altra banda, encara no hi ha una base teòrica sòlida per a aquest tipus de preguntes amplificades. Aquest únic exemple no es mostra quan aquest enfocament funcionarà i quan no ho farà, i els investigadors que utilitzen aquest enfocament han de preocupar-se especialment pels possibles prejudicis causats per qui s'inclou -i qui no està inclòs- en la seva gran font de dades. A més, l'enfocament de pregunta amplificat encara no té bones maneres de quantificar la incertesa al voltant de les seves estimacions. Afortunadament, la pregunta amplificada té connexions profundes en tres grans àrees d'estimació estadística-petita àrea (Rao and Molina 2015) , imputació (Rubin 2004) i postratratació basada en models (que està molt relacionada amb el Sr. P., el mètode que he descrit anteriorment al capítol) (Little 1993) . A causa d'aquestes profundes connexions, espero que en breu es millorin molts dels fonaments metodològics de la sol·licitud amplificada.
Finalment, comparar els primers i segons intents de Blumenstock també il·lustra una important lliçó sobre la investigació social en l'era digital: el principi no és el final. És a dir, moltes vegades, el primer enfocament no serà el millor, però si els investigadors continuen treballant, les coses poden millorar. En general, en avaluar nous enfocaments de la recerca social en l'era digital, és important fer dues avaluacions diferents: (1) Què tan bé funciona això ara? i (2) Què tan bé funcionarà en el futur a mesura que el paisatge de dades canvia i com els investigadors dediquen més atenció al problema? Tot i que els investigadors estan capacitats per fer el primer tipus d'avaluació, el segon sovint és més important.