Demande amplifiée en utilisant un modèle prédictif pour combiner des données d'enquête provenant de quelques personnes avec une grande source de données provenant de nombreuses personnes.
Une façon différente de combiner les enquêtes et les sources de données volumineuses est un processus que j'appellerai une demande amplifiée . Dans une demande amplifiée, un chercheur utilise un modèle prédictif pour combiner une petite quantité de données d'enquête avec une grande source de données afin de produire des estimations à une échelle ou une granularité qui ne seraient pas possibles avec l'une ou l'autre source de données individuellement. Un exemple important de demande amplifiée vient du travail de Joshua Blumenstock, qui voulait recueillir des données qui pourraient aider à guider le développement dans les pays pauvres. Par le passé, les chercheurs qui collectaient ce type de données devaient généralement adopter l'une des deux approches suivantes: des enquêtes par sondage ou des recensements. Les enquêtes par sondage, où les chercheurs interrogent un petit nombre de personnes, peuvent être flexibles, opportunes et relativement bon marché. Cependant, ces enquêtes, parce qu'elles sont basées sur un échantillon, sont souvent limitées dans leur résolution. Avec une enquête par sondage, il est souvent difficile de faire des estimations sur des régions géographiques spécifiques ou sur des groupes démographiques spécifiques. D'un autre côté, les recensements tentent d'interviewer tout le monde et peuvent donc être utilisés pour produire des estimations pour de petites régions géographiques ou des groupes démographiques. Mais les recensements sont généralement coûteux, très ciblés (ils n'incluent qu'un petit nombre de questions), et ne sont pas opportuns (ils se déroulent selon un calendrier fixe, comme tous les dix ans) (Kish 1979) . Plutôt que de se contenter d'enquêtes par sondage ou de recensements, imaginez si les chercheurs pouvaient combiner les meilleures caractéristiques des deux. Imaginez si les chercheurs pouvaient poser chaque question à chaque personne chaque jour. De toute évidence, cette enquête omniprésente et permanente est une sorte de fantaisie en sciences sociales. Mais il semble que nous puissions commencer à approximer cela en combinant des questions d'enquête provenant d'un petit nombre de personnes avec des traces numériques provenant de nombreuses personnes.
Les recherches de Blumenstock ont débuté en partenariat avec le plus grand fournisseur de téléphonie mobile au Rwanda et la société a fourni des enregistrements de transactions anonymisées à environ 1,5 million de clients entre 2005 et 2009. Ces enregistrements contenaient des informations sur chaque appel et SMS, comme l'heure de début et l'emplacement géographique approximatif de l'appelant et du destinataire. Avant de parler des questions statistiques, il convient de souligner que cette première étape pourrait être l'une des plus difficiles pour de nombreux chercheurs. Comme je l'ai décrit au chapitre 2, la plupart des sources de données volumineuses sont inaccessibles aux chercheurs. Les méta-données téléphoniques, en particulier, sont particulièrement inaccessibles car il est fondamentalement impossible d'anonymiser et contient presque certainement des informations que les participants jugeraient sensibles (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Dans ce cas particulier, les chercheurs ont pris soin de protéger les données et leur travail a été supervisé par un tiers (c'est-à-dire leur IRB). Je reviendrai sur ces questions éthiques plus en détail au chapitre 6.
Blumenstock était intéressé à mesurer la richesse et le bien-être. Mais ces traits ne sont pas directement dans les enregistrements d'appels. En d'autres termes, ces enregistrements d'appel sont incomplets pour cette recherche - une caractéristique commune des sources de données volumineuses qui a été discutée en détail au chapitre 2. Cependant, il semble probable que les enregistrements d'appels contiennent des informations indirectes sur la richesse et bien-être. Étant donné cette possibilité, Blumenstock a demandé s'il était possible de former un modèle d'apprentissage automatique pour prédire comment quelqu'un répondra à un sondage en fonction de ses enregistrements d'appels. Si cela était possible, Blumenstock pourrait utiliser ce modèle pour prédire les réponses à l'enquête des 1,5 million de clients.
Afin de construire et de former un tel modèle, Blumenstock et des assistants de recherche de l'Institut des Sciences et Technologies de Kigali ont appelé un échantillon aléatoire d'environ un millier de clients. Les chercheurs ont expliqué les objectifs du projet aux participants, leur ont demandé leur consentement pour lier les réponses au sondage, puis leur ont posé une série de questions pour mesurer leur richesse et leur bien-être, comme «Possédez-vous un radio? "et" Possédez-vous un vélo? "(voir figure 3.14 pour une liste partielle). Tous les participants à l'enquête ont été rémunérés financièrement.
Ensuite, Blumenstock a utilisé une procédure en deux étapes commune à l'apprentissage automatique: l'ingénierie de fonctions suivie d'un apprentissage supervisé. Tout d'abord, dans l'étape de l' ingénierie des caractéristiques , pour tous ceux qui ont été interviewés, Blumenstock a converti les enregistrements d'appel en un ensemble de caractéristiques concernant chaque personne; Les scientifiques de données pourraient appeler ces caractéristiques «caractéristiques» et les spécialistes des sciences sociales les appelleraient «variables». Par exemple, pour chaque personne, Blumenstock a calculé le nombre total de jours d'activité, le nombre de personnes distinctes avec lesquelles une personne a été en contact, le montant d'argent dépensé sur le temps d'antenne, et ainsi de suite. De manière critique, l'ingénierie de bonnes caractéristiques nécessite une connaissance du cadre de recherche. Par exemple, s'il est important de faire la distinction entre les appels nationaux et internationaux (on peut s'attendre à ce que les personnes qui appellent internationalement soient plus riches), cela doit être fait à l'étape de l'ingénierie des fonctionnalités. Un chercheur ayant une faible compréhension du Rwanda pourrait ne pas inclure cette caractéristique, et alors la performance prédictive du modèle en souffrirait.
Ensuite, dans l'étape d' apprentissage supervisé , Blumenstock a construit un modèle pour prédire la réponse de l'enquête pour chaque personne en fonction de leurs caractéristiques. Dans ce cas, Blumenstock a utilisé la régression logistique, mais il aurait pu utiliser une variété d'autres approches statistiques ou d'apprentissage automatique.
Alors, comment cela a-t-il fonctionné? Est-ce que Blumenstock était capable de prédire les réponses aux questions du sondage comme «Possédez-vous une radio?» Et «Possédez-vous une bicyclette?» En utilisant des fonctions dérivées des enregistrements d'appels? Afin d'évaluer la performance de son modèle prédictif, Blumenstock a utilisé la validation croisée , une technique couramment utilisée en science des données mais rarement en sciences sociales. L'objectif de la validation croisée est de fournir une évaluation juste des performances prédictives d'un modèle en le formant et en le testant sur différents sous-ensembles de données. En particulier, Blumenstock a divisé ses données en 10 morceaux de 100 personnes chacun. Ensuite, il a utilisé neuf des morceaux pour former son modèle, et la performance prédictive du modèle formé a été évaluée sur le morceau restant. Il a répété cette procédure 10 fois - avec chaque morceau de données obtenant un tour comme données de validation - et a fait la moyenne des résultats.
L'exactitude des prédictions était élevée pour certains caractères (figure 3.14); par exemple, Blumenstock pourrait prédire avec 97,6% de précision si quelqu'un possédait une radio. Cela peut sembler impressionnant, mais il est toujours important de comparer une méthode de prédiction complexe à une alternative simple. Dans ce cas, une alternative simple est de prédire que tout le monde donnera la réponse la plus commune. Par exemple, 97,3% des répondants ont déclaré posséder une radio, donc si Blumenstock avait prédit que tout le monde déclarerait posséder une radio, il aurait une précision de 97,3%, ce qui est étonnamment similaire à la performance de sa procédure plus complexe. . En d'autres termes, toutes les données fantaisie et la modélisation ont augmenté la précision de la prévision de 97,3% à 97,6%. Cependant, pour d'autres questions, telles que «Possédez-vous un vélo?», Les prévisions sont passées de 54,4% à 67,6%. Plus généralement, la figure 3.15 montre que pour certains traits, Blumenstock ne s'est pas beaucoup amélioré au-delà de la simple prédiction de la ligne de base, mais pour d'autres traits, il y a eu une certaine amélioration. En regardant juste ces résultats, cependant, vous pourriez ne pas penser que cette approche est particulièrement prometteuse.
Cependant, juste un an plus tard, Blumenstock et deux collègues - Gabriel Cadamuro et Robert On - ont publié un article dans Science avec des résultats sensiblement meilleurs (Blumenstock, Cadamuro, and On 2015) . Deux raisons techniques principales expliquent cette amélioration: (1) ils ont utilisé des méthodes plus sophistiquées (une nouvelle approche de l'ingénierie des caractéristiques et un modèle plus sophistiqué pour prédire les réponses des caractéristiques) et (2) plutôt que d'essayer de déduire les réponses individuelles. questions d'enquête (p. ex., possédez-vous une radio?), ils ont tenté de déduire un indice de richesse composite. Ces améliorations techniques signifient qu'ils pourraient faire un travail raisonnable d'utiliser les enregistrements d'appels pour prédire la richesse pour les personnes dans leur échantillon.
Cependant, prédire la richesse des personnes de l'échantillon n'était pas le but ultime de la recherche. Rappelez-vous que le but ultime était de combiner certaines des meilleures caractéristiques des enquêtes par sondage et des recensements pour produire des estimations exactes et à haute résolution de la pauvreté dans les pays en développement. Pour évaluer leur capacité à atteindre cet objectif, Blumenstock et ses collègues ont utilisé leur modèle et leurs données pour prédire la richesse de tous les 1,5 million de personnes dans les enregistrements d'appels. Et ils ont utilisé l'information géospatiale intégrée dans les enregistrements d'appel (rappelez-vous que les données comprenaient l'emplacement de la tour cellulaire la plus proche pour chaque appel) pour estimer le lieu de résidence approximatif de chaque personne (figure 3.17). En combinant ces deux estimations, Blumenstock et ses collaborateurs ont produit une estimation de la répartition géographique de la richesse des abonnés à une granularité spatiale extrêmement fine. Par exemple, ils pourraient estimer la richesse moyenne dans chacune des 2 148 cellules du Rwanda (la plus petite unité administrative du pays).
Dans quelle mesure ces estimations correspondaient-elles au niveau réel de la pauvreté dans ces régions? Avant de répondre à cette question, je tiens à souligner qu'il y a beaucoup de raisons d'être sceptique. Par exemple, la capacité à faire des prédictions au niveau individuel était assez bruyante (figure 3.17). Et, peut-être plus important encore, les personnes ayant un téléphone mobile peuvent être systématiquement différentes des personnes sans téléphone portable. Ainsi, Blumenstock et ses collègues pourraient souffrir des types d'erreurs de couverture qui ont biaisé l'enquête de 1936 Literary Digest que j'ai décrite plus tôt.
Pour avoir une idée de la qualité de leurs estimations, Blumenstock et ses collègues devaient les comparer à quelque chose d'autre. Heureusement, à peu près au même moment que leur étude, un autre groupe de chercheurs menait une enquête sociale plus traditionnelle au Rwanda. Cette autre enquête, qui faisait partie du très respecté programme d'enquêtes démographiques et sanitaires, disposait d'un budget important et utilisait des méthodes traditionnelles de haute qualité. Par conséquent, les estimations de l'Enquête démographique et de santé pourraient raisonnablement être considérées comme des estimations standard. Lorsque les deux estimations ont été comparées, elles étaient assez similaires (figure 3.17). En d'autres termes, en combinant une petite quantité de données d'enquête avec les enregistrements d'appels, Blumenstock et ses collègues ont été en mesure de produire des estimations comparables à celles des approches de référence.
Un sceptique pourrait voir ces résultats comme une déception. Après tout, une façon de les voir est de dire qu'en utilisant le big data et l'apprentissage automatique, Blumenstock et ses collègues ont pu produire des estimations qui pourraient être rendues plus fiables par des méthodes déjà existantes. Mais je ne pense pas que ce soit la bonne façon de penser à cette étude pour deux raisons. Premièrement, les estimations de Blumenstock et de ses collègues étaient environ 10 fois plus rapides et 50 fois moins chères (lorsque le coût est mesuré en termes de coûts variables). Comme je l'ai dit plus tôt dans ce chapitre, les chercheurs ignorent le coût à leurs risques et périls. Dans ce cas, par exemple, la baisse spectaculaire des coûts signifie qu'au lieu de se dérouler toutes les quelques années - comme c'est le cas pour les enquêtes démographiques et sanitaires - ce type d'enquête pourrait être effectué tous les mois, ce qui présenterait de nombreux avantages pour les chercheurs et les fabricants. La deuxième raison de ne pas prendre le point de vue des sceptiques est que cette étude fournit une recette de base qui peut être adaptée à de nombreuses situations de recherche différentes. Cette recette n'a que deux ingrédients et deux étapes. Les ingrédients sont (1) une grande source de données qui est large mais mince (c.-à-d., Elle a beaucoup de gens mais pas l'information dont vous avez besoin pour chaque personne) et (2) une enquête étroite mais épaisse (c.-à-d. quelques personnes, mais il a l'information dont vous avez besoin sur ces personnes). Ces ingrédients sont ensuite combinés en deux étapes. Tout d'abord, pour les personnes des deux sources de données, créez un modèle d'apprentissage automatique qui utilise la source de données volumineuse pour prédire les réponses à l'enquête. Ensuite, utilisez ce modèle pour imputer les réponses à l'enquête de tout le monde dans la grande source de données. Ainsi, s'il y a une question que vous voulez poser à beaucoup de gens, cherchez une grande source de données de ces personnes qui pourraient être utilisées pour prédire leur réponse, même si vous ne vous souciez pas de la grande source de données . C'est-à-dire que Blumenstock et ses collègues ne se soucient pas intrinsèquement des enregistrements d'appels; ils se préoccupaient uniquement des enregistrements d'appels, car ils pouvaient être utilisés pour prédire les réponses aux sondages dont ils se préoccupaient. Cette caractéristique - seulement l'intérêt indirect dans la grande source de données - rend la demande amplifiée différente de la demande intégrée, que j'ai décrite plus tôt.
En conclusion, l'approche de demande amplifiée de Blumenstock a combiné les données d'enquête avec une grande source de données pour produire des estimations comparables à celles d'une enquête de référence. Cet exemple particulier clarifie également certains des compromis entre les méthodes d'interrogation amplifiées et traditionnelles. Les estimations demandées amplifiées étaient plus opportunes, substantiellement moins chères et plus granulaires. Mais, d'un autre côté, il n'y a pas encore de base théorique solide pour ce type de demande amplifiée. Cet exemple unique ne montre pas quand cette approche fonctionnera et quand elle ne fonctionnera pas, et les chercheurs utilisant cette approche doivent être particulièrement préoccupés par les biais possibles causés par qui est inclus - et qui n'est pas inclus - dans leur grande source de données. De plus, l'approche de demande amplifiée n'a pas encore de bons moyens de quantifier l'incertitude autour de ses estimations. Heureusement, la demande amplifiée a des liens profonds avec trois grandes régions dans l'estimation des statistiques-petites régions (Rao and Molina 2015) , l'imputation (Rubin 2004) et la poststratification basée sur le modèle (elle-même étroitement liée à MP, la méthode que j'ai décrite plus tôt dans le chapitre) (Little 1993) . En raison de ces liens profonds, je pense que bon nombre des fondements méthodologiques de la demande amplifiée seront bientôt améliorés.
Enfin, la comparaison des première et deuxième tentatives de Blumenstock illustre également une leçon importante sur la recherche sociale en numérique: le début n'est pas la fin. C'est, à plusieurs reprises, la première approche ne sera pas la meilleure, mais si les chercheurs continuent à travailler, les choses peuvent aller mieux. Plus généralement, lors de l'évaluation de nouvelles approches de la recherche sociale à l'ère numérique, il est important de faire deux évaluations distinctes: (1) Dans quelle mesure cela fonctionne-t-il maintenant? et (2) Dans quelle mesure cela fonctionnera-t-il dans l'avenir à mesure que le paysage des données change et que les chercheurs accordent plus d'attention au problème? Bien que les chercheurs soient formés pour faire le premier type d'évaluation, le second est souvent plus important.