Un type d'observation qui n'est pas inclus dans ce chapitre est l'ethnographie. Pour plus d'informations sur l'ethnographie dans les espaces numériques, voir Boellstorff et al. (2012) , et pour en savoir plus sur l'ethnographie dans les espaces numériques et physiques mixtes, voir Lane (2016) .
Il n'y a pas de définition unique du «big data», mais de nombreuses définitions semblent se concentrer sur les «3 V»: le volume, la variété et la vitesse (par exemple, Japec et al. (2015) ). Voir De Mauro et al. (2015) pour un examen des définitions.
Mon inclusion des données administratives du gouvernement dans la catégorie des Legewie (2015) est un peu inhabituelle, bien que d'autres aient également fait ce cas, y compris Legewie (2015) , Connelly et al. (2016) , et Einav and Levin (2014) . Pour plus d'informations sur la valeur des données administratives gouvernementales pour la recherche, voir Card et al. (2010) , Adminstrative Data Taskforce (2012) , et Grusky, Smeeding, and Snipp (2015) .
Pour une vue de la recherche administrative à l'intérieur du système statistique du gouvernement, en particulier le US Census Bureau, voir Jarmin and O'Hara (2016) . Pour un traitement de la recherche documentaire administrative à Statistics Sweden, voir Wallgren and Wallgren (2007) .
Dans le chapitre, j'ai brièvement comparé une enquête traditionnelle telle que l'Enquête sociale générale (ESG) avec une source de données de médias sociaux telle que Twitter. Pour une comparaison approfondie et prudente entre les enquêtes traditionnelles et les données sur les médias sociaux, voir Schober et al. (2016) .
Ces 10 caractéristiques des grandes données ont été décrites de diverses manières par différents auteurs. L'écriture qui a influencé ma réflexion sur ces questions inclut Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , et Goldstone and Lupyan (2016) .
Tout au long de ce chapitre, j'ai utilisé le terme de traces numériques , que je trouve relativement neutre. Un autre terme populaire pour les traces numériques est l'empreinte digitale (Golder and Macy 2014) , mais comme le soulignent Hal Abelson, Ken Ledeen et Harry Lewis (2008) , un terme plus approprié est probablement les empreintes numériques . Lorsque vous créez des empreintes de pas, vous êtes conscient de ce qui se passe et vos traces de pas ne peuvent généralement pas vous être tracées personnellement. La même chose n'est pas vraie pour vos traces numériques. En fait, vous laissez des traces tout le temps sur lesquelles vous avez très peu de connaissances. Et, bien que ces traces n'aient pas votre nom sur elles, elles peuvent souvent vous être liées. En d'autres termes, ils ressemblent plus à des empreintes digitales: invisibles et identifiables personnellement.
Pour plus d'informations sur les raisons pour lesquelles les grands ensembles de données rendent les tests statistiques problématiques, voir M. Lin, Lucas, and Shmueli (2013) et McFarland and McFarland (2015) . Ces questions devraient amener les chercheurs à se concentrer sur la signification pratique plutôt que sur la signification statistique.
Pour en savoir plus sur la façon dont Raj Chetty et ses collègues ont obtenu l'accès aux dossiers fiscaux, voir Mervis (2014) .
Les grands ensembles de données peuvent également créer des problèmes de calcul qui dépassent généralement les capacités d'un seul ordinateur. Par conséquent, les chercheurs effectuant des calculs sur de grands ensembles de données répandent souvent le travail sur de nombreux ordinateurs, un processus parfois appelé programmation parallèle . Pour une introduction à la programmation parallèle, en particulier un langage appelé Hadoop, voir Vo and Silvia (2016) .
Lorsque vous considérez les données permanentes, il est important de déterminer si vous comparez exactement les mêmes personnes au fil du temps ou si vous comparez un groupe de personnes changeant; voir par exemple, Diaz et al. (2016) .
Un livre classique sur les mesures non réactives est Webb et al. (1966) . Les exemples de ce livre sont antérieurs à l'ère numérique, mais ils sont toujours éclairants. Pour des exemples de personnes qui modifient leur comportement en raison de la présence d'une surveillance de masse, voir Penney (2016) et Brayne (2014) .
La réactivité est étroitement liée à ce que les chercheurs appellent les effets de la demande (Orne 1962; Zizzo 2010) et l'effet Hawthorne (Adair 1984; Levitt and List 2011) .
Pour en savoir plus sur le couplage d'enregistrements, voir Dunn (1946) et Fellegi and Sunter (1969) (historique) et Larsen and Winkler (2014) (moderne). Des approches similaires ont également été développées en informatique sous des noms tels que la déduplication des données, l'identification des instances, l'appariement des noms, la détection des doublons et la détection des doublons (Elmagarmid, Ipeirotis, and Verykios 2007) . Il existe également des approches préservant la confidentialité du couplage d'enregistrements qui ne nécessitent pas la transmission d'informations d'identification personnelle (Schnell 2013) . Facebook a également développé un processus pour lier leurs dossiers au comportement de vote; Cela a été fait pour évaluer une expérience dont je parlerai dans le chapitre 4 (Bond et al. 2012; Jones et al. 2013) .
Pour plus d'informations sur la validité Shadish, Cook, and Campbell (2001) , voir le chapitre 3 de Shadish, Cook, and Campbell (2001) .
Pour plus d'informations sur la débâcle du journal de recherche AOL, voir Ohm (2010) . Je donne des conseils sur le partenariat avec les entreprises et les gouvernements dans le chapitre 4 lorsque je décris des expériences. Un certain nombre d'auteurs ont exprimé des préoccupations au sujet de la recherche qui repose sur des données inaccessibles, voir Huberman (2012) et boyd and Crawford (2012) .
Une bonne façon pour les chercheurs universitaires d'acquérir l'accès aux données est de travailler dans une entreprise en tant que stagiaire ou chercheur invité. En plus de permettre l'accès aux données, ce processus aidera aussi le chercheur en savoir plus sur la façon dont les données ont été créés, ce qui est important pour l'analyse.
En ce qui concerne l'accès aux données gouvernementales, Mervis (2014) explique comment Raj Chetty et ses collègues ont obtenu l'accès aux dossiers fiscaux utilisés dans leurs recherches sur la mobilité sociale.
Pour en savoir plus sur l'histoire de la «représentativité» en tant que concept, voir Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) et Kruskal and Mosteller (1980) .
Mes résumés du travail de Snow et du travail de Doll and Hill ont été brefs. Pour plus d'informations sur le travail de Snow sur le choléra, voir Freedman (1991) . Pour plus d'informations sur l'étude des médecins britanniques, voir Doll et al. (2004) et Keating (2014) .
De nombreux chercheurs seront surpris d'apprendre que, bien que Doll et Hill aient recueilli des données auprès de femmes médecins et de médecins de moins de 35 ans, ils n'ont intentionnellement pas utilisé ces données dans leur première analyse. Comme ils le soutenaient: "Puisque le cancer du poumon est relativement rare chez les femmes et les hommes de moins de 35 ans, il est peu probable que des chiffres utiles soient obtenus dans ces groupes pour quelques années à venir. Dans ce rapport préliminaire, nous avons donc concentré notre attention sur les hommes âgés de 35 ans et plus. » Rothman, Gallacher, and Hatch (2013) , dont le titre provocateur« Pourquoi la représentativité doit être évitée », font un argument plus général pour la valeur de créer intentionnellement des données non représentatives.
La non-représentation est un problème majeur pour les chercheurs et les gouvernements qui souhaitent faire des déclarations sur une population entière. C'est moins une préoccupation pour les entreprises, qui sont généralement axés sur leurs utilisateurs. Pour en savoir plus sur la manière dont Statistics Netherlands considère la question de la non-représentativité des big data d'entreprise, voir Buelens et al. (2014) .
Pour des exemples de chercheurs qui s'inquiètent de la nature non représentative des grandes sources de données, voir boyd and Crawford (2012) , K. Lewis (2015b) et Hargittai (2015) .
Pour une comparaison plus détaillée des objectifs des enquêtes sociales et de la recherche épidémiologique, voir Keiding and Louis (2016) .
Pour en savoir plus sur les tentatives d'utiliser Twitter pour faire des généralisations hors-échantillon sur les électeurs, en particulier le cas des élections allemandes de 2009, voir Jungherr (2013) et Jungherr (2015) . Tumasjan et al. (2010) aux travaux de Tumasjan et al. (2010) chercheurs du monde entier ont utilisé des méthodes plus sophistiquées - comme l'utilisation de l'analyse des sentiments pour faire la distinction entre les mentions positives et négatives des partis - afin d'améliorer la capacité des données Twitter de prédire différents types d'élections (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Voici comment Huberty (2015) résume les résultats de ces tentatives pour prédire les élections:
"Toutes les méthodes de prévision connues basées sur les médias sociaux ont échoué lorsqu'elles ont été soumises aux exigences d'une véritable prévision électorale prospective. Ces échecs semblent être dus à des propriétés fondamentales des médias sociaux, plutôt qu'à des difficultés méthodologiques ou algorithmiques. Bref, les médias sociaux n'offrent pas, et ne le feront probablement jamais, une image stable, impartiale et représentative de l'électorat; et les échantillons de commodité des médias sociaux manquent de données suffisantes pour résoudre ces problèmes a posteriori. "
Au chapitre 3, je vais décrire l'échantillonnage et l'estimation de manière beaucoup plus détaillée. Même si les données ne sont pas représentatives, dans certaines conditions, elles peuvent être pondérées pour produire de bonnes estimations.
La dérive du système est très difficile à voir de l'extérieur. Cependant, le projet MovieLens (discuté plus en détail au chapitre 4) a été dirigé pendant plus de 15 ans par un groupe de recherche universitaire. Ainsi, ils ont pu documenter et partager des informations sur la façon dont le système a évolué au fil du temps et comment cela pourrait avoir un impact sur l'analyse (Harper and Konstan 2015) .
Un certain nombre d'universitaires se sont intéressés à la dérive sur Twitter: Liu, Kliman-Silver, and Mislove (2014) et Tufekci (2014) .
Une approche pour faire face à la dérive de la population est de créer un panel d'utilisateurs, ce qui permet aux chercheurs d'étudier les mêmes personnes au fil du temps, voir Diaz et al. (2016) .
J'ai d'abord entendu le terme «algorithmically confondu» utilisé par Jon Kleinberg dans une conférence, mais malheureusement je ne me souviens pas quand ou où la conversation a été donnée. La première fois que j'ai vu le terme imprimé était dans Anderson et al. (2015) , qui est une discussion intéressante sur la façon dont les algorithmes utilisés par les sites de rencontres pourraient compliquer la capacité des chercheurs à utiliser les données de ces sites Web pour étudier les préférences sociales. Cette préoccupation a été soulevée par K. Lewis (2015a) en réponse à Anderson et al. (2014) .
En plus de Facebook, Twitter recommande également aux utilisateurs de suivre en fonction de l'idée de fermeture triadique; voir Su, Sharma, and Goel (2016) . Ainsi, le niveau de fermeture triadique de Twitter est une combinaison de certaines tendances humaines vers une fermeture triadique et une tendance algorithmique à promouvoir la fermeture triadique.
Pour en savoir plus sur la performativité, en particulier sur l'idée que certaines théories des sciences sociales sont des «moteurs pas des caméras» (c.-à-d. Qu'elles façonnent le monde plutôt que de simplement le décrire) - voir Mackenzie (2008) .
Les agences statistiques gouvernementales appellent l'édition de données statistiques de nettoyage de données . De Waal, Puts, and Daas (2014) décrivent les techniques d'édition de données statistiques développées pour les données d'enquête et examinent dans quelle mesure elles sont applicables aux grandes sources de données, et Puts, Daas, and Waal (2015) présentent certaines des mêmes idées pour un public plus général.
Pour un aperçu des robots sociaux, voir Ferrara et al. (2016) . Pour quelques exemples d'études axées sur la recherche de spam sur Twitter, voir Clark et al. (2016) et Chu et al. (2012) . Enfin, Subrahmanian et al. (2016) décrivent les résultats du DARPA Twitter Bot Challenge, une collaboration de masse conçue pour comparer les approches de détection des bots sur Twitter.
Ohm (2015) passe en revue les recherches antérieures sur l'idée d'informations sensibles et propose un test multi-facteurs. Les quatre facteurs qu'il propose sont l'ampleur du préjudice, la probabilité de préjudice, la présence d'une relation confidentielle et si le risque reflète des préoccupations majoritaires.
L'étude de Farber sur les taxis à New York était basée sur une étude antérieure de Camerer et al. (1997) qui utilisaient trois différents échantillons de commodité de feuilles de papier. Cette étude antérieure a révélé que les conducteurs semblaient être des bénéficiaires ciblés: ils travaillaient moins les jours où leur salaire était plus élevé.
Dans des travaux ultérieurs, King et ses collègues ont exploré la censure en ligne en Chine (King, Pan, and Roberts 2014, [@king_how_2016] ) . Pour une approche connexe de la mesure de la censure en ligne en Chine, voir Bamman, O'Connor, and Smith (2012) . Pour plus d'informations sur les méthodes statistiques comme celle utilisée dans King, Pan, and Roberts (2013) pour estimer le sentiment des 11 millions de postes, voir Hopkins and King (2010) . Pour en savoir plus sur l'apprentissage supervisé, voir James et al. (2013) (moins technique) et Hastie, Tibshirani, and Friedman (2009) (plus technique).
La prévision est une partie importante de la science des données industrielles (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Les prévisions démographiques constituent un type de prévision couramment utilisé par les chercheurs en sciences sociales. voir, par exemple, Raftery et al. (2012) .
Google Flu Trends n'était pas le premier projet à utiliser les données de recherche pour prédire la prévalence de la grippe. En fait, des chercheurs aux États-Unis (Polgreen et al. 2008; Ginsberg et al. 2009) et en Suède (Hulth, Rydevik, and Linde 2009) ont constaté que certains termes de recherche prédisaient la surveillance de la santé publique nationale. données avant qu'il ne soit publié. Par la suite, de nombreux autres projets ont tenté d'utiliser des données de trace numériques pour la détection de la maladie; voir Althouse et al. (2015) pour un examen.
En plus d'utiliser des données de suivi numériques pour prédire les résultats en matière de santé, il y a eu énormément de travail utilisant les données de Twitter pour prédire les résultats des élections. pour les revues, voir Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (chapitre 7) et Huberty (2015) . La prévision immédiate d'indicateurs économiques, tels que le produit intérieur brut (PIB), est également courante dans les banques centrales, voir Bańbura et al. (2013) . Le tableau 2.8 comprend quelques exemples d'études utilisant une sorte de trace numérique pour prédire une sorte d'événement dans le monde.
Trace numérique | Résultat | Citation |
---|---|---|
Gazouillement | Le chiffre d'affaires des films au box-office aux États-Unis | Asur and Huberman (2010) |
Rechercher les journaux | Ventes de films, de musique, de livres et de jeux vidéo aux États-Unis | Goel et al. (2010) |
Gazouillement | Dow Jones Industrial Average (marché boursier américain) | Bollen, Mao, and Zeng (2011) |
Journaux de médias sociaux et de recherche | Enquêtes sur le sentiment des investisseurs et les marchés boursiers aux États-Unis, au Royaume-Uni, au Canada et en Chine | Mao et al. (2015) |
Rechercher les journaux | Prévalence de la dengue à Singapour et à Bangkok | Althouse, Ng, and Cummings (2011) |
Enfin, Jon Kleinberg et ses collègues (2015) ont souligné que les problèmes de prévision se divisent en deux catégories subtilement différentes et que les spécialistes des sciences sociales ont tendance à se concentrer sur l'un et à ignorer l'autre. Imaginez un décideur politique, je l'appellerai Anna, qui fait face à une sécheresse et doit décider d'embaucher un chaman pour faire une danse de pluie pour augmenter les chances de pluie. Un autre décideur, je l'appellerai Betty, doit décider s'il faut prendre un parapluie pour éviter de se mouiller sur le chemin du retour. Anna et Betty peuvent prendre une meilleure décision si elles comprennent la météo, mais elles ont besoin de connaître différentes choses. Anna a besoin de comprendre si la danse de la pluie cause la pluie. Betty, d'un autre côté, n'a pas besoin de comprendre quoi que ce soit à propos de la causalité; elle a juste besoin d'une prévision précise. Les chercheurs en sciences sociales se concentrent souvent sur les problèmes tels que ceux auxquels fait face Anna - que Kleinberg et ses collègues appellent des problèmes politiques de type «danse de pluie» - parce qu'ils impliquent des questions de causalité. Des questions comme celle de Betty - que Kleinberg et ses collègues appellent des problèmes de politique générale - peuvent aussi être très importantes, mais ont reçu beaucoup moins d'attention de la part des chercheurs en sciences sociales.
La revue PS Political Science a tenu un symposium sur les grandes données, l'inférence causale et la théorie formelle, et Clark and Golder (2015) résument chaque contribution. Les Actes de la revue de l'Académie nationale des sciences des États-Unis d'Amérique ont tenu un symposium sur l'inférence causale et les mégadonnées, et Shiffrin (2016) résume chaque contribution. Pour les approches d'apprentissage automatique qui tentent de découvrir automatiquement des expériences naturelles à l'intérieur de sources de données volumineuses, voir Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , et Sharma, Hofman, and Watts (2016) .
En termes d'expériences naturelles, Dunning (2012) propose un traitement introductif, de longueur du livre, avec de nombreux exemples. Pour une vue sceptique des expériences naturelles, voir Rosenzweig and Wolpin (2000) (économie) ou Sekhon and Titiunik (2012) (science politique). Deaton (2010) et Heckman and Urzúa (2010) soutiennent que le fait de se concentrer sur des expériences naturelles peut amener les chercheurs à se concentrer sur l'estimation d'effets causaux sans importance; Imbens (2010) corrige ces arguments avec une vision plus optimiste de la valeur des expériences naturelles.
En décrivant comment un chercheur pouvait estimer l'effet d'être rédigé à l'effet de servir, je décrivais une technique appelée variables instrumentales . Imbens and Rubin (2015) , dans leurs chapitres 23 et 24, fournissent une introduction et utilisent le tirage au sort comme exemple. L'effet du service militaire sur les complices est parfois appelé l'effet causal moyen du complément (CAcE) et parfois l'effet du traitement moyen local (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) et Bollen (2012) proposent des analyses de l'utilisation des variables instrumentales en science politique, en économie et en sociologie, et Sovey and Green (2011) fournissent une «liste de contrôle» pour évaluer des études en utilisant des variables instrumentales.
Il s'avère que la loterie de 1970 n'était pas, en fait, correctement randomisée; il y avait de petites déviations par rapport à l'aléatoire pur (Fienberg 1971) . Berinsky and Chatfield (2015) soutiennent que cette petite déviation n'est pas très importante et discutent de l'importance d'une randomisation bien conduite.
En termes d'appariement, voir Stuart (2010) pour une revue optimiste, et Sekhon (2009) pour une revue pessimiste. Pour en savoir plus sur l'appariement comme une sorte d'élagage, voir Ho et al. (2007) . Trouver un match parfait unique pour chaque personne est souvent difficile, et cela introduit un certain nombre de complexités. Tout d'abord, lorsque les correspondances exactes ne sont pas disponibles, les chercheurs doivent décider comment mesurer la distance entre deux unités et si une distance donnée est suffisamment proche. Une deuxième complexité apparaît si les chercheurs veulent utiliser plusieurs correspondances pour chaque cas dans le groupe de traitement, car cela peut conduire à des estimations plus précises. Ces deux questions, ainsi que d'autres, sont décrites en détail au chapitre 18 d' Imbens and Rubin (2015) . Voir aussi la partie II de ( ??? ) .
Voir Dehejia and Wahba (1999) pour un exemple où les méthodes d'appariement ont pu produire des estimations similaires à celles d'une expérience contrôlée randomisée. Mais, voir Arceneaux, Gerber, and Green (2006) et Arceneaux, Gerber, and Green (2010) pour des exemples où les méthodes d'appariement n'ont pas réussi à reproduire un repère expérimental.
Rosenbaum (2015) et Hernán and Robins (2016) offrent d'autres conseils pour découvrir des comparaisons utiles au sein de sources de données volumineuses.