La mesure dans les grandes sources de données est beaucoup moins susceptible de changer de comportement.
Un défi de la recherche sociale est que les gens peuvent changer leur comportement quand ils savent qu'ils sont observés par les chercheurs. Les spécialistes des sciences sociales appellent généralement cette réactivité (Webb et al. 1966) . Par exemple, les gens peuvent être plus généreux dans les études de laboratoire que dans les études sur le terrain parce que dans le premier cas, ils sont très conscients qu'ils sont observés (Levitt and List 2007a) . Un aspect des données volumineuses que de nombreux chercheurs trouvent prometteur est que les participants ne sont généralement pas conscients que leurs données sont capturées ou qu'ils se sont tellement habitués à cette collecte de données qu'il ne change plus leur comportement. Parce que les participants ne sont pas réactifs , de nombreuses sources de données volumineuses peuvent être utilisées pour étudier un comportement qui n'a pas fait l'objet de mesures précises auparavant. Par exemple, Stephens-Davidowitz (2014) utilisé la prévalence des termes racistes dans les requêtes des moteurs de recherche pour mesurer l'animosité raciale dans différentes régions des États-Unis. La nature non réactive et grande (voir la section 2.3.1) des données de recherche a permis d'effectuer des mesures qui seraient difficiles en utilisant d'autres méthodes, telles que les enquêtes.
Cependant, la non-réactivité ne garantit pas que ces données reflètent d'une manière ou d'une autre le comportement ou les attitudes des gens. Par exemple, comme l'a déclaré un répondant dans une étude par entrevue, «ce n'est pas que je n'ai pas de problèmes, je ne les mets tout simplement pas sur Facebook» (Newman et al. 2011) . En d'autres termes, même si certaines sources de données volumineuses ne sont pas réactives, elles ne sont pas toujours exemptes de biais de désirabilité sociale, la tendance à vouloir se présenter de la meilleure façon possible. En outre, comme je le décrirai plus loin dans le chapitre, le comportement capturé dans les sources de données volumineuses est parfois affecté par les objectifs des propriétaires de plate-forme, un problème que j'appellerai une confusion algorithmique . Enfin, bien que la non-réactivité soit avantageuse pour la recherche, le suivi du comportement des personnes sans leur consentement et leur sensibilisation soulève des préoccupations éthiques que je décrirai en détail au chapitre 6.
Les trois propriétés que je viens de décrire - grandes, toujours actives et non réactives - sont généralement, mais pas toujours, avantageuses pour la recherche sociale. Ensuite, je me pencherai sur les sept propriétés des sources de données volumineuses - incomplètes, inaccessibles, non représentatives, dérivantes, algorithmiquement confondues, sales et sensibles - qui créent généralement, mais pas toujours, des problèmes pour la recherche.