Ce livre a commencé en 2005 dans un sous-sol de l'Université Columbia. À l'époque, j'étais un étudiant diplômé, et je menais une expérience en ligne qui deviendrait éventuellement ma thèse. Je vais vous parler des parties scientifiques de cette expérience au chapitre 4, mais maintenant je vais vous parler de quelque chose qui n'est pas dans ma dissertation ou dans aucun de mes articles. Et c'est quelque chose qui a fondamentalement changé la façon dont je pense à la recherche. Un matin, quand je suis entré dans mon bureau au sous-sol, j'ai découvert qu'une centaine de personnes du Brésil avaient participé à mon expérience. Cette expérience simple a eu un effet profond sur moi. À cette époque, j'avais des amis qui faisaient des expériences de laboratoire traditionnel, et je savais à quel point ils devaient travailler pour recruter, superviser et payer les gens pour participer à ces expériences; s'ils pouvaient courir 10 personnes en une seule journée, c'était un bon progrès. Cependant, avec mon expérience en ligne, 100 personnes ont participé pendant que je dormais . Faire vos recherches pendant que vous dormez peut sembler trop beau pour être vrai, mais ce n'est pas le cas. Les changements technologiques - en particulier le passage de l'ère analogique à l'ère numérique - signifient que nous pouvons maintenant collecter et analyser les données sociales de nouvelles façons. Ce livre est de faire de la recherche sociale de ces nouvelles façons.
Ce livre s'adresse aux chercheurs en sciences sociales qui veulent faire plus de science des données, aux scientifiques de données qui veulent faire plus de sciences sociales, et à tous ceux qui s'intéressent à l'hybride de ces deux domaines. Étant donné à qui s'adresse ce livre, il va sans dire que ce n'est pas seulement pour les étudiants et les professeurs. Bien que je travaille actuellement dans une université (Princeton), j'ai également travaillé au gouvernement (au US Census Bureau) et dans l'industrie de la technologie (chez Microsoft Research), donc je sais qu'il y a beaucoup de recherches excitantes en dehors de les universités. Si vous pensez à ce que vous faites en tant que recherche sociale, alors ce livre est pour vous, peu importe où vous travaillez ou quel genre de techniques que vous utilisez actuellement.
Comme vous l'avez peut-être déjà remarqué, le ton de ce livre est un peu différent de celui de nombreux autres livres académiques. C'est intentionnel. Ce livre est issu d'un séminaire d'études supérieures en sciences sociales computationnelles que j'ai enseigné à Princeton au Département de sociologie depuis 2007, et j'aimerais qu'il capte une partie de l'énergie et de l'enthousiasme de ce séminaire. En particulier, je veux que ce livre ait trois caractéristiques: je veux qu'il soit utile, orienté vers l'avenir et optimiste.
Utile : Mon but est d'écrire un livre qui vous sera utile. Par conséquent, je vais écrire dans un style ouvert, informel et axé sur les exemples. C'est parce que la chose la plus importante que je veux transmettre est une certaine façon de penser à la recherche sociale. Et, mon expérience suggère que la meilleure façon de transmettre cette façon de penser est informelle et avec beaucoup d'exemples. Aussi, à la fin de chaque chapitre, j'ai une section intitulée «Que lire ensuite» qui vous aidera à faire la transition vers des lectures plus détaillées et techniques sur de nombreux sujets que je présente. En fin de compte, j'espère que ce livre vous aidera à faire des recherches et à évaluer les recherches des autres.
Orienté vers l'avenir : Ce livre vous aidera à faire de la recherche sociale en utilisant les systèmes numériques qui existent aujourd'hui et ceux qui seront créés dans le futur. J'ai commencé à faire ce genre de recherche en 2004, et depuis j'ai vu beaucoup de changements, et je suis sûr qu'au cours de votre carrière, vous verrez beaucoup de changements aussi. L'astuce pour rester pertinent face au changement est l' abstraction . Par exemple, ce ne sera pas un livre qui vous apprendra exactement comment utiliser l'API Twitter telle qu'elle existe aujourd'hui; au lieu de cela, il va vous apprendre comment apprendre à partir de sources de données volumineuses (chapitre 2). Cela ne va pas être un livre qui vous donne des instructions étape par étape pour exécuter des expériences sur Amazon Mechanical Turk; au lieu de cela, il va vous apprendre à concevoir et à interpréter des expériences qui reposent sur l'infrastructure d'âge numérique (chapitre 4). Grâce à l'utilisation de l'abstraction, j'espère que ce sera un livre intemporel sur un sujet d'actualité.
Optimiste : Les deux communautés que ce livre engage - les spécialistes des sciences sociales et les spécialistes des données - ont des antécédents et des intérêts très différents. En plus de ces différences liées à la science, dont je parle dans le livre, j'ai également remarqué que ces deux communautés ont des styles différents. Les scientifiques de données sont généralement excités; ils ont tendance à voir le verre à moitié plein. D'autre part, les chercheurs en sciences sociales sont généralement plus critiques; ils ont tendance à voir le verre à moitié vide. Dans ce livre, je vais adopter le ton optimiste d'un data scientist. Donc, quand je présente des exemples, je vais vous dire ce que j'aime dans ces exemples. Et, quand je signale des problèmes avec les exemples - et je le ferai parce qu'aucune recherche n'est parfaite -, je vais essayer de souligner ces problèmes d'une manière positive et optimiste. Je ne vais pas être critique pour être critique - je vais être critique pour que je puisse vous aider à créer de meilleures recherches.
Nous sommes encore aux premiers jours de la recherche sociale à l'ère numérique, mais j'ai vu des malentendus si communs qu'il est logique que je les aborde ici, dans la préface. Des scientifiques de données, j'ai vu deux malentendus communs. Le premier est de penser que plus de données résout automatiquement les problèmes. Cependant, pour la recherche sociale, cela n'a pas été mon expérience. En fait, pour la recherche sociale, de meilleures données - par opposition à plus de données - semblent être plus utiles. Le deuxième malentendu que j'ai vu chez les spécialistes des données est de penser que les sciences sociales ne sont qu'une bande de discussions de fantaisie entourées de bon sens. Bien sûr, en tant que sociologue, plus particulièrement en tant que sociologue, je ne suis pas d'accord avec cela. Les gens intelligents ont travaillé dur pour comprendre le comportement humain pendant longtemps, et il semble imprudent d'ignorer la sagesse qui s'est accumulée de cet effort. Mon espoir est que ce livre vous offre une partie de cette sagesse d'une manière facile à comprendre.
Des chercheurs en sciences sociales, j'ai également vu deux malentendus communs. Tout d'abord, j'ai vu des gens annuler l'idée même de la recherche sociale en utilisant les outils de l'ère numérique à cause de quelques mauvais articles. Si vous lisez ce livre, vous avez probablement déjà lu un tas d'articles qui utilisent des données de médias sociaux de manière banale ou erronée (ou les deux). J'ai aussi. Cependant, ce serait une grave erreur de conclure de ces exemples que toute la recherche sociale numérique est mauvaise. En fait, vous avez probablement déjà lu un tas d'articles qui utilisent des données d'enquête de façon banale ou erronée, mais vous n'annulez pas toute recherche à l'aide d'enquêtes. C'est parce que vous savez qu'il y a une bonne recherche faite avec des données d'enquête, et dans ce livre je vais vous montrer qu'il y a aussi une bonne recherche faite avec les outils de l'ère numérique.
Le deuxième malentendu commun que j'ai vu chez les spécialistes des sciences sociales est de confondre le présent et l'avenir. Lorsque nous évaluons la recherche sociale à l'ère numérique - la recherche que je vais décrire -, il est important de poser deux questions distinctes: «Dans quelle mesure ce style de recherche fonctionne-t-il actuellement?» Et «Dans quelle mesure ce style de travaux de recherche dans le futur? "Les chercheurs sont formés pour répondre à la première question, mais pour ce livre, je pense que la deuxième question est plus importante. C'est-à-dire que, même si la recherche sociale à l'ère numérique n'a pas encore produit de contributions intellectuelles massives et révolutionnaires, le taux d'amélioration de la recherche numérique est incroyablement rapide. C'est ce rythme de changement - plus que le niveau actuel - qui rend la recherche sur l'ère numérique si excitante pour moi.
Même si ce dernier paragraphe pourrait vous offrir des richesses potentielles à un moment indéterminé dans le futur, mon but n'est pas de vous vendre un type particulier de recherche. Je ne possède pas personnellement d'actions sur Twitter, Facebook, Google, Microsoft, Apple ou toute autre société de technologie (bien que, pour une divulgation complète, je devrais mentionner que j'ai travaillé ou reçu des fonds de recherche de Microsoft, Google et Facebook). Tout au long du livre, mon but est donc de rester un narrateur crédible, vous parler de tout ce qui est possible, tout en vous guidant loin de quelques pièges dans lesquels j'ai vu d'autres tomber (et parfois tomber en moi) .
L'intersection de la science sociale et de la science des données est parfois appelée science sociale computationnelle. Certains considèrent qu'il s'agit d'un domaine technique, mais ce ne sera pas un livre technique au sens traditionnel. Par exemple, il n'y a pas d'équations dans le texte principal. J'ai choisi d'écrire le livre de cette façon parce que je voulais donner une vision globale de la recherche sociale à l'ère numérique, y compris les sources de données volumineuses, les enquêtes, les expériences, la collaboration de masse et l'éthique. Il s'est avéré impossible de couvrir tous ces sujets et de fournir des détails techniques sur chacun d'entre eux. Au lieu de cela, des pointeurs vers du matériel plus technique sont donnés dans la section «Que lire ensuite» à la fin de chaque chapitre. En d'autres termes, ce livre n'est pas conçu pour vous apprendre à faire un calcul spécifique; plutôt, il est conçu pour changer la façon dont vous pensez à la recherche sociale.
Comment utiliser ce livre dans un cours
Comme je l'ai dit plus tôt, ce livre est issu en partie d'un séminaire d'études supérieures en sciences sociales computationnelles que j'enseigne depuis 2007 à Princeton. Puisque vous pensez peut-être à utiliser ce livre pour enseigner un cours, j'ai pensé qu'il pourrait être utile pour moi d'expliquer comment il est sorti de mon cours et comment j'imagine qu'il est utilisé dans d'autres cours.
Pendant plusieurs années, j'ai enseigné mon cours sans livre; Je voudrais juste attribuer une collection d'articles. Alors que les étudiants ont pu apprendre de ces articles, les articles seuls ne conduisaient pas aux changements conceptuels que j'espérais créer. Je passais donc la plupart de mon temps en classe à donner des points de vue, des contextes et des conseils afin d'aider les élèves à voir la situation dans son ensemble. Ce livre est ma tentative d'écrire toute cette perspective, ce contexte et ces conseils d'une manière qui n'a pas de prérequis - que ce soit en sciences sociales ou en science des données.
Dans un cours d'un semestre, je recommande d'associer ce livre avec une variété de lectures supplémentaires. Par exemple, un tel cours pourrait passer deux semaines sur des expériences, et vous pourriez coupler le chapitre 4 avec des lectures sur des sujets tels que le rôle de l'information pré-traitement dans la conception et l'analyse des expériences; les problèmes statistiques et informatiques soulevés par les tests A / B à grande échelle dans les entreprises; conception d'expériences spécifiquement axées sur les mécanismes; et des questions pratiques, scientifiques et éthiques liées à l'utilisation de participants provenant de marchés du travail en ligne, tels que Amazon Mechanical Turk. Il pourrait également être jumelé avec des lectures et des activités liées à la programmation. Le choix approprié entre ces nombreux appariements possibles dépend des étudiants de votre cours (p. Ex., Premier cycle, maîtrise ou doctorat), de leurs antécédents et de leurs objectifs.
Un cours semestriel pourrait également inclure des ensembles de problèmes hebdomadaires. Chaque chapitre a une variété d'activités qui sont étiquetées par degré de difficulté: facile ( ), moyen ( ), difficile ( ), et très dur ( ). En outre, j'ai étiqueté chaque problème par les compétences dont il a besoin: les mathématiques ( ), codage ( ), et la collecte de données ( ). Enfin, j'ai étiqueté quelques-unes des activités qui sont mes favoris personnels ( ). J'espère qu'au sein de cette diversité d'activités, vous trouverez certaines qui conviennent à vos élèves.
Afin d'aider les personnes utilisant ce livre dans les cours, j'ai commencé une collection de matériel d'enseignement comme des syllabus, des diapositives, des appariements recommandés pour chaque chapitre, et des solutions à certaines activités. Vous pouvez trouver ces matériaux - et y contribuer - sur http://www.bitbybitbook.com.