Validité se rapporte à quel point les résultats d'une expérience étayent une conclusion plus générale.
Aucune expérience est parfaite, et les chercheurs ont développé un vocabulaire étendu pour décrire les problèmes possibles. La validité fait référence à la mesure dans laquelle les résultats d'une expérience particulière soutiennent une conclusion plus générale. Les sociologues ont trouvé utile de diviser la validité en quatre types principaux: statistiques de validité de la conclusion, la validité interne, la validité conceptuelle et la validité externe (Shadish, Cook, and Campbell 2001, Ch 2) , (Shadish, Cook, and Campbell 2001, Ch 2) . La maîtrise de ces concepts vous fournira une liste de contrôle mentale pour critiquer et améliorer la conception et l'analyse d'une expérience, et il vous aidera à communiquer avec d'autres chercheurs.
Conclusion statistique validité des centres autour de savoir si l'analyse statistique de l'expérience a été fait correctement. Dans le contexte de Schultz et al. (2007) telle question pourrait se centrer sur si elles calculées correctement leurs valeurs p. L'analyse statistique est au-delà de la portée de ce livre, mais je peux dire que les principes statistiques nécessaires pour concevoir et analyser des expériences ont pas changé à l'ère numérique. Cependant, les différents environnement de données dans des expériences numériques ne crée de nouvelles opportunités statistiques (par exemple, en utilisant des méthodes d'apprentissage automatique pour estimer l' hétérogénéité des effets du traitement (Imai and Ratkovic 2013) ) et les nouveaux défis de calcul (par exemple, le blocage dans des expériences massives (Higgins, Sävje, and Sekhon 2016) ).
La validité interne se concentre autour de savoir si les procédures expérimentales ont été effectuées correctement. En revenant à l'expérience de Schultz et al. (2007) , des questions sur la validité interne pourraient centrer autour de la randomisation, la livraison du traitement, et la mesure des résultats. Par exemple, vous pourriez être préoccupé par les assistants de recherche ne lisent pas les compteurs électriques de manière fiable. En fait, Schultz et ses collègues étaient inquiets à propos de ce problème et ils ont eu un échantillon de mètres lu deux fois; heureusement, les résultats étaient essentiellement identiques. En général, Schultz et l'expérience de collègues semble avoir une grande validité interne, mais ce n'est pas toujours le cas; domaine complexe et expériences en ligne souvent rencontrent des problèmes livrant effectivement le bon traitement à la bonne personne et de mesure des résultats pour tout le monde. Heureusement, l'ère numérique peut aider à réduire les préoccupations au sujet de la validité interne, car il est plus facile d'assurer que le traitement est livré comme prévu à ceux qui sont censés recevoir et pour mesurer les résultats pour tous les participants.
Construire des centres de validité autour de la correspondance entre les données et les constructions théoriques. Comme indiqué au chapitre 2, les constructions sont des concepts abstraits que les chercheurs en sciences sociales raison au sujet. Malheureusement, ces concepts abstraits ne disposent pas toujours des définitions et des mesures claires. De retour à Schultz et al. (2007) , l'affirmation selon laquelle injonctive normes sociales peuvent réduire la consommation d'électricité exige que les chercheurs de concevoir un traitement qui serait manipuler " les normes sociales d' injonction" (par exemple, une émoticône) et de mesurer " l' utilisation de l' électricité". Dans les expériences analogiques, de nombreux chercheurs ont conçu leurs propres traitements et ont mesuré leurs propres résultats. Cette approche garantit que, autant que possible, les expériences correspondent aux constructions abstraites à l'étude. Dans les expériences numériques où les chercheurs en partenariat avec des entreprises ou des gouvernements à fournir des traitements et l'utilisation toujours sur les systèmes de données pour mesurer les résultats, le match entre l'expérience et les constructions théoriques peut être moins serré. Ainsi, je pense que la validité conceptuelle aura tendance à être une plus grande préoccupation dans les expériences numériques que des expériences analogiques.
Enfin, la validité externe se concentre autour de savoir si les résultats de cette expérience se généraliser à d' autres situations. De retour à Schultz et al. (2007) , on peut se demander, sera cette même information des gens d'idée fournissant au sujet de leur consommation d'énergie par rapport à leurs pairs et un signal de normes d' injonction (par exemple, une émoticône) La consommation d'énergie -réduire si elle a été faite d'une manière différente un réglage différent? Pour la plupart bien conçus et des expériences bien gérées, les préoccupations concernant la validité externe sont les plus difficiles à résoudre. Dans le passé, ces débats sur la validité externe étaient souvent juste un tas de gens assis dans une pièce en essayant d'imaginer ce qui serait arrivé si les procédures ont été faites d'une manière différente, ou dans un endroit différent, ou avec des personnes différentes. Heureusement, l'ère numérique permet aux chercheurs d'aller au-delà de ces spéculations sans données et évaluer la validité externe empiriquement.
Du fait que les résultats de Schultz et al. (2007) étaient tellement excitant, une société nommée Opower en partenariat avec les services publics aux États-Unis de déployer le traitement plus largement. Sur la base de la conception de Schultz et al. (2007) , Opower créé sur mesure Accueil Rapports sur l' énergie qui avait deux modules principaux, montrant la consommation d'électricité du rapport d'un ménage à ses voisins avec une émoticône et celui qui fournit des conseils pour abaisser la consommation d'énergie (Figure 4.6). Puis, en partenariat avec des chercheurs, Opower ran randomisés expériences contrôlées pour évaluer l'impact des rapports Home Energy. Même si les traitements dans ces expériences ont été généralement livrés physiquement, habituellement dans le vieux escargot façonné courrier le résultat a été mesurée à l'aide des appareils numériques dans le monde physique (par exemple, les compteurs de puissance). Plutôt que de recueillir ces informations manuellement avec les assistants de recherche qui visitent chaque maison, les expériences Opower ont tous été effectués en partenariat avec les compagnies d'électricité permettant aux chercheurs d'accéder aux lectures de puissance. Ainsi, ces expériences sur le terrain partiellement numériques ont été réalisés à une échelle massive à faible coût variable.
Dans une première série d'expériences impliquant 600.000 ménages desservis par 10 sociétés de services publics autour des Etats-Unis, Allcott (2011) a trouvé le rapport de l' énergie Accueil réduit la consommation d'électricité de 1,7%. En d' autres termes, les résultats de l'étude beaucoup plus grande, plus grande diversité géographique étaient qualitativement similaires aux résultats de Schultz et al. (2007) . Mais, l'ampleur de l' effet était plus faible: dans Schultz et al. (2007) les ménages dans la condition des normes descriptives et injective (avec l'émoticône) ont réduit leur consommation d'électricité de 5%. La raison précise de cette différence est inconnue, mais Allcott (2011) spéculé que la réception d' une émoticône manuscrite dans le cadre d'une étude parrainée par une université pourrait avoir un effet plus important sur le comportement que la réception d' un émoticône imprimé dans le cadre d'un rapport de masse produite à partir d' un compagnie d'électricité.
En outre, dans des recherches ultérieures, Allcott (2015) a rapporté 101 autres expériences supplémentaires impliquant supplémentaires 8 millions de foyers. Dans ces 101 prochaines expériences du rapport Energy Home a continué à inciter les gens à réduire leur consommation d'électricité, mais les effets étaient encore plus petites. La raison précise de cette baisse est pas connue, mais Allcott (2015) a spéculé que l'efficacité du rapport semble décliner au fil du temps , car il a été effectivement appliquée à différents types de participants. Plus précisément, les services publics dans les zones plus écologistes étaient plus susceptibles d'adopter le programme plus tôt et leurs clients étaient plus sensibles au traitement. Comme les services publics avec les clients moins environnementaux ont adopté le programme, son efficacité semble diminuer. Ainsi, tout comme la randomisation dans les expériences assure que le groupe de traitement et de contrôle sont semblables, la randomisation dans les sites de recherche garantit que les estimations peuvent être généralisés à partir d'un seul groupe de participants à une population plus générale (pensez revenir au chapitre 3 sur l'échantillonnage). Si les sites de recherche ne sont pas échantillonnées au hasard, puis la généralisation-même à partir d'un parfaitement conçu et réalisé l'expérience-peut être problématique.
Ensemble, ces 111 expériences-10 à Allcott (2011) et 101 à Allcott (2015) -involved environ 8,5 millions de foyers de partout aux États-Unis. Ils montrent régulièrement que les rapports Accueil Energie réduire la consommation d'électricité moyenne, un résultat qui soutient les conclusions initiales de Schultz et collègues de 300 maisons en Californie. Au-delà de simplement reproduire ces résultats originaux, les expériences de suivi montrent aussi que la taille de l'effet varie selon l'emplacement. Cet ensemble d'expériences illustre aussi deux points de plus généraux sur les expériences de terrain partiellement numériques. Tout d'abord, les chercheurs seront en mesure de répondre aux préoccupations empiriquement sur la validité externe lorsque le coût de fonctionnement des expériences est faible, et cela peut se produire si le résultat est déjà mesurée par un système toujours sur les données. Par conséquent, il suggère que la recherche doit être à l'affût pour d'autres comportements intéressants et importants qui sont déjà en cours d'enregistrement, puis concevoir des expériences sur le dessus de cette infrastructure de mesure existante. Deuxièmement, cette série d'expériences nous rappelle que les expériences de terrain numériques ne sont pas seulement en ligne; de plus en plus, je pense qu'ils seront partout avec de nombreux résultats mesurés par des capteurs dans l'environnement bâti.
Les quatre types de conclusion validité de validité statistique, validité interne, validité conceptuelle, la validité externe-fournir une liste de contrôle mentale pour aider les chercheurs à évaluer si les résultats d'une expérience particulière soutiennent une conclusion plus générale. Par rapport à des expériences d'âge analogiques, dans des expériences d'âge numériques, il devrait être plus facile d'aborder la validité externe empiriquement et il devrait être plus facile d'assurer la validité interne. D'autre part, les questions de validité de construction seront probablement plus difficiles dans des expériences d'âge numériques (bien que cela n'a pas été le cas avec les expériences Opower).