La validez se refiere a la cantidad de los resultados de un experimento apoyan una conclusión más general.
Ningún experimento es perfecto, y los investigadores han desarrollado un extenso vocabulario para describir los posibles problemas. La validez se refiere al grado en que los resultados de un experimento en particular apoyan una conclusión más general. Los científicos sociales han encontrado que es útil para dividir validez en cuatro tipos principales: validez conclusión estadística, la validez interna, validez de constructo y la validez externa (Shadish, Cook, and Campbell 2001, Ch 2) . El dominio de estos conceptos le proporcionará una lista mental de la crítica y la mejora del diseño y el análisis de un experimento, y que le ayudará a comunicarse con otros investigadores.
Estadística validez conclusión gira en torno a si el análisis estadístico del experimento se ha realizado correctamente. En el contexto de Schultz et al. (2007) tal pregunta podría centrarse en si calculan sus valores de p correctamente. El análisis estadístico está más allá del alcance de este libro, pero puedo decir que los principios estadísticos necesarios para diseñar y analizar experimentos no han cambiado en la era digital. Sin embargo, el diferente entorno de datos en experimentos digitales no crear nuevas oportunidades estadísticos (por ejemplo, el uso de métodos de aprendizaje automático para estimar la heterogeneidad de los efectos del tratamiento (Imai and Ratkovic 2013) ) y los nuevos retos computacionales (por ejemplo, el bloqueo de los experimentos masivos (Higgins, Sävje, and Sekhon 2016) ).
La validez interna se centra en torno a si los procedimientos experimentales se realizaron correctamente. Volviendo al experimento de Schultz et al. (2007) , las preguntas sobre la validez interna podría centrarse en la aleatorización, la entrega del tratamiento, y la medición de los resultados. Por ejemplo, usted podría estar preocupado de que los asistentes de investigación no leyeron los medidores de electricidad fiable. De hecho, Schultz y sus colegas estaban preocupados por este problema y que tenía una muestra de metros leído dos veces; Afortunadamente, los resultados fueron esencialmente idénticos. En general, Schultz y sus colegas 'experimento parece tener una alta validez interna, pero esto no es siempre el caso; complejo campo y experimentos en línea a menudo tienen problemas en realidad la entrega de un tratamiento adecuado a las personas adecuadas y la medición de los resultados para cada uno. Afortunadamente, la era digital puede ayudar a reducir las preocupaciones sobre la validez interna, ya que hace que sea más fácil para asegurar que el tratamiento se entrega como diseñado para aquellos que se supone que lo reciben y para medir los resultados para todos los participantes.
La construcción de centros de validez en todo el partido entre los datos y las construcciones teóricas. Como se discutió en el capítulo 2, las construcciones son conceptos abstractos que los científicos sociales sobre la razón. Por desgracia, estos conceptos abstractos no siempre tienen las definiciones y las mediciones claras. Volviendo a Schultz et al. (2007) , la afirmación de que por mandato judicial las normas sociales pueden reducir el consumo de electricidad requiere que los investigadores diseñar un tratamiento que podría manipular "las normas sociales de cesación" (por ejemplo, un icono gestual) y para medir "el uso de electricidad". En experimentos análogos, muchos investigadores diseñaron sus propios tratamientos y midieron sus propios resultados. Este enfoque garantiza que, tanto como sea posible, los experimentos concuerdan con los constructos abstractos siendo estudiados. En experimentos digitales donde los investigadores asociarse con empresas o gobiernos para entregar tratamientos y utilizar siempre-en los sistemas de datos para medir los resultados, el partido entre el experimento y los constructos teóricos puede ser menos apretado. Por lo tanto, espero que la validez de constructo tenderá a ser una preocupación más grande en los experimentos digitales que analógicas experimentos.
Por último, la validez externa gira en torno a si los resultados de este experimento se generalizar a otras situaciones. Volviendo a Schultz et al. (2007) , uno puede pedir, lo hará esta misma idea la gente que proporcionan información sobre su consumo de energía en relación con sus pares y una señal de normas cautelares (por ejemplo, un icono gestual) -reducir el consumo de energía si se ha hecho de una manera diferente en un entorno diferente? Para la mayoría bien diseñado y experimentos bien dirigido, las preocupaciones sobre la validez externa son los más difíciles de tratar. En el pasado, estos debates sobre la validez externa eran con frecuencia sólo un grupo de personas sentadas en una habitación tratando de imaginar lo que habría ocurrido si los procedimientos se realizaron de una manera diferente, o en un lugar diferente, o con diferentes personas. Afortunadamente, la era digital permite a los investigadores ir más allá de estas especulaciones sin datos y evaluar empíricamente la validez externa.
Debido a que los resultados de Schultz et al. (2007) eran tan emocionante, una empresa llamada Opower se asoció con empresas de servicios públicos en los Estados Unidos para implementar el tratamiento más ampliamente. Basado en el diseño de Schultz et al. (2007) , Opower creada para requisitos particulares Informes Energía en el Hogar que tenía dos módulos principales, una que muestra el consumo de electricidad de un hogar con respecto a sus vecinos con un emoticono y uno que proporciona consejos para reducir el consumo de energía (Figura 4.6). Luego, en colaboración con investigadores, Opower corrió al azar experimentos controlados para evaluar el impacto de los informes de energía del hogar. A pesar de que los tratamientos en estos experimentos fueron entregadas físicamente, por lo general, por lo general a través de caracol pasada de moda por correo el resultado se midió utilizando dispositivos digitales en el mundo físico (por ejemplo, medidores de potencia). En lugar de recoger manualmente esta información con los asistentes de investigación que visitan cada casa, los experimentos Opower todos fueron hechos en colaboración con las compañías eléctricas que permitan a los investigadores acceder a las lecturas de potencia. Por lo tanto, estos experimentos de campo parcialmente digitales se realizaron a una escala masiva de bajo coste variable.
En una primera serie de experimentos con 600.000 hogares atendidos por 10 empresas de servicios públicos alrededor de los Estados Unidos, Allcott (2011) encontró que el Informe de la Energía Inicio redujo el consumo de electricidad en un 1,7%. En otras palabras, los resultados del estudio mucho más grande, más diversa geográficamente fueron cualitativamente similares a los resultados de Schultz et al. (2007) . Sin embargo, el tamaño del efecto fue menor: en Schultz et al. (2007) los hogares de la condición de normas descriptivo y inyectiva (la que tiene el icono gestual) redujeron su consumo de electricidad en un 5%. La razón exacta de esta diferencia es desconocida, pero Allcott (2011) especulado que recibir un emoticono escrita a mano como parte de un estudio patrocinado por una universidad podría tener un efecto mayor sobre el comportamiento de recibir un emoticono impresa como parte de un informe producido en serie a partir de una compañía de poder.
Además, en la investigación posterior, Allcott (2015) informó sobre otros 101 experimentos adicionales que implican un adicional de 8 millones de hogares. En estos próximos 101 experimentos del Informe de la Energía Inicio continuó causando la gente a reducir su consumo de electricidad, pero los efectos fueron aún más pequeño. La razón exacta de esta disminución no es conocida, pero Allcott (2015) especuló que la eficacia del informe parece estar disminuyendo con el tiempo ya que en realidad se está aplicando a los diferentes tipos de participantes. Más específicamente, los servicios públicos en las zonas más ambientalistas eran más propensos a adoptar el programa anterior y sus clientes eran más sensibles al tratamiento. A medida que los servicios públicos con los clientes menos Ambiental adoptado el programa, su efectividad apareció a declinar. Por lo tanto, al igual que la asignación al azar en los experimentos se asegura de que el grupo de tratamiento y control son similares, la asignación al azar en los sitios de investigación asegura que las estimaciones se pueden generalizar a partir de un un grupo de participantes a una población más general (piensen en el capítulo 3 sobre el muestreo). Si los sitios de investigación no se tomarán muestras al azar, a continuación, la generalización, incluso desde un perfectamente diseñado y llevado a cabo el experimento, puede ser problemático.
En conjunto, estos experimentos 111-10 en Allcott (2011) y 101 en Allcott (2015) -involved alrededor de 8,5 millones de hogares de todo Estados Unidos. Ellos muestran consistentemente que los Informes Home Energy reducir el consumo medio de electricidad, un resultado que confirma los resultados originales de Schultz y sus colegas de 300 viviendas en California. Más allá de simplemente replicar estos resultados originales, los experimentos de seguimiento también muestran que la magnitud del efecto varía según la ubicación. Este conjunto de experimentos también ilustra dos puntos más generales acerca de los experimentos de campo parcialmente digitales. En primer lugar, los investigadores podrán empíricamente las preocupaciones sobre la validez externa cuando el costo de funcionamiento de los experimentos es baja, y esto puede ocurrir si el resultado ya está siendo medido por un sistema de datos siempre. Por lo tanto, se sugiere que la investigación debe estar en el puesto de observación para otros comportamientos interesantes e importantes que ya se están grabando, y luego diseñar experimentos en la parte superior de esta infraestructura de medición existente. En segundo lugar, este conjunto de experimentos nos recuerda que los experimentos de campo digitales no son sólo en línea; cada vez que espero que van a estar en todas partes con muchos resultados medidos por los sensores en el entorno construido.
Los cuatro tipos de validez de las conclusiones de validez estadística, la validez interna, validez de constructo, validez externa proporcionará una lista de control mental para ayudar a los investigadores a evaluar si los resultados de un experimento en particular apoyan una conclusión más general. En comparación con los experimentos era analógica, en los experimentos era digital debería ser más fácil de abordar empíricamente la validez externa y debería ser más fácil para asegurar la validez interna. Por otra parte, las cuestiones de validez de constructo probablemente será más difícil en los experimentos era digital (aunque eso no fue el caso de los experimentos Opower).