유효성이 실험의 결과는 더욱 일반적인 결론을지지 정도를 의미한다.
어떤 실험은 완벽하지 않으며, 연구자들은 발생할 수있는 문제를 설명하기위한 광범위한 어휘를 개발했다. 유효성 특정 실험 결과 좀 더 일반적인 결론을 뒷받침되는 범위를 말한다. 사회 과학자들은 도움이 네 가지 유형으로 유효성을 분할 발견 : 통계적 결론의 타당성, 내적 타당성 타당성을 구성하고, 외부 타당성 (Shadish, Cook, and Campbell 2001, Ch 2) . 이러한 개념을 마스터하면 당신에게 비판과 실험의 설계와 분석을 개선하기위한 정신 체크리스트를 제공 할 것입니다, 그리고 당신이 다른 연구자들과 의사 소통을하는 데 도움이됩니다.
통계 결론 유효성 실험의 통계적 분석이 올바르게 수행되었는지 여부를 중심. 의 맥락에서 Schultz et al. (2007) 등의 문제는 제대로 자신의 페이지 값을 계산 여부에 중심에 있습니다. 통계 분석은이 책의 범위를 벗어납니다,하지만 난 실험을 설계하고 분석하는 데 필요한 통계적인 원리가 디지털 시대에서 변경되지 않았 음을 말할 수있다. 그러나, 디지털 실험에서 서로 다른 데이터 환경이 새로운 통계 기회를 창출 않습니다 (예를 들어, 치료 효과의 이질성 추정하기 위해 기계 학습 방법을 사용하여 (Imai and Ratkovic 2013) )과 새로운 계산 문제 (예를 들어, 대규모 실험에서 차단 (Higgins, Sävje, and Sekhon 2016) ).
내부 타당성은 실험 절차가 제대로 수행되었는지를 중심. 의 실험으로 돌아 Schultz et al. (2007) , 내적 타당성에 대한 질문은 무작위 주위 결과의 치료의 전달 및 측정을 중심으로 수 있습니다. 예를 들어, 연구 보조원이 안정적으로 전기 미터를 읽어 보지 않았 우려 될 수 있습니다. 사실, 슐츠와 동료들은이 문제에 대한 걱정했다 그들은 두 번 읽을 미터의 샘플을했다; 다행히도, 결과는 실질적으로 동일 하였다. 일반적으로, 슐츠와 동료의 실험은 높은 내부 타당성을 가지고 나타납니다,하지만 항상 그런 것은 아닙니다; 복잡한 필드 온라인 실험은 종종 문제가 실제로 원하는 사람에 대한 권리 처리를 전달하고 모든 사람을위한 성과 측정에 실행합니다. 그것은 쉽게를 수신하고 모든 참가자에 대한 결과를 측정 해야하는 사람들에게 설계로 치료가 전달되도록 할 수 있기 때문에 다행히, 디지털 시대는 내적 타당성에 대한 우려를 줄일 수 있습니다.
데이터와 이론적 구조 사이의 일치 주위에 유효 센터를 구축합니다. 제 2 장에서 설명하고있는 바와 같이, 구조 그것에 대해 사회 과학자는 이유 추상적 인 개념이다. 불행하게도, 이러한 추상적 인 개념은 항상 명확한 정의와 측정이 없습니다. 로 돌아 Schultz et al. (2007) , 전력 사용을 절감 할 수있는 사회적인 규범을 금지 명령 청구 (예를 들어, 이모티콘) "금지 명령 사회적 규범"을 조작하는 것이며, "전기 사용"을 측정하는 치료를 설계하는 연구가 필요합니다. 아날로그 실험에서, 많은 연구자들은 자신의 치료를 설계하고 자신의 결과를 측정 하였다. 이 방식은 가능한 한, 실험은 추상 구문이 연구되고 일치하는 것을 보장한다. 기업이나 정부와 연구자의 파트너가 치료를 제공하고 항상에서 사용하는 데이터 시스템 결과를 측정하는 디지털 실험에서, 실험 및 이론적 구조 사이의 일치 덜 꽉 수있다. 따라서, 나는 구조의 유효성 아날로그 실험보다 디지털 실험에서 더 큰 문제가 될 경향이있을 것으로 기대.
마지막으로, 외부의 유효성이 실험의 결과는 다른 경우로 일반화 것인지를 중심. 로 돌아 Schultz et al. (2007) , 하나, 질문을 할 수 것입니다 에너지의 동료 관계의 사용과 금지 명령 규범 (예를 들어, 이모티콘)가에서 다른 방식으로 수행 된 경우를 줄입니다 에너지 사용의 신호에 대한이 같은 생각-제공하는 사람 정보 다른 설정? 대부분의 잘 설계된 실험을 잘 실행의 경우, 외부의 타당성에 대한 우려는 해결하기 어려운 있습니다. 과거에는 외부의 타당성에 대한 이러한 논쟁은 자주 절차가 다른 방식으로 수행하거나 다른 장소에서, 또는 다른 사람들과 함께한다면 일어 났을 상상하려고 방에 앉아 사람들이 그냥 무리였다. 다행히, 디지털 시대는 이러한 데이터가없는 추측을 넘어 경험적으로 외부 유효성을 평가하기 위해 연구자 수 있습니다.
의 결과 때문에 Schultz et al. (2007) Opower라는 회사는 더 광범위하게 치료를 배포하는 미국의 유틸리티와 제휴, 정말 흥분했다. 의 디자인을 바탕으로 Schultz et al. (2007) , Opower 두 가지 주요 모듈, 이모티콘과 이웃에 대한 가정의 전기 사용량 상대를 보여주는 하나는 에너지 사용 절감을위한 팁을 제공했다 홈 에너지 보고서 (그림 4.6) 사용자 정의 만든. 그런 다음 연구자와 협력, Opower은 가정 에너지 보고서의 영향을 평가하기 위해 제어 실험을 무작위로 달렸다. 이 실험의 치료는 일반적으로 구식 달팽이를 통해 물리적으로 일반적으로 배달 된 경우에도 메일 결과는 물리적 세계에 디지털 기기 (예를 들어, 파워 미터)를 사용하여 측정 하였다. 오히려 수동으로 각 집을 방문 연구 보조원이 정보를 수집하지 않고, Opower 실험은 모든 전력 측정 값에 액세스하는 연구자 수 있도록 전력 회사와 협력하여 수행 하였다. 따라서, 이러한 부분적으로 디지털 분야의 실험은 낮은 가변 비용으로 대규모로 실행되었다.
미국의 약 10 유틸리티 회사에서 제공하는 60 만 가구를 포함하는 실험의 제 1 세트에서, Allcott (2011) 홈 에너지 보고서는 1.7 %의 전력 소비를 감소 발견했다. 즉, 훨씬 더 크고 지리적 연구의 결과로부터의 결과 질적 비슷 Schultz et al. (2007) . 그러나, 효과의 크기는 작아이었다에서 Schultz et al. (2007) 상기 기술적 및 단사 기준 조건 (이모티콘과 함께 하나)의 가구는 5 % 자신의 전기 사용량을 감소시켰다. 이 차이에 대한 정확한 이유는 알 수 있지만, Allcott (2011) 대학의 후원 연구의 일환으로 필기 이모티콘을 수신하는 단계에서 대량 생산 보고서의 한 부분으로 인쇄 된 이모티콘을받는 것보다 행동에 더 큰 영향을 미칠 수 있음을 추측 전력 회사.
또한, 후속 연구, Allcott (2015) 추가로 800 만 가구를 포함하는 추가 (101) 실험 보도했다. 이 실험에서는 다음 101 가정 에너지 보고서 사람들이 소비 전력을 낮추는 원인이 계속되지만 효과도 적었다. 이 감소에 대한 정확한 원인은 불명이지만, Allcott (2015) 보고서의 효과가 실제로 참가자의 다른 유형에 적용되는했기 때문에 시간이 지남에 따라 감소 될 것으로 보입니다 것으로 추측. 보다 구체적으로,보다 환경 문제 분야에서 유틸리티 가능성이 더 높았다 이전 프로그램을 채택하고 고객은 치료에 더 반응했다. 적은 환경 고객과 유틸리티 프로그램을 채택, 그 효과는 감소 할 것으로 나타났다. 따라서, 실험에서 무작위은 실험군과 대조군이 유사하다는 것을 보장하는 것처럼, 연구 사이트에 무작위은 추정이 (다시 샘플링에 대한 제 3 장에) 생각보다 일반인 참가자의 한 그룹에서 일반화 될 수 있도록합니다. 조사 위치를 임의로 샘플링되지 않은 경우에도 일반화에서 완벽하게 설계된 실험을 수 문제 일 실시했다.
함께, 이러한 (111) 실험-10 Allcott (2011) 과 101 Allcott (2015) 모든 미국 각지에서 약 850 만 가구를 -involved. 그들은 지속적으로 가정 에너지 보고서는 평균 전력 소비, 캘리포니아 (300) 가정에서 원래 슐츠의 연구 결과와 동료를 지원하는 결과를 줄일 수 있음을 보여준다. 바로이 원래의 결과를 복제 초과하면 후속 실험은 효과의 크기는 위치에 따라 다름을 보여준다. 실험이 세트는 또한 부분적으로 디지털 분야의 실험에 대한 두 가지 일반적인 점을 보여줍니다. 첫째, 연구자들은 실험을 실행하는 비용이 낮은 경우 외부 타당성에 대한 주소 우려를 경험적으로 할 수있을 것이며, 그 결과는 이미 데이터 상시 시스템에 의해 측정되는 경우이 문제가 발생할 수 있습니다. 따라서, 연구가 이미 기록되고 다른 흥미롭고 중요한 행동에 대한 룩 - 아웃에 있어야하고이 측정 기존 인프라 위에 실험을 설계한다고 제안한다. 둘째, 실험이 세트는 디지털 분야의 실험은 단지 온라인 상태가 아닌 것을 우리에게 상기시켜; 점점 나는 그들이 건축 환경에서 센서에 의해 측정 된 많은 성과와 함께 사방 될 것으로 기대하고있다.
유효-통계적 결론의 타당성, 내적 타당성의 4 종류, 유효성을 구축, 외부 유효성-제공 연구자가 특정 실험의 결과가 더 일반적인 결론을지지 여부를 평가하는 데 도움 정신 체크리스트를. 아날로그 세 실험에 비해 디지털 시대 실험에서 경험적 외부 유효성을 해결하기 용이해야하며 그 내부 유효성을 보장하기 쉬울 것이다. (즉, Opower 실험의 경우 아니었지만) 반면에, 구성 타당도의 문제는 아마 디지털 시대의 실험에서 더 도전 할 것이다.