유효성이 실험의 결과는 더욱 일반적인 결론을지지 정도를 의미한다.
어떤 실험도 완벽하지 않으며 연구자들은 가능한 문제를 설명하기 위해 광범위한 어휘를 개발했습니다. 유효성 은 특정 실험의 결과가 좀 더 일반적인 결론을 뒷받침하는 정도를 나타냅니다. 사회 과학자들은 타당도를 통계적 결론 유효성, 내부 타당도, 구성 타당성 및 외부 유효성의 네 가지 주요 유형으로 나누는 것이 도움이된다는 것을 발견했습니다 (Shadish, Cook, and Campbell 2001, chap. 2) . 이러한 개념을 습득하면 실험의 설계 및 분석을 비판하고 개선하기위한 정신 체크리스트가 제공되며 다른 연구원과 의사 소통하는 데 도움이됩니다.
통계적 타당도 는 실험의 통계 분석이 올바르게 수행되었는지 여부를 중심으로 이루어집니다. Schultz et al. (2007) , 이러한 질문은 \(p\) 정확하게 계산했는지 여부에 초점을 맞출 수 있습니다. 실험을 설계하고 분석해야하는 통계 원칙은이 책의 범위를 벗어나지 만 디지털 시대에는 근본적으로 변하지 않았습니다. 그러나 변화된 점은 디지털 실험의 데이터 환경이 치료 효과의 이질성을 평가하기 위해 기계 학습 방법을 사용하는 것과 같은 새로운 기회를 창출했다는 것입니다 (Imai and Ratkovic 2013) .
내부 유효 기간 은 실험 절차가 올바르게 수행되었는지 여부를 둘러싼 것입니다. Schultz et al. (2007) 의 실험으로 돌아 감 Schultz et al. (2007) , 내부 유효성에 대한 질문은 무작위 배정, 치료 제공 및 결과 측정을 중심으로 이루어질 수 있습니다. 예를 들어 연구 보조원이 전기 계량기를 안정적으로 읽지 않았다고 우려 할 수 있습니다. 사실, Schultz와 동료들은이 문제에 대해 걱정하고 있었고 두 번 읽은 샘플을 가지고있었습니다. 다행히 결과는 본질적으로 동일했습니다. 일반적으로 슐츠 (Schultz)와 동료의 실험은 높은 내부 타당성을 가지고있는 것으로 보입니다. 그러나 이것이 항상 그런 것은 아닙니다. 복잡한 필드 및 온라인 실험은 실제로 올바른 사람에게 적절한 치료를 제공하고 모든 사람의 결과를 측정하는 문제로 이어집니다. 다행히도 디지털 시대는 내부 유효성에 대한 우려를 줄이는 데 도움을 줄 수 있습니다. 치료를받는 사람에게 치료가 전달되고 모든 참가자의 결과를 측정하는 것이 더 쉬워지기 때문입니다.
데이터와 이론적 구성 사이의 일치를 중심으로 유효성 센터를 구축합니다. 2 장에서 논의했듯이, 구조는 사회 과학자가 추론하는 추상적 개념이다. 불행히도, 이러한 추상적 개념은 항상 명확한 정의와 측정치를 가지고 있지 않습니다. Schultz et al. (2007) 따르면, 금지 된 사회적 규범이 전기 사용을 낮출 수 있다고 주장하는 연구자는 "금지 된 사회적 규범"(예 : 이모티콘)을 조작하고 "전기 사용"을 측정하는 치료법을 설계해야합니다. 아날로그 실험에서 많은 연구자들이 자신의 치료법을 설계하고 자신의 결과를 측정했습니다. 이 접근법은 가능한 한 많은 실험이 연구중인 추상 구문과 일치하도록합니다. 연구자가 치료를 제공하고 결과를 측정하기 위해 상시 데이터 시스템을 사용하기 위해 기업이나 정부와 협력하는 디지털 실험에서 실험과 이론적 구성 간의 일치가 덜 어려울 수 있습니다. 따라서, 나는 구조의 타당성이 아날로그 실험보다 디지털 실험에서 더 큰 관심사가되는 경향이 있다고 생각한다.
마지막으로 외부 유효성 은이 실험의 결과가 다른 상황으로 일반화 될 수 있는지 여부를 둘러싼 다. Schultz et al. (2007) 따르면 사람들이 동료와의 관계에서 에너지 사용에 대한 정보와 금지 표준 (예 : 이모티콘)의 신호를 제공하는 동일한 아이디어가 다른 방식으로 수행 되었다면 에너지 사용량을 줄일 수 있는지 묻습니다 다른 설정에서. 가장 잘 설계되고 잘 실행 된 실험의 경우 외부 유효성에 대한 우려가 가장 힘들다. 과거에는 외부 유효성에 대한 이러한 논쟁은 종종 절차가 다른 방식으로 또는 다른 장소에서 또는 다른 참가자들과 함께 수행 되었다면 어떤 일이 벌어 졌을 지 상상해 보려고 한 방에 앉아있는 사람들의 집단 이상을 포함하지 않았습니다 . 다행히도 디지털 시대는 연구자가 이러한 데이터없는 추측을 넘어 실험적으로 외부 유효성을 평가할 수있게 해줍니다.
Schultz et al. (2007) 은 매우 흥미로 웠습니다. 오 퍼어 (Opower)라는 회사는 미국의 공익 사업자와 파트너쉽을 맺어 치료를보다 광범위하게 시행했습니다. Schultz et al. (2007) 에 따르면, Opower는 이모티콘이있는 이웃 국가와 비교하여 가정의 전기 사용량을 보여주는 것과 에너지 사용량을 낮추기위한 팁을 제공하는 두 가지 주요 모듈을 갖춘 사용자 정의 가정 에너지 보고서를 만들었습니다 (그림 4.6). 그런 다음 연구원과 협력하여 Opower는 이러한 가정 에너지 보고서의 영향을 평가하기 위해 무작위 통제 실험을 실시했습니다. 이러한 실험에서의 처리 방법은 대개 구식 달팽이 메일을 통해 물리적으로 전달되었지만 결과는 실제 세계의 디지털 장치 (예 : 전력계)를 사용하여 측정되었습니다. 또한, 각 집을 방문하는 연구 보조원과 함께이 정보를 수동으로 수집하는 대신, Opower 실험은 전력 회사와 협력하여 연구원이 전력 판독 값에 액세스 할 수있게했습니다. 따라서 이러한 부분적으로 디지털 필드 실험은 가변적 인 비용으로 대규모로 실행되었습니다.
Allcott (2011) 은 10 개의 다른 부지의 60 만 가구가 참여한 첫 번째 실험에서 Home Energy Report가 전력 소비를 낮추는 것으로 나타났습니다. 다른 말로하면 훨씬 더 크고 더 지리적으로 다양한 연구의 결과는 Schultz et al. (2007) 의 연구 결과와 질적으로 유사했다 Schultz et al. (2007) . 또한, 101 개의 다른 부지에서 800 만 가구를 추가로 연구 한 Allcott (2015) 은 Home Energy Report가 전기 소비량을 지속적으로 낮추는 것으로 나타났다. 이 훨씬 더 큰 실험 세트는 어떤 단일 실험에서도 보이지 않는 흥미로운 새로운 패턴을 나타 냈습니다. 효과의 크기는 이후 실험에서 감소했습니다 (그림 4.7). Allcott (2015) 은 시간이 지남에 따라 치료가 다른 유형의 참가자에게 적용되기 때문에 이러한 감소가 일어난 것으로 추측합니다. 보다 구체적으로,보다 환경 적으로 집중된 고객을 가진 유틸리티는 프로그램을 일찍 채택 할 확률이 높았으며 고객은 치료에보다 신속하게 대응했습니다. 환경 친화적이지 않은 고객들을 대상으로 한 유틸리티가이 프로그램을 채택함에 따라 효율성이 떨어지는 것처럼 보였습니다. 따라서 실험에서 무작위 추출이 치료 및 대조군 그룹이 유사 함을 보장하는 것과 마찬가지로 연구 현장에서의 무작위 추출은 한 집단의 참가자에서보다 일반적인 집단으로 추정치를 일반화 할 수 있음을 보장한다 (표본 추출에 대한 제 3 장 참조). 연구 사이트가 무작위로 표본 추출되지 않으면 완벽하게 설계되고 실시 된 실험 에서조차도 일반화는 문제가 될 수 있습니다.
Allcott (2011) 에서 10 건, Allcott (2011) 에서 101 Allcott (2011) 111 Allcott (2011) 실험을 통해 미국 전역의 약 8 백 5 십만 가구가 Allcott (2015) 되었습니다. 그들은 가정 에너지 보고서가 평균 전기 소비를 줄임을 일관되게 보여 주며 캘리포니아의 300 개 가정에서 Schultz와 동료들의 원초적인 발견을 뒷받침합니다. 이 원본 결과를 복제하는 것 외에도 후속 실험에서 효과의 크기가 위치에 따라 다르다는 사실도 알 수 있습니다. 이 실험 세트는 또한 부분 디지털 필드 실험에 대한 두 가지보다 일반적인 점을 보여줍니다. 첫째, 연구자는 실험 실행 비용이 낮을 때 외부 유효성에 대한 우려를 경험적으로 해결할 수 있으며 결과가 항상 켜져있는 데이터 시스템에 의해 측정되는 경우 발생할 수 있습니다. 따라서 연구자는 이미 기록 된 다른 흥미롭고 중요한 행동을주의 깊게 살펴보고 기존의 측정 인프라 위에 실험을 설계해야한다고 제안합니다. 둘째,이 일련의 실험은 디지털 필드 실험이 온라인이 아니라는 것을 상기시켜줍니다. 점점 더 많은 사람들이 건축 환경에서 센서로 측정 한 많은 결과를 가지고 도처에있을 것으로 기대합니다.
타당도 - 통계적 결론 유효성, 내부 타당도, 구성 타당성 및 외부 타당성의 네 가지 유형은 정신 검사 목록을 제공하여 연구자가 특정 실험의 결과가보다 일반적인 결론을지지하는지 평가할 수 있도록합니다. 아날로그 시대 실험과 비교하여 디지털 시대 실험에서는 경험적으로 외부 유효성을 다루는 것이 쉬워야하며 내부 유효성을 확인하는 것이 더 쉬워야합니다. 반면에 유효성 구축 문제는 디지털 시대의 실험, 특히 기업과의 파트너십을 포함하는 디지털 현장 실험에서 더욱 어려울 것입니다.