사회 연구에서 인과 관계에 대한 질문은 종종 복잡하고 복잡합니다. 인과 관계 그래프를 기반으로 한 인과 관계에 대한 근본적인 접근 방법은 Pearl (2009) 참조하고 잠재적 결과를 기반으로하는 기본 접근 방법은 Imbens and Rubin (2015) 참조하십시오. 이 두 가지 방법을 비교해 보려면 Morgan and Winship (2014) 참조하십시오. confounder를 정의하는 공식적인 접근 방법은 VanderWeele and Shpitser (2013) 참조하십시오.
이 장에서는 실험 데이터와 비 실험 데이터에서 인과 관계 추정을하는 우리의 능력 사이에 밝은 선과 같이 보이는 것을 만들었습니다. 그러나, 나는 실제로, 구별이 더 흐리게 생각합니다. 예를 들어 흡연을 강요하는 무작위 통제 실험이 없었 더라면 누구나 흡연으로 암을 유발한다는 사실을 모두가 인정합니다. 비 실험 데이터에서 인과 견적을 만들기에 좋은 책 한 권 분량의 치료를 참조 Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , 및 Dunning (2012) .
Freedman, Pisani, and Purves (2007) 의 1 장과 2 장은 실험, 통제 실험 및 무작위 통제 실험의 차이에 대한 명확한 소개를 제공합니다.
Manzi (2012) 는 무작위 통제 실험의 철학적 및 통계적 토대에 대한 매혹적이고 읽기 쉬운 소개를 제공합니다. 또한 비즈니스에서 실험의 힘에 대한 흥미로운 실제 사례를 제공합니다. Issenberg (2012) 는 정치 캠페인에서 실험의 사용에 대한 매혹적인 소개를 제공합니다.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 및 Athey and Imbens (2016b) 는 실험 설계 및 분석의 통계적 측면에 대한 좋은 소개를 제공합니다. 경제 : 또한, 다양한 분야에서 실험의 사용에 우수한 치료가있다 (Bardsley et al. 2009) , 사회학 (Willer and Walker 2007; Jackson and Cox 2013) , 심리학 (Aronson et al. 1989) , 정치 과학 (Morton and Williams 2010) , 사회 정책 (Glennerster and Takavarasha 2013) .
참가자 모집 (예 : 표본 추출)의 중요성은 종종 실험 연구에서 과소 평가됩니다. 그러나 집단의 치료 효과가 이질적이라면 표본 추출이 중요합니다. Longford (1999) 는 실험을 우연한 샘플링으로 인구 조사로 생각하는 연구자를지지 할 때이 점을 명확하게 제시합니다.
나는 실험실과 현장 실험 사이에 연속체가 있다는 것을 제안했으며, 다른 연구자들은보다 상세한 유형학, 특히 다양한 형태의 현장 실험을 분리하는 것을 제안했다. (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
많은 논문들이 초록 (Falk and Heckman 2009; Cialdini 2009) 과 정치학 (Coppock and Green 2015) , 경제학 (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) (Coppock and Green 2015) 의 구체적인 실험 결과 (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , 심리학 (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) 는 실험실 및 현장 실험 결과를 비교하기위한 훌륭한 연구 설계를 제공합니다. Parigi, Santana, and Cook (2017) 은 온라인 현장 실험이 실험실 및 현장 실험의 특성 중 일부를 결합 할 수있는 방법을 설명합니다.
참가자들이 자신의 행동이 바뀌 었다는 것을 알기 때문에 행동을 바꾸는 것에 대한 우려는 때로는 수요 영향 이라고도하며 심리학 (Orne 1962) 과 경제학 (Zizzo 2010) 에서 연구되었습니다. 대부분 실험실 실험과 관련되어 있지만 이러한 동일한 문제는 현장 실험에서도 문제를 일으킬 수 있습니다. 실제로, 수요 영향 은 때때로 Hawthorne 효과 라고도하는데, 이는 Western Electric Company의 Hawthorne Works (Adair 1984; Levitt and List 2011) 에서 1924 년에 시작된 유명한 조명 실험을 이끌어내는 용어입니다. 요구 효과 와 Hawthorne 효과 는 2 장에서 논의 된 반응 측정의 개념과 밀접한 관련이있다 ( Webb et al. (1966) ).
현장 실험은 경제학 (Levitt and List 2009) , 정치학 (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , 심리학 (Shadish 2002) 및 공공 정책 (Shadish and Cook 2009) . 현장 실험이 신속하게 두드러지는 사회 과학의 한 영역은 국제적 발전입니다. Banerjee and Duflo (2009) 경제학에서의 그 연구에 대한 긍정적 인 평가를 위해, Deaton (2010) 은 비판적인 평가를 위해 참조 Deaton (2010) . 정치 과학 Humphreys and Weinstein (2009) 연구에 대한 검토는 Humphreys and Weinstein (2009) 참조하십시오. 마지막으로, 현장 실험에서 발생하는 윤리적 도전은 정치학 (Humphreys 2015; Desposato 2016b) 과 개발 경제학 (Baele 2013) 의 맥락에서 탐구되었다.
이 절에서, 나는 치료 전 정보가 추정 치료 효과의 정확성을 향상 시키는데 사용될 수 있다고 제안했지만,이 접근법에 관해서는 몇 가지 논쟁이있다; Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , Bloniarz et al. (2016) 을 참조하십시오.
마지막으로 사회 과학자들이 실험실 차원에서 잘 맞지 않는 두 가지 유형의 실험이 있습니다. 조사 실험과 사회 실험입니다. 설문 조사 는 기존 설문 조사의 인프라를 사용하는 실험 이며 동일한 질문의 대체 버전에 대한 응답을 비교합니다 (일부 설문 조사는 3 장에서 설명 함). 조사 실험에 대한 자세한 내용은 Mutz (2011) 참조하십시오. 사회 실험 은 치료가 정부에 의해서만 시행 될 수있는 사회 정책 인 실험입니다. 사회 실험은 프로그램 평가와 밀접한 관련이 있습니다. 정책 실험에 대한 자세한 내용은 Heckman and Smith (1995) , Orr (1998) 및 @ glennerster_running_2013을 참조하십시오.
나는 유효성, 치료 효과의 이질성, 메커니즘이라는 세 가지 개념에 초점을두기로했습니다. 이러한 개념은 다른 필드에서 다른 이름을 갖습니다. 예를 들어, 심리학자들은 중재자 와 중재자 에 초점을 맞춤으로써 간단한 실험을 넘어서는 경향이있다 (Baron and Kenny 1986) . 중재자의 개념은 내가 메커니즘이라고 부르는 것에 의해 포착되고, 중재자의 생각은 내가 외부 유효성 (external validity)이라고 부르는 것에 의해 포착된다 (예를 들어 실험이 다른 상황에서 실행된다면 실험 결과가 달라진다) 그리고 치료 효과의 이질성 예를 들어 어떤 사람들에게는 다른 사람들보다 더 큰 효과).
Schultz et al. (2007) 은 사회 이론이 효과적인 개입을 설계하는 데 어떻게 사용될 수 있는지 보여줍니다. 효과적인 개입을 고안 할 때 이론의 역할에 관한 좀 더 일반적인 논의는 Walton (2014) 참조하십시오.
내적 및 외적 타당성의 개념은 Campbell (1957) 의해 처음 소개되었다. Shadish, Cook, and Campbell (2001) 에서 통계적 결론 타당성, 내적 타당성, 타당성 유효성 및 외부 타당성에 대한보다 자세한 내역과주의 깊은 작성을 참조하십시오.
실험에서 통계적 타당도와 관련된 문제의 개요는 Gerber and Green (2012) (사회 과학 관점)과 Imbens and Rubin (2015) (통계적 관점에서)을 참조하십시오. 온라인 현장 실험에서 특히 발생하는 통계적 결론 타당성의 일부 문제는 종속적 인 데이터로 신뢰 구간을 생성하는 계산 효율적인 방법과 같은 문제를 포함합니다 (Bakshy and Eckles 2013) .
내부 유효성은 복잡한 현장 실험에서 보장하기 어려울 수 있습니다. 투표에 대한 복잡한 현장 실험의 구현에 대한 토론은 Gerber and Green (2000) , Imai (2005) 및 Gerber and Green (2005) 을 참조하십시오. Kohavi et al. (2012) 및 Kohavi et al. (2013) 는 온라인 현장 실험에서 간격 유효성의 문제점에 대한 소개를 제공합니다.
내부 유효성에 대한 한 가지 주요한 위협은 무작위 배정 실패 가능성입니다. 무작위 배정의 문제점을 발견 할 수있는 한 가지 방법은 관찰 가능한 형질에 대한 치료군과 대조군을 비교하는 것입니다. 이러한 종류의 비교를 잔액 확인 이라고합니다. 균형 수표에 대한 통계적 접근 방법은 Hansen and Bowers (2008) , 잔액 검사에 Mutz and Pemantle (2015) 를 참조하십시오. 예를 들어, 균형 검사를 사용하여 Allcott (2011) 은 Opower 실험 중 세 가지 (표 2, 사이트 2, 6 및 8 참조)에서 임의 화가 올바르게 구현되지 않았다는 일부 증거를 발견했습니다. 다른 접근법에 대해서는 Imbens and Rubin (2015) 21 장을 참조하십시오.
내부 유효성과 관련된 다른 주요 관심사는 (1) 치료 그룹의 모든 사람이 실제로 치료를받지 않은 일방적 인 비 순응, (2) 치료 그룹의 모든 사람이 치료를받지 않는 양측 비 순응, 대조군은 치료를 받는데, (3) 일부 참가자의 경우 결과가 측정되지 않는 경우의 마비, (4) 치료 조건의 사람들로부터 통제 상태에있는 사람들에게 치료가 넘쳐나는 간섭. 이러한 각 문제에 대한 자세한 내용은 Gerber and Green (2012) 5, 6, 7 및 8 장을 참조하십시오.
구축 유효성에 대한 자세한 내용은 Westen and Rosenthal (2003) 및 큰 데이터 소스의 구축 유효성에 대한 자세한 내용은 Lazer (2015) 및이 책의 2 장을 참조하십시오.
외부 유효성의 한 측면은 개입이 테스트되는 설정입니다. Allcott (2015) 는 부지 선택 편향에 대한 신중하고 이론적이며 경험적인 대우를 제공합니다. 이 문제는 Deaton (2010) 에서도 논의됩니다. 외부 적 타당성의 또 다른 측면은 동일한 개입의 대안 적 운영이 유사한 효과를 미치는지 여부이다. 이 경우, Schultz et al. (2007) 및 Allcott (2011) 은 Opult 실험이 Schultz와 동료 (1.7 % 대 5 %)의 원래 실험보다 더 작은 예상 치료 효과가 Allcott (2011) 보여줍니다. Allcott (2011) 은 치료 방법이 다르기 때문에 후속 실험이 더 효과가 없다고 추측했다. 대학이 후원하는 연구의 일부인 필기 이모티콘과 대량 생산 된 이모티콘의 인쇄 된 이모티콘 전력 회사의 보고서.
현장 실험에서 치료 효과의 이질성에 대한 훌륭한 개요는 Gerber and Green (2012) 12 장을 참조하십시오. 의학 시험에서 치료 효과의 이질성에 대한 소개는 Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) . 치료 효과의 이질성에 대한 고려는 일반적으로 치료 전 특성에 근거한 차이에 초점을 둔다. 후 처리 결과에 근거한 이질성에 관심이 있다면, 주요 층화 (Frangakis and Rubin 2002) 같은보다 복잡한 접근법이 필요합니다. Page et al. (2015) 검토.
많은 연구자들은 선형 회귀 분석을 사용하여 치료 효과의 이질성을 평가하지만 새로운 방법은 기계 학습에 의존합니다. 예를 들면 Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , Athey and Imbens (2016a) .
다중 비교 문제와 "낚시"로 인해 영향의 이질성에 대한 발견에는 회의론이 있습니다. 다중 비교에 대한 우려를 해결하는 데 도움이되는 다양한 통계적 접근법이 있습니다 (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . "낚시"에 대한 한 가지 접근 방법은 심리학 (Nosek and Lakens 2014) , 정치 과학 (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) 에서 점점 더 흔해지고있는 사전 등록입니다 (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , 경제학 (Olken 2015) .
Costa and Kahn (2013) 의 연구에서 실험의 가구 중 절반만이 인구 통계 학적 정보와 연결될 수 있습니다. 이러한 세부 사항에 관심이있는 독자는 원 논문을 참조해야합니다.
메커니즘은 믿을 수 없을 정도로 중요하지만 연구하기가 매우 어렵다. 메커니즘에 관한 연구는 심리학에서 중재자의 연구와 밀접하게 관련되어있다 (그러나 VanderWeele (2009) 는 두 아이디어의 정확한 비교를 볼 수있다). Baron and Kenny (1986) 에서 개발 된 접근 방식과 같은 메커니즘을 찾는 통계적 접근법은 매우 일반적입니다. 불행히도 이러한 절차는 몇 가지 강력한 가정 (Bullock, Green, and Ha 2010) 에 의존하고 다양한 상황에서 여러 가지 메커니즘이있을 때 어려움을 겪습니다 (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) 및 Imai and Yamamoto (2013) 는 몇 가지 향상된 통계 방법을 제공합니다. 또한 VanderWeele (2015) 는 민감도 분석에 대한 포괄적 인 접근법을 포함하여 여러 가지 중요한 결과가있는 책자 길이의 치료법을 제공합니다.
별도의 접근법은 메커니즘을 직접 조작하려는 실험 (예 : 선원에게 비타민 C 제공)에 초점을 맞 춥니 다. 불행히도 많은 사회 과학 환경에서는 종종 여러 가지 메커니즘이 존재하며 다른 것들을 변경하지 않고 하나를 변화시키는 치료법을 설계하는 것은 어렵습니다. 실험적으로 메커니즘을 변경하는 몇 가지 접근법은 Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) 및 Pirlott and MacKinnon (2016) 됩니다.
완전 계승 실험을 실행하는 연구원은 다중 가설 테스트에 대해 염려해야합니다. 자세한 내용은 Fink, McConnell, and Vollmer (2014) 및 List, Shaikh, and Xu (2016) 를 참조하십시오.
마지막으로 메커니즘은 Hedström and Ylikoski (2010) 기술 한 과학 철학에서 오랜 역사를 가지고 있습니다.
차별을 측정하기위한 서신 연구 및 감사 연구의 사용에 대해서는 Pager (2007) 참조하십시오.
당신이 구축 한 실험에 참여자를 모집하는 가장 일반적인 방법은 Amazon Mechanical Turk (MTurk)입니다. MTurk은 전통적인 실험실 실험의 측면을 흉내냅니다. 사람들에게 무료로 제공하지 않을 작업을 완료해야하는 경우가 많으므로 많은 연구자가 이미 실험 참가자 인 Turkers (MTurk의 직원)를 사용하여 달성 할 수있는 것보다 더 빠르고 저렴한 데이터 수집을 시작했습니다. (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) 전통적인 캠퍼스 실험실 실험에서
일반적으로 MTurk에서 모집 한 참가자를 이용하는 가장 큰 장점은 물류입니다. 실험실 실험을 실행하는 데 몇 주가 걸릴 수 있으며 현장 실험을 설정하는 데 몇 달이 걸릴 수 있지만 MTurk에서 모집 한 참가자의 실험은 수일 내에 실행될 수 있습니다. 예를 들어 Berinsky, Huber, and Lenz (2012) 는 하루에 400 명을 모집하여 8 분짜리 실험에 참여할 수있었습니다. 또한, 이러한 참가자는 사실상 모든 목적 (3 장과 5 장에서 논의 된 설문 조사 및 대량 협력 포함)으로 모집 될 수 있습니다. 이러한 채용의 용이성은 연구원들이 일련의 관련 실험을 신속하게 실행할 수 있음을 의미합니다.
자신의 실험을 위해 MTurk의 참가자를 모집하기 전에 알아 두어야 할 중요한 사항이 네 가지 있습니다. 첫째, 많은 연구자들은 투르크 인들을 포함하는 실험에 대해 비대칭적인 회의론을 가지고 있습니다. 이 회의론은 구체적이지 않기 때문에 증거에 반하는 것이 어렵습니다. 그러나 Turkers를 사용한 수년간의 연구 끝에 우리는 이제이 회의론이 특별히 정당화되지 않는다고 결론을 내릴 수 있습니다. Turkers의 인구 통계를 다른 인구의 인구 통계와 비교하는 많은 연구가 있었고 많은 실험이 Turkers와 다른 집단의 실험 결과를 비교했습니다. 이 모든 작업을 감안할 때, 내가 생각하기에 가장 좋은 방법은 투르크 인이 학생과 비슷하지만 조금 더 다양 (Berinsky, Huber, and Lenz 2012) . 따라서 학생들이 모든 연구가 아닌 일부 연구의 합리적인 인구 인 것처럼 투르크 인은 모든 연구가 아닌 일부 연구에 적합한 인구입니다. 투르크 인과 함께 일할 계획이라면, 많은 비교 연구를 읽고 그들의 뉘앙스를 이해하는 것이 좋습니다.
둘째, 연구원은 MTurk 실험의 내부 타당성을 높이기위한 모범 사례를 개발했으며 이러한 우수 사례에 대해 배우고 따라야합니다 (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . 예를 들어, Turkers를 사용하는 연구원은 부주의 한 참가자 (Berinsky, Margolis, and Sances 2014, 2016) (그러나 DJ Hauser and Schwarz (2015b) 및 DJ Hauser and Schwarz (2015a) 참조 (Berinsky, Margolis, and Sances 2014, 2016) 를 제거하기 위해 스크리너를 사용하는 것이 좋습니다. 부주의 한 참가자를 제거하지 않으면 치료의 효과는 그들이 소개하는 소음으로 씻겨 나갈 수 있으며 실제로는 부주의 한 참가자의 수가 상당 할 수 있습니다. 후버 (2012) Huber)와 동료 (2012) 의 실험에서 약 30 %의 참가자가 기본적인 주의력 검사에 실패했습니다. 투르크 인들이 일반적으로 사용하는 다른 문제는 비 순진한 참여자 (Chandler et al. 2015) 와 마찰 (Zhou and Fishbach 2016) 이다.
셋째, 다른 형태의 디지털 실험에 비해 MTurk 실험은 확장 할 수 없습니다. Stewart et al. (2015) 는 주어진 시간에 MTurk에 약 7,000 명의 사람들 만 있다고 추정합니다.
마지막으로, MTurk은 자체 규정 및 규범 (Mason and Suri 2012) 이있는 커뮤니티임을 알아야합니다. 실험을 할 국가의 문화를 알아내는 것과 같은 방법으로, 투르크 인의 문화와 규범에 대해 더 자세히 알아보아야합니다 (Salehi et al. 2015) . 부적절하거나 비 윤리적 인 일을하는 경우 투르크 인들이 실험에 관해 이야기 할 것임을 알아야합니다 (Gray et al. 2016) .
MTurk은 Huber, Hill, and Lenz (2012) 같은 실험실 Huber, Hill, and Lenz (2012) Mason and Watts (2009) 같은 더 많은 현장과 같은 실험 참가자를 모집하는 데 매우 편리한 방법입니다. , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , 그리고 Mao et al. (2016) .
자신의 제품을 만들려고 생각하는 경우 Harper and Konstan (2015) 의 MovieLens 그룹이 제공하는 조언을 읽는 것이 좋습니다. 경험을 통해 얻은 핵심 통찰력은 성공적인 프로젝트마다 많은 실패가 있다는 것입니다. 예를 들어, MovieLens 그룹은 GopherAnswers와 같은 완벽한 제품 (Harper and Konstan 2015) 출시했습니다. 연구원이 제품을 만들려고 시도하는 동안 실패한 또 다른 예는 Edward Castronova가 Arden이라는 온라인 게임을 제작하려는 시도입니다. $ 250,000의 기금에도 불구하고이 프로젝트는 플롭이었다 (Baker 2008) . GopherAnswers 및 Arden과 같은 프로젝트는 불행히도 MovieLens와 같은 프로젝트보다 훨씬 일반적입니다.
필자는 기술 회사에서 자주 논의되는 파스퇴르의 사분면 (Pasteur 's Quadrant)에 대한 아이디어를 듣고 Google의 연구 노력을 조직하는 데 도움을 (Spector, Norvig, and Petrov 2012) .
Bond와 동료 연구 (2012) 는 또한 이들 치료를받은 환자의 친구들에게 이러한 치료법의 효과를 감지하려고 시도합니다. 실험 설계로 인해 이러한 스필 오버는 깨끗하게 탐지하기가 어렵습니다. 관심있는 독자는 Bond et al. (2012) 를 참조하십시오. Jones와 동료 (2017) 도 2012 년 선거에서 매우 유사한 실험을 실시했습니다. 이 실험은 투표를 장려하려는 노력에 대한 정치 과학 실험의 오랜 전통의 일부입니다 (Green and Gerber 2015) . 이 파생 실험은 파스퇴르의 사분면에 있기 때문에 부분적으로 공통적입니다. 즉, 투표와 투표를 증가시키려는 많은 사람들이 행동 변화와 사회적 영향에 대한보다 일반적인 이론을 시험하는 흥미로운 행동이 될 수 있습니다.
정당, NGO 및 기업과 같은 파트너 조직과의 현장 실험에 대한 조언은 Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) 및 Gueron (2002) . 조직과의 파트너십이 연구 설계에 어떤 영향을 미칠 수 있는지에 대한 생각은 King et al. (2007) , Green, Calfano, and Aronow (2014) . 파트너쉽은 또한 Humphreys (2015) 와 Nickerson and Hyde (2016) 의해 논의 된 바와 같이 윤리적 문제를 야기 할 수 있습니다.
실험을 실행하기 전에 분석 계획을 세우려면 보고서 작성 가이드 라인을 읽어 보는 것이 좋습니다. CONSORT (통합 표준보고 시험) 지침은 의학에서 개발되었고 (Schulz et al. 2010) 사회 연구를 위해 수정되었다 (Mayo-Wilson et al. 2013) . 관련된 일련의 가이드 라인은 Experimental Political Science 저널 (Gerber et al. 2014) 의 편집자에 의해 개발되었다 ( Mutz and Pemantle (2015) 와 Gerber et al. (2015) ). 마지막으로, 심리학 (APA Working Group 2008) 에서보고 지침이 개발되었으며 Simmons, Nelson, and Simonsohn (2011) 도 참조하십시오.
분석 계획을 작성하는 경우 사전 등록은 다른 사람들이 자신의 결과에 대해 갖는 신뢰도를 높이기 때문에 사전 등록을 고려해야합니다. 또한 파트너와 함께 작업하는 경우 결과를보고 파트너가 분석을 변경하는 기능이 제한됩니다. 사전 등록은 심리학 (Nosek and Lakens 2014) , 정치 과학 (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) 및 경제학 (Olken 2015) 되고 있습니다.
Konstan and Chen (2007) 과 Chen and Konstan (2015) 은 온라인 현장 실험을위한 설계 조언을 제공합니다.
함대 전략이라 부르는 것을 종종 프로그래밍 연구 라고 부릅니다. Wilson, Aronson, and Carlsmith (2010) 참조하십시오.
MusicLab 실험에 대한 자세한 내용은 Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) 및 Salganik (2007) . Winner-take-all 시장에 대한 더 자세한 내용은 Frank and Cook (1996) 참조하십시오. 행운과 기술을 더 일반적으로 풀어 놓는 것에 대한 자세한 내용은 Mauboussin (2012) , Watts (2012) 및 Frank (2016) .
연구자가주의해서 사용해야하는 참가자 지불금을 없애는 또 다른 방법이 있습니다 : 징병. 많은 온라인 현장 실험에서 참가자는 기본적으로 실험으로 설계도를 작성하고 보상하지 않습니다. 이 접근법의 예로는 Wikipedia와 Bond의 보상에 대한 Restivo와 van de Rijt (2012) 실험 및 사람들의 투표 장려에 대한 동료 (2012) 실험이 있습니다. 이 실험은 실제로 가변 비용이 0이 아니라 오히려 가변적 인 비용의 연구자가 있습니다. 이러한 실험에서 각 참여자의 비용이 극히 적을지라도 총 비용은 상당히 클 수 있습니다. 대규모 온라인 실험을 수행하는 연구원은 종종 이러한 작은 효과가 많은 사람들에게 적용될 때 중요해질 수 있다고 말함으로써 작은 예상 치료 효과의 중요성을 정당화합니다. 연구자들이 참가자들에게 부과하는 비용에 대해서도 똑같은 생각이 적용됩니다. 실험으로 인해 1 백만 명의 사람들이 1 분을 낭비하게 만들었 으면이 실험은 특정 개인에게 해롭지는 않지만 전체적으로 약 2 년의 시간이 낭비되었습니다.
참가자들에게 가변적 인 비용을 지불하지 않는 또 다른 접근법은 복권을 사용하는 것인데,이 방법은 조사 연구에도 사용되어왔다 (Halpern et al. 2011) . 즐거운 사용자 경험을 설계하는 방법에 대한 자세한 내용은 Toomim et al. (2011) . 가변 비용 테스트를 생성하기 위해 봇을 사용하는 방법에 대한 자세한 내용은 ( ??? ) 참조하십시오.
Russell and Burch (1959) 가 처음 제안한 세 가지 R은 다음과 같습니다 :
"교체 지각없는 재료의 의식이 살고있는 고등 동물에 대한 대체를 의미한다. 감소 정량 정밀도의 정보를 얻기 위해 사용되는 동물의 수의 감소를 의미한다. 제련이 발생하거나 계속 사용할 수있는 이들 동물에 적용 비인도적인 절차 심각도 어떠한 감소를 의미한다. "
내가 제안한 세 가지 R은 6 장에 설명 된 윤리적 원칙보다 우선하지 않습니다. 오히려 그것들은 인간의 실험 환경에서 특히 그 원리들 - 선행 -을 더욱 정교하게 표현한 것입니다.
첫 번째 R ( "대체")의 측면에서 정서적 전염 실험 (Kramer, Guillory, and Hancock 2014) 과 정서적 전염성 자연 실험 (Lorenzo Coviello et al. 2014) 하면 관련된 절충에 대한 일반적인 교훈을 얻을 수 있습니다 실험에서 자연 실험 (그리고 실험적이지 않은 데이터에서 실험을 근사하기위한 시도와 일치하는 다른 접근 방법; 2 장 참조)에서 이동합니다. 윤리적 인 이점 외에도 실험에서 비 실험적 연구로 전환하면 연구자는 논리적으로 배치 할 수없는 치료법을 연구 할 수 있습니다. 그러나 이러한 윤리적 및 물류 측면의 이익은 비용으로 발생합니다. 자연스러운 실험을 통해 연구자들은 참가자 모집, 무작위 배정 및 치료의 성격과 같은 것들에 대한 통제력이 떨어진다. 예를 들어, 강우량의 한 가지 제한은 양성이 증가하고 부정성이 감소한다는 것입니다. 그러나 실험적 연구에서 Kramer와 동료들은 양성과 음성을 독립적으로 조정할 수있었습니다. Lorenzo Coviello et al. (2014) 는 L. Coviello, Fowler, and Franceschetti (2014) 의해 더욱 자세히 작성되었습니다. 수단 변수에 대한 소개는 Lorenzo Coviello et al. (2014) , Angrist and Pischke (2009) (덜 형식적 임) 또는 Angrist, Imbens, and Rubin (1996) (좀 더 공식적)을 참조하십시오. 도구 변수에 대한 회의적인 평가는 Deaton (2010) 참조하고, 약한 기기 (비는 약한 도구 임)를 포함한 도구 변수에 대한 소개는 Murray (2006) 참조하십시오. 더 일반적으로, 자연 실험에 대한 좋은 소개는 다음과 같이 주어진다 Dunning (2012) 동안, Rosenbaum (2002) , ( ??? ) , 그리고 Shadish, Cook, and Campbell (2001) 실험을하지 않고 인과 효과를 추정에 대한 좋은 아이디어를 제공합니다.
두 번째 R ( "상세 검색")의 측면에서 정서적 전염의 디자인을 게시물 차단에서 게시물 올리기로 변경하는 것을 고려할 때 과학적이고 논리적 인 절충점이 있습니다. 예를 들어 뉴스 피드의 기술적 구현으로 게시물이 차단 된 실험보다는 실험이 더 쉬워 질 수 있습니다 (게시물 차단과 관련된 실험을 구현할 수 있음에 유의하십시오. 기본 시스템의 변경없이 뉴스 피드 시스템 상단에 레이어로 표시). 그러나 과학적으로, 실험에 의해 다루어 진 이론은 다른 설계보다 한 디자인을 분명하게 제시하지 못했다. 유감스럽게도 뉴스 피드에서 콘텐츠를 차단하고 증폭하는 상대적인 장점에 대한 사전 연구는 많이하지 않았습니다. 또한, 나는 해를 줄이기 위해 정제 정제에 대한 많은 연구를 보지 못했다. 한 가지 예외는 B. Jones and Feamster (2015) 로 인터넷 검열의 경우를 고려한 것입니다. Encore 연구 (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) 관련하여 6 장에서 논의한 주제).
Cohen (1988) (책)과 Cohen (1992) (기사), Gelman and Carlin (2014) 은 약간 다른 관점을 제시하지만, 세 번째 R (축소) 측면에서 전통적인 전력 분석에 대한 좋은 소개가 나와있다. 사전 치료 공변량은 실험의 설계 및 분석 단계에 포함될 수 있습니다. Gerber and Green (2012) 4 장은 두 가지 접근법에 대한 좋은 소개를 제공하고 Casella (2008) 는보다 심도있는 치료법을 제공합니다. 랜덤 화에서이 전처리 정보를 사용하는 기술은 일반적으로 차단 된 실험 설계 또는 계층화 된 실험 설계로 불립니다 (이 용어는 지역 사회 전체에서 일관되게 사용되지 않습니다). 이 기법은 3 장에서 논의 된 층화 샘플링 기법과 밀접하게 관련되어있다. 거대한 실험에서 이러한 설계를 사용하는 것에 대한 자세한 내용은 Higgins, Sävje, and Sekhon (2016) 을 참조한다. 사전 치료 공변량도 분석 단계에 포함될 수 있습니다. McKenzie (2012) 는 현장 실험을보다 상세하게 분석하기 위해 차이점 접근법을 탐구합니다. 치료 효과 추정의 정확성을 높이기위한 다양한 접근법 간의 절충안에 대해서는 Carneiro, Lee, and Wilhelm (2016) 을 참조하십시오. 마지막으로, 디자인 또는 분석 단계 (또는 둘 다)에서 전처리 공변량을 포함할지 여부를 결정할 때 고려해야 할 몇 가지 요소가 있습니다. 연구자가 "낚시" (Humphreys, Sierra, and Windt 2013) 가 아니라는 것을 보여주고 싶은 상황에서 설계 단계에서 전처리 공변량을 사용하는 것이 도움이 될 수 있습니다 (Higgins, Sävje, and Sekhon 2016) . 참가자가 순차적으로 도착하는 상황, 특히 온라인 현장 실험에서 설계 단계에서 전처리 정보를 사용하는 것은 논리적으로 어려울 수 있습니다. 예를 들면, Xie and Aurisset (2016) .
차이 차이 접근법이 의미 차이 차이보다 훨씬 더 효과적 일 수있는 이유에 대한 약간의 직관력을 추가 할 가치가 있습니다. 많은 온라인 결과는 매우 큰 차이가 있습니다 (예 : RA Lewis and Rao (2015) 및 Lamb et al. (2015) ). 이 경우 변경 점수는 통계적 테스트의 위력을 높이는 실질적으로 작은 차이를 갖습니다. 이 접근법이 더 자주 사용되지 않는 한 가지 이유는 디지털 시대 이전에는 치료 전 결과를 갖는 것이 일반적이지 않다는 것입니다. 보다 구체적인 방법은 특정 운동 루틴이 체중 감량을 유발하는지 여부를 측정하는 실험을 상상하는 것입니다. 당신이 평균 차이 법을 채택한다면, 당신의 추정치는 모집단의 가중치의 다양성으로부터 발생하는 가변성을 가질 것입니다. 그러나 차별화 접근 방식을 사용하면 자연스럽게 발생하는 가중치 변화가 제거되고 치료로 인한 차이를보다 쉽게 감지 할 수 있습니다.
마지막으로, 네 번째 R : "용도 변경"추가를 고려했습니다. 즉, 연구자가 원래의 연구 문제를 해결하는 데 필요한 것보다 더 실험적인 데이터로 자신을 발견하면 새로운 질문을하기 위해 데이터를 다시 사용해야합니다. 예를 들어, Kramer와 동료가 차이 차 산정을 사용한 결과 자신이 연구 질문을 해결하는 데 필요한 것보다 많은 데이터를 발견했다고 상상해보십시오. 데이터를 최대한 활용하지 않고 치료 전 감정적 표현의 함수로 효과의 크기를 연구했을 수 있습니다. Schultz et al. (2007) 은 가볍거나 무거운 사용자의 경우 치료 효과가 다르다는 것을 발견했으며, 아마도 뉴스 피드의 영향은 이미 행복하거나 슬픈 메시지를 게시하는 경향이있는 사람들에게는 다를 수 있습니다. Repurposing은 "낚시" (Humphreys, Sierra, and Windt 2013) 및 "p-hacking" (Simmons, Nelson, and Simonsohn 2011) 있지만 정직한보고 (Simmons, Nelson, and Simonsohn 2011) , 사전 등록 (Humphreys, Sierra, and Windt 2013) 및 과도한 피팅을 피하려는 기계 학습 방법이 있습니다.