또한 해설

이 섹션은 서술로 읽을 수보다는 기준으로서 사용되도록 설계된다.

  • 소개 (4.1 절)

사회 연구의 인과 관계에 대한 질문은 종종 복잡하고 복잡하다. 인과 그래프를 기반으로 인과 관계에 대한 기본적인 접근 방법에 대한 내용은 Pearl (2009) , 잠재적 결과에 따라 기초적인 접근 방식을 참조 Imbens and Rubin (2015) (이 장에서 기술 부록). 이 두 가지 방법의 비교에 대한 내용은 Morgan and Winship (2014) . 교란 요인을 정의하는 공식적인 방법을 참조 VanderWeele and Shpitser (2013) .

장에서 나는 실험 및 비 실험 데이터에서 인과 관계 추정을 할 수있는 능력 사이의 밝은 라인처럼 보였던 것을 만들었습니다. 실제로, 나는 구분이 더 흐린라고 생각합니다. 예를 들어, 모든 사람이 흡연은 우리가 사람들이 흡연을 강제로 무작위 대조 실험을 해본 적이에도 불구하고 암을 유발 것을 허용합니다. 비 실험 데이터에서 인과 관계 추정을 만들기에 좋은 책 길이 트리트먼트의 참조 Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , 및 Dunning (2012) .

1 장과 2 Freedman, Pisani, and Purves (2007) 실험, 제어 실험의 차이점에 대한 명확한 소개를 제공하고 제어 실험을 무작위.

Manzi (2012) 무작위 대조 실험의 철학적 및 통계 토대에 매혹적인 읽을 소개합니다. 또한 사업에 실험의 힘의 흥미로운 실제 예제를 제공합니다.

  • 실험은 무엇입니까? (4.2 절)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) 실험 설계 및 분석의 통계적 측면에 좋은 소개를 제공합니다. 경제 : 또한, 다양한 분야에서 실험의 사용에 우수한 치료가있다 (Bardsley et al. 2009) , 사회학 (Willer and Walker 2007; Jackson and Cox 2013) , 심리학 (Aronson et al. 1989) , 정치 과학 (Morton and Williams 2010) , 사회 정책 (Glennerster and Takavarasha 2013) .

참가자 모집 (예를 들어, 샘플링)의 중요성은 실험 연구 평가에서 종종 있습니다. 치료 효과 모집단 이종 경우에는, 다음 샘플은 중요하다. Longford (1999) 그 우연한 샘플링 인구 조사로 생각 실험 연구자 옹호 때 명확 점을 만든다.

  • 실험의 두 차원 : 실험실 필드 및 아날로그 - 디지털 (4.3 절)

내가 실험실 및 현장 실험 사이에 제시된 이분법은 조금 단순화이다. 사실, 다른 연구자들은 필드 실험의 다양한 형태의 분리, 특히 사람에서 자세한 유형학을 제안 하였다 (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . 설문 조사 실험과 사회적 실험 조사 실험은 기존의 설문 조사의 인프라를 사용하여 실험하고의 대체 버전에 대한 응답을 비교한다. 또한,이 실험실 및 현장 이분법에 깔끔하게 맞지 않는 사회 과학자에 의해 수행되는 실험의 두 종류가 있습니다 (일부 설문 조사 실험은 제 3 장에 제시되어있다) 같은 질문; 설문 조사 실험에 대한 자세한보고를 위해 Mutz (2011) . 사회 실험은 치료는 정부에 의해 구현 될 수있는 사회 정책 실험이다. 사회 실험은 밀접하게 평가 프로그램 관련이 있습니다. 정책 실험에 대한 자세한 내용은 참조 Orr (1998) , Glennerster and Takavarasha (2013) , 및 Heckman and Smith (1995) .

논문의 수는 추상의 실험실 및 현장 실험을 비교 한 (Falk and Heckman 2009; Cialdini 2009) 과 정치학의 특정 실험 결과의 측면에서 (Coppock and Green 2015) , 경제 (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) 심리학 (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) 실험실 및 현장 실험 결과를 비교하는 좋은 연구 디자인을 제공합니다.

그들은 밀접하게 때로는 수요 효과라고 관찰되는 알고, 그들이 심리학 연구 되었기 때문에 그들의 행동을 변화 참가자에 대한 우려 (Orne 1962) , 경제 (Zizzo 2009) . 대부분 실험실 실험과 관련된하지만,이 같은 문제뿐만 아니라 현장 실험 문제가 발생할 수 있습니다. 사실, 수요 효과는 때로는 필드 실험에서 파생 된 용어, 서부 전기 회사의 호손 작품에서 1924 년에 시작 구체적으로 유명한 조명 실험 호손 효과라고합니다 (Adair 1984; Levitt and List 2011) . 모두 수요 효과와 호손 효과가 밀접 제 2 장에서 논의 된 반응 측정의 개념과 관련된 (또한 참조 Webb et al. (1966) ).

현장 실험의 역사는 경제학에서 설명하고있다 (Levitt and List 2009) , 정치학 (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , 심리학 (Shadish 2002) , 공공 정책 (Shadish and Cook 2009) . 현장 실험을 신속하게 눈에 띄는 된 사회 과학의 한 분야 국제 개발이다. 경제 내에서 그 일의 긍정적 인 검토를 참조 Banerjee and Duflo (2009) , 그리고 중요한 평가를 참조 Deaton (2010) . 정치학에서이 작품의 리뷰를 들어 볼 Humphreys and Weinstein (2009) . 마지막으로, 현장 실험과 관련된 윤리적 문제는 정치 과학 탐구되었다 (Humphreys 2015; Desposato 2016b) 및 개발 경제학 (Baele 2013) .

장에서, I는 전처리 정보 예상 치료 효과의 정밀도를 향상시키기 위해 사용될 수 있음을 제안하지만,이 방법에 대한 일부 논쟁이있다 : Freedman (2008) , Lin (2013)Berk et al. (2013) ; 참조 Bloniarz et al. (2016) 더 많은 정보를 얻을 수 있습니다.

  • 간단한 실험을 넘어 이동 (4.4 절)

유효 기간, 치료 효과의 이질성, 및 메커니즘 : 나는 세 가지 개념에 초점을 선택했습니다. 이러한 개념은 서로 다른 분야에서 다른 이름을 가지고있다. 예를 들어, 심리학자들은 중재자운영자에 초점을 맞춤으로써 간단한 실험을 넘어 이동하는 경향이있다 (Baron and Kenny 1986) . 중재자의 아이디어는 내가 메커니즘을 부르는 의해 포착되며, 운영자의 아이디어는 내가 외부 타당성 (가 서로 다른 상황에서 실행 된 경우 예를 들어, 실험의 결과가 다른 것) 및 치료 효과의 이질성 (소위에 의해 캡처 예를 들어, 다른 사람보다 어떤 사람들)에 대한 더 큰 효과가 있습니다.

의 실험 Schultz et al. (2007) 효과적인 중재를 설계하는 방법을 사회 이론이다. 효과적인 개입을 설계 이론의 역할에 대한보다 일반적인 인수에 대한 내용은 Walton (2014) .

  • 유효 기간 (4.4.1 절)

내부 및 외부 타당성의 개념을 처음으로 도입 된 Campbell (1957) . 보기 Shadish, Cook, and Campbell (2001) , 더 자세한 역사와 통계적 결론의 타당성, 내적 타당성의주의 깊은 고심에 대한 유효성 및 외부 유효성을 구성.

실험에서 통계적 결론의 타당성과 관련된 문제에 대한 개요를 참조 Gerber and Green (2012) (사회 과학 관점에 대한) 및 Imbens and Rubin (2015) (통계적 관점의 경우). 온라인 현장 실험에서 구체적으로 발생하는 통계적 결론의 타당성 일부 문제는 종속 데이터와 신뢰 구간을 만들기위한 계산 효율적인 방법으로 문제를 포함 (Bakshy and Eckles 2013) .

내부 유효 복잡한 필드 실험을 보장하기 어렵다. 예를 들어, 참조 Gerber and Green (2000) , Imai (2005) , 및 Gerber and Green (2005) 투표에 대한 복잡한 필드 실험의 구현에 대한 논쟁. Kohavi et al. (2012)Kohavi et al. (2013) 온라인 현장 실험에서 간격 유효성의 도전에 대한 소개를 제공합니다.

내부 유효 기간 하나의 주요 관심사는 무작위 문제입니다. 잠재적으로 임의의 문제를 검출하는 방법 중 하나는 관측 특성에 실험군과 대조군을 비교하기위한 것이다. 비교 이러한 종류의 밸런스 체크라고 부른다. 참조 Hansen and Bowers (2008) 검사의 균형, 그리고 볼 수있는 통계적인 접근 Mutz and Pemantle (2015) 균형 검사에 대한 우려에 대해. 예를 들어, 밸런스 이용한 검사 Allcott (2011) (, 위치 2, 6 및 8 표 2 참조) 임의의 OPower 실험 일부 실험 세 제대로 구현되지 않은 몇 가지 증거가 있음을 발견 하였다. 다른 방법은 다음을 참조 Imbens and Rubin (2015) , 제 21 장.

내부 유효성과 관련된 다른 주요 관심사는 1) 치료 그룹의 모든 사람이 실제로 치료를받은 비 준수, 한 편, 두 치료 군에서 모두가 치료 일부를 수신 비 준수, 양면 2) 대조군 인 치료가 제어 상태로 사용자에게 처리 상태의 사람들로부터 넘쳐 치료 결과 일부 참가자 측정하지 3) 마모, 4) 간섭을 받는다. 참조 Gerber and Green (2012) 제 5 장, 6, 7, 이러한 문제에 대한 각 8.

구성 타당도에 대한 자세한 내용을 참조 Westen and Rosenthal (2003) , 및 구조의 큰 데이터 소스의 유효성에 대한 자세한 내용은 Lazer (2015) 이 책의 제 2 장.

외부 타당성의 한 측면은 개입이 테스트되는 설정입니다. Allcott (2015) 사이트 선택 바이어스의주의 이론 및 경험적 치료를 제공합니다. 이 문제도 논의된다 Deaton (2010) . 여러 사이트에서 복제되는 외에, 홈 에너지 보고서 개입은 독립적으로 여러 연구 그룹에 의해 연구되고있다 (예를 들면, Ayres, Raseman, and Shih (2013) ).

  • 치료 효과의 이질성 (제 4.4.2)

현장 실험에서 치료 효과의 이질성의 훌륭한 개요, 12 장 참조 Gerber and Green (2012) . 의료 시험에서 치료 효과의 이질성에 대한 소개에 대한 내용은 Kent and Hayward (2007) , Longford (1999) , 그리고 Kravitz, Duan, and Braslow (2004) . 치료 효과의 이질성은 일반적으로 예비 처리 특성에 기초하여 차이에 초점을 맞춘다. 당신이 후 처리 결과에 따라 이성에 관심이 있다면, 더 복잡한 approachs는 주요 층화으로 필요하다 (Frangakis and Rubin 2002) ; 참조 Page et al. (2015) 를 검토합니다.

많은 연구자들은 선형 회귀를 사용하여 치료 효과의 이질성을 예측하지만, 새로운 방법은, 예를 들어 기계 학습에 의존 Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , 및 Athey and Imbens (2016a) .

때문에 다중 비교 문제와. "낚시"다중 비교에 대한 주소 우려 도움이 될 수 있습니다 통계적 방법의 다양한 있습니다 효과의 이질성의 결과에 대한 몇 가지 회의론이 (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . "낚시"에 대한 우려에 대한 하나의 접근 방식은 심리학에서 점점 일반화되고 사전 등록, 인 (Nosek and Lakens 2014) , 정치학 (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , 경제 (Olken 2015) .

의 연구에서 Costa and Kahn (2013) 실험에서 가구의 약 절반은 인구 통계 학적 정보에 링크 될 수 있었다. 이 분석에 대한 자세한 내용과 가능한 문제에 관심이있는 독자는 원래 종이를 참조해야합니다.

  • 메커니즘 (섹션 4.4.3)

메커니즘은 매우 중요하지만, 공부하기가 매우 어려운 것으로 판명. 메커니즘에 대한 연구는 밀접 심리학 중재자의 연구 관련 (뿐만 아니라 참조 VanderWeele (2009) 두 개념 사이의 정확한 비교를 위해). 이러한 개발 접근 방식으로 찾는 메커니즘 통계 방법, Baron and Kenny (1986) , 아주 일반적이다. 불행히도, 이러한 절차는 어떤 강한 가정에 의존하는 것으로 나타났다 (Bullock, Green, and Ha 2010) 여러 메커니즘이있을 때 사람이 많은 상황에서 예상대로, 고통 (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011)Imai and Yamamoto (2013) 일부 개선 된 통계 방법을 제공합니다. 또한, VanderWeele (2015) 민감도 분석에 대한 포괄적 인 접근 방식을 포함하여 중요한 결과의 숫자와 함께 책 길이의 치료를 제공합니다.

별도의 접근 방식은 직접 메커니즘 (예를 들어,주는 선원의 비타민 C를) 조작을 시도 실험에 초점을 맞추고 있습니다. 불행히도, 많은 사회 과학 설정에서이 종종 다수의 메커니즘과는 다른 하나를 변경하지 않고 변경 치료제를 설계하기 어렵다. 일부 방법은 실험적으로 변경 메커니즘에서 설명하는 Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , 및 Pirlott and MacKinnon (2016) .

설명 마지막으로, 메커니즘은 또한 과학의 철학에서 오랜 역사를 가지고 Hedström and Ylikoski (2010) .

  • 기존 환경을 사용하여 (제 4.5.1.1)

차별을 측정하는 대응 연구와 감사 연구의 사용에 대한 자세한 내용을 참조하십시오 Pager (2007) .

  • 자신의 실험을 구축 (제 4.5.1.2)

빌드 실험 참가자를 모집하는 가장 일반적인 방법은 아마존 기계 터크 (MTurk)입니다. 전통적인 실험실 실험 지불 사람들의 MTurk 모방 측면들이없는 많은 연구자하지 않을 것입니다 작업을 완료 할 수 있기 때문에 이미 기존보다 빠르고 저렴 데이터 수집의 결과로 인간을 대상으로 실험 참가자로 Turkers (MTurk에 노동자)를 사용하기 시작했다 캠퍼스 실험실 실험 (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

MTurk에서 모집 참가자들과 실험의 가장 큰 강점은 물류 있습니다 : 그들은 연구자들이 신속하고 필요에 따라 참가자를 모집 할 수 있습니다. 실험실 실험을 실행할 수 주가 걸릴 수 및 현장 실험 업을 설정할 수 개월이 걸릴 수 있습니다 반면, MTurk에서 모집 참가자들과 실험 일에서 실행할 수 있습니다. 예를 들어, Berinsky, Huber, and Lenz (2012) 로 8 분 실험에 참가하기 위해 하루에 400 과목을 채용 할 수 있었다. 또한, 이들 참가자 (3 장에서 논의 된 바와 같이, 설문 조사 및 질량 협력을 포함, 5) 거의 모든 목적을 위해 채용 될 수있다. 채용이 용이 연구자가 연속해서 관련 실험의 시퀀스를 실행할 수 있다는 것을 의미한다.

자신의 실험에 MTurk에서 참가자를 모집하기 전에 알아야 할 네 가지 중요한 사항이있다. 먼저, 많은 연구자 Turkers 관련된 실험 비특이적 회의론있다. 이 회의 특정 아니기 때문에 증거에 대응하기 어렵다. 그러나 Turkers를 사용하여 연구의 몇 년 후, 우리는 지금이 회의가 특히 필요하지 않다고 결론을 내릴 수있다. 다른 집단과 다른 집단의 결과에 Turkers와 실험 결과를 비교 많은 연구에 Turkers의 인구 통계를 비교하는 많은 연구가 있었다. 이 모든 일을 감안할 때, 당신이 그것에 대해 생각하는 가장 좋은 방법은 Turkers 많은 학생들하지만 조금 더 다양한처럼, 합리적인 편의 샘플 있다고이라고 생각 (Berinsky, Huber, and Lenz 2012) . 따라서, 학생들은 어떤을위한 합리적인 인구하지만 모든 실험 연구와 마찬가지로, Turkers 합리적인 일부 인구 전부는 아니지만 연구이다. 당신이 Turkers 작업을하려는 경우, 그것은 이러한 비교 연구의 많은 것을 읽고 자신의 뉘앙스를 이해하는 의미가 있습니다.

둘째, 연구자들은 터크 실험의 내적 타당성을 높이기위한 모범 사례를 개발, 당신은에 대한 자세한 내용은 이러한 모범 사례 따라야한다 (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . 예를 들어, Turkers를 사용하여 연구자들은 부주의 한 참가자 제거 스크리너를 사용하는 것이 좋습니다 (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (또한 참조 DJ Hauser and Schwarz (2015b)DJ Hauser and Schwarz (2015a) ). 사용자가 부주의 참가자를 제거하지 않으면, 처리의 영향이 부주의 참가자로부터 도입 노이즈에 의해 세정 될 수 있으며, 실제로 부주의 참가자의 수는 상당 할 수있다. 후버와 동료의 실험 (2012) 참가자의 약 30 %는 기본적인주의 스크리너에 실패했습니다. Turkers 일반 또 다른 문제는 비 순진 참가자입니다 (Chandler et al. 2015) .

셋째로, 디지털 실험의 다른 형태에 대해, MTurk 실험 규모 수 없다 Stewart et al. (2015) 주어진 시간에 MTurk 만 7,000 사람들이있는 것으로 추정하고있다.

마지막으로, 당신은 MTurk는 자신의 규칙과 규범 커뮤니티입니다 알고 있어야합니다 (Mason and Suri 2012) . 당신이 당신의 실험을 실행하려고했다 국가의 문화에 대해 알아하려고하는 것과 같은 방식으로, 당신은 문화와 Turkers의 규범에 대한 자세한 내용을 찾으려고한다 (Salehi et al. 2015) . 그리고, 당신은 당신이 부적절하거나 비 윤리적 인 뭔가 할 경우 Turkers 실험에 대해 이야기한다 알고 있어야합니다 (Gray et al. 2016) .

MTurk는 같은 실험실 같은 있는지, 실험 참가자를 모집 할 수있는 매우 편리한 방법입니다 Huber, Hill, and Lenz (2012) , 또는 같은 더 필드와 같은, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , 및 Mao et al. (2016) .

  • 당신의 자신의 제품을 구축 (제 4.5.1.3)

당신이 당신의 자신의 제품을 만들려고 생각하는 경우에, 나는 당신의 MovieLens 그룹에서 제공하는 조언을 읽어 보시기 바랍니다 Harper and Konstan (2015) . 자신의 경험에서 중요한 통찰력은 각각의 성공적인 프로젝트에 많은, 많은 실패 있다는 것입니다. 예를 들어, MovieLens 그룹은 완전한 실패했다 GopherAnswers으로 다른 제품을 출시 (Harper and Konstan 2015) . 제품을 구축하는 동안 실패 연구원의 또 다른 예는 아덴라는 온라인 게임을 구축하는 에드워드 카스트로 노바의 시도이다. 자금 $ 25 만에도 불구하고, 프로젝트는 플롭이었다 (Baker 2008) . GopherAnswers 및 아덴 같은 프로젝트는 불행하게도 훨씬 더 일반적인 MovieLens 같은 프로젝트보다. 1) 참가자 그것 때문에 예를 들어, 그들은이 지급되지 않습니다 (을 제공하는 기능의 제품을 사용하고이 아니다 : 나는 성공적으로 반복 실험을위한 제품을 내장 한 다른 연구자의 몰랐다고 말했을 때 마지막으로, 여기 내 기준이다 지원자 과학 돕는) 2) 생성물을 하나 이상의 별개의 실험 (다른 참가자 풀이 즉 아닌 동일한 실험을 여러 번)에 사용되어왔다. 다른 예를 알고 있다면 알려 주시기 바랍니다.

  • 강력한 파트너 (4.5.2 항)

나는 기술 회사에서 자주 논의 파스퇴르의 사분면의 아이디어를 들었어요, 그리고 구글에서 연구 활동을 정리하는 데 도움이 (Spector, Norvig, and Petrov 2012) .

본드와 동료의 연구 (2012) 도 그들을받은 사람들의 친구에 이러한 치료의 효과를 감지하려고 시도합니다. 때문에 실험의 설계, 이러한 과잉 깨끗하게 검출하기 어렵다; 관심있는 독자는 볼 수 Bond et al. (2012) 보다 철저한 논의. 이 실험은 투표를 장려하기위한 노력에 정치 과학 실험의 오랜 전통의 일부입니다 (Green and Gerber 2015) . 그들은 파스퇴르의 사분면에 있기 때문에이 GET 아웃 - 더 - 투표 실험은 일부 일반적이다. 즉, 행동 변화, 사회적 영향에 대한 일반적인 이론을 테스트하기 위해 흥미있는 동작 할 수있다 투표와 투표를 증가 할 동기를 많은 사람들이있다.

다른 연구자들은 이러한 정당, 시민 단체, 기업 등의 파트너 기관과 현장 실험을 실행에 대한 조언을 제공하고 있습니다 (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . 기타 기관과의 협력 연구 설계에 영향을 줄 수있는 방법에 대한 조언을 제공했다 (Green, Calfano, and Aronow 2014; King et al. 2007) . 파트너십은 또한 윤리적 인 질문으로 이어질 수 있습니다 (Humphreys 2015; Nickerson and Hyde 2016) .

  • 디자인 컨설팅 (4.6 절)

실험을 실행하기 전에 분석 계획을 만들려고하는 경우에, 나는 당신이보고 지침을 읽고 시작하는 것이 좋습니다. 배우자 가이드 라인 (시험의 통합 표준보고) 의학에서 개발 된 (Schulz et al. 2010) 과 사회 연구를위한 수정 (Mayo-Wilson et al. 2013) . 지침의 관련 세트가 실험 정치 과학 저널의 편집자에 의해 개발되었다 (Gerber et al. 2014) (또한 참조 Mutz and Pemantle (2015)Gerber et al. (2015) ). 마지막으로,보고 가이드 라인은 심리학에서 개발되었다 (Group 2008) , 또한 참조 Simmons, Nelson, and Simonsohn (2011) .

당신이 분석 계획을 작성하는 경우에는 사전 등록은 다른 사람이 당신의 결과에있는 신뢰를 증가하기 때문에 그것 - 등록 미리 고려해야한다. 당신이 파트너와 함께 작업하는 경우 또한,이 결과를 본 후 분석을 변경하는 파트너의 능력을 제한합니다. 사전 등록은 심리학에서 점차 일반화되고있다 (Nosek and Lakens 2014) , 정치학 (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , 경제 (Olken 2015) .

당신의 사전 분석 계획을 작성하는 동안 일부 연구자들은 또한 추정 된 치료 효과의 정밀도를 개선하기 위해 회귀 및 관련 접근 방법을 사용하는 것이 알고 있어야하고,이 방법에 대한 몇 가지 논쟁이있다 : Freedman (2008) , Lin (2013) , 및 Berk et al. (2013) ; 참조 Bloniarz et al. (2016) 더 많은 정보를 얻을 수 있습니다.

온라인 현장 실험 특별히 디자인 조언도에 제시되어있다 Konstan and Chen (2007)Chen and Konstan (2015) .

  • 제로 가변 비용 데이터를 생성 (4.6.1 절)

MusicLab 실험에 대한 자세한 내용은 참조 Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , 및 Salganik (2007) . 승자 독식 시장에 대한 자세한 내용을 참조 Frank and Cook (1996) . 더 일반적으로 형상화 행운과 기술에 대한 자세한 내용은 참조 Mauboussin (2012) , Watts (2012) , 그리고 Frank (2016) .

징병을 : 연구자는주의 사용해야 참가자 지불을 제거하는 또 다른 방법이있다. 많은 온라인 현장 실험에서 참가자들은 기본적으로 보상 결코 실험에 징집하지 않고있다. 이 방법의 예로는 Restivo 및 밴 드 Rijt의 포함 (2012) 위키 백과와 본드와 동료의에서 보상에 대한 실험 (2012) 투표 할 사람들을 격려에 실험. 이 실험은 정말 제로 가변 비용이없는, 그들은 연구자 제로 가변 비용이 있습니다. 이 실험의 많은 비용이 각 참가자에 매우 작은 비록, 작은 비용은 참가자의 거대한 수를 빠르게 추가 할 수 있습니다 부과했다. 대규모 온라인 실험을 실행 연구자들은 종종 많은 사람들에게 적용 할 때 이러한 작은 영향이 중요하게 될 수 있음을 말하여 작은 예상 치료 효과의 중요성을 정당화. 동일한 사고 연구자들은 참가자에 부과하는 비용에 적용됩니다. 실험은 1 분 낭비 백만명가 발생하면, 실험은 특정 사람에게 매우 해로운 것이 아니라 집계에 시간이 거의 2 년을 낭비했다.

참가자 제로 가변 비용 지불을 만드는 또 다른 방법은 추첨도 조사 연구에서 사용 된 접근법을 사용하는 것이다 (Halpern et al. 2011) . 마지막으로, 디자인에 대한 더 즐거운 사용자 경험을 볼 Toomim et al. (2011) .

  • 대체 수정 및 감소 (섹션 4.6.2)

여기에서 세 가지 R의 원래 정의입니다 Russell and Burch (1959) :

"교체 지각없는 재료의 의식이 살고있는 고등 동물에 대한 대체를 의미한다. 감소 정량 정밀도의 정보를 얻기 위해 사용되는 동물의 수의 감소를 의미한다. 제련이 발생하거나 계속 사용할 수있는 이들 동물에 적용 비인도적인 절차 심각도 어떠한 감소를 의미한다. "

내가 제 6 장에서 설명하는 윤리 원칙을 무시하지 않는 제안하는 세 가지 R의는 오히려 인간 실험의 설정에 대해 그 원리 - 선행 - 구체적으로 좀 더 정교한 버전의 하나입니다.

정서적 전염을 고려할 때,이 실험을 해석 할 때 유의해야 할 세 가지 비 윤리적 인 문제가 있습니다. 우선, 실험의 실제 상세 이론적 항에 연결하는 방법을 명확하지 않다; 즉, 구성 타당도에 대한 질문이 있습니다. 이는 1)이 명확하지 않기 때문에 양 및 음의 단어 수가 사람들이 전기 단어 감정의 좋은 지표 있다는 사실 참가자의 감정 상태의 좋은 지표임을 명확하지 않고, 2)는 명확하지 연구자들은 사용되는 특정 감정 분석 기술은 확실하게 감정을 추론 할 수있다 (Beasley and Mason 2015; Panger 2016) . 즉, 바이어스 신호의 측정 불량이있을 수도있다. 둘째, 실험의 설계와 분석은 우리에게 가장 영향을 하였다 (즉, 치료 효과의 이질성 더 분석이없는)과 메커니즘이 될 수 있습니다 어떤 사람에 대해 아무것도 알 수 없습니다. 이 때, 연구자는 참가자에 대한 많은 정보를 가지고 있지만, 본질적으로 분석에 위젯으로 처리 하였다. 셋째, 본 실험에서 효과 크기가 매우 작다; 처리 및 제어 조건의 차이는 약 1 천 단어이다. 자신의 논문에서, 크레이머와 동료들은 수억 명의 사람들이 자신의 뉴스는 매일 피드에 액세스하기 때문에이 크기의 효과가 중요한 경우를합니다. 즉, 그들은 집계에 크고 각 사람에 대한 작은 심지어 효과를 주장한다. 이 인수를 받아하더라도이 크기의 효과 감정적 전염에 대한 좀 더 일반적인 과학적 질문에 대하여 중요한 경우, 아직 명확하지 않다. 작은 효과가 중요한 상황에 대한 자세한 내용은 참조 Prentice and Miller (1992) .

첫 번째 R (교체)의 관점에서 정서적 전염 실험 비교 (Kramer, Guillory, and Hancock 2014) 과 정서적 전염 자연 실험 (Coviello et al. 2014) 에서 이동과 관련된 장단점에 대한 몇 가지 일반적인 수업을 제공합니다 자연 실험에 실험 (비 실험에서 실험에 근접하는 것을 시도 일치 같은 다른 접근 방법, 제 2 장 참조). 윤리적 혜택뿐만 아니라, 비 실험 연구에 실험에서 전환하면 그들은 논리적으로 전개 할 수없는 치료를 연구하는 연구자 수 있습니다. 이 윤리 및 물류 장점은 있지만, 비용에 온다. 자연 실험을 통해 연구자들은 적은 참가자, 무작위 모집 같은 것을 제어하고, 치료의 성격을 가지고있다. 예를 들어, 치료제로 강우 한 한계는 모두 양성 증가 부정성이 감소한다는 것이다. 실험 연구에서는, 그러나, 크레이머와 동료들은 독립적으로 긍정과 부정을 조정 할 수 있었다.

에서 사용하는 특정 방법 Coviello et al. (2014) 추가로 정교했다 Coviello, Fowler, and Franceschetti (2014) . 도구 변수에 대한 소개를 참조 Angrist and Pischke (2009) (이하 형식) 또는 Angrist, Imbens, and Rubin (1996) (형식적인). 도구 변수의 회의적인 평가를 들어 볼 Deaton (2010) , 약한 악기 (비 약한 악기)와 도구 변수에 대한 소개를 참조 Murray (2006) .

보다 일반적으로, 자연 실험에 대한 좋은 소개가 Dunning (2012) , 그리고 Rosenbaum (2002) , Rosenbaum (2009) , 그리고 Shadish, Cook, and Campbell (2001) 실험을하지 않고 인과 효과 추정에 대한 좋은 아이디어를 제공합니다.

두 번째 R (정제)의 관점에서 글을 증폭에 게시물을 차단하는 감정 전염의 디자인을 변경 고려 과학 및 물류 장단점이있다. 예를 들면, 뉴스 피드의 기술적 구현이 게시물을 승압하여 실험보다는 소식을 차단하여 실험을 수행하기 위해 실질적으로 용이하게하는 경우가있다 (포스트 차단와 실험에 층으로 구현 될 수 있음에 유의 기본 시스템의 변경)에 대한 필요없이 뉴스 피드 시스템의 상단. 과학적 그러나, 실험에 의해 해결 이론 명확 위에 다른 하나의 설계를 제안하지 않았다.

불행하게도, 나는 차단과 뉴스 피드에 콘텐츠를 강화의 상대적 장점에 대한 실질적인 이전 연구의 인식하지입니다. 또한, 나는 그들에게 덜 해로운 수 있도록 치료를 정제에 대해 많은 연구를 보지 못했다; 하나의 예외는 Jones and Feamster (2015) 인터넷 검열의 측정의 경우 고려, (나는 앙코르 연구에 관계 제 6 장에서 논의 할 주제를 (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

제 R (감소)의 관점에서, 기존의 전력 분석 좋은 소개는 Cohen (1988) . 전처리 공변량은 설계 단계 및 실험 분석 단계에 포함될 수있다; 제 4 장 Gerber and Green (2012) 두 가지 접근 방식에 대한 좋은 소개를 제공하고, Casella (2008) 보다 심층적 인 치료를 제공합니다. 랜덤이 전처리 정보를 사용하는 기술은 일반적으로 하나의 실험 설계 또는 층상 실험 설계 (용어가 지역 사회에서 지속적으로 사용되지 않습니다) 차단라고합니다; 이러한 기술은 깊이 제 3 장 참조에서 논의 된 층화 표본 추출 기술과 관련된 Higgins, Sävje, and Sekhon (2016) 대규모 실험에서이 디자인을 사용하는 방법에 대한 자세한합니다. 전처리 공변량는 분석 단계에 포함될 수있다. McKenzie (2012) 상세히 필드 실험 분석에 대한 차분 인 차이 접근법을 탐구한다. 참조 Carneiro, Lee, and Wilhelm (2016) 치료 효과의 추정의 정밀도를 높이기 위해 다른 접근 방법의 장단점에 대한 자세한 내용은. 설계 또는 분석 단계 (또는 둘 다)에서 전처리 공변량을 포함하려고할지 여부를 결정할 때 마지막으로 고려해야 할 몇 가지 요소가 있습니다. 연구자들은 "낚시"아니라는 것을 보여주고 싶은 설정에서 (Humphreys, Sierra, and Windt 2013) , 도움이 될 수있는 설계 단계에서 전처리 공변량을 사용하여 (Higgins, Sävje, and Sekhon 2016) . 참가자들이 순차적으로 도착 물류 어렵다 설계 단계의 전처리 정보를 이용하여, 특히 온라인 필드 실험 상황에서, 예를 들어 볼 Xie and Aurisset (2016) .

그것은 차이 --차이가 차이 -에 - 수단보다 훨씬 더 효과적 일 수 있습니다 이유에 대한 직관의 비트를 추가하는 가치가있다. 많은 온라인 결과는 매우 높은 분산을해야합니다 (예를 들어, Lewis and Rao (2015)Lamb et al. (2015) ) 및 시간에 상대적으로 안정하다. 이 경우에는, 변화 점은 통계 학적 실험의 전력을 증가, 실질적으로 더 작은 변화를 가질 것이다. 이 자주 사용하지 않는 접근 이유 중 하나는 디지털 시대에 앞서 전처리 결과를 가지고 일반적인 아니라고이다. 그것에 대해 생각하는보다 구체적인 방법은 특정 운동 루틴은 체중 감소를 발생 여부를 측정하는 실험을 상상하는 것입니다. 당신은 차이 -에 - 수단 접근을 할 경우, 추정은 인구 가중치의 변화에​​서 오는 다양성을해야합니다. 당신이 차이 인 차분 접근 할 경우, 그러나, 무게에 그 자연적으로 발생하는 변화는 제거됩니다 당신은 더 쉽게 처리로 인한 차이를 감지 할 수 있습니다.

실험 참가자의 수를 줄이는 한 방법은 중요 크레이머 동료에 의해 ​​자연 실험에서 관찰 된 효과의 크기에 기초 할 수 있었던 전력 분석 수행하는 Coviello et al. (2014) 또는 크레이머에 의해 비 실험 연구 이전 (2012) (사실이이 장의 끝 부분에서 활동하다). 전력 분석이 사용은 일반보다 약간 다르다는 것을 알 수 있습니다. 아날로그 시대에서, 연구자들은 일반적으로 그들의 연구가 너무 작 아니라는 것을 확인하기 위해 전력 분석을했다 (즉, 아래 - 전원). 그러나 이제 연구자들은 자신의 연구가 너무 크지이 있는지 확인하려면 전력 분석을 수행해야합니다 (즉, 오버 파워).

용도 변경 : 마지막으로 네 번째 R은 추가 고려했다. 즉, 그들은 원래의 연구 문제를 해결하기 위해 필요한 것보다 연구자들이 더 많은 실험 데이터와 함께 스스로를 발견하면, 그들은 새로운 질문을 데이터의 용도를 변경해야합니다. 예를 들어, 크레이머와 동료들의 연구 문제를 해결하기 위해 필요한 것보다 더 많은 데이터와 함께 스스로를 변화 -에 - 차이 추를 사용 발견했다고 상상한다. 오히려 최대한의 범위에 데이터를 사용하지 않는 것보다, 그들은 감정 표현 처리를 미리하는 기능과 효과의 크기를 연구 할 수 있었다. 마찬가지로 Schultz et al. (2007) 치료의 효과는 아마도 뉴스 피드의 효과가 이미 행복 (또는 슬픈) 메시지를 게시하는 경향이 사람들을 위해 달랐다, 빛과 무거운 사용자에 대해 서로 다른 것으로 나타났습니다. "낚시"로 이어질 수 용도 변경 (Humphreys, Sierra, and Windt 2013) 와 "P-해킹" (Simmons, Nelson, and Simonsohn 2011) ,하지만이 크게 정직한보고의 조합으로 주소 지정됩니다 (Simmons, Nelson, and Simonsohn 2011) , 사전 등록 (Humphreys, Sierra, and Windt 2013) , 및 오버 피팅 피하기 위해 시도하는 기계 학습 방법.