비 실험 연구와 실험을 대체 치료 정제, 참가자의 수를 줄임으로써 더 실험 인간 확인.
나는 디지털 실험을 설계에 대해 제안하고 싶은 충고의 두 번째 조각은 윤리에 관한 것이다. 위키 백과 쇼에서 barnstars에 Restivo 및 밴 드 Rijt 실험, 비용 감소로 윤리 연구 디자인의 점점 더 중요한 부분이 될 것을 의미합니다. 동물과 관련된 실험을 안내하기 위해 개발 된 윤리 원칙 : 나는 제 6 장에서 설명 할 것이다 사람을 대상으로 연구를 안내 윤리적 프레임 워크뿐만 아니라, 디지털 실험을 설계 연구팀은 또한 다른 소스에서 윤리적 인 아이디어를 그릴 수 있습니다. 특히, 동물 애호 실험 기술의 자신의 랜드 마크 책 원칙, Russell and Burch (1959) , 조정을 교체하고 감소 : 동물 연구를 안내해야합니다 세 가지 원칙을 제안했다. 나는이 세 가지 R의도 사용 된 될 수 있음을 약간 수정 제안하고 싶습니다 양식하는 인간의 실험의 디자인을 안내합니다. 특히,
이 세 가지 R의 콘크리트를 확인하고 잠재적으로 더 나은 더 인도적인 실험 설계로 이어질 수있는 방법을 보여주기 위해, 나는 윤리적 논쟁을 생성하는 온라인 현장 실험을 설명 할 것이다. 그 때 나는 세 가지 R의 실험 설계에 대한 구체적이고 실제적인 변경을 제안하는 방법을 설명합니다.
가장 윤리적 논쟁 디지털 필드 실험 중 하나는 아담 크레이머, 제이미 Gillroy, 제프리 핸콕에 의해 수행되었다 "정서적 전염"이다 (2014) . 실험은 페이스 북에 일어났다 과학적이고 실용적인 질문의 혼합에 의해 좌우되었다. 당시, 사용자가 페이스 북과 상호 작용 지배적 인 방법은 뉴스 피드, 사용자의 페이스 북 친구의 페이스 북 상태 업데이트의 알고리즘 큐레이터 세트였다. 페이스 북의 일부 비평가들은 뉴스 피드는 최신 보여주는 게시물-친구 대부분 긍정적 있기 때문에 파티를-그들의 삶에 비해 덜 흥미로운 것 때문에 사용자가 슬픈 느낌을 일으킬 수 있다고 제안했다. 한편, 어쩌면 효과가 정반대이고; 어쩌면 당신의 친구가 행복 느낌 만들 수있는 좋은 시간을 보내고을보고? 해결하기 위해 이러한 가설과 사람의 감정이 그녀의 친구에 의해 영향을받는 방법에 대한 우리의 이해 사전에 감정을-크레이머와 동료가 실행 된 실험을 경쟁. 연구팀은 일주일 동안 네 그룹으로 약 70 만 사용자를 배치하십시오 "부정 감소"그룹, 부정적인 단어 (예를 들면, 슬픈) 무작위로 뉴스 피드를 게재 차단되었습니다에 대한 글; 긍정적 인 단어 (예를 들면, 행복)와 게시물 임의로 차단 된 누구를위한 "양성 감소"그룹; 두 대조군. 은 "부정 감소"그룹 대조군 소식 무작위 "부정 감소"그룹 그러나 감정 내용에 관계없이 동일한 비율로 차단 하였다. 은 "양성 감소"그룹에 대한 대조군은 병렬 방식으로 제조 하였다. 이 실험의 설계는 적절한 대조군 항상 변경없이 하나가 아닌 것을 나타낸다. 오히려, 종종 대조군 연구 질문이 요구하는 정확한 비교를 생성하기 위하여 처리를 수신한다. 모든 경우에, 뉴스 피드에서 차단 된 게시물은 페이스 북 웹 사이트의 다른 부분을 통해 여전히 사용자가 사용할 수 있었다.
크레이머와 동료들은 양성에 참가자 상태를 감소를 위해, 자신의 상태 업데이트에 긍정적 인 단어의 비율이 감소 부정적인 단어의 비율이 증가 한 것으로 나타났습니다. 한편, 부정 감소 상태 참여자, 즉 양의 비율이 증가하고 네거티브 단어의 비율 (도 4.23) 감소되었다. 그러나, 이러한 영향은 매우 작다고 : 치료 및 컨트롤 간의 양성 및 음성 단어의 차이는 약 1 천 단어였다.
나는 장의 끝 부분에 추가 읽기 섹션에서이 실험의 과학적 측면의 논의를 넣어했지만, 불행하게도,이 실험은 윤리적 논쟁을 생성하기위한 가장 알려져있다. 이 논문은 국립 과학 아카데미 회보에 발표 된 며칠 후, 연구자와 언론 모두로부터 엄청난 항의가 있었다. 참가자는 표준 페이스 북 측면의 서비스 몇 가지 생각이 참가자들에게 해를 입힐 2) 연구는 시행하지 않은 타사 윤리적 수있는 치료를 벗어난 동의를 제공하지 않은 1) : 두 가지 점에 초점을 맞춘 종이 주위에 분노 리뷰 (Grimmelmann 2015) . 이 토론에서 제기 된 윤리적 인 질문 저널 신속하게 연구에 대한 윤리와 윤리적 검토 절차에 대한 드문 "우려의 편집 표현"게시 발생 (Verma 2014) . 이후 몇 년 동안, 실험은 격렬한 토론과 의견 차이의 근원을 계속하고,이 의견은 회사에 의해 수행되고있는 그림자 다른 많은 실험에 운전의 의도하지 않은 효과가 있었다 수 (Meyer 2014) .
정서적 전염에 대한 그 배경을 감안할 때, 지금 3 R의가 (개인적으로이 특별한 실험의 윤리에 대해 생각하는 것 무엇이든) 실제 연구를위한 콘크리트, 실질적인 개선을 제안 할 수 있음을 보여 드리고자합니다. 첫 번째 R은 교체입니다 연구자들은 가능하면 덜 침습적 위험한 기술로 실험을 대체하기 위해 노력해야한다. 예를 들어, 오히려 실험을 실행하는 것보다, 연구자들은 자연 실험을 악용 할 수 있었다. 제 2 장에서 설명한 바와 같이 무언가가 치료의 무작위 할당을 근사 세계에서 일어나는 곳, 자연 실험 상황 (예를 들면, 복권 군대에 징집 될 것입니다 누가 결정하는)입니다. 자연 실험의 장점은 연구자가먼트를 제공하지 않는다는 것이다; 환경은 당신을 위해 작업을 수행합니다. 즉, 천연의 실험 연구자 실험적 사람들의 뉴스 피드를 조작 할 필요 않았을 것이다.
사실은, 거의 동시에 정서적 전염 실험으로, Coviello et al. (2014) 정서 전염 자연 실험이라고 할 수있는 것을 이용했다. 도구 변수라는 기술을 사용하여 그들의 접근 방식은, 당신이 그것을 전에 본 적이 경우 조금 복잡하다. 그래서, 필요한 이유를 설명하기 위해, 이제 그것을 구축하자. 일부 연구자들은 정서적 전염을 연구해야 할 수도 있습니다 첫 번째 아이디어는 당신의 뉴스 피드은 매우 부정적인 어디에 당신의 뉴스 피드는 일에 당신의 글에 매우 긍정적이었다 날에 게시물을 비교하는 것입니다. 목표는 게시물의 감정적 인 내용을 예측하는 단지 인 경우이 방법은 잘 될 것이다, 그러나 목표는 게시물에 대한 당신의 뉴스 피드의 인과 효과를 연구하는 경우이 방법은 문제가있다. 이 디자인 문제를 확인하려면, 추수 감사절을 고려하십시오. 미국에서는 긍정적 인 게시물 스파이크와 부정적인 게시물은 추수 감사절에 급락. 따라서, 추수 감사절, 연구자는 뉴스 피드가 매우 긍정적이라고 볼 수 있고, 당신은뿐만 아니라 긍정적 인 일을 게시있다. 하지만, 긍정적 인 글이 아닌 뉴스 피드의 내용으로 추수 감사절에 의해 발생했을 수 있습니다. 대신, 효과 연구자가 직접 감정을 변경하지 않고 뉴스 피드의 내용을 변경 무언가를 필요로하는 인과 관계를 추정하기 위해서입니다. 날씨 : 다행히도, 그 일이 항상 뭔가가있다.
Coviello는 연구팀은 사람의 도시에서 비오는 날은 평균적으로 약 1 % 포인트에 의한 긍정적 게시물의 비율을 줄이고 약 1 % 포인트에 의해 부정적인 게시물의 비율을 증가 할 것으로 나타났습니다. 그런 다음, Coviello는 동료 실험적으로 누구의 뉴스 피드를 조작 할 필요없이 정서적 전염을 연구하는이 사실을 악용. 본질적으로 그들이 한 일은 게시물이 친구가 살고있는 도시의 날씨의 영향을 얼마나 측정이다. 이 말이 왜 확인하려면, 당신은 뉴욕시에 거주하고 시애틀에 사는 친구가 있다고 상상한다. 이제 시작 어느 날 시애틀에 비가 상상. 시애틀에있는이 비는 직접 당신의 기분에 영향을 미치지 않습니다, 그러나 당신의 뉴스 피드 때문에 친구의 게시물의 적은 양의 더 부정적 원인이됩니다. 따라서, 시애틀에서 비는 무작위로 뉴스 피드를 조작합니다. 신뢰할 수있는 통계 프로 시저에이 직관을 켜기가 복잡하다 (그리고 Coviello는 동료가 사용하는 정확한 방법은 약간의 비 표준) 그래서 더 읽기 섹션에 대한 자세한 설명을 넣었습니다. 가장 중요한 것은 Coviello는에 대해 기억하고 동료의 접근 방식은 잠재적 참가자를 손상시킬 수있는 실험을 실행 할 필요없이 정서적 전염을 연구하기 위해 그들을 사용할 수 있다는 것입니다, 그리고 많은 다른 설정에서 다른 실험을 대체 할 수있는 경우가있다 기법.
3 루피의 두 번째 발견이다 : 연구자가 가능한 가장 작은 피해를 야기하기 위해 자신의 치료를 수정하기 위해 노력해야한다. 예를 들어, 오히려 긍정적 또는 부정적이었다 콘텐츠를 차단보다, 연구자들은 긍정적 또는 부정적 내용을 밀어 수 있었다. 이 증폭 디자인은 뉴스 피드 참가자의 감정적 인 내용을 변경 한 것이다, 그러나 비평가가 표현하는 우려 중 하나를 해결 한 것 : 실험이 자신의 뉴스 피드에서 중요한 정보를 놓치지 참가자의 원인이 수. 크레이머와 동료에 의해 사용되는 디자인으로, 중요한 메시지가없는 한으로 차단하는 등의 가능성이있다. 그러나, 증폭 디자인, 치환 될 메시지는 덜 중요한 것들 일 것입니다.
마지막으로, 세번째 R은 감소이다 연구자들은 가능하면 이들 실험에서 참가자의 수를 줄이기 위해 노력해야한다. 아날로그 실험의 변동비가 높은 때문에 과거에는 이러한 감소는 설계 및 분석을 최적화하기 위해 연구를 격려하는 자연적으로 일어났다. 제로 변동비 데이터가 존재하는 경우에는, 연구자들은 실험의 크기, 비용 제약에 직면하지 않으며, 이는 불필요하게 많은 실험으로 이어질 가능성이있다.
예를 들어, 크레이머와 동료들은 자신의 분석을보다 효율적으로 만들기 위해 행동들은 참가자-같은 전처리 게시 등에 대한 전처리 정보를 사용할 수 있었다. 구체적으로는, 오히려 치료 및 제어 조건에 긍정적 단어의 비율을 비교하기보다, 크레이머 동료 조건 사이의 긍정적 단어의 비율의 변화를 비교 있었다; 접근 방식은 종종 차이 - 차이-에 어느 밀접 나는 장 앞부분에서 설명한 혼합 설계 (그림 4.5)에 관련했다. 즉, 각 참가자에 대해 연구진은 변경 점수 (후 처리 동작 - 전처리 동작을) 만들었습니다 수 있습니다 후 처리 및 제어 조건에서 참가자의 변화 점수를 비교했다. 이 차분 인 차이 방법은 연구자들이 훨씬 작은 시료를 사용하여 동일한 통계적 신뢰도를 달성 할 수 있음을 의미하는 통계적으로 더 효율적이다. 즉, "위젯"와 같은 참가자를 처리하지 않음으로써, 연구자들은 종종 더 정확한 견적을 얻을 수 있습니다.
원시 데이터없이 차분 인 차이 접근법이 경우했을 정확히 얼마나 효율적 알기 어렵다. 하지만, Deng et al. (2013) 빙 검색 엔진에 세 온라인 실험들은 약 50 %가 그 추정치의 편차를 줄일 수 있었다고보고와 유사한 결과 넷플릭스에서 일부 온라인 실험이보고되었다 (Xie and Aurisset 2016) . 이 50 %의 분산 감소는 정서적 전염 연구자들은 약간 다른 분석 방법을 사용했다 경우 절반에 해당 샘플을 절감 할 수 있었다 수 있음을 의미합니다. 즉, 상기 분석에서 작은 변화가 350,000 인 실험에 참여를 절약 한 것이다.
이 시점에서 350,000 사람들이 불필요하게 감정 전염에 있다면 연구자가 관심을 가져야하는 이유 궁금 할 것이다. 이 과도한 크기의 우려가 적절하게 감정 전염의 두 가지 특정 기능이 있으며, 이러한 기능이 많은 디지털 필드 실험에 의해 공유됩니다 : 1) 실험이 적어도 일부 참가자들에게 해를 입힐 것이며, 2) 참여하지 여부에 대한 불확실성이있다 자발적인. 이러한 두 특성 실험에서 가능한 한 작은 실험을 유지하는 것이 바람직 보인다.
결론적으로, 세, R's는-교체 수정, 연구자가 실험 설계에 윤리를 구축 할 수있는 원리를-제공 줄일 수 있습니다. 물론, 정서적 전염 이러한 가능한 변화들 각각은 장단점을 소개합니다. 예를 들어, 자연 실험 증거는 무작위 실험에서 증거로 항상 깨끗하지 않고 더 물류 어려운 블록보다 구현하기되었을 수 있습니다 증폭. 따라서, 이러한 변경 사항을 제안의 목적은 다른 연구자의 결정을 두 번째 추측하지 않았다. 오히려 세 R 년대는 실제 상황에 적용 할 수있는 방법을 설명 하였다.