비 실험 연구와 실험을 대체 치료 정제, 참가자의 수를 줄임으로써 더 실험 인간 확인.
디지털 실험 설계에 대한 제 2의 충고는 윤리에 관한 것입니다. 위키 피 디아 쇼에 열거 된 Barnstars에 대한 Restivo와 van de Rijt 실험에서 비용 절감은 윤리가 연구 설계에서 점차 중요한 부분이 될 것이라는 것을 의미합니다. 6 장에서 설명 할 인간 대상 연구를 이끌어가는 윤리적 기본 틀 외에도 디지털 실험을 설계하는 연구원은 동물과 관련된 실험을 유도하기 위해 개발 된 윤리적 원칙을 다른 출처의 윤리적 아이디어로 도출 할 수 있습니다. 특히, 그들의 획기적인 책 인 인간 실험 기술의 원리 에서 Russell and Burch (1959) 는 동물 연구를 인도해야하는 3 가지 원칙, 즉 대체, 정제 및 감축을 제안했다. 이 3 개의 R이 약간 수정 된 형태로 사용되어 인간 실험 디자인을 안내 할 수 있다고 제안하고 싶습니다. 특히,
이 3 가지 R을 구체적으로 만들고 더 나아지고 더 인간적인 실험 디자인으로 이끌 수있는 방법을 보여주기 위해 윤리적 논쟁을 일으키는 온라인 현장 실험을 설명합니다. 그런 다음 세 가지 R이 실험 설계에 대한 구체적이고 실질적인 변화를 제안하는 방법을 설명합니다.
가장 윤리적으로 토론 된 디지털 필드 실험 중 하나는 Adam Kramer, Jamie Guillroy 및 Jeffrey Hancock (2014) 의해 수행되었으며 "감정적 인 감염"이라고 불려 왔습니다. 실험은 Facebook에서 진행되었으며 과학 및 실용적인 질문. 당시 사용자가 페이스 북과 상호 작용하는 가장 큰 방법은 사용자의 페이스 북 친구로부터 알고리즘으로 구성된 큐레이터 상태 업데이트 세트 인 뉴스 피드였다. 페이스 북의 일부 비평가들은 뉴스 피드가 대부분 긍정적 인 게시물을 가지고 있기 때문에 최신 파티를 자랑하는 친구들이 있기 때문에 자신의 삶이 비교 대상에서 덜 흥미 로워 보이기 때문에 사용자가 슬픔을 느낄 수 있다고 제안했습니다. 다른 한편으로, 어쩌면 그 효과는 정반대입니다. 친구가 즐거운 시간을 보내는 것을 보는 것이 행복하게 느껴질 수도 있습니다. 이러한 경쟁 가설에 대처하고 친구의 감정에 영향을받는 사람의 감정에 대한 이해를 높이기 위해 Kramer와 동료는 실험을 실시했습니다. 그들은 약 70 만 명의 사용자를 일주일 동안 네 그룹으로 나눴다. 네거티브 단어 (예 : "슬퍼")가있는 게시물이 뉴스 피드에 무작위로 표시되지 않도록 차단 된 "부정적 감소 그룹" 긍정적 인 단어 (예 : "행복")가있는 게시물이 임의로 차단 된 "양성 감소 된 그룹"; 두 개의 대조군. "부정적 - 감소"그룹의 통제 그룹에서 게시물은 감정적 인 내용에 관계없이 "부정적 - 감소"그룹과 동일한 비율로 무작위로 차단되었습니다. "양성 감소 된"집단에 대한 대조군은 병행 방식으로 구축되었다. 이 실험의 설계는 적절한 컨트롤 그룹이 항상 변경 사항이없는 것은 아니라는 것을 보여줍니다. 오히려 때로는 대조군이 연구 질문에 필요한 정확한 비교를 만들기 위해 치료를받는 경우가 있습니다. 모든 경우에 뉴스 피드에서 차단 된 게시물은 Facebook 웹 사이트의 다른 부분을 통해 계속 사용할 수있었습니다.
Kramer와 동료들은 양성 반응 감소 상태에있는 참가자들의 상태 업데이트에서 긍정적 인 단어의 비율이 감소하고 부정적인 단어의 비율이 증가한다는 것을 발견했습니다. 반면에, 부정적 감소 상태에있는 참가자의 경우 긍정적 인 단어의 비율이 증가하고 부정적인 단어의 비율이 감소합니다 (그림 4.24). 그러나 이러한 효과는 매우 작았 다 : 치료와 통제 사이의 양성 및 음성 단어의 차이는 1,000 단어 중 약 1이었다.
이 실험에서 제기 된 윤리적 문제를 논의하기 전에이 장의 앞부분에서 설명한 아이디어 중 일부를 사용하여 세 가지 과학적 문제를 설명하고자합니다. 첫째, 실험의 실제 세부 사항이 이론적 주장과 어떻게 연결되는지는 명확하지 않다. 다시 말해, 타당성에 대한 질문이 있습니다. 긍정적이고 부정적인 단어 수는 실제로 참가자의 감정 상태를 나타내는 좋은 지표라는 것은 분명하지 않습니다. 왜냐하면 사람들이 게시하는 단어가 자신의 감정을 나타내는 좋은 지표이고 (2) 그렇지 않은 것이 분명하지 않기 때문입니다. 연구원이 사용한 특정 정서 분석 기술이 감정을 신뢰할 수있게 추론 할 수 있다는 것을 분명히했습니다 (Beasley and Mason 2015; Panger 2016) . 즉, 바이어스 된 신호의 잘못된 측정이있을 수 있습니다. 둘째, 실험의 설계와 분석은 우리에게 누가 가장 큰 영향을 주 었는지 (즉, 치료 효과의 이질성에 대한 분석이 없음)와 그 기제가 무엇인지에 대해 알려주지 않습니다. 이 경우 연구원은 참가자에 대한 많은 정보를 가지고 있었지만 본질적으로 분석에서 위젯으로 취급되었습니다. 셋째,이 실험의 효과 크기는 매우 작습니다. 치료 및 통제 조건의 차이는 1,000 단어 중 약 1 개입니다. 그들의 논문에서 Kramer와 동료들은 수천만 명의 사람들이 매일 뉴스 피드에 액세스하기 때문에이 크기의 영향이 중요하다고 주장합니다. 다른 말로하면, 사람들은 효과가 각 사람마다 작더라도 집계가 큽니다. 이 주장을 받아 들일지라도 감정의 확산에 관한보다 일반적인 과학적 질문에 대해이 크기의 효과가 중요한지 아직 명확하지 않습니다 (Prentice and Miller 1992) .
이 과학적 질문에 더하여,이 논문이 국립 과학원 회보 에서 발표 된 며칠 후, 연구원과 언론으로부터 엄청난 부르짖 음이 제기되었다. (이 논쟁에서의 논의는 6 장에서 더 자세히 설명 할 것이다. ). 이 논쟁에서 제기 된 이슈는이 저널이 윤리와 연구에 대한 윤리적 검토 프로세스에 관한 드문 "편집상의 우려 표현"을 발표하게했습니다 (Verma 2014) .
Emotional Contagion에 대한 배경 지식을 바탕으로 3 가지 R이 실제 실험에 대한 구체적이고 실질적인 개선을 제안 할 수 있음을 보여 드리고 싶습니다. (이 특정 실험의 윤리에 대해 개인적으로 생각하는 것이 무엇이든지간에). 첫 번째 R이 대체됩니다 . 연구자는 가능한 경우 덜 침략적이고 위험한 기술로 실험을 대체해야합니다. 예를 들어 무작위 통제 실험을 실행하는 대신 연구원은 자연스러운 실험 을 활용할 수있었습니다. 2 장에서 설명한 바와 같이, 자연적 실험은 세계에서 무작위 배정 (예 : 누가 군대에 초안 될지 결정하기위한 추첨)과 유사한 상황이 발생하는 상황입니다. 자연스러운 실험의 윤리적 이점은 연구원이 치료를 제공 할 필요가 없다는 것입니다. 환경은 당신을 위해서입니다. 예를 들면, 감정적 인 Lorenzo Coviello et al. (2014) 실험과 거의 동시에, Lorenzo Coviello et al. (2014) 는 감정적 인 전염 (Emotional Contagion) 자연 실험이라고 불릴 수있는 것을 착취했다. Coviello와 동료들은 사람들이 비오는 날에 부정적인 단어와 긍정적 인 단어를 더 많이 게시 함을 발견했습니다. 따라서 날씨에 무작위적인 변화를 사용함으로써 그들은 개입 할 필요없이 뉴스 피드의 변화 효과를 연구 할 수있었습니다. 그것은 마치 날씨가 그들을 위해 그들의 실험을하고있는 것처럼 보였다. 그 과정의 세부 사항은 약간 복잡하지만, 여기에서 우리의 목적에 가장 중요한 점은 자연스러운 실험을 사용함으로써 Coviello와 동료들이 자신의 실험을 할 필요없이 감정의 확산에 대해 배울 수 있다는 것입니다.
세 가지 R 중 두 번째는 정제입니다 . 연구자는 가능한 한 무해한 것으로 만들기 위해 치료법을 수정해야합니다. 예를 들어 긍정적이거나 부정적인 콘텐츠를 차단하는 대신 연구원은 긍정적이거나 부정적 인 콘텐츠를 강화할 수있었습니다. 이러한 인상적인 디자인은 참가자들의 뉴스 피드의 감정적 인 내용을 변화 시켰을 것이지만 비평가들이 표현한 우려 중 하나는 참가자가 뉴스 피드에서 중요한 정보를 놓칠 수 있다는 것입니다. Kramer와 동료가 사용한 디자인을 사용하면 중요한 메시지가 그렇지 않은 메시지처럼 차단 될 수 있습니다. 그러나 디자인을 강화하면 메시지가 덜 중요한 메시지가됩니다.
마지막으로, 세 번째 R은 감소합니다 . 연구원은 자신의 과학적 목표를 달성하는 데 필요한 최소한의 참가자 수를 줄이기 위해 노력해야합니다. 아날로그 실험에서 참가자의 가변적 인 비용 때문에 자연스럽게 발생했습니다. 그러나 디지털 실험, 특히 가변 비용이 0 인 실험에서 실험자는 실험의 크기에 대한 비용 제약을받지 않으며 불필요하게 큰 실험으로 이어질 가능성이 있습니다.
예를 들어, Kramer와 동료 연구원은 자신의 참가자에 대한 전처리 정보 (예 : 전처리 게시 행동)를 사용하여 분석을보다 효율적으로 수행 할 수있었습니다. 보다 구체적으로, 치료와 통제 조건에서 긍정적 인 단어의 비율을 비교하는 대신, Kramer와 동료들은 조건 사이의 긍정적 인 단어의 비율의 변화 를 비교할 수있었습니다. 때로는 혼합 설계 (그림 4.5)라고하며 때때로 차이 차 산정 기 (difference-in-difference estimator)라고하는 접근 방식입니다. 즉, 각 참가자에 대해 연구자는 변경 점수 (치료 후 행동 \(-\) 전처리 행태)를 작성한 다음 치료 및 통제 조건에서 참가자의 변경 점수를 비교할 수있었습니다. 차이점 차이 방식은 통계적으로 더 효율적입니다. 즉, 연구원은 훨씬 작은 샘플을 사용하여 동일한 통계적 신뢰를 얻을 수 있습니다.
미가공 데이터가 없다면,이 경우 차이 추계 차가 얼마나 효율적 이었는지를 정확히 아는 것은 어렵습니다. 그러나 우리는 거친 아이디어를 위해 다른 관련 실험을 볼 수 있습니다. Deng et al. (2013) 은 차이 차 산정 법의 한 형태를 사용하여 세 가지 다른 온라인 실험에서 추정치의 분산을 약 50 %까지 줄일 수 있다고보고했습니다. 유사한 결과가 Xie and Aurisset (2016) 의해보고되었다. 이 50 % 편차 감소는 Emotional Contagion 연구자가 약간 다른 분석 방법을 사용한 경우 절반으로 샘플을자를 수 있었음을 의미합니다. 즉, 분석이 약간 변경되어 350,000 명의 사람들이 실험에 참여하지 않을 수있었습니다.
이 시점에서 350,000 명의 사람들이 불필요하게 감정적 인 감염에 빠져 있었는지 궁금해 할 것입니다. 과도한 크기에 관심을 가지는 감정적 인 Contagion의 두 가지 특별한 특징이 있으며, 이러한 기능은 많은 디지털 필드 실험에서 공유됩니다. (1) 실험으로 인해 일부 참가자에게 해를 입힐 지 불확실성이 있으며 (2) 참여 자발적이지 않았습니다. 이러한 기능을 가능한 한 작게 유지하는 것이 합리적입니다.
실험의 크기를 줄이려는 것이 가변 비용 실험을 크게 실행하지 않아야한다는 것을 의미하지는 않습니다. 실험이 과학적 목적을 달성하는 데 필요한 것보다 더 커야 만한다는 것을 의미합니다. 실험이 적절한 크기인지 확인하는 한 가지 중요한 방법은 전력 분석 을 수행하는 것입니다 (Cohen 1988) . 아날로그 시대에 연구자들은 일반적으로 연구 결과가 너무 작지는 않은지 확인하기 위해 전력 분석을 수행했습니다 (예 : 저전력). 그러나 이제는 연구자가 자신의 연구가 너무 크지 않도록 (즉,과 전력으로) 전력 분석을 수행해야합니다.
결론적으로 세 가지 R은 연구자가 실험 설계에 윤리를 구축하는 데 도움이되는 원칙을 대체, 수정 및 축소하는 원칙을 제공합니다. 물론 Emotional Contagion에 대한 이러한 가능한 변경 사항은 절충안을 도입합니다. 예를 들어, 자연 실험의 증거가 무작위 실험의 결과만큼 항상 깨끗한 것은 아니며, 콘텐츠를 강화하는 것보다 콘텐츠를 구현하는 것이 논리적으로 더 어려울 수 있습니다. 따라서 이러한 변화를 제안하는 목적은 다른 연구자의 결정을 추측하는 것이 아닙니다. 오히려 세 가지 R이 현실적인 상황에서 어떻게 적용될 수 있는지 설명하는 것이 었습니다. 사실, 연구 설계에서 항상 트레이드 오프 문제가 발생하고, 디지털 시대에서는 이러한 절충이 윤리적 고려 사항을 포함하게 될 것입니다. 나중에 6 장에서 연구자가 이러한 장단점을 이해하고 토론하는 데 도움이되는 몇 가지 원리와 윤리적 기본 틀을 제공 할 것입니다.