대중 공동 작업은 시민 과학 , crowdsourcing 및 집단 지성의 아이디어를 혼합합니다. 시민 과학은 대개 과학 과정에서 "시민"(즉, 비 과학자)을 포함하는 것을 의미합니다. 자세한 내용은 Crain, Cooper, and Dickinson (2014) 및 Bonney et al. (2014) . Crowdsourcing은 대개 조직 내에서 일반적으로 해결되는 문제를 해결하고 군중에게 아웃소싱하는 것을 의미합니다. 자세한 내용은 Howe (2009) 참조하십시오. 집단 지성은 일반적으로 지적으로 보이는 방식으로 집단적으로 행동하는 집단을 의미합니다. 자세한 내용은 Malone and Bernstein (2015) 참조하십시오. Nielsen (2012) 은 과학 연구를위한 대량 협력의 힘에 대한 서적을 소개합니다.
제가 제안한 3 가지 범주에 딱 들어 맞지 않는 많은 유형의 집단 공동 작업이 있습니다. 사회 연구에 유용 할 수 있기 때문에이 중 3 가지가 특히주의해야합니다. 일례로 참가자들이 세계에서 발생하는 결과에 따라 상환 가능한 계약을 구매하고 거래하는 예측 시장이 있습니다. 예측 시장은 종종 기업과 정부가 예측을 위해 사용하며 사회 연구원이 심리학에서 발표 된 연구의 복제 가능성을 예측하는 데에도 사용되었습니다 (Dreber et al. 2015) . 예측 시장에 대한 개요는 Wolfers and Zitzewitz (2004) 와 Arrow et al. (2008) .
내 분류 체계에 잘 맞지 않는 두 번째 예는 PolyMath 프로젝트입니다.이 프로젝트에서는 블로그와 위키를 사용하여 새로운 수학 정리를 증명하는 공동 연구자가있었습니다. PolyMath 프로젝트는 Netflix Prize와 몇 가지면에서 유사하지만이 프로젝트 참여자는 다른 사람들의 부분 솔루션을보다 적극적으로 구축했습니다. PolyMath 프로젝트에 대한 자세한 내용은 Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) 및 Kloumann et al. (2016) .
카테고리 분류 체계에 잘 맞지 않는 세 번째 예는 국방 고등 연구 계획국 (DARPA) 네트워크 챌린지 (예 : 레드 벌룬 챌린지)와 같이 시간 의존적 인 동원입니다. 이러한 시간에 민감한 동원에 대한 자세한 내용은 Pickard et al. (2011) , Tang et al. (2011) , Rutherford et al. (2013) .
"인간의 계산"이라는 용어는 컴퓨터 과학자가 수행 한 작업에서 나오며이 연구의 배경을 이해하면 문제에 적합한 문제를 찾아내는 데 도움이됩니다. 특정 작업의 경우 컴퓨터는 믿을 수 없을만큼 강력하며 전문 인력의 능력을 훨씬 능가합니다. 예를 들어, 체스에서 컴퓨터는 최고의 할머니를 이길 수 있습니다. 그러나 이것은 사회 과학자들에 의해 덜 감사를 받는다. 다른 작업을 위해서 컴퓨터는 실제로 사람들보다 훨씬 더 나쁘다. 즉, 이미지, 비디오, 오디오 및 텍스트 처리와 관련된 특정 작업에서 가장 정교한 컴퓨터보다 더 낫습니다. 따라서 이러한 어려운 컴퓨터 - 인간이 쉽게 할 수있는 작업을 수행하는 컴퓨터 과학자는 컴퓨터를 계산할 때 인간을 포함시킬 수 있음을 깨달았습니다. 루이스 폰 안 (2005) Luis von Ahn (2005) 은 "컴퓨터가 아직 해결할 수없는 문제를 해결하기 위해 인간의 처리 능력을 이용하는 패러다임"이라는 제목의 논문에서 처음으로 인간 계산을 어떻게 설명했는지에 대해 설명합니다. 용어의 가장 일반적인 의미는 Law and Ahn (2011) 보라.
Ahn (2005) 에서 제안 된 정의에 따르면, 공개 통화 섹션에서 설명한 Foldit은 인간 계산 프로젝트로 간주 될 수 있습니다. 그러나 전문적인 기술 (공식 교육은 아니지만)을 필요로하고, 분할 적용 조합 전략을 사용하는 대신 최상의 솔루션을 제공하기 때문에 전화 통화로 Foldit을 분류합니다.
"split-apply-combine"라는 용어는 Wickham (2011) 이 통계 계산을위한 전략을 설명하는 데 사용되었지만 많은 인간 계산 프로젝트의 프로세스를 완벽하게 포착합니다. 분할 적용 조합 전략은 Google에서 개발 한 MapReduce 프레임 워크와 비슷합니다. MapReduce에 대한 자세한 내용은 Dean and Ghemawat (2004) 및 Dean and Ghemawat (2008) . 다른 분산 컴퓨팅 아키텍처에 대한 자세한 내용은 Vo and Silvia (2016) 참조하십시오. Law and Ahn (2011) 3 장은이 장에서보다 복잡한 결합 단계를 가진 프로젝트에 대해 논의하고있다.
이 장에서 설명한 인간 계산 프로젝트에서 참가자는 무슨 일이 일어나고 있는지 알고있었습니다. 그러나 일부 다른 프로젝트는 이미 일어나고있는 (eBird와 유사) 참가자 인식없이 "작업"을 포착하려고합니다. 예를 들어, ESP 게임 (Ahn and Dabbish 2004) 과 reCAPTCHA (Ahn et al. 2008) . 그러나이 두 프로젝트는 참여자가 자신의 데이터가 어떻게 사용되고 있는지를 모르기 때문에 윤리적 질문을 제기합니다 (Zittrain 2008; Lung 2012) .
ESP 게임에서 영감을 얻은 많은 연구자들은 (Ahn and Dabbish 2008) " (Ahn and Dabbish 2008) (Pe-Than, Goh, and Lee 2015) "와 같은) "목적을 가진 게임" (Ahn and Dabbish 2008) 을 개발하려고 시도했다. 다양한 다른 문제를 해결하는 데 사용됩니다. 이러한 "목적을 가진 게임"은 공통적으로 인간이 누릴 수있는 작업을 즐겁게 만들어주는 것입니다. 따라서 ESP 게임은 Galaxy Zoo와 동일한 분할 적용 결합 구조를 공유하지만 참여자가 재미를 얻는 방식과 과학을 돕고 싶은 욕구가 다른 점이 다릅니다. 목적이있는 게임에 대한 자세한 내용은 Ahn and Dabbish (2008) 참조하십시오.
Galaxy Zoo에 대한 내 설명은 Nielsen (2012) , Adams (2012) , Clery (2011) 및 Hand (2010) 에서 작성되었으며 Galaxy Zoo의 연구 목표에 대한 발표가 단순화되었습니다. 천문학에서 은하 분류의 역사와 Galaxy Zoo가이 전통을 계속 유지하는 방법에 대한 자세한 내용은 Masters (2012) 와 Marshall, Lintott, and Fletcher (2015) . Galaxy Zoo 2를 완성한 연구원은 Galaxy Zoo 2를 완성하여 자원 봉사자로부터 6 천만 개 이상의 복잡한 형태 분류를 수집했습니다 (Masters et al. 2011) . 또한 그들은 달 표면을 탐사하고, 행성을 찾아보고, 오래된 문서를 전사하는 것을 포함하여 은하 형태 외의 문제로 분출했다. 현재 모든 프로젝트는 Zooniverse 웹 사이트 (Cox et al. 2015) 에서 수집됩니다. 프로젝트 중 하나 인 Snapshot Serengeti는 Galaxy Zoo 유형의 이미지 분류 프로젝트가 환경 연구를 위해 수행 될 수 있다는 증거를 제공합니다 (Swanson et al. 2016) .
Chandler, Paolacci, and Mueller (2013) , J. Wang, Ipeirotis, and Provost (2015) 는 작업 계산과 설계에 대한 훌륭한 조언을 제공하며, 인간 계산 프로젝트에 마이크로 태스킹 노동 시장 (예 : Amazon Mechanical Turk) 기타 관련 문제. Porter, Verdery, and Gaddis (2016) 는 "데이터 증가"라고 부르는 마이크로 타스크 노동 시장의 사용에 특별히 초점을 맞춘 사례와 조언을 제공합니다. 데이터 증가와 데이터 수집 간의 경계는 다소 모호합니다. 텍스트의 감독 학습을위한 라벨을 수집하고 사용하는 방법에 대한 자세한 내용은 Grimmer and Stewart (2013) 참조하십시오.
필자가 컴퓨터 보조 인간 계산 시스템 (예 : 기계 학습 모델을 훈련하기 위해 사람의 레이블을 사용하는 시스템)을 만드는 데 관심이있는 연구원은 Shamir et al. (2014) 관심을 가질 수 있습니다 Shamir et al. (2014) (오디오를 사용한 예)와 Cheng and Bernstein (2015) . 또한이 프로젝트의 기계 학습 모델은 공개 호출을 통해 요청할 수 있으므로 연구원은 가장 뛰어난 예측 성능을 갖춘 기계 학습 모델을 만들기 위해 경쟁합니다. 예를 들어, Galaxy Zoo 팀은 공개적으로 전화를 Banerji et al. (2010) 개발 된 방법을 능가하는 새로운 접근법을 발견했습니다 Banerji et al. (2010) ; 자세한 내용은 Dieleman, Willett, and Dambre (2015) 를 참조하십시오.
열린 통화는 새로운 것이 아닙니다. 영국 의회가 바다에서 배의 경도를 결정할 수있는 방법을 개발할 수있는 사람을 위해 경도 상을 만들었을 때, 가장 유명한 공개 방송 중 하나는 1714 년으로 거슬러 올라갑니다. 이 문제는 아이작 뉴턴 (Isaac Newton)을 비롯한 많은 위대한 과학자들을 난처하게 만들었고, 궁극적으로 천문학을 포함하는 해결책에 초점을 맞춘 과학자들과 다르게 문제에 접근 한 시골의 시계 제작자 인 존 해리슨 (John Harrison) ; 자세한 내용은 Sobel (1996) 참조하십시오. 이 예에서 알 수 있듯이 공개 통화가 효과가 있다고 생각하는 한 가지 이유는 서로 다른 시각과 기술을 가진 사람들에게 접근 할 수 있다는 것입니다 (Boudreau and Lakhani 2013) . 문제 해결의 다양성에 대한 더 자세한 정보는 Hong and Page (2004) 와 Page (2008) 를 참조하십시오.
이 장에있는 공개 통화 건은 각각이 범주에 속하는 이유에 대한 추가 설명이 필요합니다. 첫째, 인간의 계산과 공개 통화 프로젝트를 구별하는 한 가지 방법은 출력이 모든 솔루션 (인간 계산) 또는 최상의 솔루션 (공개 통화)의 평균인지 여부입니다. 최상의 해결책은 개별 솔루션의 정교한 평균 인 앙상블 솔루션 (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) 이라는 접근 방식으로 밝혀지기 때문에 Netflix상은 다소 까다로울 수 있습니다. 그러나 Netflix의 관점에서 볼 때 가장 좋은 솔루션을 선택하는 것이 전부였습니다. Netflix Prize에 대한 자세한 내용은 Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) 및 Feuerverger, He, and Khatri (2012) .
둘째, 인간 계산의 일부 정의 (예 : Ahn (2005) )에 따라 Foldit은 인간 계산 프로젝트로 간주되어야합니다. 그러나 전문화 된 기술 (반드시 전문화 된 교육은 아니지만)을 필요로하고 공개 된 통화로 분류하기로 선택하고 분할 적용 조합 전략을 사용하는 대신 최상의 솔루션을 사용합니다. Foldit에 대한 자세한 내용은 Cooper et al. (2010) , Khatib et al. (2011) , Andersen et al. (2012) ; Foldit에 대한 내 설명은 Bohannon (2009) , Hand (2010) 및 Nielsen (2012) 합니다.
마지막으로 피어 투 피어가 분산 데이터 수집의 예라고 주장 할 수 있습니다. 나는 공모와 같은 구조를 가지고 있기 때문에 공모로서 그것을 포함하는 것을 선택한다. 그리고 가장 좋은 기부금 만 사용되는 반면, 분산 된 데이터 수집의 경우 좋고 나쁜 공헌에 대한 아이디어는 덜 명확하다. 피어 투 피어에 대한 자세한 내용은 Noveck (2006) , Ledford (2007) , Noveck (2009) 및 Bestor and Hamp (2010) .
사회적 연구에서 공개 호출을 사용하는 측면에서, Glaeser et al. (2016) 은 Mayer-Schönberger and Cukier (2013) 10 장에서보고되었으며 뉴욕시는 예측 모델링을 사용하여 주택 검사원의 생산성을 크게 향상시킬 수있었습니다. 뉴욕시에서는 이러한 예측 모델이 도시 근로자에 의해 만들어졌지만 다른 경우 공개 통화 (예 : Glaeser et al. (2016) )를 통해 만들거나 개선 될 수 있다고 상상할 수 있습니다. 그러나 자원을 할당하는 데 사용되는 예측 모델에 대한 한 가지 주요 관심사는 이러한 모델이 기존 편향을 강화할 수 있다는 점입니다. 많은 연구자들이 이미 "쓰레기통, 쓰레기통"을 알고 예측 모델은 "바이어스 아웃, 바이어스 아웃"할 수 있습니다. Barocas and Selbst (2016) 와 O'Neil (2016) 은 예측 모델의 위험성에 대해 더 많이 알고 있습니다. 편향된 훈련 데이터.
정부가 공개 콘테스트를 사용하지 못하게하는 한 가지 문제는 개인 정보 침해로 이어질 수있는 데이터 공개가 필요하다는 것입니다. 공개 통화에서의 개인 정보 보호 및 데이터 배포에 대한 자세한 내용은 Narayanan, Huey, and Felten (2016) 및 6 장의 토론을 참조하십시오.
예측과 설명의 차이점과 유사점에 대해서는 Breiman (2001) , Shmueli (2010) , Watts (2014) 및 Kleinberg et al. (2015) . 사회 연구에서 예측의 역할에 대한 자세한 내용은 다음을 참조 Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) , 및 Yarkoni and Westfall (2017) .
디자인 조언을 포함한 생물학의 공개 프로젝트에 대한 검토는 Saez-Rodriguez et al. (2016) .
eBird에 대한 나의 설명은 Bhattacharjee (2005) , Robbins (2013) , Sullivan et al. (2014) . 연구원이 통계 모델을 사용하여 eBird 데이터를 분석하는 방법에 대한 자세한 내용은 Fink et al. (2010) , Hurlbert and Liang (2012) . eBird 참가자의 기술을 평가하는 방법에 대한 자세한 내용은 Kelling, Johnston, et al. (2015) . 조류 과학에서 시민 과학의 역사에 대한 자세한 내용은 Greenwood (2007) 참조하십시오.
말라위 저널 프로젝트에 대한 자세한 내용은 Watkins and Swidler (2009) 와 Kaler, Watkins, and Angotti (2015) . 남아공 관련 프로젝트에 대한 더 자세한 내용은 Angotti and Sennott (2015) 참조하십시오. Malawi Journals Project의 데이터를 사용한 연구 사례에 대해서는 Kaler (2004) 와 Angotti et al. (2014) .
디자인 조언을 제공하는 것에 대한 나의 접근 방식은 내가 들었던 성공 및 실패한 대량 공동 작업 프로젝트의 예를 기반으로 귀납적이었습니다. 대량 공동 작업 프로젝트의 디자인과 관련이있는 온라인 공동체 설계에보다 일반적인 사회 심리학 이론을 적용하려는 연구 시도가있었습니다 (예 : Kraut et al. (2012) .
참가자들의 동기 부여와 관련하여 사람들이 대량 협력 프로젝트에 참여하는 이유를 정확하게 파악하는 것은 실제로 매우 까다 롭습니다 (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Microtask 노동 시장 (예 : Amazon Mechanical Turk)에서 지불하는 참가자들에게 동기를 부여하려는 경우, Kittur et al. (2013) 은 몇 가지 조언을 제공합니다.
놀라움을 가능하게하는 것과 관련하여 Zooiverse 프로젝트에서 예기치 않은 발견이 나오는 사례에 대해서는 Marshall, Lintott, and Fletcher (2015) 참조하십시오.
윤리적 인 문제와 관련하여 Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , Zittrain (2008) . 군중과 관련된 법적 문제와 관련된 문제는 Felstiner (2011) 참조하십시오. O'Connor (2013) 는 연구자와 참가자의 역할이 흐려지면 연구에 대한 윤리적 감독에 관한 질문을 제기합니다. 시민 과학 프로젝트 참여자를 보호하면서 데이터 공유와 관련된 문제는 Bowser et al. (2014) . Purdam (2014) 과 Windt and Humphreys (2016) 는 모두 분산 데이터 수집의 윤리적 문제에 대해 논의합니다. 마지막으로, 대부분의 프로젝트는 기부금을 인정하지만 참가자에게 저자 신용을주지 않습니다. 폴디트 (Foldit)에서 선수는 종종 저자로 기록됩니다 (Cooper et al. 2010; Khatib et al. 2011) . 다른 공개 프로젝트에서 우승자는 자신의 솔루션을 설명하는 문서 (예 : Bell, Koren, and Volinsky (2010) , Dieleman, Willett, and Dambre (2015) )를 Dieleman, Willett, and Dambre (2015) 있습니다.