更多评论

这部分被设计为用作基准,而不是被理解为叙述。

  • 简介(第5.1节)

大众合作融合了来自市民科学众包集体智慧的想法。公民科学通常是指涉及到“公民”(即非科学家)在科学过程(Crain, Cooper, and Dickinson 2014) 。众包通常是指以通常一个组织内解决的问题,而不是将其外包给群众(Howe 2009) 。集体的智慧通常意味着似乎聪明的方式集体行动的个人组成的团体(Malone and Bernstein 2015)Nielsen (2012)是一本精彩的书长度引入科研大规模协作的力量。

有许多类型的大规模协作的不完全相符,我提出了三大类,我认为有三种方法值得特别注意,因为他们可能是在某些时候社会研究非常有用。其中一个例子是预测市场,其中参与者购买和被赎回基于发生在世界的结果贸易合同(Wolfers and Zitzewitz 2004; Arrow et al. 2008)预测市场经常被企业和政府的预测,并预测市场也被用于社会研究者预测发表的研究心理学的复制性(Dreber et al. 2015)

没有很好地成为我的分类方案第二个例子是博学的项目中,研究人员使用博客和wiki,以证明新的数学定理合作(Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016)博学的项目是类似于Netflix的奖某些方面,但在博学项目参与者更加积极地建立在别人的部分解决方案。

没有很好地成为我的分类方案第三个例子是依赖于时间的动员,如美国国防高级研究计划局(DARPA)网络挑战赛(即红气球挑战赛)。欲知更多有关这些时间敏感的动员看到Pickard et al. (2011)Tang et al. (2011)Rutherford et al. (2013)

  • 人脑运算(5.2节)

术语“人计算”出来的计算机科学家所做的工作,并理解这一研究背后的背景下会提高你挑出来,可能是服从它问题的能力。对于某些任务,计算机与功能远远超过甚至是专家人类令人难以置信的强大。例如,在国际象棋,电脑可以击败即使是最好的操盘高手。但是,这是不那么社会赞赏科学家,执行其他任务,电脑其实比人差很多。换句话说,现在你比,即使在涉及图像,视频,音频和文本处理某些任务中最复杂的计算机更好。由此作为被一个精彩XKCD所示卡通有,很容易对计算机和硬的人的任务,但也有是很难用于计算机和容易对人的任务(图5.13)。计算机科学家对这些硬换电脑易换人工任务,因此,意识到他们可以在其计算过程人类工作。这里的路易斯·冯·安如何(2005)描述的人类计算当他第一次在创造他的论文的术语:“一个范式利用人的处理能力来解决问题,电脑不能没有解决”

图5.13:对于某些任务计算机是惊人,超过了人类专家的能力。但是,对于其他的任务,普通人可以超越甚至复杂的计算机系统。涉及是很难用于计算机和便于人类任务大规模问题是非常适合于人类的计算。根据这里所描述的方面用于:http://xkcd.com/license.html

图5.13:对于某些任务计算机是惊人,超过了人类专家的能力。但是,对于其他的任务,普通人可以超越甚至复杂的计算机系统。涉及是很难用于计算机和便于人类任务大规模问题是非常适合于人类的计算。根据这里所描述的方面用于:http://xkcd.com/license.html

按照这个定义FoldIt,这是我在开上一节所述的调用,可被视为人类的计算项目。不过,我选择分类FoldIt作为一个开放的调用,因为它需要专门的技能,它需要的最佳解决方案做出了贡献,而不是使用分离式应用 - 结合的策略。

对于人类计算的优秀图书长度的治疗,在这个词的最一般的意义,看到Law and Ahn (2011)第3章Law and Ahn (2011)有更复杂的合并步骤比本章中的那些有趣的讨论。

术语“拆分申请,结合”被用于Wickham (2011)来描述统计计算的战略,但它完美地体现了人类的许多计算项目的过程。拆分申请,结合策略类似于在谷歌开发的MapReduce框架(Dean and Ghemawat 2004; Dean and Ghemawat 2008)

二,我没有足够的空间来讨论人类巧妙计算项目的ESP游戏(Ahn and Dabbish 2004)和验证码(Ahn et al. 2008) 。这两个项目的发现创造性的方式来激发参与者的图像提供标签。然而,这两个项目也提出了伦理问题,因为不像星系动物园,参加了ESP游戏和验证码不知道怎样使用他们的数据(Lung 2012; Zittrain 2008)

由ESP游戏的启发,许多研究人员试图发展他人“游戏有目的” (Ahn and Dabbish 2008)即“以人为本计算的游戏” (Pe-Than, Goh, and Lee 2015) ),可用于解决各种其他问题。什么这些“游戏有目的”的共同点是,他们试图使参与人类计算愉快的任务。因此,虽然ESP游戏股与星系动物园一样拆分申请-结合的结构,它的不同之处参与者如何激励乐趣与希望可以帮到科学。

我的星系动物园的描述借鉴了Nielsen (2012)Adams (2012) Clery (2011)Hand (2010)和我的星系动物园的研究目标是演示简化。欲了解更多关于星系的分类在天文学历史以及如何星系动物园延续了这一传统,看到Masters (2012)Marshall, Lintott, and Fletcher (2015) 。银河动物园大厦,研究人员完成了星系动物园2,它收集了60多万更复杂的形态分类志愿者(Masters et al. 2011)此外,他们还跨足星系的形态,包括探索月球表面,寻找行星和抄录旧文件之外的问题。目前,所有的项目都在收集www.zooniverse.org (Cox et al. 2015)其中一个项目的快照塞伦盖蒂-提供的证据表明星系动物园型图像分类项目,也可以为环境研究完成(Swanson et al. 2016)

研究人员计划使用微型任务的劳动力市场(如亚马逊的Mechanical Turk)一人 ​​计算项目, Chandler, Paolacci, and Mueller (2013)Wang, Ipeirotis, and Provost (2015)提供有关任务的设计和良好的建议其他相关问题。

热衷于创造我所称之为第二代人计算系统的研究人员(如使用人的标签来训练机器学习模型系统)可能有兴趣在Shamir et al. (2014) (使用音频的例子)和Cheng and Bernstein (2015) 。此外,这些项目可开放调用,因此研究人员竞相以最大的预测性能创造机器学习模型来完成。例如,银河动物园队跑了公开征集,发现跑赢发达的一个新方法Banerji et al. (2010) ;看到Dieleman, Willett, and Dambre (2015)了解详细信息。

  • 打开调用(5.3节)

打开通话并不是新的。事实上,最知名的开放调用之一追溯到1714当英国议会建立的经度奖,任何人都可以开发一个方法来确定海上船舶的经度。这个问题难倒了许多天,包括艾萨克·牛顿最伟大的科学家,而成功的解决方案最终被从谁从谁的重点是将在某种程度上涉及天文学的解决方案的科学家不同上前问题乡间钟表匠提交(Sobel 1996) 。这个例子说明,打开电话被认为是工作这么好一个原因是,他们提供给人们以不同的视角和技巧访问(Boudreau and Lakhani 2013) 。见Hong and Page (2004)Page (2008)以获得更多关于多样性的解决问题的价值。

每间公开征集案件的章节中需要一点为什么它属于此类别中进一步解释。首先,一个人的我的计算和公开征集项目的区分方法是输出是所有解决方案的平均(人计算)或最好的解决办法(公开招募)。 Netflix的奖是在这方面有点棘手,因为最好的解决方案竟然是个性化解决方案的一个复杂的平均值,一个名为走近合奏的解决方案(Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012)来自Netflix的角度来看,他们所要做的就是选择最佳的解决方案。

其次,人类计算的一些定义(如, Von Ahn (2005)应被视为人类的计算项目。不过,我选择分类FoldIt作为一个开放的调用,因为它需要专门的技能,它需要的最佳解决方案做出了贡献,而不是使用分离式应用 - 结合的策略。

最后,人们可能认为的对专利的分布式数据采集的例子。我选择它作为一个开放的调用,因为它有一个竞赛​​状结构,只有最好的贡献被使用(而分布式数据采集,好的和坏的贡献的想法是不太清楚)。

欲了解更多关于Netflix的奖,看到Bennett and Lanning (2007)Thompson (2008)Bell, Koren, and Volinsky (2010)Feuerverger, He, and Khatri (2012)欲了解更多关于FoldIt看, Cooper et al. (2010)Andersen et al. (2012)Khatib et al. (2011) ;我FoldIt的描述借鉴了描述Nielsen (2012)Bohannon (2009) ,和Hand (2010) 。欲了解更多有关的对专利,看到Noveck (2006)Bestor and Hamp (2010)Ledford (2007)Noveck (2009)

类似的结果Glaeser et al. (2016)Mayer-Schönberger and Cukier (2013) ,在纽约市住房督察生产率第10章报告大的收益时,检查由预测模型指导。在纽约市,这些预测模型是由城市职工建的,但在其他情况下,人们可以想像,他们可以创建或使用开放调用了改进(例如, Glaeser et al. (2016)然而,与所使用的预测模型来分配资源的一个主要关心的是,该模型必须加强现有偏压电位。许多研究人员已经知道“垃圾进,垃圾出”,并与预测模型,它能够“在偏见,偏见了。”见Barocas and Selbst (2016)O'Neil (2016)以获得更多关于预测模型建成的危险与偏见的训练数据。

可能防止各国政府采用开放式竞赛的一个问题是,它要求数据公布,这可能导致侵犯隐私。欲了解更多有关隐私和数据发布在公开通话时看到Narayanan, Huey, and Felten (2016) ,并在第6章的讨论。

  • 分布式数据收集(5.4节)

我eBird的描述借鉴了描述Bhattacharjee (2005)Robbins (2013) 。欲了解更多有关研究人员如何使用统计模型来分析eBird数据看Hurlbert and Liang (2012)Fink et al. (2010) 。为了了解更多关于ornothology公民科学史,看Greenwood (2007)

欲了解更多关于马拉维刊工程,看到Watkins and Swidler (2009)Kaler, Watkins, and Angotti (2015) 。而对于更多的在南非一个相关的项目,请参阅Angotti and Sennott (2015) 。对于从马拉维期刊项目中使用的研究数据的更多例子见Kaler (2004)Angotti et al. (2014)

  • 设计自己的(5.5节)

我对提供设计建议的做法是感性的基础上,成功的例子和失败的,我听说过大规模协作项目。还有研究中的流试图更广泛的社会心理学理论应用到设计在线社区,是有关大规模协作项目的设计,见,例如, Kraut et al. (2012)

关于激励参与者,它实际上是相当棘手弄清楚究竟为什么人们参加大规模协作项目(Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) 。如果您打算用微任务的劳动力市场上的支付(例如,亚马逊的Mechanical Turk)激励参与者Kittur et al. (2013)提供了一些建议。

关于启用惊喜,意外的发现出来Zoouniverse项目的更多示例,请参阅Marshall, Lintott, and Fletcher (2015)

至于是道德的,一些好的一般性的介绍所涉及的问题是Gilbert (2015)Salehi et al. (2015)Schmidt (2013)Williamson (2016)Resnik, Elliott, and Miller (2015)Zittrain (2008) 。对于具体涉及与职工群众的法律问题的问题,请参见Felstiner (2011)O'Connor (2013)针对有关研究伦理监督问题时,研究者和参与者的角色模糊。对于同时保护公民科学项目participats相关的数据共享问题,请参阅Bowser et al. (2014) 。无论Purdam (2014)Windt and Humphreys (2016)对分布式数据采集的伦理问题进行一些讨论。最后,大多数的项目承认的贡献,但不给作者信贷的参与者。在Foldit的玩家Foldit经常列为作者(Cooper et al. 2010; Khatib et al. 2011)在其他公开征集项目,获胜的投稿人可以经常写描述他们的解决方案的文件(例如, Bell, Koren, and Volinsky (2010)Dieleman, Willett, and Dambre (2015)在星系动物园家族的项目,非常积极和重要贡献者,有时应邀上的论文的合着者。例如,伊万Terentev和Tim Matorny,来自俄罗斯的两个无线电星系动物园的参与者,都在从该项目中出现的论文之一合着者(Banfield et al. 2016; Galaxy Zoo 2016)