活动

  • 难度:容易简单 ,中等中 ,很难硬 , 很难很难
  • 需要数学( 需要数学
  • 需要编码( 需要编码
  • 数据采集​​ ( 数据采集
  • 我最喜欢的 ( 我的最爱
  1. [ 很难需要编码数据采集我的最爱 ] Benoit及其同事(2016)关于政治宣言人群编码的研究中最激动人心的一个主张是结果是可重复的。 Merz, Regel, and Lewandowski (2016)提供了进入Manifesto Corpus的途径。尝试重现Benoit et al. (2016)图2 Benoit et al. (2016)使用亚马逊机械土耳其人的工人。你的结果有多相似?

  2. [ 中 ]在流感网络项目中,志愿者小组报告了与流感样疾病相关的发病率,患病率和寻求健康的行为(Tilston et al. 2010; Noort et al. 2015)

    1. 比较和对比流感网络,谷歌流感趋势和传统流感跟踪系统的设计,成本和可能的错误。
    2. 考虑一个不稳定的时间,例如爆发新型流感。描述每个系统中可能存在的错误。
  3. [ 硬需要编码数据采集 ]“ 经济学人”是一本每周新闻杂志。创建一个人工计算项目,看看封面上女性与男性的比例是否随时间而变化。

    1. 该杂志可以在八个不同的地区(非洲,亚太,欧洲,欧盟,拉丁美洲,中东,北美和英国)有不同的封面,它们都可以从杂志的网站上下载。选择其中一个区域并执行分析。请务必详细描述您的程序,以便其他人可以复制这些程序。

    这个问题的灵感来自众包公司CrowdFlower的数据科学家Justin Tenuto的一个类似项目:看“时代杂志真的很喜欢Dudes”(http://www.crowdflower.com/blog/time-magazine-cover-data) 。

  4. [ 很难需要编码数据采集 ]在前一个问题的基础上,现在对所有八个地区进行分析。

    1. 您在各地区发现了哪些差异?
    2. 将分析扩展到所有八个地区需要多少额外的时间和金钱?
    3. 想象一下, 经济学家每周有100个不同的封面。估算将分析扩展到每周100个封面需要多少额外时间和金钱。
  5. [ 硬需要编码有几个网站托管开放式通话项目,例如Kaggle。参与其中一个项目,并描述您对该特定项目的了解以及一般的公开呼叫。

  6. [ 中查看您所在领域最近一期的期刊。有没有可以重新制定为公开招聘项目的论文?为什么或者为什么不?

  7. [ 简单 ] Purdam (2014)描述了一个关于伦敦乞讨的分布式数据集。总结本研究设计的优点和缺点。

  8. [ 中冗余是评估分布式数据收集质量的重要方法。 Windt and Humphreys (2016)开发并测试了一个系统,用于收集刚果东部人民的冲突事件报告。阅读论文。

    1. 他们的设计如何确保冗余?
    2. 他们提供了几种验证从项目中收集的数据的方法。总结一下。哪个最让你信服?
    3. 提出一种可以验证数据的新方法。建议应该尝试以经济高效和合乎道德的方式增加您对数据的信心。
  9. [ 中 ] Karim Lakhani及其同事(2013)公开呼吁征求新算法以解决计算生物学中的问题。他们收到了600多份提交,其中包含89种新颖的计算方法。在提交的文件中,30个超过了美国国立卫生研究院MegaBLAST的表现,最好的提交达到了更高的准确性和速度(快1000倍)。

    1. 阅读他们的论文,然后提出一个可以使用相同类型的公开竞赛的社会研究问题。特别是,这种公开竞赛的重点是加速和改进现有算法的性能。如果你不能想到你所在领域的这样的问题,试着解释为什么不这样。
  10. [ 中我的最爱许多人类计算项目依赖于亚马逊机械土耳其人的参与者。注册成为亚马逊机械土耳其人的工人。花一个小时在那里工作。这如何影响您对人类计算项目的设计,质量和道德的看法?