活动

键:

  • 难度:容易简单 ,中中硬 , 很难很难
  • 需要数学( 需要数学
  • 需要编码( 需要进行编码
  • 数据采集​​ ( 数据采集
  1. [ 很难需要进行编码数据采集 ]从一个最令人兴奋的索赔Benoit et al. (2015)的政治宣言的人群编码,结果是可重复的。 Merz, Regel, and Lewandowski (2016)提供了访问宣言语料库。尝试从重现图2 Benoit et al. (2015)用工作人员从亚马逊的Mechanical Turk。多么相似是你的结果吗?

  2. [ 中在该项目InfluenzaNet人的志愿者小组的报告发病率,患病率,和健康寻求与流感样疾病(ILI)行为(Tilston et al. 2010; Noort et al. 2015)

    1. 比较和对照设计,成本,和在InfluenzaNet,谷歌流感趋势可能的错误,以及传统的流感跟踪系统。
    2. 考虑一个不稳定的时候,如猪流感爆发。描述在每个系统中的可能的错误。
  3. [ 硬需要进行编码数据采集 ] 经济学是一个新闻周刊。创建一个人脑运算项目,看看女性对男性的封面上的比例在逐渐提高。

    1. 该杂志可以在八个不同地区(非洲,亚太,欧洲,欧盟,拉美,中东,北美和英国)不同的封面,他们都可以从网站上下载的经济学家 。选择这些地区之一,进行分析。要确保有足够的细节,他们可能会被别人复制来形容你的程序。

    这个问题是由贾斯汀持续音,在众包公司的数据科学家的一个类似项目的启发CrowdFlower ,请参阅“时代周刊真的很喜欢花花公子”

  4. [ 很难需要进行编码数据采集 ]对上面的问题的基础上,现在所有八个地区进行分析。

    1. 你跨区域发现了什么差异?
    2. 花了多少额外的时间和金钱,采取向上扩展您的分析,以各区域的所有八个?
    3. 试想一下,经济学家有每个星期100个不同的封面。估计有多少额外的时间和金钱,将它带到你的分析,向上扩展至每周100套。
  5. [ 硬需要进行编码 ] [Kaggle](https://www.kaggle.com/)是一个网站托管公开征集项目。参与这些项目之一。

  6. [ 中 ]翻阅最近在你的领域期刊的问题。是否有可能被改写为公开征集项目的任何文件?为什么或者为什么不?

  7. [ 简单 ] Purdam (2014)中描述关于伦敦乞讨分布式数据收集。总结本研究设计的长处和短处。

  8. [ 中 ]冗余是评估分布式数据采集质量的重要途径。 Windt and Humphreys (2016)开发和测试一个系统来收集人们在刚果东部冲突事件的报道。阅读本文。

    1. 如何他们的设计确保冗余?
    2. 它们提供了几种方法,以验证他们的项目收集的数据。总结他们。这是最有说服力的你?
    3. 建议该数据可以被验证的新方法。建议应尽量增加你将不得不在一个方式,是符合成本效益和道德的数据的信心。
  9. [ 中 ]卡里姆拉卡尼和他的同事(2013)创建的公开征集,征求新的算法来解决计算生物学的一个问题。他们收到含89的新计算方法超过600份意见书。提交的材料,就收到30超出卫生部的MEGABLAST的美国国立卫生研究院的性能,最好的提交既实现了更高的精度和速度(快1000倍)。

    1. 阅读他们的纸张,然后提出,可以使用同一种公开竞争的社会研究的问题。特别是,这种开放的竞赛的重点是加快和提高现有算法的性能。如果你想不出这样在你的领域的问题,试图解释为什么不能。
  10. [ 中许多人计算项目依赖于亚马逊的Mechanical Turk参与者。注册后即可成为亚马逊的Mechanical Turk工人。花一小时的工作在那里。这是如何影响你对设计,质量思想,和人compuation项目的职业道德?