活動

鍵:

  • 難度:容易簡單 ,中中硬 , 很難很難
  • 需要數學( 需要數學
  • 需要編碼( 需要進行編碼
  • 數據採集 ( 數據採集
  1. [ 很難需要進行編碼數據採集 ]從一個最令人興奮的索賠Benoit et al. (2015)的政治宣言的人群編碼,結果是可重複的。 Merz, Regel, and Lewandowski (2016)提供了訪問宣言語料庫。嘗試從重現圖2 Benoit et al. (2015)用工作人員從亞馬遜的Mechanical Turk。多麼相似是你的結果嗎?

  2. [ 中在該項目InfluenzaNet人的志願者小組的報告發病率,患病率,和健康尋求與流感樣疾病(ILI)行為(Tilston et al. 2010; Noort et al. 2015)

    1. 比較和對照設計,成本,和在InfluenzaNet,谷歌流感趨勢可能的錯誤,以及傳統的流感跟踪系統。
    2. 考慮一個不穩定的時候,如豬流感爆發。描述在每個系統中的可能的錯誤。
  3. [ 硬需要進行編碼數據採集 ] 經濟學是一個新聞周刊。創建一個人腦運算項目,看看女性對男性的封面上的比例在逐漸提高。

    1. 該雜誌可以在八個不同地區(非洲,亞太,歐洲,歐盟,拉美,中東,北美和英國)不同的封面,他們都可以從網站上下載的經濟學家 。選擇這些地區之一,進行分析。要確保有足夠的細節,他們可能會被別人複製來形容你的程序。

    這個問題是由賈斯汀持續音,在眾包公司的數據科學家的一個類似項目的啟發CrowdFlower ,請參閱“時代周刊真的很喜歡花花公子”

  4. [ 很難需要進行編碼數據採集 ]對上面的問題的基礎上,現在所有八個地區進行分析。

    1. 你跨區域發現了什麼差異?
    2. 花了多少額外的時間和金錢,採取向上擴展您的分析,以各區域的所有八個?
    3. 試想一下,經濟學家有每個星期100個不同的封面。估計有多少額外的時間和金錢,將它帶到你的分析,向上擴展至每週100套。
  5. [ 硬需要進行編碼 ] [Kaggle](https://www.kaggle.com/)是一個網站託管公開徵集項目。參與這些項目之一。

  6. [ 中 ]翻閱最近在你的領域期刊的問題。是否有可能被改寫為公開徵集項目的任何文件?為什麼或者為什麼不?

  7. [ 簡單 ] Purdam (2014)中描述關於倫敦乞討分佈式數據收集。總結本研究設計的長處和短處。

  8. [ 中 ]冗餘是評估分佈式數據採集質量的重要途徑。 Windt and Humphreys (2016)開發和測試一個系統來收集人們在剛果東部衝突事件的報導。閱讀本文。

    1. 如何他們的設計確保冗餘?
    2. 它們提供了幾種方法,以驗證他們的項目收集的數據。總結他們。這是最有說服力的你?
    3. 建議該數據可以被驗證的新方法。建議應盡量增加你將不得不在一個方式,是符合成本效益和道德的數據的信心。
  9. [ 中 ]卡里姆拉卡尼和他的同事(2013)創建的公開徵集,徵求新的算法來解決計算生物學的一個問題。他們收到含89的新計算方法超過600份意見書。提交的材料,就收到30超出衛生部的MEGABLAST的美國國立衛生研究院的性能,最好的提交既實現了更高的精度和速度(快1000倍)。

    1. 閱讀他們的紙張,然後提出,可以使用同一種公開競爭的社會研究的問題。特別是,這種開放的競賽的重點是加快和提高現有算法的性能。如果你想不出這樣在你的領域的問題,試圖解釋為什麼不能。
  10. [ 中許多人計算項目依賴於亞馬遜的Mechanical Turk參與者。註冊後即可成為亞馬遜的Mechanical Turk工人。花一小時的工作在那裡。這是如何影響你對設計,質量思想,和人compuation項目的職業道德?