活動

  • 難度:容易簡單 ,中等中 ,很難硬 , 很難很難
  • 需要數學( 需要數學
  • 需要編碼( 需要編碼
  • 數據採集 ( 數據採集
  • 我最喜歡的 ( 我的最愛
  1. [ 很難需要編碼數據採集我的最愛 ] Benoit及其同事(2016)關於政治宣言人群編碼的研究中最激動人心的一個主張是結果是可重複的。 Merz, Regel, and Lewandowski (2016)提供了進入Manifesto Corpus的途徑。嘗試重現Benoit et al. (2016)圖2 Benoit et al. (2016)使用亞馬遜機械土耳其人的工人。你的結果有多相似?

  2. [ 中 ]在流感網絡項目中,志願者小組報告了與流感樣疾病相關的發病率,患病率和尋求健康的行為(Tilston et al. 2010; Noort et al. 2015)

    1. 比較和對比流感網絡,谷歌流感趨勢和傳統流感跟踪系統的設計,成本和可能的錯誤。
    2. 考慮一個不穩定的時間,例如爆發新型流感。描述每個系統中可能存在的錯誤。
  3. [ 硬需要編碼數據採集 ]“ 經濟學人”是一本每週新聞雜誌。創建一個人工計算項目,看看封面上女性與男性的比例是否隨時間而變化。

    1. 該雜誌可以在八個不同的地區(非洲,亞太,歐洲,歐盟,拉丁美洲,中東,北美和英國)有不同的封面,它們都可以從雜誌的網站上下載。選擇其中一個區域並執行分析。請務必詳細描述您的程序,以便其他人可以復制這些程序。

    這個問題的靈感來自眾包公司CrowdFlower的數據科學家Justin Tenuto的一個類似項目:看“時代雜誌真的很喜歡Dudes”(http://www.crowdflower.com/blog/time-magazine-cover-data) 。

  4. [ 很難需要編碼數據採集 ]在前一個問題的基礎上,現在對所有八個地區進行分析。

    1. 您在各地區發現了哪些差異?
    2. 將分析擴展到所有八個地區需要多少額外的時間和金錢?
    3. 想像一下, 經濟學家每周有100個不同的封面。估算將分析擴展到每週100個封面需要多少額外時間和金錢。
  5. [ 硬需要編碼有幾個網站託管開放式通話項目,例如Kaggle。參與其中一個項目,並描述您對該特定項目的了解以及一般的公開呼叫。

  6. [ 中查看您所在領域最近一期的期刊。有沒有可以重新制定為公開招聘項目的論文?為什麼或者為什麼不?

  7. [ 簡單 ] Purdam (2014)描述了一個關於倫敦乞討的分佈式數據集。總結本研究設計的優點和缺點。

  8. [ 中冗餘是評估分佈式數據收集質量的重要方法。 Windt and Humphreys (2016)開發並測試了一個系統,用於收集剛果東部人民的衝突事件報告。閱讀論文。

    1. 他們的設計如何確保冗餘?
    2. 他們提供了幾種驗證從項目中收集的數據的方法。總結一下。哪個最讓你信服?
    3. 提出一種可以驗證數據的新方法。建議應該嘗試以經濟高效和合乎道德的方式增加您對數據的信心。
  9. [ 中 ] Karim Lakhani及其同事(2013)公開呼籲徵求新算法以解決計算生物學中的問題。他們收到了600多份提交,其中包含89種新穎的計算方法。在提交的文件中,有30個超過了美國國立衛生研究院MegaBLAST的表現,最好的提交達到了更高的準確性和速度(快1000倍)。

    1. 閱讀他們的論文,然後提出一個可以使用相同類型的公開競賽的社會研究問題。特別是,這種公開競賽的重點是加速和改進現有算法的性能。如果你不能想到你所在領域的這樣的問題,試著解釋為什麼不這樣。
  10. [ 中我的最愛許多人類計算項目依賴於亞馬遜機械土耳其人的參與者。註冊成為亞馬遜機械土耳其人的工人。花一個小時在那里工作。這如何影響您對人類計算項目的設計,質量和道德的看法?