Mga Aktibidad

key:

  • antas ng kahirapan: madali madali , medium medium , mahirap mahirap , napaka-hirap napaka-hirap
  • ay nangangailangan ng matematika ( ay nangangailangan ng math )
  • nangangailangan coding ( ay nangangailangan ng coding )
  • pagkolekta ng data ( pagkolekta ng data )
  1. [ napaka-hirap , ay nangangailangan ng coding , pagkolekta ng data ] Isa sa mga pinaka-nakakasabik na mga paghahabol mula sa Benoit et al. (2015) sa karamihan ng tao-coding ng pampulitikang manifestos ay na ang mga resulta ay maaaring kopyahin. Merz, Regel, and Lewandowski (2016) ay nagbibigay ng access sa Manifesto Corpus. Subukan upang kopyahin Fig 2 mula Benoit et al. (2015) gamit manggagawa mula sa Amazon Mechanical Turk. Paano katulad ay ang iyong mga resulta?

  2. [ medium ] Sa InfluenzaNet proyekto ng isang volunteer panel ng mga tao ang ulat ang saklaw, pagkalat, at kalusugan na naghahanap ng pag-uugali na may kaugnayan sa influenza-like-sakit (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. Ihambing at kaibahan ang disenyo, mga gastos, at malamang error sa InfluenzaNet, Google Flu Trends, at tradisyunal na mga sistema influenza pagsubaybay.
    2. Isaalang-alang ang isang hindi mapakali oras, tulad ng mga baboy trangkaso pagsiklab. Ilarawan ang mga posibleng mga error sa bawat sistema.
  3. [ mahirap , ay nangangailangan ng coding , pagkolekta ng data ] Ang Economist ay isang lingguhang news magazine. Gumawa ng isang tao computation proyekto upang makita kung ang ratio ng babae sa lalaki sa pabalat ay nadagdagan sa paglipas ng panahon.

    1. Ang magazine ay maaaring magkaroon ng iba't ibang mga pabalat sa walong iba't ibang mga rehiyon (Africa, Asia Pacific, Europe, European Union, Latin America, Middle East, North America, at United Kingdom) at maaari silang lahat ay nai-download mula sa website ng The Economist . Pumili ng isa sa mga rehiyong ito at isagawa ang pag-aaral. Maging sigurado upang ilarawan ang iyong mga pamamaraan na may sapat na detalye na maaaring sila ay replicated sa pamamagitan ng ibang tao.

    Ang katanungan na ito ay inspirasyon sa pamamagitan ng isang katulad na proyekto sa pamamagitan ng Justin Tenuto, ang isang data siyentipiko sa crowdsourcing kumpanya CrowdFlower , tingnan "Time Magazine Talagang Nagustuhan Dudes" .

  4. [ napaka-hirap , ay nangangailangan ng coding , pagkolekta ng data ] Building sa tanong sa itaas, ngayon isagawa ang pagtatasa para sa lahat ng walong mga rehiyon.

    1. Ano ang pagkakaiba ay hindi mahanap ka sa mga rehiyon?
    2. Magkano dagdag na oras at pera ay tumagal sa scale-up ang iyong pag-aaral sa lahat ng walong mga pook?
    3. Isipin na ang Economist ay may 100 iba't ibang mga pabalat sa bawat linggo. Tantyahin kung magkano ang dagdag na oras at pera nais itong tumagal upang masukat-up ang iyong pag-aaral sa 100 mga pabalat bawat linggo.
  5. [ mahirap , ay nangangailangan ng coding ] [Kaggle] (https://www.kaggle.com/) ay isang website na nagho-host bukas na proyekto call. Makilahok sa isa sa mga proyekto.

  6. [ medium ] Tumingin sa isang kamakailan-lamang na isyu ng isang journal sa iyong larangan. Mayroon bang anumang mga papeles na maaaring ay reformulated bilang bukas na proyekto call? Bakit o bakit hindi?

  7. [ madali ] Purdam (2014) inilarawan sa isang ipinamamahagi sa pagkolekta ng data tungkol sa kadukhaan sa London. Sabihin sa maikling pangungusap ang mga lakas at kahinaan ng mga ito disenyo ng pananaliksik.

  8. [ medium ] Redundancy ay isang mahalagang paraan upang masuri ang kalidad ng ipinamamahagi pagkolekta ng data. Windt and Humphreys (2016) bumuo at subukan ng isang sistema upang mangolekta ng mga ulat ng mga kaganapan na sigalot sa mga tao sa Eastern Congo. Basahin ang papel.

    1. Paano gumagana ang kanilang mga disenyo matiyak kalabisan?
    2. Nag-aalok ang ilang mga hakbang upang mapatunayan ang data na nakolekta mula sa kanilang mga proyekto. Sabihin sa maikling pangungusap ang mga ito. Na kung saan ay pinaka-kapani-paniwala para sa iyo?
    3. Ipanukala ang isang bagong paraan na ang data ay maaaring napatunayan. Mungkahi ay dapat na subukan upang madagdagan ang pagtitiwala na nais mong magkaroon sa ang data sa isang paraan na ay cost-effective at etikal.
  9. [ medium ] Karim Lakhani at kasamahan (2013) lumilikha ng open call to manghingi bagong algorithm upang malutas ang isang problema sa computational biology. Sila ay nakatanggap ng higit sa 600 mga submissions na naglalaman 89 nobela computational diskarte. Sa mga submissions, sapagka't tinanggap nila 30 na lumampas sa pagganap ng US National Institutes of Health MegaBLAST, at ang pinakamahusay submission nakakamit parehong mas higit na kawastuhan at bilis (1,000 beses na mas mabilis).

    1. Basahin ang kanilang mga papel, at pagkatapos ay ipanukala ang isang panlipunang pananaliksik problema na maaaring gamitin ang parehong uri ng mga bukas na paligsahan. Sa partikular, ang ganitong uri ng mga bukas na paligsahan ay nakatutok sa bilis ng takbo ninyo up at pagpapabuti ng pagganap ng isang umiiral na algorithm. Kung hindi ka maaaring mag-isip ng problema tulad nito sa iyong field, subukan na ipaliwanag kung bakit hindi.
  10. [ medium ] Maraming tao computation proyekto umasa sa mga kalahok mula sa Amazon Mechanical Turk. Mag-sign-up upang maging isang manggagawa sa Amazon Mechanical Turk. Spend isang oras nagtatrabaho doon. Paano gumagana ang epekto na ito ang iyong mga saloobin tungkol sa disenyo, kalidad, at etika ng tao proyekto compuation?