дейности

  • степен на трудност: лесно лесно , средно среда , твърд твърд , много трудно много трудно
  • изисква математика ( изисква математика )
  • изисква кодиране ( изисква кодиране )
  • събиране на данни ( събиране на данни )
  • любимите ми ( Моят фаворит )
  1. [ много трудно , изисква кодиране , събиране на данни , Моят фаворит ] Едно от най-вълнуващите твърдения на Бенойт и колеги (2016) за кодиране на тълпи от политически манифести е, че резултатите са възпроизводими. Merz, Regel, and Lewandowski (2016) осигуряват достъп до манифестния корпус. Опитайте се да възпроизведете фигура 2 от Benoit et al. (2016) използвайки работници от Amazon Mechanical Turk. Колко подобни бяха резултатите ви?

  2. [ среда ] В проекта InfluenzaNet доброволен панел от хора съобщава за честотата, разпространението и търсенето на здравето, свързани с грипоподобното заболяване (Tilston et al. 2010; Noort et al. 2015) .

    1. Сравнете и контрастирайте дизайна, разходите и вероятните грешки в InfluenzaNet, Google Flu Trends и традиционните системи за проследяване на грипа.
    2. Помислете за неразрешено време, като например появата на нова форма на грип. Опишете възможните грешки във всяка система.
  3. [ твърд , изисква кодиране , събиране на данни ] The Economist е седмично списание. Създайте проект за човешки изчисления, за да видите дали съотношението на жените към мъжете на корицата се е променило с течение на времето.

    1. Списанието може да има различни корици в осем различни региона (Африка, Азиатско-тихоокеанския регион, Европа, Европейски съюз, Латинска Америка, Близкия изток, Северна Америка и Обединеното кралство) и всички те могат да бъдат изтеглени от уеб сайта на списанието. Изберете един от тези региони и направете анализа. Не забравяйте да опишете процедурите си с достатъчно подробности, че те биха могли да бъдат възпроизведени от някой друг.

    Този въпрос е вдъхновен от подобен проект на Джъстин Тенуто, учен по информатика в тълпата "CrowdFlower": вижте "Списание за времето наистина харесва пичовете" (http://www.crowdflower.com/blog/time-magazine-cover-data) ,

  4. [ много трудно , изисква кодиране , събиране на данни ] Въз основа на предишния въпрос сега извършете анализа и за всичките осем региона.

    1. Какви разлики открихте в регионите?
    2. Колко допълнително време и пари са необходими, за да увеличите анализа си и в осемте региона?
    3. Представете си, че Economist има 100 различни калъфи всяка седмица. Оценете колко допълнително време и пари биха били необходими, за да увеличите анализа си на 100 кавърта на седмица.
  5. [ твърд , изисква кодиране ] Има няколко уебсайта, в които се намират отворени проекти за обаждания, като Kaggle. Участвайте в един от тези проекти и опишете какво научавате за конкретния проект и за откритите разговори като цяло.

  6. [ среда ] Разгледайте скорошен брой на дневник във вашата област. Има ли документи, които биха могли да бъдат преформулирани като отворени проекти за разговори? Защо или защо не?

  7. [ лесно ] Purdam (2014) описва разпределено събиране на данни за просия в Лондон. Обобщете силните и слабите страни на този изследователски проект.

  8. [ среда ] Съкращаването е важен начин за оценка на качеството на събирането на разпределени данни. Windt and Humphreys (2016) разработиха и тестваха система за събиране на съобщения за конфликтни събития от хора в Източно Конго. Прочетете хартията.

    1. Как дизайнът им гарантира резервиране?
    2. Те предложиха няколко подхода за валидиране на данните, събрани от техния проект. Обобщете ги. Кое беше най-убедително за теб?
    3. Предложете нов начин данните да могат да бъдат валидирани. Предложенията трябва да се опитат да увеличат доверието, което ще имате в данните по начин, който е икономически ефективен и етичен.
  9. [ среда ] Карим Лахани и колеги (2013) създадоха отворена покана за търсене на нови алгоритми за решаване на проблем в изчислителната биология. Те получиха повече от 600 изявления, съдържащи 89 нови изчислителни подхода. От направените изявления 30 надхвърлиха резултатите на MegaBLAST на Националните институти по здравеопазване в САЩ, а най-доброто представяне постигна както по-голяма точност, така и скорост (1000 пъти по-бързо).

    1. Прочетете техния документ и след това предлагайте социален изследователски проблем, който може да използва същия вид открит конкурс. По-специално, този вид открит конкурс се фокусира върху ускоряване и подобряване на изпълнението на съществуващ алгоритъм. Ако не можете да мислите за такъв проблем във вашето поле, опитайте се да обясните защо не.
  10. [ среда , Моят фаворит ] Много човешки изчислителни проекти разчитат на участници от Amazon Mechanical Turk. Регистрирайте се, за да станете работник на Amazon Mechanical Turk. Прекарайте един час работа там. Как това влияе на вашите мисли относно дизайна, качеството и етиката на човешките изчислителни проекти?