Діяльності

  • ступінь складності: легкий легко , середній середній , важко важко , дуже важкий дуже важкий
  • вимагає математики ( вимагає математики )
  • вимагає кодування ( вимагає кодування )
  • збір даних ( збір даних )
  • мої улюблені ( мій улюблений )
  1. [ дуже важкий , вимагає кодування , збір даних , мій улюблений ] Одне з найбільш хвилюючих претензій, проведених Бенуа та його колегами (2016) Щодо натовпу кодування політичних маніфестів, полягає в тому, що результати відтворюються. Merz, Regel, and Lewandowski (2016) надає доступ до Маніфесту Корпусу. Спробуйте відтворити фігуру 2 з Benoit et al. (2016) Використовуючи працівників Amazon Mechanical Turk. Наскільки подібні були ваші результати?

  2. [ середній ] У проекті InfluenzaNet група добровольців повідомляє про захворюваність, поширеність та поведінку, спрямовану на охорону здоров'я, пов'язану з хворобами, що схожими на грип (Tilston et al. 2010; Noort et al. 2015) .

    1. Порівняйте та порівнюйте дизайн, витрати та можливі помилки в InfluenzaNet, Google Flu Trends та традиційних системах відстеження грипу.
    2. Розглянемо невирішеність часу, наприклад, спалах нової форми грипу. Опишіть можливі помилки в кожній системі.
  3. [ важко , вимагає кодування , збір даних ] The Economist є щотижневим новинним журналом. Створіть проект обчислення людей, щоб побачити, чи співвідношення жінок і чоловіків на обкладинці з часом змінилося.

    1. Журнал може мати різні обкладинки у восьми різних регіонах (Африці, Азіатсько-Тихоокеанському регіоні, Європі, Європейському Союзі, Латинській Америці, Близькому Сході, Північній Америці та Великобританії), і всі вони можна завантажити з веб-сайту журналу. Виберіть один із цих регіонів та виконайте аналіз. Обов'язково опишіть свої процедури з достатньою деталізацією, щоб їх могли відтворити хтось інший.

    Це питання було натхнене подібним проектом Джастін Тенуто, вчений-дослідник у краудсорсінговій компанії CrowdFlower: див. "Час журналу дійсно любить хлопців" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ дуже важкий , вимагає кодування , збір даних ] Розглядаючи попереднє запитання, виконайте аналіз для всіх восьми регіонів.

    1. Які відмінності ви знайшли по регіонах?
    2. Скільки часу та грошей ви витратили, щоб збільшити свій аналіз до всіх восьми регіонів?
    3. Уявіть собі, що економіст має 100 різних обкладинок кожного тижня. Оцініть, скільки часу та грошей вам знадобиться, щоб збільшити ваш аналіз до 100 обкладок на тиждень.
  5. [ важко , вимагає кодування ] Є декілька веб-сайтів, на яких розміщуються проекти відкритих викликів, такі як Kaggle. Участь у одному з цих проектів, і описати, що ви дізнаєтеся про цей конкретний проект та про відкриті дзвінки в цілому.

  6. [ середній ] Перегляньте недавню публікацію журналу у своєму полі. Чи існують будь-які документи, які могли б бути змінені як проекти відкритих викликів? Чому або чому ні?

  7. [ легко ] Purdam (2014) описує розподілений збір даних про благання в Лондоні. Підсумуйте сильні та слабкі сторони цього дослідження.

  8. [ середній ] Резервування є важливим способом оцінки якості розподіленої збірки даних. Windt and Humphreys (2016) розробили та випробували систему збирання звітів про конфліктні події від людей у ​​Східному Конго. Прочитайте документ.

    1. Як їх дизайн забезпечує надмірність?
    2. Вони запропонували кілька підходів для перевірки даних, зібраних з їхнього проекту. Підсумуйте їх. Що було найбільш переконливо для вас?
    3. Пропонуємо новий спосіб перевірки даних. Пропозиції повинні намагатись підвищити довіру, яку ви матимете до даних, таким чином, щоб вона була рентабельною та етичною.
  9. [ середній ] Карим Лакхані та його колеги (2013) Створили відкритий дзвінок, щоб запропонувати нові алгоритми вирішення проблеми в обчислювальної біології. Вони отримали понад 600 матеріалів, що містять 89 новітніх обчислювальних підходів. З поданнях, 30 перевищили показники MegaBLAST Національного Інституту Здоров'я США, а краща подача була досягнута як з більшою точністю та швидкістю (в 1000 разів швидше).

    1. Прочитайте їх документ, а потім запропонуйте проблему соціальних досліджень, яка могла б використати той же відкритий конкурс. Зокрема, такий вид відкритого конкурсу спрямований на прискорення та підвищення ефективності існуючого алгоритму. Якщо ви не можете придумати подібну проблему у своїй галузі, спробуйте пояснити, чому б і ні.
  10. [ середній , мій улюблений ] Багато людських обчислювальних проектів покладаються на учасників Amazon Mechanical Turk. Зареєструйтеся, щоб стати робітником на Amazon Mechanical Turk. Витратьте годину на роботу. Як це впливає на ваші думки про дизайн, якість та етику людських обчислювальних проектів?