Zajęcia

Klawisz:

  • Stopień trudności: łatwe łatwo , średni średni , ciężko ciężko , bardzo trudny bardzo trudny
  • wymaga matematyki ( wymaga matematyki )
  • Wymaga kodowania ( wymaga kodowania )
  • zbieranie danych ( zbieranie danych )
  1. [ bardzo trudny , wymaga kodowania , zbieranie danych ] Jednym z najbardziej ekscytujących zastrzeżeń Benoit et al. (2015) na tłum-kodowania manifestów politycznych jest to, że wyniki są powtarzalne. Merz, Regel, and Lewandowski (2016) zapewnia dostęp do manifestu Corpus. Spróbuj odtworzyć rys.2 od Benoit et al. (2015) przy użyciu pracowników z Amazon Mechanical Turk. Jak podobne były wyniki?

  2. [ średni ] W projekcie InfluenzaNet panel wolontariusz ludzi zgłosić zachorowalności, chorobowości i zdrowia poszukuje zachowanie związane z grypopodobne-choroby (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. Porównać i konstrukcji, kosztów i prawdopodobnych błędów w InfluenzaNet, Google Flu Trends i tradycyjne systemy śledzenia grypy.
    2. Rozważmy czas nierozliczone, takich jak wybuchu epidemii świńskiej grypy. Opisać ewentualne błędy w każdym systemie.
  3. [ ciężko , wymaga kodowania , zbieranie danych ] The Economist jest tygodnika. Tworzenie ludzki projekt obliczeniowy aby sprawdzić, czy stosunek kobiet do mężczyzn na okładce wzrosła na przestrzeni czasu.

    1. Magazyn może mieć różne covery w ośmiu różnych regionach (Afryka, Azji i Pacyfiku, Europy, Unii Europejskiej, Ameryki Łacińskiej, Bliskiego Wschodu, Ameryki Północnej i Wielkiej Brytanii), a wszystkie one mogą być pobrane ze strony internetowej The Economist . Wybierz jedną z tych regionów i przeprowadzenia analizy. Pamiętaj, aby opisać swoje procedury z dość szczegółowo, że mogą być replikowane przez kogoś innego.

    To pytanie zostało zainspirowane podobnego projektu Justin tenuto, naukowca danych w firmie crowdsourcing CrowdFlower , patrz "Time Magazine naprawdę lubi Dudes" .

  4. [ bardzo trudny , wymaga kodowania , zbieranie danych ] W oparciu o powyższe pytanie, teraz przeprowadzić analizę wszystkich ośmiu regionach.

    1. Jakie różnice znalazłaś w poszczególnych regionach?
    2. Ile dodatkowego czasu i pieniędzy zajęło skalować się swoją analizę do wszystkich ośmiu regionach?
    3. Wyobraźmy sobie, że ekonomista ma 100 różnych okładek tygodniowo. Oszacować, ile dodatkowego czasu i pieniędzy zajęłoby skalować się swoją analizę do 100 okładek tygodniowo.
  5. [ ciężko , wymaga kodowania ] [Kaggle] (https://www.kaggle.com/) to strona internetowa, która jest gospodarzem projektów otwartych połączeń. Weź udział w jednym z tych projektów.

  6. [ średni ] Przejrzyj ostatnim numerze czasopisma w danej dziedzinie. Czy istnieją jakieś dokumenty, które mogłyby zostać sformułowane jako projekty otwarte zaproszenie? Dlaczego lub dlaczego nie?

  7. [ łatwo ] Purdam (2014) opisano rozproszonego zbierania danych na temat żebractwa w Londynie. Podsumować mocne i słabe strony tego projektu badawczego.

  8. [ średni ] Redundancja jest ważnym sposobem oceny jakości rozproszonego zbierania danych. Windt and Humphreys (2016) opracowanie i przetestowanie systemu do zbierania raportów zdarzeń konfliktowych od ludzi we wschodnim Kongo. Czytaj gazetę.

    1. W jaki sposób ich konstrukcja zapewnienia redundancji?
    2. Oferują one kilka podejść do sprawdzania poprawności danych zebranych od ich projektu. Podsumujmy je. Który był najbardziej przekonujący dla ciebie?
    3. Zaproponować nowy sposób, aby dane mogły być zweryfikowane. Propozycje powinny starać się zwiększyć pewność, że masz w danych w sposób, który jest opłacalny i etyczne.
  9. [ średni ] Karim Lakhani i współpracownicy (2013) stworzył otwarte zaproszenie do wymogu dostarczenia nowych algorytmów, aby rozwiązać problem w biologii obliczeniowej. Oni otrzymali ponad 600 zgłoszeń zawierających 89 nowych metod obliczeniowych. Spośród zgłoszeń, otrzymali 30, który przekroczył wydajność amerykańskich Narodowych Instytutów Zdrowia Megablast, a najlepsze poddanie osiągnięte zarówno większą dokładność i szybkość (1000 razy szybciej).

    1. Przeczytaj swój papier, a następnie zaproponować problemu badań społecznych, które mogą korzystać z tego samego rodzaju konkursu otwartego. W szczególności tego rodzaju zawodów otwartym skupia się na przyspieszenia i zwiększenia wydajności istniejącego algorytmu. Jeśli nie można myśleć o problemu jak ten w swojej dziedzinie, spróbuj wyjaśnić, dlaczego nie.
  10. [ średni ] Wiele projektów obliczeniowych człowieka polegać na uczestników z Amazon Mechanical Turk. Zapisz się, aby stać się pracownikiem na Amazon Mechanical Turk. Spędzić jedną godzinę tam pracujących. Jaki ma to wpływ myśli o projektowaniu, jakości i etyki projektów compuation człowieka?