activiteiten

Key:

  • moeilijkheidsgraad: easy gemakkelijk , medium medium , harde hard , heel moeilijk heel moeilijk
  • vereist wiskunde ( vereist wiskunde )
  • vereist codering ( vereist codering )
  • het verzamelen van gegevens ( het verzamelen van gegevens )
  1. [ heel moeilijk , vereist codering , het verzamelen van gegevens ] Een van de meest opwindende aanspraken van Benoit et al. (2015) op crowd-codering van politieke manifesten is dat de resultaten reproduceerbaar zijn. Merz, Regel, and Lewandowski (2016) geeft toegang tot het Manifest Corpus. Probeer om Figuur 2 weer te geven van Benoit et al. (2015) met behulp van werknemers uit Amazon Mechanical Turk. Hoe vergelijkbaar waren de resultaten?

  2. [ medium ] In het InfluenzaNet project verslag van een vrijwilliger panel van mensen de incidentie, prevalentie, en de gezondheid op zoek naar het gedrag in verband met influenza-achtige ziekte (ILI) (Tilston et al. 2010; Noort et al. 2015) .

    1. Vergelijken en het contrast van het ontwerp, de kosten en waarschijnlijk fouten in InfluenzaNet, Google Flu Trends, en traditionele influenza volgsystemen.
    2. Overweeg een onrustige tijd, zoals de varkens griep uitbraak. Beschrijf de mogelijke fouten in elk systeem.
  3. [ hard , vereist codering , het verzamelen van gegevens ] The Economist is een weekblad. Een menselijke berekening project of de verhouding tussen vrouwen en mannen op het deksel in de tijd is toegenomen.

    1. Het magazine kan verschillende covers in acht verschillende regio's (Afrika, Azië-Pacific, Europa, de Europese Unie, Latijns-Amerika, het Midden-Oosten, Noord-Amerika en het Verenigd Koninkrijk) hebben en ze kunnen allemaal worden gedownload van de website van The Economist . Kies een van deze regio's en de analyse uit te voeren. Zorg ervoor dat u uw procedures te beschrijven met voldoende detail dat ze kunnen worden gerepliceerd door iemand anders.

    Deze vraag werd geïnspireerd op een soortgelijk project door Justin Tenuto, een data-wetenschapper aan het crowdsourcing bedrijf CrowdFlower , zie "Time Magazine houdt echt Dudes" .

  4. [ heel moeilijk , vereist codering , het verzamelen van gegevens ] Voortbouwend op de vraag hierboven, nu de analyse uit te voeren voor alle acht regio's.

    1. Welke verschillen heb je tussen de regio's?
    2. Hoeveel extra tijd en geld duurde het om schaal-up van uw analyse van alle acht van de regio's?
    3. Stel je voor dat de Economist heeft 100 verschillende covers per week. Schatten hoeveel extra tijd en geld zou het duren om de schaal-up van uw analyse tot 100 covers per week.
  5. [ hard , vereist codering ] [Kaggle] (https://www.kaggle.com/) is een website die open oproep projecten gastheren. Neem deel aan één van die projecten.

  6. [ medium ] Kijk door een recente uitgave van een tijdschrift in uw vakgebied. Zijn er papieren die had kunnen worden geformuleerd als open oproep projecten? Waarom of waarom niet?

  7. [ gemakkelijk ] Purdam (2014) beschreef een gedistribueerde het verzamelen van gegevens over het bedelen in Londen. Vat de sterke en zwakke punten van dit onderzoek ontwerp.

  8. [ medium ] Redundantie is een belangrijke manier om de kwaliteit van gedistribueerde het verzamelen van gegevens te beoordelen. Windt and Humphreys (2016) ontwikkelen en testen van een systeem om meldingen van conflict gebeurtenissen van mensen in Oost-Congo te verzamelen. De krant lezen.

    1. Hoe ziet hun ontwerp te verzekeren ontslag?
    2. Ze bieden verschillende manieren om de verzamelde uit hun project gegevens te valideren. Vatten hen. Welke was het meest overtuigend voor u?
    3. Voorstellen van een nieuwe manier dat de gegevens kunnen worden gevalideerd. Suggesties moeten proberen het vertrouwen dat u de data op een manier die rendabel en ethische zou toenemen.
  9. [ medium ] Karim Lakhani en collega's (2013) creëerde een open oproep om nieuwe algoritmes te verzoeken om een probleem in computationele biologie op te lossen. Zij ontving meer dan 600 inzendingen met 89 nieuwe computationele methoden. Van de inzendingen ontvingen zij 30 dat de prestaties van de Amerikaanse National Institutes of Health Megablast overschreden, en de beste inzending behaalde zowel een grotere nauwkeurigheid en snelheid (1000 keer sneller).

    1. Lees hun papieren, en vervolgens een voorstel voor een sociaal-wetenschappelijk onderzoek probleem dat dezelfde soort open wedstrijd kon gebruiken. In het bijzonder wordt dit soort open wedstrijd gericht op het versnellen en verbeteren van de prestaties van een bestaand algoritme. Als je niet kan bedenken probleem als dit in uw vakgebied, proberen uit te leggen waarom niet.
  10. [ medium ] Veel menselijke berekening projecten rekenen op deelnemers uit Amazon Mechanical Turk. Aanmelden voor een werknemer op Amazon Mechanical Turk geworden. Breng een uur daar te werken. Hoe werkt dit invloed op uw gedachten over het ontwerp, de kwaliteit, en de ethiek van de menselijke compuation projecten?