Activités

Clé:

  • degré de difficulté: facile facile , moyen moyen , difficile difficile , très dur très dur
  • exige des mathématiques ( exige des mathématiques )
  • exige le codage ( exige le codage )
  • collecte de données ( collecte de données )
  1. [ très dur , exige le codage , collecte de données ] L' une des revendications les plus excitantes de Benoit et al. (2015) sur la foule-codage des manifestes politiques est que les résultats sont reproductibles. Merz, Regel, and Lewandowski (2016) donne accès au Manifeste Corpus. Essayez de reproduire la figure 2 de Benoit et al. (2015) en utilisant les travailleurs d'Amazon Mechanical Turk. Comment similaires ont été vos résultats?

  2. [ moyen ] Dans le projet InfluenzaNet un panel de personnes bénévoles pour signaler l'incidence, la prévalence et les comportements de santé à la recherche liée à la grippe-like-maladie (SG) (Tilston et al. 2010; Noort et al. 2015) .

    1. Comparer et la conception, les coûts et les erreurs probables dans InfluenzaNet, Google Flu Trends, et les systèmes traditionnels de suivi de la grippe.
    2. Considérons un temps instable, comme l'épidémie de grippe porcine. Décrire les erreurs possibles dans chaque système.
  3. [ difficile , exige le codage , collecte de données ] The Economist est un magazine hebdomadaire de nouvelles. Créer un projet de calcul humain pour voir si le rapport des femmes aux hommes sur la couverture a augmenté au fil du temps.

    1. Le magazine peut avoir différentes couvertures dans huit régions différentes (Afrique, Asie - Pacifique, l' Europe, l' Union européenne, l' Amérique latine, du Moyen - Orient, Amérique du Nord, et Royaume-Uni) et ils peuvent tous être téléchargés à partir du site Internet de The Economist . Choisissez l'une de ces régions et d'effectuer l'analyse. Assurez-vous de décrire vos procédures avec suffisamment de détails qu'ils pourraient être reproduits par quelqu'un d'autre.

    Cette question a été inspiré par un projet similaire par Justin Tenuto, un scientifique de données à la société de crowdsourcing Crowdflower , voir "Time Magazine aime vraiment Dudes" .

  4. [ très dur , exige le codage , collecte de données ] Construire sur la question ci-dessus, maintenant effectuer l'analyse pour les huit régions.

    1. Quelles différences avez-vous trouvé dans toutes les régions?
    2. Combien de temps supplémentaire et de l'argent at-il fallu pour intensifier votre analyse pour les huit régions?
    3. Imaginez que l'économiste a 100 couvertures différentes chaque semaine. Estimer combien de temps et d'argent qu'il faudrait pour intensifier votre analyse à 100 couverts par semaine.
  5. [ difficile , exige le codage ] [Kaggle] (https://www.kaggle.com/) est un site Web qui héberge des projets d'appels ouverts. Participez à l'un de ces projets.

  6. [ moyen ] Regardez dans un numéro récent d'un journal dans votre domaine. Y at-il des documents qui auraient pu être reformulés comme des projets d'appels ouverts? Pourquoi ou pourquoi pas?

  7. [ facile ] Purdam (2014) décrit une collection de données réparties autour de la mendicité à Londres. Résumer les forces et les faiblesses de cette conception de la recherche.

  8. [ moyen ] La redondance est un moyen important d'évaluer la qualité de la collecte des données distribuées. Windt and Humphreys (2016) développer et tester un système de collecte des rapports d'événements de conflit de personnes dans l'Est du Congo. Lire le document.

    1. Comment leur conception assurer la redondance?
    2. Ils offrent plusieurs approches pour valider les données recueillies à partir de leur projet. Résumer eux. Ce qui était le plus convaincant pour vous?
    3. Proposer une nouvelle façon que les données puissent être validées. Suggestions devraient essayer d'augmenter la confiance que vous auriez dans les données d'une manière qui est rentable et éthique.
  9. [ moyen ] Karim Lakhani et ses collègues (2013) ont créé un appel pour solliciter de nouveaux algorithmes pour résoudre un problème dans la biologie computationnelle. Ils ont reçu plus de 600 mémoires contenant 89 nouvelles approches de calcul. Parmi les présentations, ils ont reçu 30 qui a dépassé la performance des Instituts nationaux américains de Megablast de Santé, et la meilleure soumission obtenus à la fois une plus grande précision et la vitesse (1000 fois plus rapide).

    1. Lisez leur papier, puis proposer un problème de recherche sociale qui pourrait utiliser le même genre de concours ouvert. En particulier, ce genre de concours ouvert est axé sur l'accélération et l'amélioration de la performance d'un algorithme existant. Si vous ne pouvez pas penser problème de ce genre dans votre domaine, essayez d'expliquer pourquoi.
  10. [ moyen ] De nombreux projets de calcul humains comptent sur les participants d'Amazon Mechanical Turk. Inscrivez-vous pour devenir un travailleur sur Amazon Mechanical Turk. Passez une heure de travail là-bas. Quel est l'impact de vos réflexions sur la conception, la qualité et l'éthique des projets de compuation humains?