actividades

  • grao de dificultade: fácil fácil , medio medio , duro duro , moi duro moi duro
  • require matemáticas ( require matemáticas )
  • require codificación ( require codificación )
  • recopilación de datos ( recollida de datos )
  • meus favoritos ( Meu favorito )
  1. [ moi duro , require codificación , recollida de datos , Meu favorito ] Unha das alegacións máis emocionantes da investigación de Benoit e os compañeiros (2016) sobre a multitude de codificación dos manifestos políticos é que os resultados son reproducibles. Merz, Regel, and Lewandowski (2016) proporcionan acceso ao Manifesto Corpus. Tenta reproducir a figura 2 de Benoit et al. (2016) empregando traballadores de Amazon Mechanical Turk. Que semellantes foron os teus resultados?

  2. [ medio ] No proxecto InfluenzaNet un panel de persoas voluntarias denunciou a incidencia, prevalencia e comportamentos para a busca de saúde relacionados con enfermidades como a gripe (Tilston et al. 2010; Noort et al. 2015) .

    1. Compare e contrasta o deseño, os custos e os posibles erros de InfluenzaNet, Google Flu Trends e os sistemas tradicionais de rastreamento de gripe.
    2. Considere un tempo inestable, como un brote dunha nova forma de gripe. Describe os posibles erros en cada sistema.
  3. [ duro , require codificación , recollida de datos ] The Economist é unha revista de noticias semanal. Crea un proxecto de cálculo humano para ver se a relación entre mulleres e homes na portada cambiou co paso do tempo.

    1. A revista pode ter portadas diferentes en oito rexións diferentes (África, Asia Pacífico, Europa, Unión Europea, América Latina, Oriente Medio, América do Norte e Reino Unido) e todos poden descargarse do sitio web da revista. Escolle unha destas rexións e realiza a análise. Asegúrese de describir os seus procedementos con suficiente detalle que poidan ser replicados por outra persoa.

    Esta pregunta foi inspirada nun proxecto similar de Justin Tenuto, un científico de datos da empresa crowdsourcing CrowdFlower: vexa "A revista Time Really Likes Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ moi duro , require codificación , recollida de datos ] Baseándose na pregunta anterior, agora realizamos a análise para as oito rexións.

    1. Que diferenzas atopabas nas rexións?
    2. Canto tempo e diñeiro fixeron para ampliar a súa análise para as oito rexións?
    3. Imaxina que o Economist ten 100 capas diferentes cada semana. Estimar canto tempo e diñeiro tería que ampliar a súa análise a 100 por semana.
  5. [ duro , require codificación ] Hai varios sitios web que albergan proxectos de chamadas abertas, como Kaggle. Participa nun deses proxectos e describe o que aprendes sobre ese proxecto en particular e sobre chamadas abertas en xeral.

  6. [ medio ] Busque un número recente dunha revista no seu campo. ¿Hai algún documento que puidese reformularse como proxectos de chamadas abertas? Por que e por que non?

  7. [ fácil ] Purdam (2014) describe unha colección de datos distribuídos sobre a mendicidade en Londres. Resumir os puntos fortes e débiles deste proxecto de investigación.

  8. [ medio ] A redundancia é unha forma importante de avaliar a calidade da recollida de datos distribuídos. Windt and Humphreys (2016) desenvolveron e probaron un sistema para recompilar informes de acontecementos de conflitos das persoas no Congo oriental. Ler o papel.

    1. Como é que o seu deseño asegura a redundancia?
    2. Ofrecéronse varios enfoques para validar os datos recollidos no seu proxecto. Resuméntelos. Cal foi o máis convincente para ti?
    3. Propón unha nova forma de validar os datos. As suxestións deben tentar aumentar a confianza que tería nos datos dun xeito que sexa rendible e ética.
  9. [ medio ] Karim Lakhani e colegas (2013) crearon unha convocatoria aberta para solicitar novos algoritmos para resolver un problema na bioloxía computacional. Recibiron máis de 600 presentacións que contiñan 89 novedosas enfoques computacionais. Das comunicacións, 30 superaron o rendemento do MegaBLAST dos Institutos Nacionais de Saúde de EE. UU. Ea mellor presentación alcanzou maior precisión e velocidade (1,000 veces máis rápido).

    1. Ler o seu traballo e, a continuación, propoñer un problema de investigación social que poida usar o mesmo tipo de concurso aberto. En particular, este tipo de concurso aberto está centrado en acelerar e mellorar o rendemento dun algoritmo existente. Se non pode pensar nun problema coma este no seu campo, intente explicar por que non.
  10. [ medio , Meu favorito ] Moitos proxectos de cálculo humano dependen dos participantes de Amazon Mechanical Turk. Rexístrate para facerte traballador en Amazon Mechanical Turk. Pase unha hora traballando alí. Como afecta isto os teus pensamentos sobre o deseño, a calidade e a ética dos proxectos de cálculo humano?