활동

키:

  • 난이도 : 쉬운 쉬운 중간 매질 하드 단단한 , 열심히 열심히
  • (수학을 필요로 수학이 필요합니다 )
  • (코딩이 필요합니다 코딩이 필요합니다 )
  • 데이터 수집 ( 데이터 수집 )
  1. [ 열심히 , 코딩이 필요합니다 , 데이터 수집 ]에서 가장 흥미로운 주장 중 하나 Benoit et al. (2015) 정치 성명서의 군중 코딩에하는 결과를 재현 할 수 있다는 것입니다. Merz, Regel, and Lewandowski (2016) 선언문 코퍼스에 대한 액세스를 제공합니다. 에서 그림 2를 재현 해 봅니다 Benoit et al. (2015) 아마존 기계 터크 근로자를 사용. 결과가 어떻게 비슷했다?

  2. [ 매질 상기 InfluenzaNet 프로젝트에서 사람들의 자원 봉사 패널은 인플루엔자와 같은-환자 (ILI) 관련 발생률, 유병률, 건강 추구 행동보고 (Tilston et al. 2010; Noort et al. 2015) .

    1. 비교 및 설계, 비용 및 InfluenzaNet, Google 독감 트렌드에 가능성이 오류, 기존의 인플루엔자 추적 시스템을 대조.
    2. 등 신종 인플루엔자 발생 등의 불안정한 시간을 고려한다. 각 시스템에서 가능한 오류에 대해 설명합니다.
  3. [ 단단한 , 코딩이 필요합니다 , 데이터 수집 ] 이코노미스트는 주간 뉴스 잡지입니다. 표지에 남자에 대한 여성의 비율이 시간이 지남에 따라 증가하는 경우 볼 수있는 인간의 계산 프로젝트를 만듭니다.

    1. 이 잡지는 8 개의 다른 지역 (아프리카, 아시아 태평양, 유럽, 유럽 연합, 라틴 아메리카, 중동, 북미 및 영국) 다른 커버를 할 수 있습니다 그리고 그들은 모든 웹 사이트에서 다운로드 할 수 있습니다 이코노미스트 . 이들 지역 중 하나를 선택하고 분석을 수행합니다. 그들은 다른 사람에 의해 복제 될 수 있다는 충분한 정보와 절차를 설명해야합니다.

    이 질문에 저스틴 Tenuto의 크라우드 소싱 회사에서 데이터 과학자에 의해 유사한 프로젝트에서 영감을받은 CrowdFlower 참조 "타임지가 정말 멋쟁이를 좋아한다" .

  4. [ 열심히 , 코딩이 필요합니다 , 데이터 수집 ] 위의 질문에 구축, 이제 모든 여덟 지역에 대한 분석을 수행합니다.

    1. 당신은 지역에서 어떤 차이점을 발견 했는가?
    2. 얼마 여분의 시간과 비용이 스케일 업하기 위해 지역의 모든 팔에 분석을 했습니까?
    3. 이코노미스트는 100 다른 커버 매주을 가지고 상상해보십시오. 이 스케일 업하는 분석을 주당 100 덮개에 걸릴 얼마나 많은 여분의 시간과 비용을 추정한다.
  5. [ 단단한 , 코딩이 필요합니다 ] [Kaggle (https://www.kaggle.com/)가 공모 프로젝트를 호스팅하는 웹 사이트입니다. 그 프로젝트 중 하나에 참여합니다.

  6. [ 매질 ] 당신의 분야에서 저널의 최근 이슈를 통해 봐. 공모 사업으로 재 공식화 된 수있는 서류가 있습니까? 그 이유는 무엇?

  7. [ 쉬운 ]는 Purdam (2014) 런던에서 구걸에 대한 분산 데이터 수집을 설명했다. 이 연구 디자인의 강점과 약점을 요약한다.

  8. [ 매질 ] 중복 분산 데이터 수집의 질을 평가하는 중요한 방법입니다. Windt and Humphreys (2016) 개발 및 동부 콩고 사람들의 갈등 이벤트의 보고서를 수집하는 시스템을 테스트합니다. 용지를 참조하십시오.

    1. 어떻게 설계는 중복을 보장 하는가?
    2. 그들은 자신의 프로젝트에서 수집 된 데이터의 유효성을 검사하기 위해 여러 가지 방법을 제공합니다. 이를 요약. 어떤 당신에게 가장 설득력입니까?
    3. 데이터를 검증 할 수있는 새로운 방법을 제안한다. 제안은 비용 효과적이고 윤리적 인 방식으로 데이터를해야 신뢰를 높이기 위해 시도해야합니다.
  9. [ 매질 ] 카림 라 카니와 동료들 (2013) 전산 생물학의 문제를 해결하기 위해 새로운 알고리즘을 요청하기 위해 공모를 만들었습니다. 그들은 89 새로운 계산 방식을 포함하는 600 개 이상의 제출을​​ 받았다. 제출물, 그들은 건강의 MegaBLAST의 미국 국립 연구소의 성능을 초과 (30)을 받아 최고의 제출은 높은 정확도와 속도 (1,000 배 빠른)를 모두 달성했다.

    1. 자신의 논문을 읽은 다음 오픈 대회의 같은 종류를 사용할 수있는 사회 연구 문제를 제안한다. 특히, 공모 이러한 종류의 고속화 및 기존의 알고리즘의 성능 개선에 집중된다. 당신은 당신의 분야에서이 같은 문제를 생각 할 수없는 경우, 왜 안 설명하려고합니다.
  10. [ 매질 ] 많은 인간 계산 프로젝트는 아마존 기계 터크 참가자에 의존하고 있습니다. 가입 아마존 기계 터크 근로자가 될 수 있습니다. 이 작업 한 시간 보내십시오. 어떻게 인간 compuation 사업이 영향을 당신의 디자인, 품질에 대한 생각, 윤리는 무엇입니까?