분산 된 데이터 수집이 가능하며, 앞으로는 기술 및 수동적 참여가 필요할 것입니다.
eBird가 보여 주듯이 분산 데이터 수집은 과학적 연구에 사용될 수 있습니다. 또한 PhotoCity는 샘플링 및 데이터 품질과 관련된 문제가 해결 될 수 있음을 보여줍니다. 사회 조사를 위해 분산 데이터 수집이 어떻게 작동할까요? 한 가지 예는 말라위 저널 프로젝트 (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) 에서 수잔 왓킨스 (Susan Watkins)와 그녀의 동료들의 연구에서 나온 것이다. 이 프로젝트에서 "언론인"이라고 불리는 22 명의 지역 주민들은 보통 사람들의 일상 생활에서 에이즈에 관해 들었던 대화를 세부적으로 기록한 대화 형 저널을 사용하지 않습니다 (프로젝트 시작 당시 성인의 약 15 % 말라위에서는 HIV에 감염되었다 (Bello, Chipeta, and Aberle-Grasse 2006) ). 그들의 내부자 지위 때문에이 기자들은 왓킨스와 그녀의 서양 연구 공동 작업자가 접근 할 수 없었던 대화를 엿 들었을 것입니다 (나는 자신의 대량 공동 작업 프로젝트를 설계하는 것에 대한 조언을 할 때이 장의 후반부에서 윤리에 대해 토론 할 것입니다) . 말라위 저널 프로젝트의 데이터는 많은 중요한 발견을 이끌어 냈습니다. 예를 들어 프로젝트가 시작되기 전에 많은 외부인들은 아프리카 사하라 사막 이남 지역에서 에이즈에 대한 침묵이 있다고 믿었지만 대화 형 저널은 이것이 분명하지 않다는 것을 보여주었습니다. 언론인은 주제에 대한 수백 가지의 토론을 들으며 장례식장, 술집, 교회 및 교회. 또한, 이러한 대화의 본질은 연구자가 콘돔 사용에 대한 일부 저항을 더 잘 이해하는 데 도움이되었습니다. 콘돔의 사용이 공중 보건 메시지에서 틀을 (Tavory and Swidler 2009) 방식은 그것이 일상 생활에서 논의 된 방식과 일치하지 (Tavory and Swidler 2009) .
물론 eBird의 데이터와 마찬가지로 Malawi Journals Project의 데이터는 완벽하지 못합니다. Watkins와 동료들이 자세히 논의한 문제입니다. 예를 들어, 녹음 된 대화는 모든 가능한 대화의 무작위 샘플이 아닙니다. 오히려, 그들은 AIDS에 관한 대화의 불완전한 인구 조사입니다. 연구자들은 데이터 품질면에서 저널 및 일관된 저널을 통해 저널리스트가 우수한 기자라고 믿었습니다. 즉, 충분한 기자가 특정 주제에 초점을 맞춘 충분한 규모로 배포 되었기 때문에 중복성을 사용하여 데이터 품질을 평가하고 보장 할 수있었습니다. 예를 들어, "Stella"라는 성 노동자가 4 명의 언론인의 저널에 여러 번 나타났습니다 (Watkins and Swidler 2009) . 직관력을 높이기 위해 표 5.3은 사회 연구를위한 분산 데이터 수집의 다른 예를 보여줍니다.
수집 된 데이터 | 참고 |
---|---|
말라위 HIV / 에이즈에 관한 토론 | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
런던에서 거리 구걸 | Purdam (2014) |
콩고 민주 공화국의 분쟁 사건 | Windt and Humphreys (2016) |
나이지리아와 라이베리아의 경제 활동 | Blumenstock, Keleher, and Reisinger (2016) |
인플루엔자 감시 | Noort et al. (2015) |
이 섹션에 설명 된 모든 예는 적극적인 참여를 포함합니다. 새들이 새들 체크리스트를 올렸습니다. 또는 선수들이 사진을 올렸습니다. 그러나 참여가 자동적이며 특정 기술이나 제출 시간이 필요하지 않은 경우에는 어떻게해야합니까? 예를 들어, MIT 과학자들의 프로젝트 인 Pothole Patrol은 보스턴 지역의 7 개 택시 (Eriksson et al. 2008) GPS 탑재 가속도계를 탑재했습니다. "참여 감지"또는 "사람 중심 센싱" (Eriksson et al. 2008) . 움푹 들어간 곳을 주행하면 별개의 가속도계 신호가 남기 때문에 이동하는 택시 안에이 장치를 배치하면 보스턴의 구덩이 맵을 만들 수 있습니다. 물론 택시는 도로를 무작위로 샘플링하지는 않지만 택시가 충분할 경우 도시의 많은 부분에 대한 정보를 제공 할 수있는 충분한 범위가있을 수 있습니다. 기술에 의존하는 패시브 시스템의 두 번째 이점은 데이터를 제공하는 프로세스의 숙련도를 낮추는 것입니다. eBird에 기술을 제공해야하지만 (조류 종을 안정적으로 식별 할 수 있어야하므로) 특별한 기술이 필요하지 않습니다. Pothole Patrol에 기여하십시오.
앞으로 많은 분산 데이터 수집 프로젝트가 전 세계 수십억 명의 사람들이 이미 휴대하고있는 휴대폰 기능을 사용하기 시작합니다. 이 전화기에는 이미 마이크, 카메라, GPS 장치 및 시계와 같이 측정에 중요한 센서가 많이 있습니다. 또한 연구원이 기본 데이터 수집 프로토콜을 일부 제어 할 수 있도록 타사 응용 프로그램을 지원합니다. 마지막으로 인터넷 연결 기능을 통해 수집 한 데이터의 부하를 줄일 수 있습니다. 부정확 한 센서에서 배터리 수명에 이르기까지 수많은 기술적 인 문제가 있지만 이러한 문제는 기술 발전에 따라 점차 줄어들 것입니다. 반면에 프라이버시와 윤리와 관련된 문제는 더욱 복잡해 질 수 있습니다. 나 자신의 대량 공동 작업을 설계하는 것에 대한 조언을 제공하면 윤리 문제로 돌아갈 것입니다.
분산 데이터 수집 프로젝트에서 자원 봉사자는 세계에 대한 데이터를 제공합니다. 이 접근 방식은 이미 성공적으로 사용되고 있으며, 향후 사용은 샘플링 및 데이터 품질 문제를 해결해야 할 것입니다. 다행히도 PhotoCity 및 Pothole Patrol과 같은 기존 프로젝트는 이러한 문제에 대한 해결책을 제시합니다. 숙련되고 수동적 인 참여를 가능하게하는 기술을 활용하는 프로젝트가 많아짐에 따라 분산 데이터 수집 프로젝트가 급격히 증가하여 연구원들은 과거에 한계를 벗어난 데이터를 수집 할 수있게되었습니다.