Recollida de datos distribuída é posible, e no futuro probablemente implicará tecnoloxía e participación pasiva.
Como eBird demostra, obtención de datos distribuída pode ser usado para a investigación científica. Ademais, PhotoCity mostra que os problemas relacionados coa mostraxe ea calidade dos datos son potencialmente solucionável.
Como se distribuídos traballo de recollida de datos para a investigación social? Un marabilloso exemplo vén do traballo de Susan Watkins e os seus colegas sobre o Proxecto Revistas Malaui (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Neste proxecto, 22 residentes locais chamados "xornalistas" -kept "revistas de conversación" que rexistraron, en detalle, as conversacións que escoitou sobre a sida no cotián das persoas comúns (no momento do inicio do proxecto, preto de 15% dos adultos en Malawi foron infectados con VIH (Bello, Chipeta, and Aberle-Grasse 2006) ). Debido ao seu estatuto de información privilexiada, estes xornalistas puideron escoitar as conversacións que poderían ser inaccesible para Susan Watkins e os seus colaboradores de busca occidentais (eu vou discutir ética desta tarde no capítulo cando ofrecer consellos sobre como crear o seu propio proxecto de colaboración masiva ). Os datos do Proxecto Malaui Revistas levou a unha serie de descubrimentos importantes. Por exemplo, antes do inicio do proxecto, moitas persoas de fóra crían que había un silencio sobre a SIDA en África sub-sahariana, pero os xornais demostraron que este foi claramente non é o caso: os xornalistas escoitou centos de conversa sobre o tema, en lugares tan diversos como funerais , bares e igrexas. Ademais, a natureza destas conversas axudaron os investigadores a entender mellor parte da resistencia ao uso do preservativo, a forma que o uso do preservativo foi enmarcado en mensaxes de saúde pública era inconsistente coa forma que foi discutida na vida cotiá (Tavory and Swidler 2009) .
Claro que, como os datos de eBird, os datos do Proxecto Revistas Malaui non é perfecto, un problema discutido en detalle por Watkins e compañeiros. Por exemplo, as conversas gravadas non son unha mostra aleatoria de todas as conversas posibles. Pola contra, son un censo incompleta de conversacións sobre SIDA. En termos de calidade de datos, os investigadores cren que os seus xornalistas eran os reporteiros de alta calidade, como evidenciado pola consistencia dentro revistas e en xornais. Ademais, cando os xornalistas suficientes son implantados nun ambiente moi pequeno e informes están focados en un tema específico, redundancia tornouse posíbel, o que aumenta a confianza na calidade dos datos. Por exemplo, un traballador do sexo chamado "Stella" mostrouse varias veces nas revistas de catro xornalistas diferentes (Watkins and Swidler 2009) . Como se nos PhotoCity, o uso de redundancia é un principio importante para avaliar e garantir a calidade dos datos en proxectos de recollida de datos distribuídos. A fin de construír aínda máis a súa intuición, a Táboa 5.3 mostra outros exemplos de recollida de datos distribuída para a investigación social.
Os datos recollidos | cita |
---|---|
As discusións sobre VIH / SIDA en Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Mendicidade nas rúas de Londres | Purdam (2014) |
eventos conflito no leste do Congo | Windt and Humphreys (2016) |
A actividade económica en Nixeria e Liberia | Blumenstock, Keleher, and Reisinger (2016) |
vixilancia da gripe | Noort et al. (2015) |
Todos os exemplos descritos nesta sección impliquen a participación activa: xornalistas transcrita conversas que oíron; birders cargado súas listas de observación de paxaros; ou xogadores cargado súas fotos. Pero e se a participación era automático e non require ningunha habilidade ou tempo específico para enviar? Esta é a promesa ofrecida pola "detección participativa" ou "centrada nas persoas de detección." Por exemplo, o caldeiro Patrol, un proxecto por científicos do MIT, montado GPS acelerômetros equipados en sete taxis na área de Boston (Eriksson et al. 2008) . Porque dirixindo sobre un burato deixa un sinal acelerómetro distinta, estes dispositivos, cando colocado no interior de taxis en movemento, pode crear mapas de buratos de Boston. Por suposto, os taxis non mostraxe aleatoria de estradas, pero dado o suficiente taxis, pode haber unha cobertura suficiente para proporcionar información sobre grandes porcións de que cidade. Un segundo beneficio de sistemas pasivos que dependen da tecnoloxía é que diminúen a capacidade do proceso de contribuír de datos: á vez que esixe habilidade para contribuír eBird (porque ten que ser capaz de identificar con seguridade as especies de aves), que non require habilidades especiais para contribuír Pothole Patrol.
Indo para adiante, eu sospeito que moitos proxectos de recollida de datos distribuídos comezará a facer uso das capacidades de teléfonos móbiles que xa están cargados por miles de millóns de persoas en todo o mundo. Estes teléfonos xa ten un gran número de sensores importantes para a medición, como micrófonos, cámaras, aparellos GPS e reloxos. Ademais, eses teléfonos móbiles soportan aplicacións de terceiros para que os investigadores algún control sobre os protocolos de recollida de datos subxacentes. Finalmente, estes teléfonos teñen Internet de conectividade, facendo posible para eles para off-cargar os datos que recollen. Existen numerosos retos técnicos de sensores imprecisos a vida útil da batería limitada, pero estes problemas probablemente ha diminuír ao longo do tempo como a tecnoloxía se desenvolve. Cuestións relacionadas coa privacidade e ética, por outra banda, pode ser máis complicado, xa que a tecnoloxía se desenvolve; Vou volver para cuestións de ética cando ofrecer consellos sobre como proxectar a súa propia colaboración masiva.
En proxectos de recollida de datos distribuídos, os voluntarios aportar datos sobre o mundo. Esta visión xa foi utilizada con éxito, e usos futuros probablemente vai ter que tratar con mostraxe e de calidade de datos preocupacións. Afortunadamente, os proxectos existentes, tales como PhotoCity e Caldeirão Patrol suxerir solucións para estes problemas. A medida que máis proxectos de sacar proveito da tecnoloxía que permite a participación de cualificados e pasiva, distribuídos proxectos de recollida de datos debe aumentar dramaticamente a escala, permitindo aos investigadores recoller datos que era simplemente fóra dos límites no pasado.