La recopilación de datos distribuidos es posible, y en el futuro probablemente involucre tecnología y participación pasiva.
Como demuestra eBird, la recopilación de datos distribuidos se puede utilizar para la investigación científica. Además, PhotoCity muestra que los problemas relacionados con el muestreo y la calidad de los datos son potencialmente solucionables. ¿Cómo podría funcionar la recolección de datos distribuidos para la investigación social? Un ejemplo proviene del trabajo de Susan Watkins y sus colegas en Malawi Journals Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . En este proyecto, 22 residentes locales -llamados "periodistas" - se quedaron con "revistas conversacionales" que registraban, en detalle, las conversaciones que escuchaban sobre el SIDA en la vida cotidiana de la gente común (al momento del inicio del proyecto, aproximadamente el 15% de los adultos en Malawi se infectaron con VIH (Bello, Chipeta, and Aberle-Grasse 2006) ). Debido a su estado interno, estos periodistas pudieron escuchar conversaciones que podrían haber sido inaccesibles para Watkins y sus colaboradores de investigación occidentales (discutiré la ética de esto más adelante en el capítulo cuando ofrezca consejos sobre el diseño de su propio proyecto de colaboración masiva). . Los datos del Proyecto de Diarios de Malawi han llevado a una serie de hallazgos importantes. Por ejemplo, antes de que comenzara el proyecto, muchos extranjeros creían que había silencio sobre el SIDA en el África subsahariana, pero las revistas de conversación demostraron que claramente este no era el caso: los periodistas escucharon cientos de discusiones sobre el tema, en lugares tan diversos como funerales, bares e iglesias. Además, la naturaleza de estas conversaciones ayudó a los investigadores a comprender mejor parte de la resistencia al uso del condón; la forma en que el uso del condón se enmarcaba en los mensajes de salud pública era inconsistente con la forma en que se discutía en la vida cotidiana (Tavory and Swidler 2009) .
Por supuesto, al igual que los datos de eBird, los datos del Malawi Journals Project no son perfectos, un tema discutido en detalle por Watkins y sus colegas. Por ejemplo, las conversaciones grabadas no son una muestra aleatoria de todas las conversaciones posibles. Más bien, son un censo incompleto de conversaciones sobre el SIDA. En términos de calidad de los datos, los investigadores creyeron que sus periodistas eran reporteros de alta calidad, como lo demuestra la consistencia entre las revistas y entre las revistas. Es decir, debido a que se desplegaron suficientes periodistas en un entorno lo suficientemente pequeño y se centró en un tema específico, fue posible utilizar la redundancia para evaluar y garantizar la calidad de los datos. Por ejemplo, una trabajadora sexual llamada "Stella" apareció varias veces en los diarios de cuatro periodistas diferentes (Watkins and Swidler 2009) . Para desarrollar aún más su intuición, la tabla 5.3 muestra otros ejemplos de recopilación de datos distribuidos para investigación social.
Datos recolectados | Referencia |
---|---|
Debates sobre el VIH / SIDA en Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
La calle mendigando en Londres | Purdam (2014) |
Conflictos en el este del Congo | Windt and Humphreys (2016) |
Actividad económica en Nigeria y Liberia | Blumenstock, Keleher, and Reisinger (2016) |
Vigilancia de la influenza | Noort et al. (2015) |
Todos los ejemplos descritos en esta sección han involucrado la participación activa: los periodistas transcribieron las conversaciones que escucharon; los observadores de aves subieron sus listas de verificación de observación de aves; o los jugadores subieron sus fotos. Pero, ¿y si la participación fuera automática y no requiriera ninguna habilidad específica o tiempo para enviarla? Esta es la promesa ofrecida por "detección participativa" o "detección centrada en las personas". Por ejemplo, la Patrulla Pothole, un proyecto de científicos del MIT, montó acelerómetros equipados con GPS dentro de siete taxis en el área de Boston (Eriksson et al. 2008) . Debido a que conducir sobre un bache deja una señal de acelerómetro distinta, estos dispositivos, cuando se colocan dentro de los taxis en movimiento, pueden crear mapas de baches de Boston. Por supuesto, los taxis no toman muestras al azar de las carreteras, pero, si hay suficientes taxis, puede haber suficiente cobertura para proporcionar información sobre grandes porciones de la ciudad. Un segundo beneficio de los sistemas pasivos que dependen de la tecnología es que eliminan la destreza del proceso de contribución de datos: aunque se requiere habilidad para contribuir a eBird (porque se necesita poder identificar de manera confiable a las especies de aves), no se requieren habilidades especiales para contribuir a la Patrulla de baches.
En el futuro, sospecho que muchos proyectos de recopilación de datos distribuidos comenzarán a hacer uso de las capacidades de los teléfonos móviles que ya son transportadas por miles de millones de personas en todo el mundo. Estos teléfonos ya tienen una gran cantidad de sensores importantes para la medición, como micrófonos, cámaras, dispositivos GPS y relojes. Además, admiten aplicaciones de terceros que les permiten a los investigadores cierto control sobre los protocolos de recopilación de datos subyacentes. Finalmente, tienen conectividad a Internet, lo que les permite descargar los datos que recopilan. Existen numerosos desafíos técnicos, que van desde sensores inexactos a una duración limitada de la batería, pero estos problemas probablemente disminuirán con el tiempo a medida que se desarrolle la tecnología. Los problemas relacionados con la privacidad y la ética, por otro lado, podrían ser más complicados; Volveré a cuestiones éticas cuando ofrezco consejos sobre el diseño de su propia colaboración masiva.
En proyectos de recopilación de datos distribuidos, los voluntarios aportan datos sobre el mundo. Este enfoque ya se ha utilizado con éxito, y es probable que los usos futuros tengan que ver con los problemas de muestreo y calidad de los datos. Afortunadamente, proyectos existentes como PhotoCity y Pothole Patrol sugieren soluciones a estos problemas. A medida que más proyectos aprovechan la tecnología que permite la participación descalificada y pasiva, los proyectos de recopilación de datos distribuidos deberían aumentar drásticamente su escala, permitiendo a los investigadores recopilar datos que simplemente estaban fuera de los límites en el pasado.