A coleta de dados distribuída é possível e, no futuro, ela provavelmente envolverá tecnologia e participação passiva.
Como o eBird demonstra, a coleta de dados distribuída pode ser usada para pesquisa científica. Além disso, o PhotoCity mostra que os problemas relacionados à amostragem e à qualidade dos dados são potencialmente solucionáveis. Como a coleta distribuída de dados pode funcionar para pesquisa social? Um exemplo vem do trabalho de Susan Watkins e seus colegas no Malawi Journals Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Nesse projeto, 22 moradores locais - chamados de “jornalistas” - mantinham “diários de conversação” que registravam, em detalhes, as conversas que ouviam sobre a AIDS no cotidiano das pessoas comuns (na época em que o projeto começou, cerca de 15% dos adultos no Malawi foram infectados pelo HIV (Bello, Chipeta, and Aberle-Grasse 2006) ). Por causa de seu status de insider, esses jornalistas puderam ouvir conversas que poderiam ter sido inacessíveis a Watkins e seus colaboradores de pesquisa ocidentais (vou discutir a ética disso mais adiante no capítulo quando oferecer conselhos sobre como projetar seu próprio projeto de colaboração em massa) . Os dados do Malawi Journals Project levaram a várias descobertas importantes. Por exemplo, antes do início do projeto, muitos forasteiros acreditavam que havia silêncio sobre a AIDS na África subsaariana, mas os jornais de conversação demonstraram que esse claramente não era o caso: os jornalistas ouviram centenas de discussões sobre o assunto, em locais tão diversos quanto funerais, bares e igrejas. Além disso, a natureza dessas conversas ajudou os pesquisadores a entender melhor parte da resistência ao uso de preservativos; a forma como o uso de preservativo foi enquadrado nas mensagens de saúde pública era inconsistente com a maneira como isso era discutido na vida cotidiana (Tavory and Swidler 2009) .
É claro que, como os dados do eBird, os dados do Malawi Journals Project não são perfeitos, uma questão discutida em detalhe por Watkins e seus colegas. Por exemplo, as conversas gravadas não são uma amostra aleatória de todas as conversas possíveis. Pelo contrário, eles são um recenseamento incompleto de conversas sobre a AIDS. Em termos de qualidade de dados, os pesquisadores acreditavam que seus jornalistas eram repórteres de alta qualidade, conforme evidenciado pela consistência entre periódicos e periódicos. Isto é, porque jornalistas suficientes foram implantados em uma configuração pequena o suficiente e focados em um tópico específico, foi possível usar a redundância para avaliar e garantir a qualidade dos dados. Por exemplo, uma trabalhadora do sexo chamada “Stella” apareceu várias vezes nas revistas de quatro jornalistas diferentes (Watkins and Swidler 2009) . Para aumentar ainda mais sua intuição, a tabela 5.3 mostra outros exemplos de coleta de dados distribuídos para pesquisa social.
Dados coletados | Referência |
---|---|
Discussões sobre o HIV / SIDA no Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Rua, implorando, em, londres | Purdam (2014) |
Eventos de conflito no leste do Congo | Windt and Humphreys (2016) |
Atividade econômica na Nigéria e na Libéria | Blumenstock, Keleher, and Reisinger (2016) |
Vigilância da gripe | Noort et al. (2015) |
Todos os exemplos descritos nesta seção envolveram participação ativa: jornalistas transcreveram conversas que ouviram; os observadores de aves carregaram as suas listas de observação de pássaros; ou os jogadores carregaram as suas fotos. Mas e se a participação fosse automática e não exigisse nenhuma habilidade específica ou tempo para enviar? Esta é a promessa oferecida por “sensoriamento participativo” ou “sensoriamento centralizado nas pessoas”. Por exemplo, o Pothole Patrol, um projeto de cientistas do MIT, montou acelerômetros equipados com GPS dentro de sete táxis na área de Boston (Eriksson et al. 2008) . Como a passagem por um buraco deixa um sinal de acelerômetro distinto, esses dispositivos, quando colocados dentro de táxis em movimento, podem criar mapas de buracos de Boston. É claro, os táxis não amostram estradas aleatoriamente, mas, com o número de táxis suficientes, pode haver cobertura suficiente para fornecer informações sobre grandes partes da cidade. Um segundo benefício dos sistemas passivos que dependem da tecnologia é que eles desqualificam o processo de contribuição de dados: embora seja necessária habilidade para contribuir com o eBird (porque você precisa ser capaz de identificar com segurança espécies de aves), não requer habilidades especiais para contribuir para a Patrulha do Buraco.
No futuro, suspeito que muitos projetos distribuídos de coleta de dados começarão a usar os recursos dos telefones celulares que já são transportados por bilhões de pessoas em todo o mundo. Esses telefones já possuem um grande número de sensores importantes para a medição, como microfones, câmeras, dispositivos de GPS e relógios. Além disso, eles suportam aplicativos de terceiros, permitindo aos pesquisadores algum controle sobre os protocolos de coleta de dados subjacentes. Finalmente, eles têm conectividade com a Internet, permitindo que eles descarreguem os dados coletados. Existem inúmeros desafios técnicos, que vão desde sensores imprecisos até a duração limitada da bateria, mas esses problemas provavelmente diminuirão com o tempo à medida que a tecnologia se desenvolver. Questões relacionadas à privacidade e ética, por outro lado, podem se tornar mais complicadas; Voltarei às questões de ética quando oferecer conselhos sobre como projetar sua própria colaboração em massa.
Em projetos distribuídos de coleta de dados, os voluntários contribuem com dados sobre o mundo. Essa abordagem já foi usada com sucesso e os usos futuros provavelmente terão que lidar com questões de amostragem e qualidade de dados. Felizmente, projetos existentes como o PhotoCity e o Pothole Patrol sugerem soluções para esses problemas. À medida que mais projetos aproveitam a tecnologia que possibilita a participação capacitada e passiva, os projetos distribuídos de coleta de dados devem aumentar drasticamente em escala, permitindo que os pesquisadores coletem dados que estavam simplesmente fora dos limites no passado.