O desvio populacional, o desvio de uso e o desvio do sistema dificultam o uso de fontes de dados grandes para estudar as tendências de longo prazo.
Uma das grandes vantagens de muitas fontes de big data é que elas coletam dados ao longo do tempo. Os cientistas sociais chamam esse tipo de dados longitudinais de dados excedentes. E, naturalmente, os dados longitudinais são muito importantes para o estudo da mudança. Para medir a mudança de forma confiável, no entanto, o próprio sistema de medição deve ser estável. Nas palavras do sociólogo Otis Dudley Duncan, “se você quiser medir a mudança, não mude a medida” (Fischer 2011) .
Infelizmente, muitos sistemas de big data - especialmente os sistemas de negócios - estão mudando o tempo todo, um processo que chamarei de derivação . Em particular, esses sistemas mudam de três maneiras principais: desvio da população (mudança em quem os está usando), desvio comportamental (mudança na forma como as pessoas os estão usando) e desvio do sistema (mudança no próprio sistema). As três fontes de desvio significam que qualquer padrão em uma grande fonte de dados pode ser causado por uma mudança importante no mundo, ou pode ser causado por alguma forma de desvio.
A primeira fonte de deriva - o deslocamento da população - é causada por mudanças em quem está usando o sistema, e essas mudanças podem acontecer em escalas de tempo curtas e longas. Por exemplo, durante a eleição presidencial dos EUA em 2012, a proporção de tweets sobre política que foram escritos por mulheres flutuou dia a dia (Diaz et al. 2016) . Assim, o que pode parecer uma mudança no humor do Twitter pode, na verdade, ser apenas uma mudança em quem está falando a qualquer momento. Além dessas flutuações de curto prazo, também há uma tendência de longo prazo de certos grupos demográficos adotarem e abandonarem o Twitter.
Além das mudanças em quem está usando um sistema, também há mudanças em como o sistema é usado, o que chamo de desvio comportamental. Por exemplo, durante os protestos de 2013 do Occupy Gezi na Turquia, os manifestantes mudaram o uso de hashtags à medida que o protesto evoluía. Veja como Zeynep Tufekci (2014) descreveu o desvio comportamental, que ela conseguiu detectar porque estava observando o comportamento no Twitter e pessoalmente:
“O que aconteceu foi que, assim que o protesto se tornou a história dominante, um grande número de pessoas ... parou de usar as hashtags, exceto para chamar a atenção para um novo fenômeno ... Enquanto os protestos continuavam, e até se intensificavam, as hashtags acabaram. Entrevistas revelaram duas razões para isso. Primeiro, uma vez que todos conheciam o tópico, a hashtag era ao mesmo tempo supérflua e um desperdício na plataforma do Twitter, limitada por caracteres. Segundo, as hashtags eram vistas apenas como úteis para atrair a atenção para um tópico em particular, não para falar sobre isso ”.
Assim, os pesquisadores que estudavam os protestos através da análise tweets com hashtags relacionadas com o protesto teria um sentido distorcido do que estava acontecendo por causa deste desvio comportamental. Por exemplo, eles podem acreditar que a discussão do protesto diminuiu muito antes do que realmente diminuiu.
O terceiro tipo de desvio é o desvio do sistema. Nesse caso, não são as pessoas que estão mudando ou o comportamento delas mudando, mas o próprio sistema está mudando. Por exemplo, com o tempo, o Facebook aumentou o limite de duração das atualizações de status. Assim, qualquer estudo longitudinal de atualizações de status será vulnerável a artefatos causados por essa mudança. O desvio do sistema está intimamente relacionado a um problema chamado confusão algorítmica, que abordarei na seção 2.3.8.
Para concluir, muitas fontes de big data estão à deriva devido a mudanças em quem as está usando, em como estão sendo usadas e em como os sistemas funcionam. Essas fontes de mudança são, às vezes, questões de pesquisa interessantes, mas essas mudanças complicam a capacidade de fontes de big data de rastrear mudanças de longo prazo ao longo do tempo.