2.3.2.4 derivação

Despovoamento, a deriva de uso, e deriva sistema de torná-lo difícil de usar fonte de dados grande para estudar as tendências de longo prazo.

Uma das grandes vantagens de várias fontes de dados grandes são que eles recolhem dados ao longo do tempo. os cientistas sociais chamam este tipo de excesso de tempo de dados, dados longitudinais. E, naturalmente, os dados longitudinais são muito importantes para o estudo de alterações. De modo a medir de forma fiável a mudança, no entanto, o próprio sistema de medição tem que ser estável. Nas palavras do sociólogo Otis Dudley Duncan, "se você quiser medir a mudança, não altere a medida" (Fischer 2011) .

Infelizmente, muitos sistemas-especialmente grande de dados do sistema de negócios que criam e capturam traços-são digitais mudando o tempo todo, um processo que eu vou chamar deriva. Em particular, esses sistemas mudam de três maneiras principais: tração população (alteração no que está a usá-los), desvio comportamental (mudança na forma como as pessoas estão usando-os), e deriva do sistema (alteração do próprio sistema). As três fontes de tração significa que qualquer padrão nos dados de rastreio digitais pode ser causado por uma mudança importante no mundo, ou poderia ser causada por algum tipo de drift.

A primeira fonte de deriva populacional deriva-se que está usando o sistema, e isso muda em escalas de longa data e escalas de curta duração. Por exemplo, a partir de 2008 para apresentar a idade média das pessoas em mídias sociais tem aumentado. Em adição a estas tendências de longo prazo, as pessoas que utilizam um sistema em qualquer momento varia. Por exemplo, durante a eleição presidencial dos EUA de 2012, a proporção de tweets sobre política que foram escritos por mulheres oscilou de dia para dia (Diaz et al. 2016) . Assim, o que pode parecer ser uma mudança no humor do Twitter-verse pode realmente ser apenas mudanças no que está falando a qualquer momento.

Além de mudanças no que está usando um sistema, há também mudanças na forma como o sistema é utilizado. Por exemplo, durante o Ocupe protestos Gezi Park em Istambul, Turquia, em 2013, os manifestantes mudaram o uso de hashtags como o protesto evoluiu. Veja como Zeynep Tufekci (2014) descreveu a deriva, que ela foi capaz de detectar porque ela estava observando o comportamento no Twitter e no chão:

"O que aconteceu foi que, logo que o protesto se tornou a história dominante, um grande número de pessoas. . . parou de usar as hashtags, exceto para chamar a atenção para um fenômeno novo. . .. Enquanto os protestos continuaram, e até mesmo se intensificou, as hashtags morreu para baixo. As entrevistas revelaram duas razões para isso. Em primeiro lugar, uma vez que todos sabiam o tema, a hashtag era ao mesmo tempo supérfluo e desperdício na plataforma Twitter limita-caráter. Em segundo lugar, hashtags foram vistos apenas como útil para atrair a atenção para um assunto particular, não para falar sobre isso. "

Assim, os pesquisadores que estudavam os protestos através da análise tweets com hashtags relacionadas com o protesto teria um sentido distorcido do que estava acontecendo por causa deste desvio comportamental. Por exemplo, eles podem acreditar que a discussão do protesto diminuiu muito antes do que realmente diminuiu.

O terceiro tipo de desvio é deriva do sistema. Neste caso, não é as pessoas mudando ou sua mudança de comportamento, mas o próprio sistema mudando. Por exemplo, ao longo do tempo Facebook aumentou o limite do comprimento das alterações de estado. Assim, qualquer estudo longitudinal de atualizações de status ficará vulnerável a artefatos causados ​​por essa mudança. deriva do sistema está intimamente relacionado ao problema chamado de confusão algorítmica para o qual nos voltamos agora.