2.3.2.4 derivación

Despoboamento, a deriva de uso, e deriva sistema de facelo difícil de usar fonte de datos grande para estudar as tendencias a longo prazo.

Unha das grandes vantaxes de varias fontes de datos grandes son que recollen datos ao longo do tempo. os científicos sociais chaman este tipo de exceso de tempo de datos, datos lonxitudinais. E, por suposto, os datos lonxitudinais son moi importantes para o estudo de alteracións. De xeito medir de forma fiable o cambio, con todo, o propio sistema de medida ten que ser estable. En palabras do sociólogo Otis Dudley Duncan, "se quere medir o cambio, non cambie a medida" (Fischer 2011) .

Por desgraza, moitos sistemas-especialmente grande de datos do sistema de negocio que crean e capturan trazos-son dixitais cambiando todo o tempo, un proceso que eu vou chamar deriva. En particular, estes sistemas cambian de tres formas principais: tracción poboación (alteración no que está a usalos), desvío comportamental (cambio na forma como a xente está a usar os), e deriva do sistema (alteración do propio sistema). As tres fontes de tracción significa que calquera defecto nos datos de seguimento dixital pode ser causado por un cambio importante no mundo, ou podería ser causado por algún tipo de drift.

A primeira fonte de deriva poboacional derívase que está a usar o sistema, e iso cambia en escalas de longa data e escalas de curta duración. Por exemplo, a partir de 2008 para presentar a idade media das persoas en medios sociais aumentou. En adición a estas tendencias a longo prazo, as persoas que utilizan un sistema en calquera momento varía. Por exemplo, durante a elección presidencial de Estados Unidos de 2012, a proporción de tweets sobre política que foron escritos por mulleres oscilou día a día (Diaz et al. 2016) . Así, o que pode parecer ser un cambio no humor de Twitter-verse realmente pode ser só cambios no que está falando en calquera momento.

Ademais de cambios no que está a usar un sistema, hai tamén cambios na forma na que o sistema é utilizado. Por exemplo, durante o ocupe protestas Gezi Park en Estambul, Turquía, en 2013, os manifestantes cambiaron o uso hashtags como a protesta evolucionou. Vexa como Zeynep Tufekci (2014) describiu a deriva, que foi capaz de detectar porque estaba observando o comportamento en Twitter e no chan:

"O que pasou foi que, logo que a protesta se fixo a historia dominante, un gran número de persoas. . . deixou de usar as hashtags, excepto para chamar a atención sobre un fenómeno novo. . .. Mentres as protestas continuaron, e mesmo se intensificou, as hashtags morreu abaixo. As entrevistas revelaron dúas razóns para iso. En primeiro lugar, xa que todos sabían o tema, a hashtag era á vez superfluo e pérdida na plataforma Twitter limítase carácter. En segundo lugar, hashtags foron vistos só como útil para atraer a atención sobre un tema concreto, non para falar sobre iso. "

Así, os investigadores que estudaban as protestas a través da análise tweets con hashtags relacionados coa protesta tería un sentido distorsionada do que estaba a suceder por mor deste desvío comportamental. Por exemplo, poden crer que a discusión da protesta diminuíu moito antes do que realmente diminuíu.

O terceiro tipo de desviación é deriva do sistema. Neste caso, non é a xente cambiando ou a súa mudanza de comportamento, pero o propio sistema cambiando. Por exemplo, ao longo do tempo Facebook aumentou o límite da lonxitude do cambio de estado. Así, calquera estudo lonxitudinal de actualizacións de estado estará vulnerable a artefactos causados ​​por este cambio. deriva do sistema está intimamente relacionado ao problema chamado confusión algorítmica para o cal nos volvemos agora.