인구 표류, 사용량 편차 및 시스템 표류는 장기 추세를 연구하기 위해 큰 데이터 소스를 사용하는 것을 어렵게 만듭니다.
많은 대형 데이터 소스의 장점 중 하나는 시간이 지남에 따라 데이터를 수집한다는 것입니다. 사회 과학자들은 이러한 종류의 초과 근무 시간 데이터를 종단 데이터 라고 부릅니다. 그리고 당연히 종단 데이터는 변화를 연구하는 데 매우 중요합니다. 그러나 측정을 안정적으로 측정하려면 측정 시스템 자체가 안정적이어야합니다. 사회 학자 오티스 더들리 던컨 (Otis Dudley Duncan)의 말에 따르면, "변화를 측정하고 싶다면 측정을 바꾸지 마십시오." (Fischer 2011) .
불행히도 많은 대형 데이터 시스템, 특히 비즈니스 시스템이 항상 바뀌고 있습니다. 이러한 프로세스는 제가 드리프트 라고 부르는 프로세스입니다. 특히, 이들 시스템은 세 가지 주요 방식으로 변화합니다 : 인구 표류 ( 인구 표출 ), 행동 표류 (사람들의 표출 변화), 시스템 드리프트 (시스템 자체의 변화). 드리프트의 세 가지 소스는 큰 데이터 소스의 패턴이 세계의 중요한 변화로 인해 발생할 수 있거나 어떤 형태의 드리프트로 인해 발생할 수 있음을 의미합니다.
표류 - 인구 표류의 첫 번째 원인은 누가 시스템을 사용하고 있는지에 따라 달라지며, 이러한 변화는 짧고 긴 시간 규모에서 발생할 수 있습니다. 예를 들어, 2012 년 미국 대통령 선거에서 여성들이 쓴 정치에 관한 트윗의 비율은 날마다 변동했습니다 (Diaz et al. 2016) . 따라서 트위터 - 운문의 분위기에 변화가있는 것처럼 보이는 것은 실제로 누가 언제든지 말하고있는 사람의 변화 일 수 있습니다. 이러한 단기 변동 이외에 트위터를 채택하고 버리는 특정 인구 통계 그룹의 장기 추세도있었습니다.
누가 시스템을 사용하고 있는지에 대한 변경 외에도, 시스템이 사용되는 방식에 변화가 있으며,이를 행동 표류라고 부릅니다. 예를 들어, 터키에서 점거당한 Occupy Gezi 항의 시위대는 시위가 진화함에 따라 해시 태그 사용을 변경했습니다. Zeynep Tufekci (2014) 가 트위터와 개인의 행동을 관찰했기 때문에 그녀가 감지 할 수 있었던 행동 표류를 설명했습니다.
"일어난 일은 시위가 지배적 인 이야기가 되 자마자 수많은 사람들이 새로운 현상에주의를 기울일 때를 제외하고는 해시 태그 사용을 중단했다는 것입니다. 시위가 계속되고 심화 되더라도 해시 태그는 사라졌습니다. 인터뷰에서 이것에 대한 두 가지 이유가 밝혀졌습니다. 먼저, 모든 사람들이 주제를 알게되면 해시 태그는 문자 제한 트위터 플랫폼에서 불필요하고 낭비 적이되었습니다. 둘째, 해시 태그는 특정 주제에 대한 관심을 끌기위한 목적으로 만 유용하게 사용되었습니다.
따라서, 시위 관련 해시 태그와 함께 트윗을 분석하여 시위를 연구 한 연구자들은이 때문에 행동 드리프트의 무슨 일이 벌어지고 있는지의 왜곡 된 감각을 가지고있다. 예를 들어, 그들은 실제로 감소하기 전에 항의의 논의는 긴 감소 믿고 있습니다.
세 번째 종류의 드리프트는 시스템 드리프트입니다. 이 경우 사람들이 변화하거나 행동이 변화하는 것이 아니라 시스템 자체가 변화합니다. 예를 들어 시간이 지남에 따라 Facebook은 상태 업데이트 기간에 대한 제한을 늘 렸습니다. 따라서 상태 업데이트에 대한 종단 연구는 이러한 변화로 인한 인공물에 취약합니다. 시스템 드리프트는 알고리즘 혼란이라고하는 문제와 밀접한 관련이있다. 2.3.8 절에서 설명하겠다.
결론적으로, 많은 빅 데이터 소스는 누가 그것을 사용하고 있고, 어떻게 사용하고 있으며, 시스템이 작동하는 방식이 바뀌기 때문에 표류하고 있습니다. 이러한 변화의 원천은 때로는 흥미로운 연구 질문이지만 이러한 변화는 시간이 지남에 따라 장기간의 변화를 추적하는 큰 데이터 소스의 기능을 복잡하게합니다.