큰 데이터 시스템에서의 행동은 자연스럽지 않습니다. 그것은 시스템의 엔지니어링 목표에 의해 주도됩니다.
사람들이 자신의 데이터가 기록되고 있다는 것을 알지 못하기 때문에 많은 빅 데이터 소스가 반응하지 않지만 (2.3.3 절) 연구원은 이러한 온라인 시스템의 동작을 "자연적으로 발생하는"것으로 간주해서는 안됩니다. 실제로 동작을 기록하는 디지털 시스템은 광고를 클릭하거나 콘텐츠를 게시하는 것과 같은 특정 동작을 유발하도록 고도로 설계되었습니다. 시스템 설계자가 데이터에 패턴을 도입 할 수있는 방법을 알고리즘 혼란 이라고 합니다 . 알고리즘 혼란은 사회 과학자들에게는 상대적으로 알려지지 않았지만 신중한 데이터 과학자들 사이에서는 주요 관심사입니다. 그리고 디지털 트레이스의 다른 문제 들과는 달리 알고리즘 혼란은 거의 보이지 않습니다.
페이스 북에서 요한 우간 더 (2011) Johan Ugander)와 동료 (2011) 가 발견 한 것처럼 약 20 명의 친구를 가진 비정상적으로 많은 수의 사용자가 있다는 사실이 알고리즘 혼동의 비교적 간단한 예입니다. Facebook이 어떻게 작동하는지에 대한 이해없이이 데이터를 분석 한 과학자들은 어쩌면 어떤 종류의 마법의 사회적 숫자인지에 대한 많은 이야기를 생성 할 수 있습니다. 다행스럽게도 Ugander와 그의 동료들은 데이터를 생성하는 프로세스에 대해 상당한 지식을 갖고 있었으며 Facebook은 20 명의 친구를 만날 때까지 더 많은 친구를 사귈 Facebook이 거의없는 사람들을 장려했다는 것을 알고있었습니다. Ugander와 동료들은 자신의 논문에서 이것을 말하지 않지만,이 정책은 새로운 사용자가 더욱 적극적으로 활동할 수 있도록 Facebook에 의해 만들어진 것 같습니다. 그러나이 정책의 존재를 모른 채로 데이터에서 잘못된 결론을 내리는 것은 쉽습니다. 다시 말해서 약 20 명의 친구를 가진 놀랍게도 많은 사람들이 인간 행동에 관한 것보다 페이스 북에 대해 더 많이 말합니다.
이 이전 예에서 알고리즘 혼란은 기묘한 연구자가 더 많이 탐지하고 조사 할 수있는 이상한 결과를 낳았습니다. 그러나 온라인 시스템 설계자가 사회 이론을 인식하고 이러한 이론을 시스템 작업에 적용 할 때 발생하는 알고리즘 혼란의 교묘 한 버전이 있습니다. 사회 과학자들은이 수행 능력을 ' 이론'이라고 부릅니다. 이론이 세상을 이론과 일치하도록하는 방식으로 세상을 변화시킬 때. 수행적인 알고리즘 혼란의 경우, 데이터의 혼동 된 특성을 탐지하기가 매우 어렵습니다.
수행 능력에 의해 생성 된 패턴의 한 예는 온라인 소셜 네트워크에서의 과도 성입니다. 1970 년대와 1980 년대 연구원들은 앨리스와 밥 모두와 친구라면 앨리스와 밥이 무작위로 선택된 2 명의 사람들보다 서로 친구가 될 가능성이 높다는 것을 반복적으로 발견했습니다. 페이스 북의 소셜 그래프에서도 이와 동일한 패턴이 발견되었습니다 (Ugander et al. 2011) . 따라서, 페이스 북에서의 우정의 패턴은 적어도 과도기적 측면에서 오프라인 우정의 패턴을 복제한다고 결론 지을 수 있습니다. 그러나 페이스 북의 소셜 그래프에서의 과도 성의 정도는 부분적으로 알고리즘 혼란에 의해 좌우됩니다. 즉, 페이스 북의 데이터 과학자들은 경험적이며 이론적 인 과도성에 대한 연구를 알고 나서 페이스 북의 작동 방식에 구워 냈습니다. Facebook에는 새로운 친구를 제안하는 "People You May Know"기능이 있습니다. Facebook이 당신에게 제안 할 사람을 결정하는 한 가지 방법은 과도 성입니다. 즉, 페이스 북은 당신이 친구의 친구들과 친구가 될 것을 제안 할 가능성이 더 큽니다. 따라서이 기능은 Facebook 소셜 그래프에서 과도 성을 높이는 효과가 있습니다. 바꾸어 말하면, 과도 (Zignani et al. 2014; Healy 2015) 이론은 세계를 이론의 예측과 (Zignani et al. 2014; Healy 2015) . 따라서 거대한 데이터 소스가 사회 이론의 예측을 재현하는 것처럼 보일 때, 우리는 이론 자체가 시스템이 어떻게 작동하는지에 대해 구애되지 않았 음을 확신해야합니다.
자연 환경에서 사람들을 관찰하는 것으로 큰 데이터 소스를 생각하는 것이 아니라, 카지노에서 사람들을 관찰하는 것이 더 적절한 비유입니다. 카지노는 특정 행동을 유도하도록 고안된 고도로 설계된 환경이며 연구원은 카지노의 행동이 인간 행동에 자유로운 창을 제공 할 것으로 기대하지 않습니다. 물론 카지노에서 사람들을 연구하여 인간의 행동에 대해 배울 수는 있지만, 카지노에서 데이터가 생성되었다는 사실을 무시한다면 나쁜 결론을 이끌어 낼 수 있습니다.
불행히도, 알고리즘 혼란을 다루는 것은 온라인 시스템의 많은 기능들이 독점적이고 문서화가 잘되어 있지 않고 끊임없이 변화하기 때문에 특히 어렵습니다. 예를 들어이 장의 뒷부분에서 설명 하듯이 알고리즘 혼란은 Google 독감 트렌드 (2.4.2 절)의 점진적인 분석에 대한 설명 중 하나 였지만 Google 검색 알고리즘의 내부 동작은 소유권. 알고리즘 혼란의 동적 특성은 시스템 드리프트의 한 형태입니다. 알고리즘 혼란은 우리가 아무리 큰 단일 디지털 시스템에서 오는 인간 행동에 관한 어떠한 주장에 대해서도 조심해야한다는 것을 의미합니다.