人口のドリフト、使用量のドリフト、およびシステムのドリフトは、大きなデータソースを使用して長期的傾向を調査することを困難にします。
多くの大きなデータソースの大きな利点の1つは、時間の経過とともにデータを収集することです。社会科学者は、この種の時間外データの縦方向のデータを呼びます 。そして、当然ながら、縦断的なデータは変化を研究するために非常に重要です。しかし、変化を確実に測定するためには、測定システム自体が安定していなければなりません。社会学者のオーティス・ダドリー・ダンカン(Otis Dudley Duncan)の言葉によれば、「変化を測定したい場合は、測定値を変更しないでください」 (Fischer 2011) 。
残念ながら、多くのビッグデータシステム、特にビジネスシステムは常に変化しています。これは私がドリフトと呼ぶプロセスです。特に、これらのシステムは、 人口ドリフト (人を使っている人の変化)、 行動のドリフト (人が人間をどのように使用しているかの変化)、 システムドリフト (システム自体の変化)の3つの主な方法で変化します。ドリフトの3つの原因は、大きなデータソース内のパターンが、世界の重要な変化によって引き起こされる可能性があること、または何らかの形のドリフトによって引き起こされる可能性があることを意味します。
ドリフトと人口のドリフトの第一の原因は、システムを使用している人の変化によるものであり、これらの変更は短期間と長期間の両方で発生する可能性があります。例えば、2012年の米国大統領選挙では、女性によって書かれた政治に関するつぶやきの割合が日々変動していた(Diaz et al. 2016) 。したがって、Twitter-verseの気分の変化と思われるものは、実際にはいつ誰が話しているかの変化に過ぎないかもしれません。これらの短期的な変動に加えて、Twitterを採用し放棄している特定の人口統計グループの長期的な傾向もあります。
誰がシステムを使用しているかの変更に加えて、システムがどのように使用されているかにも変化があります。これを行動上のドリフトと呼びます。例えば、トルコの2013占領占領中、抗議者は抗議が進展するにつれてハッシュタグの使用を変更した。 Zeynep Tufekci (2014)が行動のドリフトをどのように記述したのかを以下に示します。彼女はTwitterや人で行動を観察していたので検出できました:
"何が起こったのは、抗議が支配的な話になるとすぐに、多数の人々が新しい現象に注意を喚起する以外はハッシュタグの使用を中止した...抗議が継続し、さらに強化されている間、ハッシュタグは枯渇した。インタビューでこれには2つの理由が明らかになりました。まず、誰もが話題を知った後、ハッシュタグは文字限定のTwitterプラットフォーム上では一度に余計で無駄でした。第二に、ハッシュタグは、特定の話題に注目するためだけに有用であり、話題ではないと考えられていました。
このように、抗議関連のハッシュタグ付きツイートを分析することで抗議を研究していた研究者は、このための行動ドリフトの何が起こっているかの歪んだ感覚を持っているでしょう。例えば、彼らは、それが実際に減少する前に抗議の議論が長い減少していることを信じているかもしれません。
ドリフトの第3の種類はシステムドリフトです。この場合、人々の変化や行動の変化ではなく、システム自体の変化です。たとえば、Facebookでは、時間がたつにつれて状況の更新の長さが制限されています。したがって、状況の更新に関する縦断的調査は、この変化によって引き起こされる成果物に対して脆弱になります。システムドリフトはアルゴリズム混同と呼ばれる問題と密接に関連しています。これについては第2.3.8節で説明します。
結論として、多くの大きなデータソースは、誰がそれらを使用しているのか、どのように使用されているのか、システムの仕組みによって変化しています。これらの変化の原因は、時に興味深い研究上の質問ですが、これらの変更は大きなデータソースが時間の経過とともに長期的な変化を追跡する能力を複雑にします。