ビッグデータシステムでの動作は自然ではありません。それはシステムの技術的目標によって推進されます。
多くのビッグデータソースは、データが記録されていることを認識していないため非反応的ですが(2.3.3項)、研究者はこれらのオンラインシステムの動作を「自然発生」と考えるべきではありません。広告のクリックやコンテンツの投稿などの特定の動作を誘発するように高度に設計されています。システム設計者の目標がデータにパターンを導入する方法をアルゴリズム交絡 ( algorithmic confounding )といいます 。アルゴリズムの混乱は、社会科学者にとっては比較的知られていませんが、注意深いデータ科学者の間では大きな懸念事項です。そして、デジタルトレースの他の問題のいくつかとは異なり、アルゴリズム混乱はほとんど目に見えません。
アルゴリズムの混乱の比較的単純な例は、Facebook上で、Johan Uganderら(2011)によって発見されたように、約20人の友人を持つ異常に多数のユーザーがいるという事実です。 Facebookがどのように動作しているかを全く理解せずにこのデータを分析している科学者は、疑わしいことに、何らかの魔法のソーシャルナンバーがどのようにあるかについての多くのストーリーを生成する可能性がある幸いにも、Ugander氏とその同僚たちは、データを生成したプロセスを十分に理解していて、Facebookでは20人の友人に達するまで、Facebookでの接続が少ない人たちにもっと友だちを奨励することを知っていました。 Uganderとその同僚はこの論文でこれを言っていませんが、このポリシーは新しいユーザーがより活発になるようにFacebookによって作成されたものと思われます。しかし、この方針の存在を知らずに、データから間違った結論を引き出すのは簡単です。言い換えれば、約20人の友人を持つ驚くほど多くの人が、人間の行動に関するよりも、Facebookについてより多くを語っています。
この前の例では、アルゴリズムの混乱は慎重な研究者がそれ以上のことを発見して調査するかもしれない奇妙な結果をもたらしました。しかし、オンラインシステムの設計者が社会理論を認識してから、これらの理論を自分たちのシステムの作業に焼くときに発生するアルゴリズム混乱のトリッキーなバージョンがあります。社会科学者は、この演奏性を「理論がその理論に沿ったものにするような方法で世界を変えるとき」と呼んでいます。実行的アルゴリズム混同の場合、データの混乱した性質を検出することは非常に困難である。
能動性によって作り出されるパターンの一例は、オンラインソーシャルネットワークにおける推移性である。 1970年代と1980年代の研究者は、あなたがアリスとボブの両方とも友人であれば、アリスとボブは、無作為に選ばれた2人の人よりお互いの友人になる可能性が高いことを繰り返し見つけました。この非常に同じパターンがFacebook上のソーシャルグラフで見つかった(Ugander et al. 2011) 。したがって、Facebook上の友情のパターンは、少なくとも推移性に関して、オフラインの友情のパターンを複製すると結論づけるかもしれない。しかし、Facebookソーシャルグラフの推移の大きさは、部分的にはアルゴリズム的混乱によって引き起こされます。つまり、Facebookのデータ科学者は、推移性に関する経験的および理論的な研究を知り、それをFacebookの仕組みに焼き付けました。 Facebookには新しい友人を示唆する "People You May Know"機能があり、Facebookがあなたに推薦する人を決定する1つの方法は推移性です。つまり、Facebookは、あなたが友人の友達と友人になることを示唆する可能性が高くなります。したがって、この機能はFacebookソーシャルグラフの推移性を高める効果があります。言い換えれば、推移理論は、世界を理論の予測と(Zignani et al. 2014; Healy 2015) 。したがって、大きなデータソースが社会理論の予測を再現するように見える場合、理論自体がシステムの仕組みに焼き付けられていないことを確認する必要があります。
大規模なデータソースを自然環境下で観察するよりも、カジノ内の人々を観察することがより効果的です。カジノは、特定の行動を誘発するように設計された高度に設計された環境であり、研究者はカジノの行動が人間の行動に自由なウィンドウを提供することを決して期待しません。もちろん、カジノの人々を勉強することで人間の行動について何かを学ぶことができますが、カジノでデータが作成されているという事実を無視すると、悪い結論が出る可能性があります。
残念なことに、アルゴリズムの混乱を扱うことは、オンラインシステムの多くの機能が独自のものであり、文書化されておらず、常に変化しているため、特に困難です。たとえば、この章の後半で説明するように、Google Flu Trend(2.4.2節)の段階的な内訳については、アルゴリズムの混乱が考えられますが、Googleの検索アルゴリズムの内部動作独自のアルゴリズム交絡の動的性質は、システムドリフトの一形態である。アルゴリズム混同とは、単一のデジタルシステムから来る人間の行動に関するいかなるクレームについても、どれほど大きくても慎重でなければならないことを意味します。