非代表の二つのソースは、異なる集団と異なる使用パターンです。
ビッグデータは、2つの主要な方法で体系的にバイアスされる傾向があります。これは、分析のすべての種類の問題を引き起こす必要はないが、いくつかの分析のために、それは重要な欠陥であることができます。
体系的なバイアスの最初のソースは、キャプチャされ、人々は通常、すべての人々の完全な宇宙や特定の集団から無作為標本でもないということです。たとえば、Twitterのアメリカ人はアメリカ人のランダムサンプルではない(Hargittai 2015)体系的なバイアスの第二の源は、多くのビッグデータシステムはアクションを取り込むことである、と一部の人々は他のものよりも多くのアクションを寄付します。例えば、Twitterで何人かの人々は他よりも倍以上のつぶやき数百貢献します。したがって、特定のプラットフォーム上のイベントは、プラットフォーム自体よりも、特定のサブグループのこれまで以上に重く反射することができます。
通常、研究者は、彼らが持っているデータについて多くのことを知りたいです。しかし、ビッグデータの非代表的性質を考えると、また、あなたの思考を反転すると便利です。また、あなたが持っていないデータについて多くのことを知っておく必要があります。あなたが持っていないデータはあなたが持っているデータから体系的に異なる場合、これは特にそうです。あなたは発展途上国での携帯電話会社から通話記録を持っている場合たとえば、あなたはあなたのデータセット内の人についてだけでなく、携帯電話を所有するにはあまりにも貧弱であるかもしれない人々についてだけではなく、考えなければなりません。さらに、第3章では、我々は重みが非代表的なデータからより良い見積りを行うために、研究者を有効にする方法について学びます。