Deux sources de non-représentativité sont différentes populations et différents modèles d'utilisation.
Big données ont tendance à être biaisées systématiquement de deux manières principales. Cela ne doit pas causer un problème pour tous les types d'analyse, mais pour une analyse, il peut être une faille critique.
Une première source de biais systématique est que les personnes capturées sont généralement ni un univers complet de toutes les personnes ou un échantillon aléatoire à partir d'une population spécifique. Par exemple, les Américains sur Twitter ne sont pas un échantillon aléatoire des Américains (Hargittai 2015) . Une deuxième source de biais systématique est que de nombreux grands systèmes de données capturent les actions, et certaines personnes contribuent beaucoup plus d'actions que d'autres. Par exemple, certaines personnes sur Twitter contribuent des centaines de fois plus de tweets que d'autres. Par conséquent, les événements sur une plate-forme spécifique peuvent être de plus en plus fortement réfléchissante de certains sous-groupes que la plate-forme elle-même.
Normalement , les chercheurs veulent savoir beaucoup sur les données dont ils disposent. Mais, étant donné la nature non représentative des grandes données, il est utile de retourner aussi votre pensée. Vous devez également savoir beaucoup sur les données que vous n'avez pas. Cela est particulièrement vrai lorsque les données que vous n'avez pas sont systématiquement différents à partir des données que vous avez. Par exemple, si vous avez les dossiers d'appel d'une société de téléphonie mobile dans un pays en développement, vous devez penser non seulement sur les personnes dans votre ensemble de données, mais aussi sur les personnes qui pourraient être trop pauvres pour posséder un téléphone mobile. En outre, au chapitre 3, nous allons apprendre sur la façon dont la pondération peut permettre aux chercheurs de faire de meilleures estimations à partir des données non représentatives.