2.3.2.3 Ikke-repræsentant

To kilder til ikke-repræsentativitet er forskellige befolkningsgrupper og forskellige brugsmønstre.

Big data tendens til at være systematisk forudindtaget på to måder. Dette behøver ikke give problemer for alle slags analyser, men for nogle analyser kan det være en kritisk fejl.

En første kilde til systematisk bias er, at folk fanget typisk hverken et komplet univers af alle mennesker eller en tilfældig stikprøve fra nogen specifik population. For eksempel amerikanere på kvidre er ikke en tilfældig stikprøve af amerikanerne (Hargittai 2015) . En anden kilde til systematisk bias er, at mange store datasystemer fange handlinger, og nogle mennesker bidrager mange flere handlinger end andre. For eksempel vil nogle mennesker på Twitter bidrage hundrede gange flere tweets end andre. Derfor kan begivenhederne på en bestemt platform være stadigt mere kraftigt reflekterende af visse undergrupper end selve platformen.

Normalt forskere ønsker at vide en masse om de data, de har. Men på grund af den ikke-repræsentative karakter af store data, er det nyttigt at også vende din tankegang. Du skal også vide en masse om de data, du ikke har. Dette gælder især, når de data, som du ikke har, er systematisk forskellige fra de data, du har. For eksempel, hvis du har de registrerede opkald fra en mobiltelefon selskab i en udviklingslandene, bør du tænke ikke kun om de mennesker i dit datasæt, men også om de mennesker, der kunne være for fattige til at eje en mobiltelefon. Endvidere i kapitel 3, vil vi lære om, hvordan vægtning kan aktivere forskere til at foretage et bedre skøn fra ikke-repræsentative data.