Dwa źródła braku reprezentatywności różne populacje oraz różne wzory użytkowe.
Wielkie dane wydają się być systematycznie stronniczy na dwa główne sposoby. Nie musi to powodować problem dla wszelkiego rodzaju analizy, ale dla niektórych może to być analiza krytyczna luka.
Pierwszym źródłem błędu systematycznego jest to, że ludzie zazwyczaj nie są uchwycone kompletny wszechświat wszystkich ludzi lub losową próbkę z każdej konkretnej populacji. Na przykład Amerykanie na Twitterze nie są losowa próbka Amerykanów (Hargittai 2015) . Drugim źródłem błędu systematycznego jest to, że wiele dużych systemów przechwytywania danych działań, a niektórzy ludzie przyczyniają wiele więcej działań niż inni. Na przykład, niektórzy ludzie na Twitterze przyczynić setki razy więcej wpisów niż inne. Dlatego wydarzenia na konkretnej platformie może być coraz większym stopniu odzwierciedleniem pewnych podgrupach niż samej platformie.
Zwykle naukowcy chcą wiedzieć dużo o danych, które mają. Jednak, ze względu na zakaz Reprezentatywny charakter dużych danych, pomocne jest także odwrócić swoje myślenie. Należy również wiedzieć dużo o danych, które nie mają. Jest to szczególnie ważne, gdy dane, które nie mają są systematycznie różnią się od danych, które masz. Na przykład, jeśli masz wpisy z telefonu komórkowego w firmie krajach rozwijających się, warto pomyśleć nie tylko o ludziach w swoim zbiorze, ale także o ludziach, którzy mogą być zbyt słaba do własnego telefonu komórkowego. Ponadto, w rozdziale 3, dowiemy się o tym, jak waga może umożliwić naukowcom podejmować lepsze szacunki na podstawie danych niereprezentatywnych.