Dva izvori ne-reprezentativnosti različite populacije i različite obrasce korištenja.
Big podataka imaju tendenciju da se sustavno utjecati na dva glavna načina. To ne mora uzrokovati problem za sve vrste analiza, ali za neke analize može biti kritičan nedostatak.
Prvi izvor sustavne pristranosti je da su ljudi zarobili su obično ni kompletan svemir od svih ljudi ili slučajni uzorak iz bilo koje specifične populacije. Na primjer, Amerikanci na Twitteru nisu slučajni uzorak Amerikanaca (Hargittai 2015) . Drugi izvor sustavne pristranosti je da mnogi veliki sustavi podataka hvatanje akcije, a neki ljudi pridonijeti mnogo više akcije od drugih. Na primjer, neki ljudi na Twitteru doprinose na stotine puta više tweets od drugih. Stoga su događaji na određenu platformu može biti sve jače odražavaju određene podgrupe od samog platformi.
Normalno znanstvenici žele znati mnogo o podacima koje oni imaju. No, s obzirom na ne-reprezentativni priroda velikih podataka, to je korisno i okretanje vašeg razmišljanja. Također je potrebno znati puno o podacima koje nemate. To je osobito istinito kada su podaci koje nemaju sustavno razlikuje od podataka koje imate. Na primjer, ako imate poziv evidencija iz mobilnog telefona društvo u zemljama u razvoju, trebali razmišljati ne samo o ljudima u skupu podataka, nego o ljudima koji bi mogli biti previše siromašni da posjeduje mobilni telefon. Nadalje, u poglavlju 3, mi ćemo naučiti o tome kako ponderiranje može omogućiti istraživačima da bolje procjene od ne-reprezentativnih podataka.