2.3.2.3 Non-predstavnik

Dva izvora ne reprezentativnosti su različite populacije i različite obrasce korištenja.

Big podataka imaju tendenciju da se sistematski pristrasni u dva osnovna načina. To ne mora uzrokovati probleme za sve vrste analiza, ali za neke analize može biti kritičan mana.

Prvi izvor sistematski predrasuda je da su ljudi zarobljeni su obično ni kompletan univerzum svih ljudi ili slučajnom uzorku od bilo koje specifične populacije. Na primjer, Amerikanci na Twitteru nisu slučajni uzorak Amerikanaca (Hargittai 2015) . Drugi izvor sistematskog predrasuda je da su mnogi veliki sistemi podataka snimanje akcije, a neki ljudi doprinijeti mnogo više akcije od drugih. Na primjer, neki ljudi na Twitteru doprinos stotinama puta više tvitova od drugih. Dakle, događaji na određeni platforma može biti sve više teško odražavaju određene podgrupe od same platforme.

Normalno istraživači žele da znaju puno o podacima koje oni imaju. Ali, s obzirom na ne-predstavnik prirode velikih podataka, to je korisno i flip vaše razmišljanje. Takođe treba da znate mnogo o podacima koji nemate. To se posebno odnosi kada se podaci koji nemate su sistematski razlikuju od podataka koji ti imaš. Na primjer, ako imate evidenciju poziva od kompanije mobilnih telefona u zemljama u razvoju, ne treba misliti ne samo o ljudima u vašem skup, ali io ljudima koji bi mogao biti previše siromašni da posjeduje mobilni telefon. Nadalje, u poglavlju 3, mi ćemo naučiti o tome kako prioritet može omogućiti istraživačima da bolje procjene od ne-reprezentativne podatke.