2.3.2.3 Icke-representant

Två källor till icke-representativa olika populationer och olika användningsmönster.

Stora uppgifter tenderar att vara partisk systematiskt på två sätt. Detta behöver inte utgöra något problem för alla typer av analys, men för en analys kan det vara en avgörande brist.

En första källa för systematisk bias är att de människor som fångas typiskt varken en fullständig universum av alla människor eller ett slumpmässigt urval från någon specifik population. Till exempel amerikaner på Twitter är inte ett slumpmässigt urval av amerikanerna (Hargittai 2015) . En andra källa för systematisk bias är att många stora datasystem fånga åtgärder, och en del människor bidrar många fler åtgärder än andra. Till exempel, en del människor på Twitter bidra hundratals gånger fler tweets än andra. Därför kan de händelser en viss plattform bli allt hårdare reflekterande av vissa undergrupper än själva plattformen.

Normalt forskare vill veta en hel del om de uppgifter som de har. Men med tanke på den icke-representativa karaktär big data, är det bra att också vända ditt tänkande. Du måste också veta en hel del om de data som du inte har. Detta är särskilt sant när de data som du inte har systematiskt skiljer sig från de data som du har. Till exempel, om du har samtalslistor från ett mobiltelefonföretag i en utvecklingsländer, bör du tänka inte bara om människorna i datamängden, men också om de människor som kan vara alltför dålig för att äga en mobiltelefon. Vidare, i kapitel 3, får vi reda på hur viktningen kan ge forskarna möjlighet att göra en bättre bedömning av icke-representativa uppgifter.