2.3.2.3 Non-reprezentativní

Dva zdroje non-reprezentativnosti jsou různé populace a různé způsoby používání.

Zpracování velkých objemů dat mají tendenci být systematicky zkreslují ve dvou hlavních směrech. To nemusí představovat problém pro všechny druhy analýzy, ale z nějakého analýzu může být kritická chyba.

První zdrojem systematické zaujatosti je, že lidé jsou typicky chycené ani úplný vesmír ze všech lidí nebo náhodný výběr z jakékoliv specifické populace. Například Američané na Twitteru nejsou náhodný vzorek Američanů (Hargittai 2015) . Druhým zdrojem systematické zkreslení je, že mnoho velkých datových systémů zachycení akce, a někteří lidé přispívají mnohem více akcí než ostatní. Například někteří lidé na Twitteru přispět stovky krát více tweetů než ostatní. Proto události na konkrétní platformě může být stále silně odrážející určitých podskupin než samotné plošiny.

Za normálních okolností výzkumníci chtějí vědět hodně o data, která mají. Ale vzhledem k non-reprezentativní charakter zpracování velkých objemů dat, je užitečné také otočit myšlení. Také je potřeba vědět hodně o data, která nemáte. To platí zejména tehdy, když údaje, které nemají se systematicky liší od údajů, které máte. Například, pokud máte záznamy hovorů z mobilního telefonu společnosti v rozvojových zemích, měli byste uvažovat nejen o lidech ve vašem datovém souboru, ale také o lidech, kteří by mohli být příliš chudá vlastnit mobilní telefon. Dále v kapitole 3, se dozvíme o tom, jak vážení může umožnit výzkumným pracovníkům lépe odhadů od non-reprezentativních údajů.