2.3 Společným rysem zpracování velkých objemů dat

Velké datové zdroje mívají deset vlastnosti; některé z nich jsou vhodné pro sociální výzkum a některé jsou špatné.

Pokud se výzkumníci se budete učit od velkých údaje, které nevytvořila ani sbírat, pak musí pochopit své obecné charakteristiky. Spíše než brát platformu přístupem platformě (např, tady je to, co potřebujete vědět o Twitter, tady je to, co potřebujete vědět o datech vyhledávání Google, atd), budu popisovat deset obecnou charakteristiku zpracování velkých objemů dat, rysy, které vznikají protože data nebyla vytvořena za účelem sociálního výzkumu. Tím, ustoupil od podrobnosti o každém jednotlivém systému a při pohledu na těchto obecných vlastností, výzkumníci mohou rychle dozvědět více o existujících datových zdrojů a mít pevný soubor myšlenek aplikovat na budoucí datových zdrojů.

Připadá mi to užitečné seskupit charakteristiky do dvou kategorií:

obecně dobré pro výzkum: velký, vždy k dispozici, non-reaktivní
obecně špatné pro výzkum: neúplné, nepřístupné, nereprezentativní, driftování, algoritmicky zahanben, nepřístupné, špinavý, a citlivý

Obecně řečeno, vládní administrativní záznamy jsou méně nereprezentativní, méně algoritmicky zahanben a méně driftování. Na druhé straně, obchodní administrativní záznamy mají tendenci být větší a vždy k dispozici.