2.3 Spoločným rysom spracovanie veľkých objemov dát

Veľké dátové zdroje mávajú desať vlastnosti; niektoré z nich sú vhodné pre sociálny výskum a niektoré sú zlé.

Ak sa výskumníci sa budete učiť od veľkých údaje, ktoré nevytvorila ani zbierať, potom musí pochopiť svoje všeobecné charakteristiky. Skôr než brať platformu prístupom platforme (napr, tu je to, čo potrebujete vedieť o Twitter, tu je to, čo potrebujete vedieť o dátach vyhľadávania Google, atď), budem popisovať desať všeobecnú charakteristiku spracovanie veľkých objemov dát, rysy, ktoré vznikajú pretože dáta nebola vytvorená za účelom sociálneho výskumu. Tým, ustúpil od podrobnosti o každom jednotlivom systéme a pri pohľade na týchto všeobecných vlastností, výskumníci môžu rýchlo dozvedieť viac o existujúcich dátových zdrojov a mať pevný súbor myšlienok aplikovať na budúce dátových zdrojov.

Pripadá mi to užitočné zoskupiť charakteristiky do dvoch kategórií:

všeobecne dobré pre výskum: veľký, vždy k dispozícii, non-reaktívny
všeobecne zlé pre výskum: neúplné, neprístupné, nereprezentatívne, driftovanie, algoritmickým zahanbený, neprístupné, špinavý, a citlivý

Všeobecne povedané, vládne administratívne záznamy sú menej nereprezentatívne, menej algoritmickým zahanbený a menej driftovanie. Na druhej strane, obchodné administratívne záznamy majú tendenciu byť väčšie a vždy k dispozícii.