Duże źródła danych mają zwykle dziesięć cech; niektóre są dobre dla badań społecznych, a niektóre są złe.
Jeśli naukowcy będą uczyć się od dużych danych, że nie tworzy ani nie zbierają, to muszą zrozumieć jego ogólną charakterystykę. Zamiast brać platformę podejściem platformy (np, oto co trzeba wiedzieć o Twitter, oto co trzeba wiedzieć o danych wyszukiwania Google, itp), mam zamiar opisać dziesięć ogólnych cech dużych danych, cechy, które powstają ponieważ dane nie został stworzony do celów badań społecznych. Przez cofając się ze szczegółami każdego konkretnego systemu i patrząc na tych ogólnych właściwości, naukowcy mogą szybko dowiedzieć się więcej o istniejących źródeł danych i mają mocny zestaw pomysłów zastosowanie do przyszłych źródeł danych.
Uważam to za pomocne do grupy charakterystyk na dwie kategorie:
Ogólnie rzecz biorąc, rejestry administracji rządowej są mniej niż przedstawiciel, mniej algorytmicznie przeklęty, a mniej drifting. Z drugiej strony, firm rejestruje administracyjne są zwykle większe i zawsze w.