Veliki izvori podataka imaju tendenciju da imaju deset svojstava; neke su dobre za društvena istraživanja, a neki su loši.
Ako su znanstvenici će naučiti od velikih podataka koji nisu stvorili ili prikupljati, onda oni moraju shvatiti njegove opće karakteristike. Umjesto da se bavi platformu platforma pristup (npr, evo što trebate znati o Twitter, evo što trebate znati o podacima Google pretraživanja, itd), ja ću opisati deset opće karakteristike velikih podataka, karakteristike koje se javljaju jer podaci nisu stvorena u svrhu društvenih istraživanja. Po povlačenju sa detaljima o svakom pojedinom sustavu i gledajući ovih općih svojstava, istraživači mogu brzo naučiti više o postojećim izvorima podataka i imati čvrstu skup ideja da se odnosi na buduće izvora podataka.
Mislim da je korisno skupini karakteristikama u dvije kategorije:
Općenito govoreći, državne upravne zapisi su manje nisu reprezentativni, manje algoritamski postidiš i manje pomicati. S druge strane, poslovni administrativni registri imaju tendenciju da se veći i uvijek-na.