Veliki izvori podataka imaju tendenciju da imaju deset karakteristike; neke su dobre za društvena istraživanja, a neki su loši.
Ako istraživači će učiti iz velike količine podataka da oni ne stvaraju ili prikupljati, onda moraju shvatiti svoje opće karakteristike. Umjesto da uzimanje platformu platforma pristup (npr, evo što trebate znati o Twitteru, evo što trebate znati o Google podataka pretraživanje, itd), ja ću opisati deset opće karakteristike velikih podataka, karakteristike koje se javljaju jer podaci nisu nastao je za potrebe društvenih istraživanja. Gaženjem vratio iz detalje svakog pojedinog sistema i gledajući ove opšte osobine, istraživači mogu brzo naučiti više o postojećih izvora podataka i imaju čvrstu skup ideja da se prijave na buduće izvore podataka.
Mislim da bi bilo korisno da se grupa karakteristikama u dvije kategorije:
Općenito govoreći, vlada administrativnih evidencija su manje ne-predstavnik, manje algoritamski zbunjen, i manje drifting. S druge strane, poslovni administrativnih evidencija imaju tendenciju da budu veći i uvijek na.