Fonts de dades grans tendeixen a tenir deu característiques; alguns són bons per a la investigació social i altres són dolents.
Si els investigadors aprendran de grans volums de dades que no creen ni recullen, llavors ells han d'entendre les seves característiques generals. En lloc de prendre una plataforma d'enfocament de plataforma (per exemple, això és el que necessita saber sobre Twitter, això és el que necessita saber sobre les dades de cerca de Google, etc), descriuré deu característiques generals dels grans dades, característiques que sorgeixen perquè les dades no s'ha creat amb el propòsit de la investigació social. Donant un pas enrere dels detalls de cada sistema particular i mirant a aquestes propietats generals, els investigadors poden aprendre ràpidament més sobre les fonts de dades existents i tenir un sòlid conjunt d'idees per aplicar a futures fonts de dades.
Em resulta útil agrupar les característiques en dues categories:
En termes generals, els registres administratius del govern són menys no representativa, menys algorítmicamente confós, i menys a la deriva. D'altra banda, els registres administratius de negocis tendeixen a ser més grans i més sempre activa.