Didelės duomenų šaltiniai linkę turėti dešimt charakteristikas; kai yra geras socialinių tyrimų ir kai yra blogai.
Jei mokslininkai ketina mokytis iš didelių duomenų, kad jie nebuvo sukurti arba rinkti, tada jie turi suprasti savo bendrąsias charakteristikas. Užuot atsižvelgiant platformą platformos požiūris (pavyzdžiui, štai ką reikia žinoti apie Twitter, štai ką reikia žinoti apie "Google" paieškos duomenys ir tt), aš ruošiuosi aprašyti dešimt bendrąsias charakteristikas didelių duomenų, charakteristikos, kurios kyla nes duomenys nebuvo sukurtas socialinio tyrimo tikslais. Iki trauktis atgal iš kiekvienos konkrečios sistemos duomenis ir žiūri šiuos bendruosius savybių, mokslininkai gali greitai sužinoti daugiau apie esamų duomenų šaltinių ir turite tvirtą idėjų rinkinį taikyti būsimoms duomenų šaltiniais.
Manau, tai naudinga grupės charakteristikas į dvi kategorijas:
Apskritai kalbant, valdžios administracinių įrašų yra mažiau ne atstovas, mažiau algoritmą nusiminę, mažiau nutolimas. Kita vertus, verslo administravimo įrašų, paprastai būna didesnės ir daugiau visuomet įjungtų.