मोठ्या डेटा स्त्रोतांमध्ये सामान्यत: बर्याच प्रकारची वैशिष्ट्ये असतात; काही साधारणपणे सामाजिक संशोधनासाठी चांगले असतात आणि काही सामान्यतः खराब असतात.
जरी प्रत्येक मोठा डेटा स्रोत वेगळा आहे तरी, लक्षात घेण्यास मदत करणे उपयुक्त आहे की काही विशिष्ट वैशिष्ट्ये पुन्हा व पुन्हा घडतात. म्हणून प्लॅटफॉर्म-बाय-प्लॅटफॉर्म पध्दत घेण्याऐवजी (उदा., ट्विटर बद्दल आपल्याला काय हवे आहे ते येथे आहे, Google शोध डेटाबद्दल आपल्याला काय माहित असणे आवश्यक आहे ते येथे आहे), मी मोठ्या दहा सामान्य वैशिष्ट्यांचे वर्णन करणार आहे डेटा स्त्रोत प्रत्येक विशिष्ट यंत्रणेच्या तपशीलावरून मागे वळून या सर्वसाधारण वैशिष्टयांकडे पहाणे संशोधकांना सध्याच्या डेटा स्त्रोतांबद्दल त्वरेने शिकता येईल आणि भविष्यकाळात तयार होणार्या डेटा स्त्रोतांना लागू करण्यासाठी कल्पनांचा फर्म सेट असेल.
जरी डेटा स्त्रोताची आवड असणारी वैशिष्ट्ये संशोधन लक्ष्यावर अवलंबून असली तरी मला दहा वैशिष्ट्यांचे दोन व्यापक श्रेणींमध्ये बेढबरपणे गटबद्ध करणे उपयुक्त ठरते:
मी या वैशिष्ट्यांचे वर्णन करीत आहे म्हणून आपण हे लक्षात घेता की ते नेहमीच उद्भवतात कारण संशोधनाच्या उद्देशासाठी मोठे डेटा स्रोत तयार केलेले नाहीत.