મોટા ડેટાસેટ્સ અંત એક સાધન છે; તેઓ પોતાની જાતને એક અંત નથી.
મોટા ડેટા ત્રણ સારી લાક્ષણિકતાઓ પ્રથમ સૌથી વધુ ચર્ચા છે: આ મોટા માહિતી છે. ઘણા લોકો, વ્યક્તિ દીઠ માહિતી ઘણાં બધાં છે, અથવા સમય જતાં અનેક અવલોકનો: આ માહિતી સ્ત્રોત ત્રણ અલગ અલગ રીતે મોટી હોઈ શકે છે. એક મોટી dataset રાખવાથી, દુર્લભ ઘટનાઓ અભ્યાસ નાના તફાવતો શોધવા, અને નિરીક્ષણ માહિતી થી સાધક અંદાજો, સંશોધન માપક વૈવિધ્યનો કેટલાક ચોક્કસ પ્રકારના સક્રિય કરે છે. તે પણ sloppiness એક ચોક્કસ પ્રકાર તરફ દોરી લાગે છે.
પ્રથમ વસ્તુ કે જેના માટે કદ ખાસ કરીને ઉપયોગી છે ચોક્કસ પેટાજૂથો માટે અંદાજ બનાવવા માટે સરેરાશ બહાર ખસેડવા છે. ઉદાહરણ તરીકે, ગેરી રાજા, જેનિફર પાન, અને મોલી રોબર્ટ્સ (2013) સંભાવના માપવામાં ચાઇના માં સામાજિક મીડિયા પોસ્ટ્સ સરકાર દ્વારા સેન્સર આવશે. પોતે દ્વારા કાઢી નાંખવાનું આ સરેરાશ સંભાવના સમજ્યા શા માટે સરકાર કેટલાક પોસ્ટ્સ નથી પરંતુ અન્ય સેન્સર માટે ખૂબ જ ઉપયોગી છે. પરંતુ, કારણ કે તેમના dataset 11 મિલિયન પોસ્ટ્સ સમાવેશ થાય છે, રાજા અને તેના સાથીદારો પણ 85 અલગ કેટેગરીમાં (દા.ત., પોર્નોગ્રાફી, તિબેટ, અને બેઇજિંગમાં યાતાયાત) પર પોસ્ટ્સ માટે સેન્સરશીપ સંભાવના માટે અંદાજ ઉત્પાદન કર્યું હતું. વિવિધ કેટેગરીમાં પોસ્ટ્સ માટે સેન્સરશીપ સંભાવના સરખામણી કરીને, તેઓ કેવી રીતે અને શા માટે સરકાર પોસ્ટ્સ ચોક્કસ પ્રકારના સેન્સર વિશે વધુ સમજવા માટે સક્ષમ હતા. 11 હજાર પોસ્ટ્સ (બદલે 11 મિલિયન પોસ્ટ્સ) સાથે, તેઓ આ શ્રેણી ચોક્કસ અંદાજ પેદા કરવા માટે સક્ષમ કરવામાં આવી ન હોત.
બીજું, કદ ભાગ્યે જ જોવા મળે ઘટનાઓ અભ્યાસ કરે છે એ ખાસ કરીને ઉપયોગી છે. ઉદાહરણ તરીકે, ગોયલ અને સહકર્મીઓ (2015) અલગ અલગ રીતે કે ટ્વીટ્સ વાયરલ જઈ શકે છે અભ્યાસ કરવા માગતા હતા. કારણ કે ફરીથી ટ્વીટ્સ મોટા કેસ્કેડ અત્યંત દુર્લભ વિશે એક છે 3000 તેઓ તેમના વિશ્લેષણ માટે પૂરતો મોટો કેસ્કેડ શોધવા માટે એક અબજ કરતાં વધુ ટ્વીટ્સ અભ્યાસ જરૂર છે.
ત્રીજું, મોટા ડેટાસેટ્સ નાના તફાવતો શોધવા માટે સંશોધકો સક્રિય કરે છે. હકીકતમાં, ઉદ્યોગ મોટા ડેટા પર ધ્યાન ખૂબ આ નાના તફાવત વિશે છે: વિશ્વસનીય જાહેરાત પર 1% અને 1.1% ક્લિક થ્રુ રેટ્સ વચ્ચે તફાવત શોધવા વધારાની આવક લાખો ડોલરની માં ભાષાંતરિત કરી શકે છે. કેટલાક વૈજ્ઞાનિક સેટિંગ્સ, જેમ કે નાના તફાવતો ખાસ મહત્વનું ન પણ હોઈ શકે (જો તેઓ આંકડાકીય રીતે નોંધપાત્ર છે). પરંતુ, કેટલાક નીતિ સેટિંગ્સ, જેમ કે નાના તફાવતો મહત્વનું છે જ્યારે કુલ જોઈ બની શકે છે. ઉદાહરણ તરીકે, જો ત્યાં બે જાહેર આરોગ્ય દરમિયાનગીરી અને એક સહેજ અન્ય કરતાં વધુ અસરકારક, પછી વધુ અસરકારક હસ્તક્ષેપ વધારાના જીવન હજારો બચત અંત કરી શકે છે પર સ્વિચ છે.
છેલ્લે, મોટા માહિતી સમૂહો મોટા પ્રમાણમાં નિરીક્ષણ માહિતી થી સાધક અંદાજ બનાવવા માટે અમારી ક્ષમતા વધારે છે. મોટા ડેટાસેટ્સ મૂળભૂત નિરીક્ષણ માહિતી થી સાધક અનુમાન બનાવવા બંધબેસતા અને કુદરતી પ્રયોગો બે ટેકનિક જે સંશોધકો નિરીક્ષણ થી સાધક દાવાઓ બનાવવા માટે વિકસાવવામાં આવ્યા છે માહિતી બંને મોટા પ્રમાણમાં મોટા ડેટાસેટ્સ લાભ સાથે સમસ્યાઓ બદલી નથી, તેમ છતાં. હું સમજાવવા અને આ પ્રકરણમાં પછીથી વધુ વિગતવાર આ દાવો સમજાવે જ્યારે હું સંશોધન વ્યૂહરચના વર્ણન કરીશું.
તેમ છતાં મોટાઈ સામાન્ય રીતે એક સારો મિલકત જ્યારે યોગ્ય રીતે ઉપયોગ કરવામાં આવે છે, હું નોંધ કરી છે કે મોટાઈ સામાન્ય વૈચારિક ભૂલ તરફ દોરી જાય છે. કેટલાક કારણોસર, મોટાઈ અવગણો તેમની માહિતી કેવી રીતે પેદા કરવામાં આવી હતી સંશોધકો જીવી લાગે છે. મોટાઈ રેન્ડમ ભૂલ વિશે ચિંતા કરવાની જરૂર ઘટાડવા કરે છે, તે ખરેખર વ્યવસ્થિત ભૂલો વિશે ચિંતા કરવાની જરૂર નથી, કેવી રીતે માહિતી બનાવવામાં અને ભેગા કરવામાં આવે છે પક્ષપાતને માંથી પેદા થાય છે ભૂલો કે હું નીચે વધુ વર્ણન કરીશું પ્રકારના વધારે છે. નાના dataset, બંને રેન્ડમ ભૂલ અને વ્યવસ્થિત ભૂલ મહત્વનું હોઈ શકે છે, પરંતુ એક મોટી dataset રેન્ડમ ભૂલ દૂર સરેરાશ શકાય છે અને વ્યવસ્થિત ભૂલ પ્રભુત્વ ધરાવે છે. સંશોધકો છે, જેઓ વ્યવસ્થિત ભૂલ ખોટું વસ્તુ એક ચોક્કસ અંદાજ મેળવવા તેમના મોટા ડેટાસેટ્સ મદદથી અંત થશે તે વિશે વિચારો નથી; તેઓ ચોક્કસપણે અચોક્કસ હશે (McFarland and McFarland 2015) .