2.3.1.1 મોટા

મોટા ડેટાસેટ્સ અંત એક સાધન છે; તેઓ પોતાની જાતને એક અંત નથી.

મોટા ડેટા ત્રણ સારી લાક્ષણિકતાઓ પ્રથમ સૌથી વધુ ચર્ચા છે: આ મોટા માહિતી છે. ઘણા લોકો, વ્યક્તિ દીઠ માહિતી ઘણાં બધાં છે, અથવા સમય જતાં અનેક અવલોકનો: આ માહિતી સ્ત્રોત ત્રણ અલગ અલગ રીતે મોટી હોઈ શકે છે. એક મોટી dataset રાખવાથી, દુર્લભ ઘટનાઓ અભ્યાસ નાના તફાવતો શોધવા, અને નિરીક્ષણ માહિતી થી સાધક અંદાજો, સંશોધન માપક વૈવિધ્યનો કેટલાક ચોક્કસ પ્રકારના સક્રિય કરે છે. તે પણ sloppiness એક ચોક્કસ પ્રકાર તરફ દોરી લાગે છે.

પ્રથમ વસ્તુ કે જેના માટે કદ ખાસ કરીને ઉપયોગી છે ચોક્કસ પેટાજૂથો માટે અંદાજ બનાવવા માટે સરેરાશ બહાર ખસેડવા છે. ઉદાહરણ તરીકે, ગેરી રાજા, જેનિફર પાન, અને મોલી રોબર્ટ્સ (2013) સંભાવના માપવામાં ચાઇના માં સામાજિક મીડિયા પોસ્ટ્સ સરકાર દ્વારા સેન્સર આવશે. પોતે દ્વારા કાઢી નાંખવાનું આ સરેરાશ સંભાવના સમજ્યા શા માટે સરકાર કેટલાક પોસ્ટ્સ નથી પરંતુ અન્ય સેન્સર માટે ખૂબ જ ઉપયોગી છે. પરંતુ, કારણ કે તેમના dataset 11 મિલિયન પોસ્ટ્સ સમાવેશ થાય છે, રાજા અને તેના સાથીદારો પણ 85 અલગ કેટેગરીમાં (દા.ત., પોર્નોગ્રાફી, તિબેટ, અને બેઇજિંગમાં યાતાયાત) પર પોસ્ટ્સ માટે સેન્સરશીપ સંભાવના માટે અંદાજ ઉત્પાદન કર્યું હતું. વિવિધ કેટેગરીમાં પોસ્ટ્સ માટે સેન્સરશીપ સંભાવના સરખામણી કરીને, તેઓ કેવી રીતે અને શા માટે સરકાર પોસ્ટ્સ ચોક્કસ પ્રકારના સેન્સર વિશે વધુ સમજવા માટે સક્ષમ હતા. 11 હજાર પોસ્ટ્સ (બદલે 11 મિલિયન પોસ્ટ્સ) સાથે, તેઓ આ શ્રેણી ચોક્કસ અંદાજ પેદા કરવા માટે સક્ષમ કરવામાં આવી ન હોત.

બીજું, કદ ભાગ્યે જ જોવા મળે ઘટનાઓ અભ્યાસ કરે છે એ ખાસ કરીને ઉપયોગી છે. ઉદાહરણ તરીકે, ગોયલ અને સહકર્મીઓ (2015) અલગ અલગ રીતે કે ટ્વીટ્સ વાયરલ જઈ શકે છે અભ્યાસ કરવા માગતા હતા. કારણ કે ફરીથી ટ્વીટ્સ મોટા કેસ્કેડ અત્યંત દુર્લભ વિશે એક છે 3000 તેઓ તેમના વિશ્લેષણ માટે પૂરતો મોટો કેસ્કેડ શોધવા માટે એક અબજ કરતાં વધુ ટ્વીટ્સ અભ્યાસ જરૂર છે.

ત્રીજું, મોટા ડેટાસેટ્સ નાના તફાવતો શોધવા માટે સંશોધકો સક્રિય કરે છે. હકીકતમાં, ઉદ્યોગ મોટા ડેટા પર ધ્યાન ખૂબ આ નાના તફાવત વિશે છે: વિશ્વસનીય જાહેરાત પર 1% અને 1.1% ક્લિક થ્રુ રેટ્સ વચ્ચે તફાવત શોધવા વધારાની આવક લાખો ડોલરની માં ભાષાંતરિત કરી શકે છે. કેટલાક વૈજ્ઞાનિક સેટિંગ્સ, જેમ કે નાના તફાવતો ખાસ મહત્વનું ન પણ હોઈ શકે (જો તેઓ આંકડાકીય રીતે નોંધપાત્ર છે). પરંતુ, કેટલાક નીતિ સેટિંગ્સ, જેમ કે નાના તફાવતો મહત્વનું છે જ્યારે કુલ જોઈ બની શકે છે. ઉદાહરણ તરીકે, જો ત્યાં બે જાહેર આરોગ્ય દરમિયાનગીરી અને એક સહેજ અન્ય કરતાં વધુ અસરકારક, પછી વધુ અસરકારક હસ્તક્ષેપ વધારાના જીવન હજારો બચત અંત કરી શકે છે પર સ્વિચ છે.

છેલ્લે, મોટા માહિતી સમૂહો મોટા પ્રમાણમાં નિરીક્ષણ માહિતી થી સાધક અંદાજ બનાવવા માટે અમારી ક્ષમતા વધારે છે. મોટા ડેટાસેટ્સ મૂળભૂત નિરીક્ષણ માહિતી થી સાધક અનુમાન બનાવવા બંધબેસતા અને કુદરતી પ્રયોગો બે ટેકનિક જે સંશોધકો નિરીક્ષણ થી સાધક દાવાઓ બનાવવા માટે વિકસાવવામાં આવ્યા છે માહિતી બંને મોટા પ્રમાણમાં મોટા ડેટાસેટ્સ લાભ સાથે સમસ્યાઓ બદલી નથી, તેમ છતાં. હું સમજાવવા અને આ પ્રકરણમાં પછીથી વધુ વિગતવાર આ દાવો સમજાવે જ્યારે હું સંશોધન વ્યૂહરચના વર્ણન કરીશું.

તેમ છતાં મોટાઈ સામાન્ય રીતે એક સારો મિલકત જ્યારે યોગ્ય રીતે ઉપયોગ કરવામાં આવે છે, હું નોંધ કરી છે કે મોટાઈ સામાન્ય વૈચારિક ભૂલ તરફ દોરી જાય છે. કેટલાક કારણોસર, મોટાઈ અવગણો તેમની માહિતી કેવી રીતે પેદા કરવામાં આવી હતી સંશોધકો જીવી લાગે છે. મોટાઈ રેન્ડમ ભૂલ વિશે ચિંતા કરવાની જરૂર ઘટાડવા કરે છે, તે ખરેખર વ્યવસ્થિત ભૂલો વિશે ચિંતા કરવાની જરૂર નથી, કેવી રીતે માહિતી બનાવવામાં અને ભેગા કરવામાં આવે છે પક્ષપાતને માંથી પેદા થાય છે ભૂલો કે હું નીચે વધુ વર્ણન કરીશું પ્રકારના વધારે છે. નાના dataset, બંને રેન્ડમ ભૂલ અને વ્યવસ્થિત ભૂલ મહત્વનું હોઈ શકે છે, પરંતુ એક મોટી dataset રેન્ડમ ભૂલ દૂર સરેરાશ શકાય છે અને વ્યવસ્થિત ભૂલ પ્રભુત્વ ધરાવે છે. સંશોધકો છે, જેઓ વ્યવસ્થિત ભૂલ ખોટું વસ્તુ એક ચોક્કસ અંદાજ મેળવવા તેમના મોટા ડેટાસેટ્સ મદદથી અંત થશે તે વિશે વિચારો નથી; તેઓ ચોક્કસપણે અચોક્કસ હશે (McFarland and McFarland 2015) .