મોટા ડેટા સ્રોતો સર્વત્ર છે, પરંતુ સામાજિક સંશોધન માટે તેનો ઉપયોગ મુશ્કેલ હોઈ શકે છે. મારા અનુભવમાં, માહિતી માટે "કોઈ મફત લંચ" નિયમની જેમ કંઈક છે: જો તમે તેને ઘણાં બધાં કાર્યોમાં એકત્રિત કરતા નથી, તો પછી તમે કદાચ ઘણાં કામમાં તેના વિશે વિચારવું પડશે અને તે વિશ્લેષણ.
આજે મોટા-મોટા ડેટા સ્રોત-અને સંભવિત આવતીકાલે- 10 લાક્ષણિકતાઓ ધરાવે છે. આમાંના ત્રણ સામાન્ય રીતે (પરંતુ હંમેશાં નહીં) સંશોધન માટે ઉપયોગી છે: મોટા, હંમેશા-ચાલુ, અને બિન-સક્રિય સંશોધન માટે સાત સામાન્ય છે (પરંતુ હંમેશાં નહીં) સમસ્યાવાળા: અપૂર્ણ, અપ્રાપ્ય, બિનપ્રતિસાદી, ડ્રિફ્ટિંગ, એલ્ગોરિધમલીથી ગૂંચાયેલી, ગંદા અને સંવેદનશીલ. આમાંની ઘણી લાક્ષણિકતાઓ આખરે ઊભી થાય છે કારણ કે સામાજિક સંશોધનના ઉદ્દેશ્ય માટે મોટા ડેટા સ્ત્રોતો બનાવવામાં આવ્યા નથી.
આ પ્રકરણના વિચારોના આધારે, મને લાગે છે કે સામાજિક રિસર્ચ માટે મોટા ડેટા સ્ત્રોતો સૌથી મૂલ્યવાન હશે તે ત્રણ મુખ્ય રીતો છે. પ્રથમ, તેઓ સંશોધકોને સ્પર્ધાત્મક સૈદ્ધાંતિક આગાહીઓ વચ્ચે નક્કી કરવાનું સક્ષમ કરી શકે છે. આ પ્રકારની કામગીરીના ઉદાહરણોમાં Farber (2015) (ન્યૂ યોર્ક ટેક્સી ડ્રાઇવર) અને King, Pan, and Roberts (2013) (ચીનમાં સેન્સરશીપ) નો સમાવેશ થાય છે. બીજું, મોટા ડેટા સ્રોતો હવે કેટલો સમય પસાર કરીને નીતિ માટે સુધારેલ માપન કરી શકે છે. આ પ્રકારના કામનું ઉદાહરણ Ginsberg et al. (2009) (Google Flu Trends) છેવટે, મોટા ડેટા સ્રોતો સંશોધકોને પ્રયોગો ચલાવ્યા વિના સાર્થક અંદાજો પૂરા પાડી શકે છે. આ પ્રકારની કામગીરીના ઉદાહરણોમાં Mas and Moretti (2009) (ઉત્પાદકતા પરના પીઅર ઇફેક્ટ્સ) અને Einav et al. (2015) (ઇબે પર હરાજીના ભાવનો પ્રારંભ કરવાની અસર) તેમ છતાં, દરેક અભિગમો, સંશોધકોને માહિતીમાં ઘણું બધું લાવવા માટે જરૂરી છે, જેમ કે અંદાજ લગાવવાનું મહત્વપૂર્ણ છે અથવા સ્પર્ધાત્મક આગાહીઓ બનાવવાના બે સિદ્ધાંતોની વ્યાખ્યા. આથી, મને લાગે છે કે મોટા ડેટા સ્ત્રોતો શું કરી શકે છે તે વિચારવાનો શ્રેષ્ઠ માર્ગ એ છે કે તેઓ એવા સંશોધકોને મદદ કરી શકે છે કે જેઓ રસપ્રદ અને મહત્વપૂર્ણ પ્રશ્નો પૂછી શકે છે.
સમાપન પૂર્વે, હું માનું છું કે ડેટા અને સિદ્ધાંત વચ્ચેના સંબંધ પર મોટા ડેટા સ્રોતોની મહત્વની અસર થઈ શકે છે તે ધ્યાનમાં લેવું તે યોગ્ય છે. અત્યાર સુધીમાં, આ પ્રકરણમાં થિયરી-આધારિત પ્રયોગમૂલક સંશોધનનો અભિગમ લેવામાં આવ્યો છે. પરંતુ મોટા ડેટા સ્રોતો સંશોધકોને પ્રયોગશાળામાં આધારિત થિયરીંગ કરવા માટે સક્ષમ કરે છે. એટલે કે, આનુભાવિક તથ્યો, તરાહો, અને કોયડાઓના સંચિત સંચય દ્વારા, સંશોધકો નવા સિદ્ધાંતો બનાવી શકે છે. આ વૈકલ્પિક, થિયરીમાં ડેટા-પ્રથમ અભિગમ નવી નથી, અને બાને ગ્લેઝર અને એન્સેલ્મ સ્ટ્રોસ (1967) દ્વારા તેના પર આધારિત થિયરી માટેના કોલ દ્વારા સૌથી બળપૂર્વક બોલવામાં આવ્યો હતો. જોકે આ ડેટા-પ્રથમ અભિગમ, "સિદ્ધાંતનો અંત" નો અર્થ નથી, કારણ કે ડિજિટલ વય (Anderson 2008) માં સંશોધનની કેટલીક પત્રકારત્વમાં તેનો દાવો કરવામાં આવ્યો છે. ઊલટાનું, ડેટા વાતાવરણમાં ફેરફાર થતાં, ડેટા અને સિદ્ધાંત વચ્ચેના સંબંધમાં પુન: સંતુલનની અપેક્ષા રાખવી જોઈએ. એવી દુનિયામાં કે જ્યાં ડેટા સંગ્રહ ખર્ચાળ હતો, તે માત્ર માહિતી એકત્રિત કરવાની સમજ હતી જે સિદ્ધાંતો સૂચવે છે તે સૌથી ઉપયોગી થશે. પરંતુ, એવી દુનિયામાં જ્યાં વિશાળ પ્રમાણમાં ડેટા મફતમાં ઉપલબ્ધ છે, તે ડેટા-પહેલા અભિગમ (Goldberg 2015) પ્રયાસ કરવા માટે પણ અર્થપૂર્ણ છે.
જેમ જેમ મેં આ પ્રકરણમાં દર્શાવ્યું છે, સંશોધકો લોકોને જોઈને ઘણું શીખી શકે છે. આગામી ત્રણ પ્રકરણોમાં, હું વર્ણન કરું છું કે જો આપણે આપણા ડેટાને સંગ્રહિત કરવા અને લોકો સાથે વધુ પ્રશ્નો પૂછીને પ્રકરણ (પ્રકરણ 3), પ્રયોગોને ચલાવવા (પ્રકરણ 4), અને તે પણ તેમને શામેલ કરીને કેવી રીતે વધુ માહિતી મેળવી શકીએ સંશોધન પ્રક્રિયામાં સીધા (પ્રકરણ 5).