સંશોધન સિવાય અન્ય હેતુઓ માટે કંપનીઓ અને સરકારો દ્વારા મોટા ડેટા બનાવવામાં અને એકત્રિત કરવામાં આવે છે. સંશોધન માટે આ ડેટાનો ઉપયોગ કરીને, તેથી, પુનઃપ્રાપ્ત કરવાની જરૂર છે.
ઘણા લોકો ડિજિટલ વયમાં સોશિયલ રિસર્ચનો પહેલો રસ્તો શોધી કાઢે છે જે ઘણી વખત મોટું ડેટા કહેવાય છે. આ શબ્દનો વ્યાપક ઉપયોગ હોવા છતાં, મોટા ડેટા પણ શું છે તે વિશે કોઈ સર્વસંમતિ નથી. જો કે, મોટી માહિતીની સૌથી સામાન્ય વ્યાખ્યાઓમાંની એક "3 વિ" પર ધ્યાન કેન્દ્રિત કરે છે: વોલ્યુમ, વેરાયટી અને વેલોસીટી. લગભગ, ઘણાં બધા ફોર્મેટમાં ડેટા છે, અને તે સતત બનાવવામાં આવે છે. મોટા ડેટાના કેટલાક ચાહકો પણ અન્ય "વિ" જેવા કે વેરસીટી અને વેલ્યુને ઉમેરે છે, જ્યારે કેટલાક ટીકાકારો વિગ અને વેક્સિઅસ જેવા વિ ઉમેરે છે. સામાજિક સંશોધનનાં હેતુઓ માટે 3 "વિ" (અથવા 5 "વી" અથવા 7 "વી") કરતાં, મને લાગે છે કે 5 "ડબલ્યુએસ" શરૂ કરવા માટે વધુ સારું સ્થાન છે: કોણ, શું, ક્યાં, ક્યારે , અને શા માટે. વાસ્તવમાં, મને લાગે છે કે મોટી માહિતી સ્ત્રોત દ્વારા બનાવવામાં આવતી અનેક પડકારો અને તકો માત્ર એક "ડબલ્યુ" થી અનુસરે છે: શા માટે?
એનાલોગ યુગમાં, સંશોધન કરવાના ઉદ્દેશ્ય માટે મોટાભાગના ડેટાનો ઉપયોગ સામાજિક સંશોધન માટે કરવામાં આવ્યો હતો. ડિજિટલ વયમાં, જોકે, સંશોધન સિવાય અન્ય હેતુઓ માટે કંપનીઓ અને સરકારો દ્વારા વિશાળ ડેટા ઉપલબ્ધ કરવામાં આવી રહ્યો છે, જેમ કે સેવાઓ પૂરી પાડવી, નફો મેળવવા અને કાયદાનું સંચાલન. સર્જનાત્મક લોકો, જો કે, સંશોધન માટે આ કોર્પોરેટ અને સરકારી ડેટાને પુનઃઉત્પાદિત કરી શકે છે. પ્રકરણ 1 માં કલા સાદ્રશ્યમાં પાછા વિચારવું, જેમ જ ડચેમ્પે કલા બનાવવા માટે મળી આવેલા પદાર્થને પુનર્જીવિત કર્યો, વૈજ્ઞાનિકો હવે સંશોધન બનાવવા માટે મળેલા ડેટાને પુનઃઉત્પાદન કરી શકે છે.
રિપર્ઝિંગ માટે નિ: શંકપણે વિશાળ તકો હોવા છતાં, સંશોધનના હેતુઓ માટે બનાવવામાં ન આવેલા ડેટાનો ઉપયોગ કરીને નવા પડકારો પણ રજૂ કરે છે. દાખલા તરીકે, સામાજીક મીડિયા સેવા, જેમ કે ટ્વિટર, પરંપરાગત જાહેર અભિપ્રાય સર્વેક્ષણ, જેમ કે જનરલ સોશિયલ સર્વે ટ્વિટરના મુખ્ય ધ્યેય તેના વપરાશકર્તાઓને સેવા પૂરી પાડવા અને નફો બનાવવાનું છે. બીજી બાજુ જનરલ સોશિયલ સર્વેક્ષણ, સામાજિક સંશોધન માટે સામાન્ય હેતુના ડેટા બનાવવા પર ધ્યાન કેન્દ્રિત કરે છે, ખાસ કરીને જાહેર અભિપ્રાય સંશોધન માટે. ધ્યેયોમાં આ તફાવતનો મતલબ એવો થાય છે કે ટ્વિટર દ્વારા બનાવવામાં આવેલા અને જનરલ સોશિયલ સર્વે દ્વારા બનાવવામાં આવેલા ડેટામાં જુદી જુદી મિલકતો છે, ભલે બંનેનો ઉપયોગ જાહેર અભિપ્રાયનો અભ્યાસ કરવા માટે થાય. ટ્વિટર સ્કેલ અને સ્પીડ પર કામ કરે છે કે જનરલ સોશિયલ સર્વે મેળ ખાતો નથી, પરંતુ, જનરલ સોશિયલ સર્વેક્ષણની જેમ, ટ્વિટર કાળજીપૂર્વક વપરાશકર્તાઓનો નમૂનો નથી અને તે સમયની તુલનાએ તુલનાત્મકતા જાળવી રાખવા માટે સખત મહેનત કરતા નથી. કારણ કે આ બે ડેટા સ્ત્રોતો ખૂબ જ અલગ છે, તે કહેતા અર્થમાં નથી કે સામાન્ય સામાજીક સર્વેક્ષણ ટ્વિટર અથવા તેનાથી વિરુદ્ધ છે. જો તમને વૈશ્વિક મૂડના કલાકદીઠ પગલાં જોઈએ (દા.ત. Golder and Macy (2011) ), તો ટ્વિટર શ્રેષ્ઠ છે બીજી બાજુ, જો તમે યુનાઇટેડ સ્ટેટ્સમાં વલણ ધ્રુવીકરણમાં લાંબા ગાળાના ફેરફારોને સમજવા માંગતા હો (દા.ત., DiMaggio, Evans, and Bryson (1996) ), તો જનરલ સોશિયલ સર્વે શ્રેષ્ઠ પસંદગી છે. વધુ સામાન્ય રીતે એવી દલીલ કરે છે કે મોટા ડેટા સ્રોત અન્ય પ્રકારની માહિતી કરતા વધુ સારી અથવા ખરાબ છે, આ પ્રકરણ સ્પષ્ટ કરવા પ્રયત્ન કરશે કે કયા પ્રકારનાં સંશોધન પ્રશ્નો મોટા ડેટા સ્રોતને આકર્ષક ગુણધર્મો ધરાવે છે અને કયા પ્રકારનાં પ્રશ્નો તેઓ ન હોઇ શકે આદર્શ
જ્યારે મોટા ડેટા સ્ત્રોત વિશે વિચારતા હોય ત્યારે, ઘણા સંશોધકો તરત જ શોધ એન્જિન લોગ્સ અને સોશિયલ મીડિયા પોસ્ટ્સ જેવી કંપનીઓ દ્વારા બનાવવામાં અને એકત્રિત કરવામાં આવેલ ઓનલાઇન ડેટાનું ધ્યાન કેન્દ્રિત કરે છે જો કે, આ સાંકડી ધ્યાન તેના મોટા ડેટાના બે અન્ય મહત્વના સ્રોતોને બહાર કાઢે છે. પ્રથમ, વધુ મોટા કોર્પોરેટ મોટર્સ સ્ત્રોતો ભૌતિક વિશ્વમાં ડિજિટલ ડિવાઇસમાંથી આવે છે. ઉદાહરણ તરીકે, આ પ્રકરણમાં, હું તમને એક સ્ટડી વિશે જણાવીશ કે જે તેના સાથીદારોની ઉત્પાદકતા (Mas and Moretti 2009) દ્વારા કેવી રીતે કામ કરે છે તેના અભ્યાસ માટે સુપરમાર્કેટ ચેક-આઉટ ડેટાનું પુનઃઉત્પાદન કરે છે. પછી, પછીનાં પ્રકરણોમાં, હું તમને સંશોધકો વિશે (Blumenstock, Cadamuro, and On 2015) મોબાઇલ ફોન (Blumenstock, Cadamuro, and On 2015) કોલ રેકોર્ડ્સનો ઉપયોગ કર્યો હતો અને ઇલેક્ટ્રિક યુટિલિટીઝ દ્વારા બનાવવામાં બિલિંગ ડેટા (Allcott 2015) . જેમ કે આ ઉદાહરણો સમજાવે છે, કોર્પોરેટ મોટું ડેટા સ્રોત માત્ર ઑનલાઇન વર્તન કરતાં વધુ છે.
ઑનલાઇન વર્તણૂક પર નબળા ધ્યાન દ્વારા ચૂકી ગયેલો મોટા ડેટાનો બીજો મહત્વનો સ્રોત સરકારો દ્વારા બનાવવામાં આવેલ ડેટા છે આ સરકારી ડેટા, જે સંશોધકો સરકારી વહીવટી રેકોર્ડ્સને બોલાવે છે, તેમાં કર રેકોર્ડ્સ, સ્કૂલ રેકોર્ડ્સ અને આવશ્યક આંકડાઓના રેકોર્ડ્સ (દા.ત. જન્મ અને મૃત્યુની નોંધણી) જેવી બાબતોનો સમાવેશ થાય છે. સરકારો આ પ્રકારની માહિતી બનાવી રહ્યા છે, કેટલાક કિસ્સાઓમાં, સેંકડો વર્ષો અને સામાજિક વૈજ્ઞાનિકો તેમને લગભગ જ્યાં સુધી સામાજિક વૈજ્ઞાનિકો છે ત્યાં સુધી તેનો ઉપયોગ કરી રહ્યાં છે. જોકે, શું બદલાયું છે, તે ડિજિટાઇઝેશન છે, જેણે સરકારોને ડેટા એકત્રિત કરવા, વહન કરવા, સ્ટોર કરવા અને પૃથ્થકરણ માટે નાટકીય રીતે સરળ બનાવી દીધું છે. ઉદાહરણ તરીકે, આ પ્રકરણમાં, હું તમને એક અભ્યાસ વિશે જણાવીશ જે શ્રમ અર્થશાસ્ત્ર (Farber 2015) માં મૂળભૂત ચર્ચાને સંબોધવા માટે ન્યૂ યોર્ક સિટી સરકારના ડિજિટલ ટેક્સી મીટરમાંથી ડેટાનું પુનઃઉત્પાદન કરે છે. પછી, પછીનાં પ્રકરણોમાં, હું તમને જણાવું છું કે સર્વેક્ષણમાં (Ansolabehere and Hersh 2012) અને એક પ્રયોગ (Bond et al. 2012) માં કેવી રીતે સરકાર દ્વારા એકત્રિત થયેલા મતદાન રેકોર્ડનો ઉપયોગ કરવામાં આવ્યો હતો.
મને લાગે છે કે મોટા ડેટા સ્ત્રોતોમાંથી શીખવાની પુનરુત્થાનનો વિચાર મૂળભૂત છે, અને તેથી, મોટા ડેટા સ્ત્રોતો (સેટેક્શન 2.3) અને કેવી રીતે તેનો ઉપયોગ સંશોધનમાં (વિભાગ 2.4) ના ગુણધર્મો વિશે વધુ ચોક્કસપણે વાત કરતા પહેલા, મને ગમશે રિપર્ઝિંગ વિશે સામાન્ય સલાહના બે ટુકડાઓ પ્રસ્તુત કરવા. પ્રથમ, તે "શોધી" ડેટા અને "રચાયેલ" ડેટા વચ્ચેના સેટ તરીકે વિપરીત વિચાર્યું છે. તે નજીક છે, પરંતુ તે તદ્દન યોગ્ય નથી. તેમ છતાં, સંશોધકોના પરિપ્રેક્ષ્યમાં, મોટા ડેટા સ્રોતો "મળ્યાં છે," તેઓ માત્ર આકાશમાંથી આવતા નથી તેના બદલે, સંશોધકો દ્વારા "મળેલી" માહિતી સ્રોતો કોઈ હેતુસર કોઈના દ્વારા ડિઝાઇન કરવામાં આવે છે. કારણ કે "મળ્યું" ડેટા કોઈને દ્વારા ડિઝાઇન કરવામાં આવે છે, હું હંમેશાં ભલામણ કરું છું કે તમે તમારા ડેટાને બનાવતા લોકો અને પ્રક્રિયાઓ વિશે શક્ય એટલું સમજવાનો પ્રયત્ન કરો. બીજું, જ્યારે તમે ડેટાનો ફરીથી ઉપયોગ કરી રહ્યાં હોવ ત્યારે, તમારી સમસ્યા માટે આદર્શ ડેટાસેટની કલ્પના કરવા માટે તે ઘણીવાર અત્યંત ઉપયોગી છે અને પછી તે આદર્શ ડેટાસેટની સરખામણીએ તમે ઉપયોગ કરી રહ્યાં છો. જો તમે તમારો ડેટા જાતે જ એકત્રિત કર્યો નથી, તો તમે શું કરવા માંગો છો અને તમારી પાસે શું છે તે વચ્ચે મહત્વપૂર્ણ તફાવતો હોઈ શકે છે. આ મતભેદોને જોતાં તમે સ્પષ્ટ કરી શકશો કે તમે શું કરી શકો છો અને તમે જે માહિતી મેળવી શકો છો, અને તે તમને એકત્રિત કરવાના નવા ડેટાને સૂચવી શકે છે.
મારા અનુભવમાં, સામાજિક વૈજ્ઞાનિકો અને ડેટા વૈજ્ઞાનિકો ખૂબ જુદી જુદી રીતનો પુનઃપ્રસાર કરવા પ્રેરે છે. સામાજિક વૈજ્ઞાનિકો, જેઓ સંશોધન માટે રચાયેલ ડેટા સાથે કામ કરવા માટે ટેવાયેલા હોય છે, તે સામાન્ય રીતે ઝડપથી પુનઃઉત્પાદિત ડેટા સાથે સમસ્યાઓનો સંકેત આપે છે જ્યારે તેની તાકાત અવગણીને. બીજી તરફ, માહિતી વૈજ્ઞાનિકો સામાન્ય રીતે ઝડપી હોય છે, જ્યારે તેના નબળાઈઓનું અવગણવાનું હોય ત્યારે પુનઃઉત્પાદિત ડેટાના ફાયદા દર્શાવે છે. સ્વાભાવિક રીતે, શ્રેષ્ઠ અભિગમ એક વર્ણસંકર છે. એટલે કે, સંશોધકોએ મોટા માહિતી સ્રોતની લાક્ષણિકતાઓ સમજવાની જરૂર છે- બંને સારા અને ખરાબ- અને પછી તેમની પાસેથી કેવી રીતે શીખવું તે જાણો. અને, તે આ પ્રકરણનો બાકીનો ભાગ છે. આગળના વિભાગમાં, હું મોટા ડેટા સ્ત્રોતોની દસ સામાન્ય લાક્ષણિકતાઓનું વર્ણન કરું છું. પછી, નીચેના વિભાગમાં, હું ત્રણ સંશોધન અભિગમોનું વર્ણન કરું છું જે આવા ડેટા સાથે સારી રીતે કાર્ય કરી શકે છે.