તમારા મોટું ડેટા કેટલું મોટું છે, તે કદાચ તમારી પાસે ઇચ્છિત માહિતી નથી.
મોટાભાગનાં મોટા મોટા માહિતી સ્ત્રોતો અપૂર્ણ છે , એટલે કે તેમની પાસે તમારી રિસર્ચ માટે તમે ઇચ્છતા હો તે માહિતી નથી. આ માહિતીનો એક સામાન્ય લક્ષણ છે જે સંશોધન કરતાં અન્ય હેતુઓ માટે બનાવવામાં આવ્યો હતો. ઘણા સામાજિક વૈજ્ઞાનિકો પાસે અપૂર્ણતા સાથે વ્યવહાર કરવાનો પહેલેથી જ અનુભવ થયો છે, જેમ કે હાલના સર્વેક્ષણમાં જે પ્રશ્નની જરૂર હતી તે જરૂરી નથી. કમનસીબે, મોટા ડેટામાં અપૂર્ણતાની સમસ્યાઓ વધુ આત્યંતિક હોય છે. મારા અનુભવમાં, મોટા પ્રમાણમાં માહિતીને ત્રણ પ્રકારની માહિતી સામાજિક સંશોધન માટે ઉપયોગી ગણાવી શકાય છે: સહભાગીઓ વિશે વસ્તીવિષયક માહિતી, અન્ય પ્લેટફોર્મ્સ પર વર્તન, અને સૈદ્ધાંતિક રચનાઓનું સંચાલન કરવા માટેના ડેટા.
ત્રણ પ્રકારની અપૂર્ણતામાંથી, સૈદ્ધાંતિક રચનાઓનું સંચાલન કરવા માટે અપૂર્ણ ડેટાની સમસ્યા એ ઉકેલવા માટે સૌથી મુશ્કેલ છે. અને મારા અનુભવમાં, તે ઘણીવાર આકસ્મિક અવગણના કરવામાં આવે છે. આશરે, સૈદ્ધાંતિક રચનાઓ એ અમૂર્ત વિચારો છે કે સામાજિક વૈજ્ઞાનિકો એક સૈદ્ધાંતિક રચનાનું અભ્યાસ કરે છે અને તેનું સંચાલન કરે છે એટલે કે અવલોકનક્ષમ ડેટા સાથે રચવા કેપ્ચર કરવાનો કોઈ માર્ગ પ્રસ્તાવ છે. કમનસીબે, આ સરળ-લાંબી પ્રક્રિયા ઘણી વાર મુશ્કેલ બની જાય છે. ઉદાહરણ તરીકે, ચાલો કલ્પના કરીએ કે પ્રાયોગિક સરળ દાવાને ચકાસવાનો પ્રયાસ કરીએ કે જે લોકો વધુ બુદ્ધિશાળી હોય તે વધુ પૈસા કમાવો. આ દાવાને ચકાસવા માટે, તમારે "બુદ્ધિ" માપવાની જરૂર છે. પરંતુ બુદ્ધિ શું છે? Gardner (2011) દલીલ કરે છે કે હકીકતમાં આઠ અલગ અલગ પ્રકારની બુદ્ધિ છે અને ત્યાં એવી કાર્યવાહી છે કે જે ચોક્કસપણે આમાંના કોઈપણ પ્રકારની બુદ્ધિને માપી શકે છે? મનોવૈજ્ઞાનિકો દ્વારા પ્રચંડ પ્રમાણમાં કામ હોવા છતાં, આ પ્રશ્નોના હજી પણ અસંદિગ્ધ જવાબ નથી.
આમ, પ્રમાણમાં સરળ દાવાઓ- જે લોકો વધુ બુદ્ધિશાળી હોય છે તેઓ વધુ પૈસા કમાતા હોય છે - આનુભાવિક મૂલ્યાંકન કરવા મુશ્કેલ હોઈ શકે છે કારણ કે માહિતીમાં સૈદ્ધાંતિક રચનાઓનું સંચાલન કરવું મુશ્કેલ બની શકે છે. સૈદ્ધાંતિક રચનાઓના અન્ય ઉદાહરણો જે મહત્વપૂર્ણ છે પરંતુ ચલાવવા માટે સખત છે તેમાં "ધોરણો," "સામાજિક રાજધાની" અને "લોકશાહી" નો સમાવેશ થાય છે. સમાજ વિજ્ઞાનીઓ સૈદ્ધાંતિક રચનાઓ અને ડેટા (Cronbach and Meehl 1955) માન્યતા (Cronbach and Meehl 1955) વચ્ચેની મેચને બોલાવે છે. રચનાની આ ટૂંકી સૂચિ સૂચવે છે, માન્યતા એક એવી સમસ્યા છે જે સામાજિક વિજ્ઞાનીઓ લાંબા સમયથી સંઘર્ષ કરે છે. પરંતુ મારા અનુભવમાં, સંશોધનના ઉદ્દેશ્ય માટે બનાવવામાં ન આવી હોય તેવા ડેટા સાથે કામ કરતી વખતે માન્યતાની રચનાની સમસ્યાઓ પણ વધુ છે (Lazer 2015) .
જ્યારે તમે રિસર્ચ પરિણામનું મૂલ્યાંકન કરો છો, ત્યારે રચનાની માન્યતાની આકારણી કરવા માટે એક ઝડપી અને ઉપયોગી રીત પરિણામ લેવાનું છે, જે સામાન્ય રીતે રચનાના સંદર્ભમાં વ્યક્ત કરવામાં આવે છે અને તેનો ઉપયોગ ડેટાના સંદર્ભમાં ફરીથી વ્યક્ત કરે છે. ઉદાહરણ તરીકે, બે અનુમાનિત અભ્યાસોનો વિચાર કરો, જે બતાવવાનો દાવો કરે છે કે જે લોકો વધુ બુદ્ધિશાળી હોય તે વધુ નાણાં કમાવે છે. પ્રથમ અભ્યાસમાં, સંશોધકને જાણવા મળ્યું કે જે લોકો રાવેન પ્રોગ્રેસિવ મેટ્રિક્સ ટેસ્ટમાં સારી રીતે સ્કોર કરે છે - એનાલિટિક ઇન્ટેલિજન્સ (Carpenter, Just, and Shell 1990) ની સારી રીતે અભ્યાસ કરાયેલ ટેસ્ટ - તેમના ટેક્સ રિટર્ન પર ઉચ્ચતર કરાયેલી આવક છે બીજા અભ્યાસમાં, સંશોધકએ શોધી કાઢ્યું હતું કે ટ્વિટર પર લોકો લાંબા સમય સુધી શબ્દોનો ઉપયોગ કરે છે તે વૈભવી બ્રાન્ડનો ઉલ્લેખ કરે તેવી શક્યતા છે. બન્ને કિસ્સાઓમાં, આ સંશોધકો દાવો કરી શકે છે કે તેઓએ બતાવ્યું છે કે જે લોકો વધુ બુદ્ધિશાળી છે તેઓ વધુ નાણાં કમાવે છે. જો કે, પ્રથમ અભ્યાસમાં, સૈદ્ધાંતિક રચનાઓ માહિતી દ્વારા સારી રીતે કાર્યરત છે, જ્યારે બીજામાં તે નથી. વધુમાં, જેમ કે આ ઉદાહરણ સમજાવે છે, વધુ માહિતી આપમેળે નિર્માણની માન્યતા સાથે સમસ્યાનું નિરાકરણ આપતું નથી. બીજા અભ્યાસના પરિણામો પર શંકા કરવી જોઈએ કે તે મિલિયન ટ્વીટ્સ, એક અબજ ટ્વીટ્સ, અથવા ટ્રિલિયન ટ્વીટ્સ શામેલ છે. રચનાત્મક માન્યતાના વિચારથી પરિચિત સંશોધકો માટે, કોષ્ટક 2.2 ડિગ્રી ટ્રેસ ડેટાનો ઉપયોગ કરીને સૈદ્ધાંતિક રચનાઓનું સંચાલન કરતા અભ્યાસોના કેટલાક ઉદાહરણો પૂરા પાડે છે.
માહિતીનું પ્રાપ્તિસ્થાન | સૈદ્ધાંતિક રચના | સંદર્ભ |
---|---|---|
યુનિવર્સિટીમાંથી ઇમેઇલ લૉગ્સ (ફક્ત મેટા-ડેટા) | સામાજિક સંબંધો | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
વેઇબો પર સામાજિક મીડિયા પોસ્ટ્સ | સિવિક સગાઈ | Zhang (2016) |
એક પેઢી (મેટા-ડેટા અને સંપૂર્ણ ટેક્સ્ટ) માંથી ઇમેઇલ લૉગ્સ | સંસ્થામાં સાંસ્કૃતિક યોગ્ય | Srivastava et al. (2017) |
સૈદ્ધાંતિક રચનાઓનો કબજો મેળવવા માટે અપૂરતી માહિતીની સમસ્યાનું નિરાકરણ કરવું ખૂબ જ મુશ્કેલ છે, તેમ છતાં, અન્ય સામાન્ય પ્રકારની અપૂર્ણતાના સામાન્ય ઉકેલો છે: અપૂર્ણ વસ્તીવિષયક માહિતી અને અન્ય પ્લેટફોર્મ્સ પર વર્તણૂંક અંગે અપૂર્ણ માહિતી. પ્રથમ ઉકેલ ખરેખર તમને જરૂરી માહિતી એકત્રિત કરવા માટે છે; હું તમને તે વિશે પ્રકરણ 3 માં જણાવું છું જ્યારે હું તમને સર્વેક્ષણો વિશે જણાવું છું. બીજા મુખ્ય ઉકેલ એ છે કે ડેટા વૈજ્ઞાનિકો વપરાશકર્તા-વિશેષાંક અનુમાન અને સામાજિક વૈજ્ઞાનિકોને આક્ષેપ કરે છે . આ અભિગમમાં, સંશોધકો અન્ય લોકોના લક્ષણોની કલ્પના કરવા માટે કેટલાક લોકો પરની માહિતીનો ઉપયોગ કરે છે. ત્રીજા શક્ય ઉકેલ એ બહુવિધ માહિતી સ્ત્રોતોને જોડવાનું છે આ પ્રક્રિયાને ક્યારેક રેકોર્ડ લિંક્ડ કહેવાય છે. આ પ્રક્રિયા માટે મારો પ્રિય રૂપક Dunn (1946) દ્વારા Dunn (1946) લખવામાં આવ્યું હતું, જે ખૂબ જ પ્રથમ કાગળના પ્રથમ ફકરામાં લખવામાં આવ્યું હતું જે ક્યારેય રેકોર્ડ લિંજ પર લખાયું હતું:
"વિશ્વના દરેક વ્યક્તિ જીવનની ચોપડી બનાવે છે આ પુસ્તક જન્મથી શરૂ થાય છે અને મૃત્યુ સાથે અંત થાય છે. તેના પૃષ્ઠો જીવનમાં મુખ્ય ઘટનાઓના રેકોર્ડ્સથી બનેલા છે. રેકોર્ડ લિંક્સ એ આ પુસ્તકના પૃષ્ઠોને એક ભાગમાં એકસાથે ભેગા કરવાની પ્રક્રિયાને આપવામાં આવતું નામ છે. "
જ્યારે ડનએ લખ્યું હતું કે પેસેજ તેઓ કલ્પના કરી રહ્યા હતા કે બુક ઓફ લાઇફમાં જીવન, લગ્ન, છૂટાછેડા, અને મૃત્યુ જેવી મોટી ઘટનાઓનો સમાવેશ થઈ શકે છે. જો કે, હવે લોકો વિશેની એટલી બધી માહિતી રેકોર્ડ કરવામાં આવી છે, પુસ્તકની લાઇફ અતિ વિગતવાર ચિત્ર હોઈ શકે છે, જો તે જુદાં જુદાં પૃષ્ઠો (એટલે કે, અમારા ડિજિટલ નિશાન) એક સાથે બંધાયેલા હોઇ શકે છે. આ બુક ઓફ લાઇફ સંશોધકો માટે એક મહાન સ્ત્રોત બની શકે છે. પરંતુ, તે વિનાશના ડેટાબેઝ (Ohm 2010) તરીકે પણ ઓળખાય છે, જેનો ઉપયોગ તમામ પ્રકારના અનૈતિક હેતુઓ માટે થઈ શકે છે, કારણ કે હું પ્રકરણ 6 (એથિક્સ) માં વર્ણન કરું છું.