જો તમે સારી માહિતી સાથે એક સારો પ્રશ્ન ભેગા સરળ ગણતરી રસપ્રદ હોઈ શકે છે.
તેમ છતાં તે આધુનિક-લાંબાં ભાષામાં જોડાયેલી છે, ઘણા બધા સામાજિક સંશોધન ખરેખર વસ્તુઓની ગણતરી કરે છે મોટા ડેટાના યુગમાં, સંશોધકો ક્યારેય કરતાં વધુ ગણતરી કરી શકે છે, પરંતુ તેનો અર્થ એ નથી કે તેઓએ માત્ર હાંકેલા ગણાય તે શરૂ કરવું જોઈએ. તેના બદલે, સંશોધકોએ પૂછવું જોઈએ: શું વસ્તુઓ ગણાય છે? આ એક સંપૂર્ણપણે વ્યક્તિલક્ષી બાબત જેવું લાગે છે, પરંતુ કેટલાક સામાન્ય પેટર્ન છે
વારંવાર વિદ્યાર્થીઓ તેમના ગણના સંશોધનને ઉત્સાહિત કરે છે: હું એવી કોઈ ગણતરી કરું છું જે કોઈએ ક્યારેય પહેલાં ગણાવી નથી. ઉદાહરણ તરીકે, એક વિદ્યાર્થી એવું કહી શકે છે કે ઘણા લોકોએ પ્રવાસીઓનો અભ્યાસ કર્યો છે અને ઘણા લોકોએ જોડિયાનો અભ્યાસ કર્યો છે, પરંતુ કોઈએ પ્રયાણ જોડિયાનો અભ્યાસ કર્યો નથી. મારા અનુભવમાં, આ વ્યૂહરચના, જે હું ગેરહાજરીથી પ્રેરણા કરું છું, તે સામાન્ય રીતે સારા સંશોધન તરફ દોરી જતું નથી. ગેરહાજરીથી પ્રોત્સાહન એવું કહીને જેવું છે કે ત્યાં એક છિદ્ર છે, અને હું તેને ભરવા માટે ખૂબ જ સખત કામ કરીશ. પરંતુ દરેક છિદ્રને ભરવાની જરૂર નથી.
ગેરહાજરીથી પ્રેરિત થવાને બદલે, હું વિચારું છું કે મહત્વપૂર્ણ અથવા રસપ્રદ (અથવા આદર્શ રીતે બંને) સંશોધન પ્રશ્નો શોધવાનું વધુ સારું વ્યૂહરચના છે. આ બંને શબ્દો વ્યાખ્યાયિત કરવા માટે ખૂબ જ મુશ્કેલ છે, પરંતુ મહત્વપૂર્ણ સંશોધન વિશે વિચારવાનો એક માર્ગ એ છે કે તેની પાસે કેટલીક માપી શકાય તેવી અસર અથવા ફીડ્સ છે, જે નીતિ ઘડવૈયાઓ દ્વારા મહત્વપૂર્ણ નિર્ણયોમાં છે. ઉદાહરણ તરીકે, બેરોજગારીના દરને માપવું મહત્વનું છે કારણ કે તે અર્થતંત્રનું સૂચક છે જે નીતિના નિર્ણયોને ચલાવે છે. સામાન્ય રીતે, મને લાગે છે કે સંશોધકોને શું મહત્વનું છે તે ખૂબ સારી સમજ છે. તેથી, આ વિભાગના બાકીના ભાગમાં, હું બે ઉદાહરણો આપવા જઈ રહ્યો છું જ્યાં મને લાગે છે કે ગણતરી રસપ્રદ છે. દરેક કિસ્સામાં, સંશોધકો અયોગ્ય ગણતા ન હતા; તેના બદલે, તેઓ ખૂબ જ ચોક્કસ સેટિંગ્સમાં ગણતરી કરતા હતા કે જે સામાજિક સિસ્ટમો કેવી રીતે કાર્ય કરે છે તે વિશે વધુ સામાન્ય વિચારોમાં મહત્વપૂર્ણ સૂક્ષ્મદ્રષ્ટિનું પ્રકાશન કરે છે. બીજા શબ્દોમાં કહીએ તો, આ ખાસ ગણનાત્મક કસરતોને રસપ્રદ બનાવે છે તે ઘણું બધું ડેટા નથી, આ વધુ સામાન્ય વિચારોથી આવે છે.
ગણતરીની સરળ શક્તિનું એક ઉદાહરણ હેનરી ફાબર (2015) ન્યૂ યોર્ક સિટી ટેક્સી ડ્રાઇવરોના વર્તનનો અભ્યાસ પરથી આવે છે. તેમ છતાં આ જૂથ સ્વાભાવિક રીતે રસપ્રદ ન બોલ શકે, તે મજૂર અર્થશાસ્ત્રમાં બે સ્પર્ધાત્મક સિદ્ધાંતો પરીક્ષણ માટે વ્યૂહાત્મક રિસર્ચ સાઇટ છે . ફાબરના સંશોધન માટે, ટેક્સી ડ્રાઈવરોના કામના પર્યાવરણ વિશે બે મહત્વના લક્ષણો છે: (1) તેમની કલાકદીઠ વેતન દિવસ-થી-દિવસે બદલાય છે, જે હવામાન જેવી પરિબળો પર આધારિત છે અને (2) કલાકોની સંખ્યા કામ તેમના નિર્ણયોના આધારે દરેક દિવસમાં વધઘટ થઈ શકે છે. આ લક્ષણો કલાકદીઠ વેતન અને કામ કરેલ કલાક વચ્ચેના સંબંધ વિશે રસપ્રદ પ્રશ્ન તરફ દોરી જાય છે. અર્થશાસ્ત્રમાં નિયોક્લાસિકલ મૉડલનો અંદાજ છે કે ટેક્સી ડ્રાઈવરો એવા દિવસો પર વધુ કાર્ય કરશે કે જ્યાં તેમની પાસે કલાકમાં વધુ વેતન હોય. વૈકલ્પિક રીતે, વર્તણૂંક અર્થશાસ્ત્રના મોડલ બરાબર વિરુદ્ધની આગાહી કરે છે. જો ડ્રાઇવરો કોઈ ચોક્કસ આવક લક્ષ્ય નિર્ધારિત કરે તો - દરરોજ $ 100 અને તે લક્ષ્યાંક પૂર્ણ થાય ત્યાં સુધી કામ કરો, પછી ડ્રાઇવર્સ દિવસો પર વધુ સમય કામ કરશે, જે વધુ કમાણી કરે છે. ઉદાહરણ તરીકે, જો તમે લક્ષ્ય કમાનાર હોત, તો તમે એક સારા દિવસ (કલાક દીઠ 25 ડોલર) અને ખરાબ દિવસ ($ 20 પ્રતિ કલાક) પર પાંચ કલાક કામ કરી શકો છો. તેથી, શું ડ્રાઇવરો દિવસમાં વધુ કલાકના વેતન સાથે (વધુ નિયોક્લાસિકલ મોડલ દ્વારા આગાહી કરે છે) અથવા ઓછા કલાકની વેતન (વર્તણૂકીય આર્થિક મોડેલ દ્વારા આગાહી) સાથે દિવસોમાં વધુ કલાકો કામ કરે છે?
આ પ્રશ્નના જવાબ માટે, ફર્બરએ 2009 થી 2013 સુધી ન્યૂ યોર્ક સિટી કેબ દ્વારા લેવામાં આવેલી દરેક ટેક્સી સફર પર ડેટા પ્રાપ્ત કર્યો છે, જે હવે જાહેરમાં ઉપલબ્ધ છે તે ડેટા. આ ડેટા - જે ઇલેક્ટ્રોનિક મીટર દ્વારા એકત્રિત કરવામાં આવ્યા હતા જેમાં શહેરને ઉપયોગમાં લેવા માટે ટેક્સીઓની આવશ્યકતા છે-દરેક ટ્રિપ વિશેની માહિતીનો સમાવેશ કરો: પ્રારંભ સમય, પ્રારંભ સ્થાન, સમાપ્તિ સમય, અંતિમ સ્થાન, ભાડું અને ટિપ (જો ટીપ ક્રેડિટ કાર્ડથી ચૂકવવામાં આવે તો) . આ ટેક્સી મીટર ડેટાનો ઉપયોગ કરીને, ફર્બરને જાણવા મળ્યું છે કે મોટાભાગના ડ્રાઇવરો દિવસો પર વધુ કામ કરે છે જ્યારે વેતન ઊંચી હોય છે, નિયોક્લાસિકલ સિદ્ધાંત સાથે સુસંગત છે.
આ મુખ્ય તારણો ઉપરાંત, ફર્બર વિભિન્નતા અને ગતિશીલતાની વધુ સારી સમજ માટે ડેટાના કદનો ઉપયોગ કરવા સક્ષમ હતો. સમય જતાં, નવા ડ્રાઇવરો ધીમે ધીમે ઉચ્ચ વેતન દિવસોમાં વધુ કલાકો કામ કરતા શીખે છે (દા.ત., તેઓ નિયોક્લાસિકલ મોડેલની આગાહી કરે છે તે પ્રમાણે વર્તે છે). અને નવા ડ્રાઈવરો જે લક્ષ્ય કમાણી કરનારની જેમ વર્તે છે તેઓ વધુ ટેક્સી ડ્રાઇવરો છોડી જવાની શક્યતા છે. આ વધુ બારીક તારણો, જે વર્તમાન ડ્રાઇવર્સના અવલોકન કરાયેલા વર્તનને સમજાવવામાં મદદ કરે છે, ફક્ત ડેટાસેટના કદને કારણે શક્ય છે. અગાઉના અભ્યાસમાં શોધી શકાય તેવું અશક્ય હતું, જે ટૂંકા ગાળામાં થોડો સમયથી ટેક્સી ડ્રાઈવરો (Camerer et al. 1997) પેપર ટ્રીપ (Camerer et al. 1997) .
ફાર્બરનો અભ્યાસ મોટા ડેટા સ્રોતનો ઉપયોગ કરીને રિસર્ચ માટે શ્રેષ્ઠ-કેસ દૃશ્યની નજીક હતો કારણ કે શહેર દ્વારા એકત્રિત કરવામાં આવેલી માહિતી તે ડેટાથી ખૂબ નજીક છે જે ફારબેરે એકત્રિત કરી હશે (એક તફાવત એ છે કે ફારર્ને કુલ ડેટા માગ્યા હતા વેતન-ભાડા વત્તા ટીપ્સ -પરંતુ શહેરના ડેટામાં ફક્ત ક્રેડિટ કાર્ડ દ્વારા ચૂકવવામાં આવેલી ટિપ્સ શામેલ છે). જો કે, એકલા ડેટા પૂરતા ન હતા. ફારર્બના સંશોધનની ચાવીએ ડેટાને રસપ્રદ પ્રશ્ન ઉઠાવ્યો હતો, આ પ્રશ્ન માત્ર આ વિશિષ્ટ સેટિંગને બાદ કરતા મોટા અસરો ધરાવે છે.
ગણતરીની વસ્તુઓનો બીજો દાખલો ચીની સરકાર દ્વારા ગેરી કિંગ, જેનિફર પાન અને મોલી રોબર્ટ્સ (2013) દ્વારા ઓનલાઇન સેન્સરશીપ દ્વારા સંશોધનમાંથી આવે છે. આ કિસ્સામાં, તેમ છતાં, સંશોધકોએ પોતાનું મોટું ડેટા એકત્ર કરવું પડ્યું હતું અને તેમને હકીકત એ છે કે તેમનો ડેટા અપૂર્ણ છે તેની સાથે વ્યવહાર કરવો હતો.
કિંગ અને સહકર્મીઓ હકીકત એ છે કે ચાઇના માં સોશિયલ મીડિયા પોસ્ટ્સ એક પ્રચંડ રાજ્ય ઉપકરણ કે જે હજારો લોકો સમાવેશ થાય છે માનવામાં આવે છે સેન્સર દ્વારા પ્રેરિત કરવામાં આવી હતી સંશોધકો અને નાગરિકો, જોકે, આ સેન્સર કેવી રીતે સામગ્રી કાઢી નાખવા જોઈએ તે નક્કી કેવી રીતે ઓછી સમજ છે. ચાઇનાના વિદ્વાનોમાં વિવાદાસ્પદ અપેક્ષાઓ છે કે જેના વિશેની પોસ્ટ્સને કાઢી નાખવાની સૌથી વધુ સંભાવના છે. કેટલાક માને છે કે સેન્સર એવી બાબતો પર ધ્યાન કેન્દ્રિત કરે છે કે જે રાજ્યની ટીકા કરે છે, જ્યારે અન્ય લોકો માને છે કે તેઓ પોસ્ટ પર ધ્યાન કેન્દ્રિત કરે છે જે સામૂહિક વર્તનને પ્રોત્સાહન આપે છે, જેમ કે વિરોધ. આમાંથી કઈ અપેક્ષાઓ સાચી છે તે જાણવાથી સંશોધકો માટે ચીન અને અન્ય સરમુખત્યારશાહી સરકારો કે જે સેન્સરશીપમાં સંલગ્ન છે તે સમજવા માટેના આઘાત દર્શાવે છે. તેથી, રાજા અને સહકર્મીઓ એવી પોસ્ટ્સની સરખામણી કરવા માંગતા હતા કે જે પ્રકાશિત કરવામાં આવી હતી અને ત્યારબાદ તે પોસ્ટ્સ સાથે કાઢી નાખવામાં આવી હતી કે જે પ્રકાશિત થઈ અને ક્યારેય કાઢી નખાયા.
આ પોસ્ટ ભેગા સામેલ સંબંધિત પોસ્ટ્સ વિવિધ પાનું લેઆઉટ શોધવાની, અને પછી આ પોસ્ટ revisiting જોવા માટે કે જે ત્યારબાદ કાઢી હતી સાથે 1,000 કરતાં વધુ ચિની સામાજિક મીડિયા વેબસાઇટ્સ-દરેક ક્રોલ અમેઝિંગ ઈજનેરી પરાક્રમ. મોટા પાયે વેબ ક્રાઉલિંગ સાથે સંકળાયેલ સામાન્ય એન્જિનિયરિંગ સમસ્યાઓ માટે વધુમાં, આ પ્રોજેક્ટ વધારાનું પડકાર છે કે તે અત્યંત ઝડપી હોય છે, કારણ કે ઘણા સેન્સર પોસ્ટ્સ કરતાં ઓછી 24 કલાકમાં ઉતારી લેવામાં આવે છે માટે જરૂરી હતી. અન્ય શબ્દોમાં, ધીમી ક્રાઉલર પોસ્ટ્સ સેન્સર હતા ઘણાં ચૂકી જશે. વધુમાં, ક્રોલર્સ કદાચ સામાજિક મીડિયા વેબસાઇટ્સ ઍક્સેસ બ્લૉક અથવા તો અભ્યાસ જવાબમાં તેમની નીતિઓ બદલી જ્યારે શોધ છૂટવા આ બધી માહિતી સંગ્રહ કરી હતી.
આ મોટા પાયે ઈજનેરી કાર્ય પૂર્ણ થઈ ગયું તે સમય સુધીમાં, કિંગ અને સહકર્મીઓએ 85 અલગ અલગ પ્રસ્તાવિત વિષયો પર લગભગ 11 મિલિયન પોસ્ટ મેળવી હતી, દરેક સંવેદનશીલતાના સ્તર સાથે. ઉદાહરણ તરીકે, ઉચ્ચ સંવેદનશીલતા વિષય એ વેઇવી, અસંતુષ્ટ કલાકાર છે; મધ્ય સંવેદનશીલતાનો વિષય ચિની ચલણની પ્રશંસા અને અવમૂલ્યન છે, અને ઓછી સંવેદનશીલતાની વિષય વિશ્વ કપ છે. આ 11 મિલિયન પોસ્ટ્સમાંથી લગભગ 2 મિલિયન સેન્સર કરવામાં આવી હતી. કેટલેક અંશે આશ્ચર્યજનક રીતે, કિંગ અને સહકર્મીઓએ શોધી કાઢ્યું હતું કે અત્યંત સંવેદનશીલ વિષયો પરના પોસ્ટ્સ મધ્ય-અને ઓછી સંવેદનશીલતાવાળા વિષયો પરની પોસ્ટ્સ કરતાં માત્ર થોડી વધુ વાર સેન્સર કરવામાં આવ્યાં છે. બીજા શબ્દોમાં કહીએ તો, ચીનની સેન્સર એઇ વેઇવેઇને પોસ્ટમાં સેન્સર કરવાની શક્યતા છે જે વિશ્વ કપનો ઉલ્લેખ કરે છે. આ તારણો વિચારને સમર્થન આપતા નથી કે સરકાર સંવેદનશીલ મુદ્દાઓ પરની બધી પોસ્ટ્સને સેન્સર કરે છે.
વિષય દ્વારા સેન્સરશિપ દરની આ સરળ ગણતરી ભ્રામક હોઇ શકે છે, જોકે. ઉદાહરણ તરીકે, સરકાર એવી પોસ્ટ્સને સેન્સર કરી શકે છે કે જે એ વેઇવીની સમર્થન ધરાવે છે, પરંતુ તેની ટીકા કરતા હોદ્દા છોડી દો. પોસ્ટ્સ વચ્ચે વધુ કાળજીપૂર્વક તફાવત કરવા માટે, સંશોધકોએ દરેક પોસ્ટની લાગણીને માપવા માટે જરૂરી છે. કમનસીબે, ખૂબ કામ હોવા છતાં, પૂર્વ અસ્તિત્વમાંના શબ્દકોશોનો ઉપયોગ કરીને લાગણીની શોધની સંપૂર્ણ સ્વયંસંચાલિત પદ્ધતિઓ ઘણી પરિસ્થિતિઓમાં હજુ પણ ખૂબ જ સારી નથી (વિભાગ 2.3.9 માં વર્ણવેલ 11 સપ્ટેમ્બર, 2001 ના ભાવનાત્મક સમયરેખાને લગતી સમસ્યાઓ પર વિચાર કરો). તેથી, કિંગ અને સહકર્મીઓએ 11 મિલિયન સોશિયલ મીડિયા પોસ્ટ્સને લેબલ કરવાનો માર્ગ જરૂરી હતો કે શું તેઓ (1) રાજ્યના ટીકાકાર, (2) રાજ્યના સહાયક, અથવા (3) ઘટનાઓ વિશે અપ્રસ્તુત અથવા હકીકતલક્ષી અહેવાલો. આ મોટા પાયે નોકરીની જેમ લાગે છે, પરંતુ તે એક શક્તિશાળી યુક્તિનો ઉપયોગ કરીને હલ કરી જે માહિતી વિજ્ઞાનમાં સામાન્ય છે પરંતુ સામાજિક વિજ્ઞાનમાં ભાગ્યે જ દુર્લભ છે: નિરીક્ષણ કરેલ શિક્ષણ ; આકૃતિ 2.5 જુઓ.
સૌપ્રથમ, પૂર્વપ્રોસેસિંગ નામના એક પગલામાં, સંશોધકોએ સોશિયલ મીડિયા પોસ્ટ્સને દસ્તાવેજ-સમયની મેટ્રિક્સમાં રૂપાંતરિત કરી હતી, જેમાં દરેક દસ્તાવેજ અને એક કૉલમની એક પંક્તિ હતી કે જે પોસ્ટમાં વિશિષ્ટ શબ્દ (દા.ત. વિરોધ અથવા ટ્રાફિક) શામેલ છે તે રેકોર્ડ કરવામાં આવ્યું હતું. . આગળ, સંશોધન મદદનીશોના એક જૂથએ પોસ્ટ્સના નમૂનાનું નેતૃત્વ કર્યું. તે પછી, તેઓ આ હેન્ડલ લેબલવાળા ડેટાને મશીન લર્નિંગ મોડેલ બનાવવા માટે ઉપયોગમાં લીધા હતા જે તેના લક્ષણો પર આધારિત પોસ્ટની લાગણીનું અનુમાન કરી શકે છે. છેવટે, તેમણે આ મોડેલનો ઉપયોગ તમામ 11 મિલિયન પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા માટે કર્યો.
આમ, મેન્યુઅલ વાંચવા અને લેબલ કરવાના 11 મિલિયનની પોસ્ટ્સને બદલે- જે લોજિસ્ટિક રીતે અશક્ય હશે-કિંગ અને સહકર્મીઓએ મેન્યુઅલી નાની સંખ્યામાં પોસ્ટ્સનું લેબલ કર્યું અને પછી તમામ પોસ્ટ્સની લાગણીનો અંદાજ કાઢવા નિરીક્ષણ કરેલ શિક્ષણનો ઉપયોગ કર્યો. આ વિશ્લેષણ પૂરું કર્યા બાદ, તેઓ એવા નિષ્કર્ષ પર આવ્યા હતા કે, આશ્ચર્યજનક બાબત એ છે કે, પોસ્ટ કાઢી નાંખવાની સંભાવના કોઈ સંબંધી નથી કે તે રાજ્યની ટીકાત્મક અથવા રાજ્યની સહાયક હતી.
અંતે રાજા અને તેના સાથીઓએ શોધ્યું હતું કે માત્ર ત્રણ પ્રકારની પોસ્ટ્સ નિયમિત રીતે સેન્સર કરવામાં આવી હતી: પોર્નોગ્રાફી, સેન્સરની ટીકા, અને જે સામૂહિક સક્રિય કલા વીજસ્થિતિમાન ધરાવતા હતા (એટલે કે મોટા પાયે વિરોધીઓ તરફ દોરી જાય છે). કાઢી નાખવામાં આવેલી પોસ્ટ્સની મોટી સંખ્યા અને પોસ્ટ્સ કાઢી નખાયા હતા તે જોઈને, કિંગ અને સહકાર્યકરો એ જાણવા સક્ષમ હતા કે સેન્સર્સ કેવી રીતે કામ કરે છે અને ગણતરી કરી રહ્યા છે. વધુમાં, આ પુસ્તકમાં થતી એક એવી થીમની રજૂઆત કરે છે, જે નિરીક્ષણ કરેલ શિક્ષણ અભિગમ કે જે તેમણે કેટલાક પરિણામો હાથ-લેબલિંગ કર્યા હતા અને પછી બાકીના લેબલ માટે મશીન લર્નિંગ મોડેલનું નિર્માણ કર્યું હતું - ડિજિટલ વયમાં સામાજિક સંશોધનમાં ખૂબ જ સામાન્ય બની ગયું છે . તમે પ્રકરણ 3 (પ્રશ્નો પૂછવા) અને 5 (સામૂહિક જોડાણનું સર્જન) માં આકૃતિ 2.5 જેવા ચિત્રો જોશો; આ અનેક વિચારોમાંથી એક છે જે બહુવિધ પ્રકરણોમાં દેખાય છે.
આ ઉદાહરણો- ન્યૂ યોર્કમાં ટેક્સી ડ્રાઇવરોનું કામચલાઉ વર્તણૂંક અને ચીની સરકારના સામાજિક માધ્યમ સેન્સરશીપના વર્તન-દર્શાવે છે કે મોટા પ્રમાણમાં માહિતી સ્ત્રોતોની સરખામણીમાં સરળ ગણાય છે, કેટલીક પરિસ્થિતિઓમાં, રસપ્રદ અને મહત્વપૂર્ણ સંશોધન તરફ દોરી જાય છે બન્ને કિસ્સાઓમાં, જોકે, સંશોધકોએ મોટા ડેટા સ્રોતમાં રસપ્રદ પ્રશ્નો ઉભા કર્યા હતા; માહિતી પોતે જ પૂરતી ન હતી