મોટાભાગના લોકોના મોટા ડેટા સ્રોત ધરાવતા કેટલાક લોકોના સર્વેક્ષણ ડેટાને ભેગી કરવા માટે અનુમાનિત મોડેલનો ઉપયોગ કરીને પૂછવામાં આવ્યું.
મોજણી અને મોટા ડેટા સ્રોતોને એકઠાં કરવા માટે એક અલગ રીત એવી પ્રક્રિયા છે કે જેને હું વિસ્તૃત પૂછવા કહીશ. વિસ્તૃત પૂછવામાં, સંશોધક એક સ્કેલ અથવા ગ્રેન્યુલારિટીના અંદાજોનું નિર્માણ કરવા માટે મોટા ડેટા સ્રોત સાથેના સર્વેક્ષણ ડેટાના નાના પ્રમાણમાં ભેગા કરવા માટે અનુમાનિત મોડેલનો ઉપયોગ કરે છે જે ડેટા સ્રોત સાથે વ્યક્તિગત રીતે શક્ય નથી. વિસ્તૃત પૂછપરછનો એક મહત્વપૂર્ણ ઉદાહરણ જોશુઆ બ્લ્યુમેન્સ્ટૉકના કામ પરથી આવે છે, જે ગરીબ દેશોમાં વિકાસના માર્ગદર્શનને મદદ કરી શકે તે માહિતી એકત્રિત કરવા માગતા હતા. ભૂતકાળમાં, આ પ્રકારની માહિતી એકત્રિત કરનારા સંશોધકોને સામાન્ય રીતે બે પૈકી એક અભિગમ લેવો પડ્યો હતો: સેમ્પલ સર્વેક્ષણો અથવા સેન્સિસ નમૂના સર્વેક્ષણો, જ્યાં સંશોધકો નાના સંખ્યામાં લોકોની મુલાકાત લે છે, તે લવચીક, સમયસર અને પ્રમાણમાં સસ્તા હોઇ શકે છે. જો કે, આ સર્વેક્ષણો, કારણ કે તેઓ નમૂના પર આધારિત છે, ઘણી વખત તેમના ઠરાવમાં મર્યાદિત છે એક નમૂનાનું સર્વેક્ષણ સાથે, ચોક્કસ ભૌગોલિક પ્રદેશો અથવા ચોક્કસ વસ્તીવિષયક જૂથો વિશે અંદાજ કાઢવા માટે ઘણીવાર મુશ્કેલ હોય છે. બીજી બાજુ, દરેક વ્યક્તિને ઇન્ટરવ્યૂ કરવાનો પ્રયાસ કરે છે, અને તેથી તે નાના ભૌગોલિક પ્રદેશો અથવા વસ્તીવિષયક જૂથો માટેના અંદાજોનું ઉત્પાદન કરવા માટે વાપરી શકાય છે. પરંતુ સેન્સસ સામાન્ય રીતે મોંઘા હોય છે, ધ્યાન કેન્દ્રિત કરતા સાંકડા હોય છે (તેઓ માત્ર થોડા જ પ્રશ્નોનો સમાવેશ કરે છે), સમયસર નહીં (તેઓ દર 10 વર્ષે), (Kish 1979) નિયત સમયપત્રક પર થાય છે. સેમ્પલ સર્વેક્ષણો અથવા સેન્સિસ સાથે અટવાઇ રહેલા કરતાં, કલ્પના કરો જો સંશોધકો બંનેની શ્રેષ્ઠ લાક્ષણિકતાઓને સંયુક્ત કરી શકે છે. કલ્પના કરો જો સંશોધકો દરરોજ દરેક વ્યક્તિને દરેક પ્રશ્ન પૂછશે. દેખીતી રીતે, આ સર્વવ્યાપક, હંમેશા-પરનું સર્વેક્ષણ એક પ્રકારનું સામાજિક વિજ્ઞાન કાલ્પનિક છે. પરંતુ તે એવું દેખાય છે કે આપણે ઘણા લોકોના ડિજિટલ ટ્રેસ ધરાવતા નાના લોકોના સેમ્પલ પ્રશ્નોના મિશ્રણ દ્વારા આનો અંદાજ શરૂ કરી શકીએ છીએ.
બ્લ્યુમેન્સ્ટોકની રુચાણ શરૂ થઇ ત્યારે તેમણે રવાંડામાં સૌથી મોટું મોબાઇલ ફોન પ્રદાતા સાથે ભાગીદારી કરી અને કંપનીએ 2005 અને 2009 ની વચ્ચે 1.5 મિલિયન ગ્રાહકો પાસેથી અનામી ટ્રાન્ઝેક્શન રેકોર્ડ્સ પૂરા પાડ્યા હતા. આ રેકોર્ડ્સમાં દરેક કોલ અને ટેક્સ્ટ મેસેજ, જેમ કે શરૂઆતનો સમય, સમયગાળો , અને કોલ કરનાર અને રીસીવરનું આશરે ભૌગોલિક સ્થાન. આંકડાકીય મુદ્દાઓ વિશે વાત કરતા પહેલાં, તે ધ્યાન દોરે છે કે આ પ્રથમ પગલું ઘણા સંશોધકો માટે ખૂબ જ સખત છે. મેં પ્રકરણ 2 માં વર્ણવ્યું તેમ, મોટા ભાગના મોટા ડેટા સ્રોતો સંશોધકો માટે અસમર્થનીય છે. ટેલિફોન મેટા-ડેટા, ખાસ કરીને, ખાસ કરીને અપ્રાપ્ય છે કારણ કે તે અનામિત કરવું મૂળભૂત રીતે અશક્ય છે અને તેમાં લગભગ ચોક્કસપણે માહિતી છે કે જે સહભાગીઓ સંવેદનશીલ (Mayer, Mutchler, and Mitchell 2016; Landau 2016) વિચારણા કરશે. આ ચોક્કસ કિસ્સામાં, સંશોધકો માહિતીને સુરક્ષિત રાખવા માટે સાવચેત હતા અને તેમની કામગીરીની દેખરેખ ત્રીજા પક્ષ દ્વારા કરવામાં આવી હતી (એટલે કે, તેમના આઇઆરબી). પ્રકરણ 6 માં હું આ નૈતિક મુદ્દાઓ પર વધુ વિગત આપીશ.
બ્લુમેનસ્ટોકને સંપત્તિ અને સુખાકારી માપવામાં રસ હતો પરંતુ આ લક્ષણો કોલ રેકર્ડમાં સીધા નથી. બીજા શબ્દોમાં કહીએ તો, આ સંશોધન માટે આ કોલ રેકોર્ડ્સ અપૂર્ણ છે - મોટા ડેટા સ્ત્રોતોનું એક સામાન્ય લક્ષણ જે પ્રકરણ 2 માં વિગતવાર ચર્ચા કરવામાં આવ્યું હતું. જોકે, એવું લાગે છે કે કોલ રેકોર્ડ્સમાં કદાચ કેટલીક માહિતી છે જે પરોક્ષ રીતે સંપત્તિ અને સુખાકારી આ સંભાવનાને જોતાં, બ્લુમેનેસ્કોકે પૂછ્યું હતું કે કોઈ પણ વ્યક્તિ તેમના કોલ રેકોર્ડ્સ પર આધારિત સર્વેક્ષણમાં કેવી રીતે પ્રતિસાદ આપશે તે આગાહી કરવા માટે મશીન શિક્ષણ મોડેલને તાલીમ આપવાનું શક્ય છે કે કેમ તે પૂછવામાં આવ્યું છે. જો આ શક્ય હતું, તો બ્લુમેનસ્ટોક આ 1.5 લાખ ગ્રાહકોના સર્વેક્ષણના પ્રતિભાવની આગાહી કરવા માટે આ મોડેલનો ઉપયોગ કરી શકે છે.
આવા મોડેલને બનાવવા અને તાલીમ આપવા માટે, કિમલી ઇન્સ્ટિટ્યૂટ ઓફ સાયન્સ એન્ડ ટેક્નોલોજીના બ્લુમેનેસ્ટોક અને રિસર્ચ સહાયકોએ આશરે હજાર ગ્રાહકોનો એક રેન્ડમ નમૂનાનો ઉપયોગ કર્યો હતો. સંશોધકોએ આ પ્રોજેક્ટના લક્ષ્યાંકોને સહભાગીઓને સમજાવી, કોલ રેકોર્ડ્સને સર્વેક્ષણના પ્રતિસાદોને લિંક કરવા તેમની સંમતિ માટે પૂછ્યું, અને પછી તેમની સંપત્તિ અને સુખાકારીને માપવા માટે તેમને શ્રેણીબદ્ધ પ્રશ્નો પૂછ્યા, જેમ કે "શું તમે તમારી માલિકી ધરાવો છો? રેડિયો? "અને" શું તમે સાયકલ ધરાવો છો? "(આંશિક સૂચિ માટે આકૃતિ 3.14 જુઓ). સર્વેક્ષણમાંના તમામ સહભાગીઓને નાણાકીય રીતે સરભર કરવામાં આવ્યાં હતાં
આગળ, બ્લુમેનેસ્ટોકે મશીન શિક્ષણમાં સામાન્ય બે-પગલાની પદ્ધતિનો ઉપયોગ કર્યો હતો: વિશેષતાવાળી એન્જીનિયરિંગ પછી નિરીક્ષણ કરેલ શિક્ષણ. પ્રથમ, ફીચર એન્જિનીયરિંગ સ્ટેપમાં, જે દરેકને ઇન્ટરવ્યુ લેવામાં આવ્યો હતો, બ્લુમેનેસ્ટોકે કોલ રેકોર્ડ્સને દરેક વ્યક્તિ વિશે લાક્ષણિકતાઓના સેટમાં રૂપાંતરિત કર્યા; માહિતી વૈજ્ઞાનિકો આ લાક્ષણિકતાઓ "લક્ષણો" કહી શકે છે અને સામાજિક વૈજ્ઞાનિકો તેમને "ચલો" કહેશે. ઉદાહરણ તરીકે, દરેક વ્યક્તિ માટે, બ્લુમેનેસ્કોકે પ્રવૃત્તિ સાથે કુલ દિવસોની ગણતરી કરી છે, અલગ વ્યક્તિઓની સંખ્યા જેની સાથે વ્યક્તિ સંપર્કમાં છે એરટાઇમ પર ખર્ચવામાં આવતી રકમ, અને તેથી વધુ. ક્રિટિકલલી, સારી સુવિધાવાળા એન્જિનિયરિંગને સંશોધન સેટિંગના જ્ઞાનની જરૂર છે. ઉદાહરણ તરીકે, જો સ્થાનિક અને આંતરરાષ્ટ્રીય કૉલ્સ વચ્ચે તફાવત હોવાનું (જો આપણે આંતરરાષ્ટ્રીય સ્તરે ધનિક હોવું જોઈએ તેવા લોકોની અપેક્ષા રાખી શકીએ), તો આ ફીચર એન્જિનીયરીંગ સ્ટેજમાં જ કરવું જોઈએ. રવાન્ડાની થોડી સમજણ ધરાવતા સંશોધકમાં આ સુવિધાનો સમાવેશ થતો નથી, અને પછી મોડેલની આગાહીયુક્ત કામગીરીને સહન કરવું પડશે.
આગળ, નિરીક્ષણ કરેલ અધ્યયન પગલામાં, બ્લુમેનેસ્ટોકે તેમના લક્ષણો પર આધારિત દરેક વ્યક્તિ માટે મોજણી પ્રતિસાદની આગાહી કરવા માટે એક મોડેલ બનાવ્યું. આ કિસ્સામાં, બ્લુમેનેસ્ચોલે લોજિસ્ટિક રીગ્રેસનનો ઉપયોગ કર્યો હતો, પરંતુ તે અન્ય આંકડાકીય અથવા મશીન શીખવાની રીતોનો ઉપયોગ કરી શક્યો હોત.
તો તે કેવી રીતે કામ કરે છે? બ્લ્યુમેન્સ્ટૉક એ પ્રશ્નોના સર્વેક્ષણનો જવાબ આપવા માટે સક્ષમ હતો કે "શું તમે રેડિયો ધરાવો છો?" અને "શું તમે સાયકલ ધરાવો છો?" કોલ રેકોર્ડ્સમાંથી મેળવવામાં આવતી સુવિધાઓનો ઉપયોગ કરીને? તેના અનુમાનિત મોડેલના પ્રદર્શનનું મૂલ્યાંકન કરવા માટે, બ્લુમેનેસ્ચને ક્રોસ-વેલિડેશનનો ઉપયોગ કર્યો હતો, જે સામાન્ય રીતે ડેટા સાયન્સમાં ઉપયોગમાં લેવાતી એક તકનીક હતી પરંતુ સામાજિક વિજ્ઞાનમાં ભાગ્યે જ. ક્રોસ-વેલિડેશનનો ધ્યેય તે તાલીમ દ્વારા અને ડેટાના જુદા-જુદા સબસેટ્સ પર પરીક્ષણ દ્વારા મોડેલના અનુમાનિત દેખાવનું વાજબી મૂલ્યાંકન પૂરું પાડવાનું છે. ખાસ કરીને, બ્લુમેનસ્ટોક તેના ડેટાને 100 લોકોના 10 હિસ્સામાં વિભાજિત કરે છે. પછી, તેમણે તેમના મોડેલને તાલીમ આપવા માટે કુલ 9 ભાગોનો ઉપયોગ કર્યો અને બાકીના ભાગમાં પ્રશિક્ષિત મોડેલની આગાહીયુક્ત મૂલ્યાંકનનું મૂલ્યાંકન કરવામાં આવ્યું. તેમણે આ પ્રક્રિયાને 10 વખત પુનરાવર્તન કર્યું - દરેક ડેટાને માન્યતાના ડેટા તરીકે એક વળાંક મળતા-અને પરિણામોનું સરેરાશ કર્યું.
કેટલાંક લક્ષણો માટે આગાહીઓની સચોટતા ઉચ્ચ હતી (આંકડા 3.14); ઉદાહરણ તરીકે, બ્લ્યુમેનસ્ટોક 97.6% ચોકસાઈ સાથે આગાહી કરી શકે છે જો કોઈ વ્યક્તિ પાસે રેડિયો છે આ પ્રભાવશાળી સાબિત થઇ શકે છે, પરંતુ એક સરળ વિકલ્પ સામે જટિલ આગાહીની પદ્ધતિની તુલના કરવી હંમેશા મહત્વપૂર્ણ છે. આ કિસ્સામાં, એક સરળ વિકલ્પ એ છે કે દરેક વ્યક્તિ સૌથી સામાન્ય જવાબ આપશે. ઉદાહરણ તરીકે, 97.3% ઉત્તરદાતાઓએ રેડિયો ધરાવતા હોવાનું નોંધ્યું હતું, જો બ્લુમેનેસ્કોકે આગાહી કરી હતી કે દરેક વ્યક્તિ રેડિયો ધરાવતા હોવાનું જાણ કરશે તો તેની પાસે 97.3% ની ચોકસાઇ હોત, જે તેની વધુ જટિલ પ્રક્રિયા (97.6% ચોકસાઇ) ની કામગીરીની સમાન છે. . બીજા શબ્દોમાં કહીએ તો, બધા ફેન્સી ડેટા અને મોડેલિંગે અનુમાનિતતાની ચોકસાઈને 97.3% થી 97.6% સુધી વધારી છે. જો કે, અન્ય પ્રશ્નો માટે, જેમ કે "શું તમે સાયકલ ધરાવો છો?", આગાહીઓ 54.4% થી 67.6% સુધી સુધર્યા છે. વધુ સામાન્ય રીતે, 3.15 ની આકૃતિ બતાવે છે કે કેટલાક લક્ષણો બ્લુમેનેસ્ટોકમાં સરળ બેઝલાઇનની આગાહી કર્યા પછી પણ તેમાં સુધારો થયો નથી, પરંતુ તે અન્ય લક્ષણો માટે કેટલાક સુધારા હતા. ફક્ત આ પરિણામો પર જ જોતા, તેમ છતાં, તમે એમ ન વિચારી શકો કે આ અભિગમ ખાસ કરીને આશાસ્પદ છે
જો કે, માત્ર એક વર્ષ બાદ, બ્લુમેનેસ્ટોક અને બે સાથીદારો-ગેબ્રિયલ કેડામોરો અને રોબર્ટ ઓન- સાયન્સમાં વિજ્ઞાનમાં એક (Blumenstock, Cadamuro, and On 2015) નોંધપાત્ર પ્રમાણમાં સારા પરિણામો (Blumenstock, Cadamuro, and On 2015) . આ સુધારણા માટે બે મુખ્ય તકનિકી કારણો હતા: (1) તેઓ વ્યક્તિગત રીતે પ્રતિસાદો સમજાવવાનો પ્રયાસ કરતા, વધુ સુસંસ્કૃત પદ્ધતિઓ (એટલે કે ફીચર એન્જિનિયરિંગ અને વધુ સુસંસ્કૃત મોડેલથી લક્ષણોની પ્રતિસાદોનું અનુમાન કરવા) અને (2) નો ઉપયોગ કરે છે. સર્વેક્ષણના પ્રશ્નો (દા.ત., "શું તમે રેડિયો ધરાવો છો?"), તેમણે સંયુક્ત સંપત્તિ સૂચકાંકને સમજાવવાનો પ્રયાસ કર્યો. આ તકનીકી સુધારાઓનો અર્થ એ થયો કે તેઓ તેમના નમૂનાના લોકો માટે સંપત્તિની આગાહી કરવા માટે કોલ રેકોર્ડ્સનો ઉપયોગ કરવાની વાજબી કાર્ય કરી શકે છે.
નમૂનામાં લોકોની સંપત્તિની આગાહી કરતી, તે સંશોધનનો અંતિમ ધ્યેય ન હતો. યાદ રાખો કે વિકાસશીલ દેશોમાં ગરીબીનું સચોટ, ઉચ્ચ રિઝોલ્યૂશન અંદાજ ઉત્પન્ન કરવા માટે અંતિમ ધ્યેય નમૂના સર્વેક્ષણો અને સેન્સસના કેટલાક શ્રેષ્ઠ લક્ષણોને જોડવાનું હતું. આ ધ્યેય હાંસલ કરવાની તેમની ક્ષમતાનું મૂલ્યાંકન કરવા માટે, બ્લુમેનેસ્ટોક અને સહકાર્યકરોએ તેમનાં મોડલ અને તેમના ડેટાનો ઉપયોગ કરીને કોલ રેકર્ડમાં 1.5 મિલિયન લોકોની સંપત્તિની આગાહી કરી છે. અને તેઓ દરેક વ્યક્તિની નિવાસસ્થાન (અંદાજે 3.17) ના અંદાજિત સ્થળની અંદાજ કાઢવા માટે કોલ રેકોર્ડ્સમાં જડિત ભૂસ્તરીય માહિતીનો ઉપયોગ કરે છે (યાદ રાખો કે ડેટા દરેક કૉલ માટે નજીકના સેલ ટૂરનું સ્થાન ધરાવે છે). આ બે અંદાજો એકસાથે મુકીને, બ્લુમેનેસ્ટોક અને સહકર્મીઓએ સબસ્ક્રાઇબરના સંપત્તિના ભૌગોલિક વિતરણના અંદાજથી ઉત્કૃષ્ટ દ્દારા દ્વેષી ગ્રેન્યુલારિટીનું નિર્માણ કર્યું. ઉદાહરણ તરીકે, તેઓ રવાંડાના 2,148 કોશિકાઓ (દેશમાં સૌથી નાની વહીવટી એકમ) માં સરેરાશ સંપત્તિનું અનુમાન કરી શકે છે.
આ અંદાજો કેટલી સારી રીતે આ પ્રદેશોમાં ગરીબીના સ્તર સાથે મેળ ખાતા હતા? હું આ પ્રશ્નનો જવાબ આપતા પહેલાં, હું એ હકીકત પર ભાર મૂકે છે કે શંકાસ્પદ થવાનાં ઘણાં કારણો છે. ઉદાહરણ તરીકે, વ્યક્તિગત સ્તરે આગાહીઓ કરવાની ક્ષમતા ખૂબ નરમ હતી (આંકડા 3.17). અને, કદાચ વધુ મહત્વનુ, મોબાઈલ ફોન ધરાવતા લોકો મોબાઇલ ફોન વિના લોકોથી અલગ અલગ હોઈ શકે. આમ, બ્લુમેનેસ્ટોક અને સહકાર્યકરો કવરેજ ભૂલોના પ્રકારોથી પીડાઈ શકે છે, જે અગાઉ 1 9 36 ના સાહિત્યિક ડાયજેસ્ટ સર્વેક્ષણને પૂર્વગ્રહયુક્ત હતા.
તેમના અંદાજોની ગુણવત્તા જાણવા માટે, બ્લુમેનેસ્ટોક અને તેના સાથીઓને તેમની સાથે કંઇક બીજાની સરખામણી કરવાની જરૂર છે. સદનસીબે, તેમના અભ્યાસના સમયની આસપાસ જ, સંશોધકોનું બીજું જૂથ રવાંડામાં વધુ પરંપરાગત સામાજિક સર્વેક્ષણ ચાલી રહ્યું હતું. આ અન્ય સર્વે- જે વ્યાપકપણે આદરણીય જનસંખ્યા અને સ્વાસ્થ્ય સર્વે કાર્યક્રમનો એક ભાગ હતો - એક વિશાળ બજેટ હતું અને ઉચ્ચ ગુણવત્તાની પરંપરાગત પદ્ધતિઓનો ઉપયોગ કર્યો હતો. તેથી, જનસંખ્યા અને આરોગ્ય સર્વેક્ષણનો અંદાજ વાજબી રીતે ગોલ્ડ-સ્ટાન્ડર્ડ અંદાજ તરીકે ગણવામાં આવે છે. જ્યારે બે અંદાજની સરખામણી કરવામાં આવી ત્યારે, તે તદ્દન સમાન હતા (આંકડા 3.17). અન્ય શબ્દોમાં કહીએ તો, કોલ રેકોર્ડ્સ સાથેના સર્વેક્ષણના આંકડાઓના નાના જથ્થાને સંયોજિત કરીને, બ્લુમેનેસ્ટોક અને સહકર્મીઓ ગોલ્ડ-સ્ટાન્ડર્ડ અભિગમથી તુલનાત્મક અંદાજ કાઢવા સક્ષમ હતા.
એક નાસ્તિક વ્યક્તિ નિરાશા તરીકે આ પરિણામો જોઈ શકે છે. છેવટે, તેમને જોવાનો એક માર્ગ એ છે કે મોટા ડેટા અને મશીન શિક્ષણનો ઉપયોગ કરીને, બ્લુમેનેસ્ટોક અને સહકાર્યકરો અંદાજ ઉત્પન્ન કરી શક્યા હતા કે જે પહેલાથી અસ્તિત્વમાં રહેલા પદ્ધતિઓ દ્વારા વધુ વિશ્વસનીય બની શકે છે. પરંતુ મને નથી લાગતું કે આ અભ્યાસ વિશે બે કારણો માટે વિચારવાનો યોગ્ય રસ્તો છે. પ્રથમ, બ્લુમેનેસ્ટોક અને સહકાર્યકરોનો અંદાજ લગભગ 10 ગણો ઝડપી અને 50 ગણી સસ્તી હતો (જ્યારે કિંમત ચલ ખર્ચની દ્રષ્ટિએ માપવામાં આવે છે). જેમ જેમ મેં અગાઉ આ પ્રકરણમાં દલીલ કરી હતી, તેમ સંશોધકોએ તેમના ખર્ચે ખર્ચને અવગણ્યા છે. આ કિસ્સામાં, ઉદાહરણ તરીકે, ખર્ચમાં નાટ્યાત્મક ઘટાડોનો અર્થ થાય છે કે દર થોડા વર્ષો ચાલે છે - જેમ કે વસ્તીવિષયક અને આરોગ્ય સર્વેક્ષણો માટે પ્રમાણભૂત છે - આ પ્રકારના સર્વે દર મહિને ચલાવી શકાય છે, જે સંશોધકો અને નીતિ માટે અસંખ્ય લાભો પૂરા પાડશે ઉત્પાદકો શંકાસ્પદ દ્રષ્ટિકોણથી ન લેવાનું બીજું કારણ એ છે કે આ અભ્યાસમાં એક મૂળભૂત રેસીપી છે જે ઘણી જુદી-જુદી સંશોધન પરિસ્થિતિઓ માટે તૈયાર કરી શકાય છે. આ રેસીપી માત્ર બે ઘટકો અને બે પગલાં છે. આ ઘટકો (1) એક વિશાળ ડેટા સ્રોત છે જે વિશાળ અને પાતળા છે (એટલે કે, તે ઘણાં લોકો છે પરંતુ માહિતી કે જે તમને દરેક વ્યક્તિ વિશેની જરૂર નથી) અને (2) એક સર્વેક્ષણ જે સાંકડી પરંતુ જાડા છે (એટલે કે, તે માત્ર થોડાક લોકો, પરંતુ તેમાં તે માહિતી છે જે તમને તે લોકો વિશેની જરૂર છે). આ ઘટકો પછી બે તબક્કામાં જોડવામાં આવે છે. પ્રથમ, બન્ને ડેટા સ્ત્રોતોમાંના લોકો માટે, એક મશીન લર્નિંગ મોડેલ બનાવવું કે જે સર્વેક્ષણના જવાબોની આગાહી કરવા માટે મોટા ડેટા સ્રોતનો ઉપયોગ કરે છે. આગળ, મોટું ડેટા સ્રોતમાં દરેકના સર્વેક્ષણનાં જવાબોને રોકવા માટે તે મોડેલનો ઉપયોગ કરો. આમ, જો કોઈ પ્રશ્ન હોય કે જે તમે ઘણાં લોકોને પૂછવા માગો છો, તો તે લોકોના મોટા ડેટા સ્રોત જુઓ કે જેનો જવાબ તેમના જવાબની આગાહી કરવા માટે થઈ શકે છે, પછી ભલે તમે મોટા ડેટા સ્રોત વિશે કાળજી ન લે . એટલે કે, બ્લુમેનેસ્ટોક અને સહકર્મીઓ સ્વાભાવિક રીતે કોલ રેકોર્ડ્સની કાળજી લેતા નથી; તેઓ ફક્ત કોલ રેકોર્ડ્સ પર જ ધ્યાન આપતા હતા કારણ કે તેનો ઉપયોગ સર્વેક્ષણના જવાબોની આગાહી કરવા માટે થઈ શકે છે, જેના વિશે તેઓ સંભાળ રાખે છે. મોટા ડેટા સ્રોતમાં આ લાક્ષણિકતાને માત્ર પરોક્ષ રસ છે - એમ્બેડેડ પૂછવાથી અલગ પૂછે છે, જે મેં અગાઉ વર્ણવ્યું હતું.
નિષ્કર્ષમાં, બ્લુમેનેસ્ટોકનું વિસ્તૃત પૂછપરછ એ એક મોટા ડેટા સ્રોત સાથેના સંયુક્ત સર્વેક્ષણ ડેટાને એક ગોલ્ડ-સ્ટાન્ડર્ડ સર્વેક્ષણથી તુલનાત્મક અંદાજ કાઢવા માટે કરે છે. આ ચોક્કસ ઉદાહરણ વિસ્તૃત પૂછવા અને પરંપરાગત સર્વેક્ષણ પદ્ધતિઓ વચ્ચેના વેપાર-વિષ્પોને સ્પષ્ટ કરે છે. વિસ્તૃત પૂછાયેલા અંદાજો વધુ સમયસર, નોંધપાત્ર રીતે સસ્તી અને વધુ ઝીણવટભર્યા હતા. પરંતુ, બીજી તરફ, આ પ્રકારની વિસ્તૃત પૂછપરછ માટે એક મજબૂત સૈદ્ધાંતિક આધાર નથી. આ એકલ ઉદાહરણ જ્યારે આ અભિગમ કામ કરશે અને ક્યારે નહીં આવે, અને આ અભિગમનો ઉપયોગ કરનારા સંશોધકોને ખાસ કરીને શામેલ થવાના કારણે સંબંધિત પૂર્વગ્રહ વિશે ચિંતા કરવાની જરૂર છે - અને તે શામેલ નથી-તેમના મોટા ડેટા સ્રોતમાં. વધુમાં, વિસ્તૃત પૂછપરછ અભિગમ હજી તેના અંદાજોની આસપાસ અનિશ્ચિતતાને માપવાના સારા રસ્તાઓ નથી. સદભાગ્યે, કહેવાતા આંકડાઓ-નાના વિસ્તારના અંદાજ (Rao and Molina 2015) , આરોપ (Rubin 2004) , અને મોડેલ આધારિત પોસ્ટ-સ્તરીકરણ (જે પોતે જ શ્રી પી. પ્રકરણમાં અગાઉ વર્ણવેલ પદ્ધતિ) (Little 1993) . આ ઊંડા કનેક્શન્સને લીધે, હું અપેક્ષા રાખું છું કે વિસ્તૃત પૂછવાની પધ્ધતિધિકરણ પાયામાં ઘણાં ઝડપથી સુધારો થશે.
છેલ્લે, બ્લુમેનેસ્ટોકની પ્રથમ અને બીજા પ્રયત્નોની સરખામણીમાં ડિજિટલ-એજ સોશિયલ રિસર્ચ વિશે એક મહત્વપૂર્ણ પાઠને પણ સમજાવે છે: શરૂઆતનો અંત નથી તે, ઘણી વખત, પ્રથમ અભિગમ શ્રેષ્ઠ નહીં હોય, પરંતુ જો સંશોધકોએ કામ ચાલુ રાખ્યું હોય, તો વસ્તુઓ વધુ સારી રીતે મળી શકે છે. વધુ સામાન્ય રીતે, જ્યારે ડિજિટલ વયમાં સામાજિક સંશોધન માટે નવા અભિગમોનું મૂલ્યાંકન કરવામાં આવે છે, ત્યારે બે વિશિષ્ટ મૂલ્યાંકન કરવાનું મહત્વનું છે: (1) આ કાર્ય કેટલું સારું છે? અને (2) ડેટા લેન્ડસ્કેપ બદલાશે અને સંશોધકો સમસ્યા તરફ વધુ ધ્યાન આપતા હોવાથી ભવિષ્યમાં આ કાર્ય કેટલું સારું રહેશે? જોકે સંશોધકોને પ્રથમ મૂલ્યાંકન કરવા માટે તાલીમ આપવામાં આવે છે, તેમ છતાં બીજા ઘણી વાર વધુ મહત્વપૂર્ણ છે.