આ પ્રકરણમાં એક પ્રકારનું નિરીક્ષણ કરવું એ નૃવંશાવૃત્તિ નથી. ડિજિટલ જગ્યામાં નૃવંશાવૃત્તિ વિશે વધુ જાણવા માટે, Boellstorff et al. (2012) જુઓ Boellstorff et al. (2012) , અને મિશ્ર ડિજિટલ અને ભૌતિક જગ્યામાં નૃવંશાવૃત્તિ વિશે વધુ જાણવા માટે, Lane (2016) જુઓ.
"મોટા ડેટા" ની કોઈ એક સર્વસંમતિની વ્યાખ્યા નથી, પરંતુ ઘણી વ્યાખ્યાઓ "3 વિ" પર ધ્યાન કેન્દ્રિત કરવા લાગે છે: વોલ્યુમ, વિવિધ અને વેગ (દા.ત., Japec et al. (2015) ). De Mauro et al. (2015) જુઓ De Mauro et al. (2015) વ્યાખ્યાઓ સમીક્ષા માટે.
મોટા ડેટાના કેટેગરીમાં સરકારી વહીવટી માહિતીનો મારો સમાવેશ થોડો અસામાન્ય છે, જોકે અન્ય લોકોએ આ કેસ પણ કર્યો છે, જેમાં Legewie (2015) , Connelly et al. (2016) , અને Einav and Levin (2014) . સંશોધન માટે સરકારી વહીવટી ડેટાના મૂલ્ય વિશે વધુ જાણવા માટે, Card et al. (2010) જુઓ Card et al. (2010) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) , અને Grusky, Smeeding, and Snipp (2015) .
સરકારી આંકડાકીય પદ્ધતિ, ખાસ કરીને યુ.એસ સેન્સસ બ્યુરોની અંદર વહીવટી સંશોધનના દ્રષ્ટિકોણ માટે, Jarmin and O'Hara (2016) . સ્ટેટિસ્ટિક્સ સ્વીડન ખાતેના વહીવટી રેકોર્ડ સંશોધનના પુસ્તક-લંબાઈની સારવાર માટે, Wallgren and Wallgren (2007) .
પ્રકરણમાં, મેં ટૂંકાગાળામાં પરંપરાગત સર્વેક્ષણની સરખામણી કરી છે, જેમ કે સોશિયલ મીડિયા ડેટા સ્રોત જેમ કે ટ્વિટર સાથે જનરલ સોશિયલ સર્વે (જીએસએસ). પરંપરાગત સર્વેક્ષણો અને સામાજિક મીડિયા ડેટા વચ્ચે સંપૂર્ણ અને સાવચેત સરખામણી માટે, Schober et al. (2016) જુઓ Schober et al. (2016)
વિવિધ લેખકો દ્વારા મોટા પ્રમાણમાં વિવિધ પ્રકારની વિવિધતામાં આ 10 લાક્ષણિકતાઓ વર્ણવવામાં આવ્યા છે. આ મુદ્દાઓ પર મારી વિચારસરણીને પ્રભાવિત કરતા Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) Japec et al. (2015) Horton and Tambe (2015) , Japec et al. (2015) , અને Goldstone and Lupyan (2016) .
આ પ્રકરણ દરમ્યાન, મેં ડિજીટલ ટ્રેસ શબ્દનો ઉપયોગ કર્યો છે, જે મને લાગે છે કે પ્રમાણમાં તટસ્થ છે. ડિજિટલ ટ્રેસ માટેના અન્ય એક લોકપ્રિય શબ્દ ડિજિટલ ફુટપ્રિન્ટ્સ (Golder and Macy 2014) , પરંતુ હાલ એબ્લસન, કેન લેડિન અને હેરી લ્યુઇસ (2008) જણાવે છે, વધુ યોગ્ય શબ્દ કદાચ ડિજિટલ ફિંગરપ્રિન્ટ્સ છે . જ્યારે તમે પગના છાપેલા બનાવો છો, ત્યારે તમે શું થઈ રહ્યું છે તેનાથી વાકેફ છો અને તમારા પગલાનો સામાન્ય રીતે વ્યક્તિગત રીતે શોધી શકાતો નથી. તે તમારા ડિજિટલ ટ્રેસ માટે સાચું નથી. હકીકતમાં, તમે જે સમય વિશે બહુ ઓછું જ્ઞાન ધરાવો છો તે નિશાન છોડતા હોય છે. અને, જો આ નિશાનો પર તમારું નામ ન હોય, તો તે ઘણી વખત તમને પાછા લિંક કરી શકાય છે. અન્ય શબ્દોમાં, તેઓ ફિંગરપ્રિન્ટ્સ જેવા વધુ છે: અદ્રશ્ય અને વ્યક્તિગત રૂપે ઓળખવા.
શા માટે મોટી ડેટાસેટ્સ આંકડાકીય પરીક્ષણોને સમસ્યારૂપ કરે છે તે વિશે વધુ માટે, M. Lin, Lucas, and Shmueli (2013) અને McFarland and McFarland (2015) . આ મુદ્દાઓ સંશોધકોએ આંકડાકીય મહત્વને બદલે વ્યવહારુ મહત્વ પર ધ્યાન કેન્દ્રિત કરવા જોઈએ.
રાજ ચેટ્ટી અને Mervis (2014) કર રેકોર્ડ્સની ઍક્સેસ કેવી રીતે મેળવવી તે વિશે વધુ જાણવા માટે, Mervis (2014) જુઓ.
મોટા ડેટાસેટ્સ કોમ્પ્યુટેશનલ સમસ્યાઓ પણ બનાવી શકે છે જે સામાન્ય રીતે એક કમ્પ્યુટરની ક્ષમતાની બહાર છે. તેથી, મોટા ડેટાસેટ્સ પર ગણતરી કરનારા સંશોધકો ઘણીવાર ઘણા કમ્પ્યુટર્સ પર કાર્ય ફેલાવે છે, એક પ્રક્રિયા જેને ક્યારેક સમાંતર પ્રોગ્રામિંગ કહેવાય છે. સમાંતર પ્રોગ્રામિંગની પરિચય માટે, ખાસ કરીને હડૉપ નામની ભાષા, Vo and Silvia (2016) .
હંમેશાંના ડેટા પર વિચારણા કરતા હોય ત્યારે, તે ધ્યાનમાં લેવાનું અગત્યનું છે કે તમે સમય જતાં ચોક્કસ જ લોકોની સરખામણી કરી રહ્યા છો કે પછી તમે લોકોના કેટલાક બદલાતાં જૂથની તુલના કરી રહ્યાં છો; ઉદાહરણ તરીકે જુઓ, Diaz et al. (2016)
બિન-પ્રતિક્રિયાત્મક પગલાં પર એક ઉત્તમ પુસ્તક છે Webb et al. (1966) . તે પુસ્તકના ઉદાહરણો ડિજિટલ વયથી પૂર્વાનુમાન કરે છે, પરંતુ તેઓ હજુ પણ પ્રકાશિત થાય છે. સામૂહિક દેખરેખની હાજરીને કારણે લોકોના વર્તનને બદલતાના ઉદાહરણો માટે, Penney (2016) અને Brayne (2014) .
રિએક્ટીવીટી, જે સંશોધકોને માંગ અસરો (Orne 1962; Zizzo 2010) અને હોથોર્ન અસર (Adair 1984; Levitt and List 2011) સાથે નજીકથી સંબંધિત છે.
રેકોર્ડ લિંજિંગ પર વધુ માટે, Dunn (1946) અને Fellegi and Sunter (1969) (ઐતિહાસિક) અને Larsen and Winkler (2014) (આધુનિક) જુઓ. કોમ્પ્યુટર સાયન્સમાં પણ આ પ્રકારના અભિગમો વિકસિત કરવામાં આવ્યા છે, જેમ કે ડેટા ડિપ્ડપ્લિકેશન, ઇન્સ્ટંસ આઇડેન્ટિફિકેશન, નામ મેચિંગ, ડુપ્લિકેટ ડિટેક્શન, અને ડુપ્લિકેટ રેકોર્ડ ડિટેક્શન (Elmagarmid, Ipeirotis, and Verykios 2007) . વ્યક્તિગત જોડાણની માહિતીના ટ્રાન્સમિશન (Schnell 2013) ની જરૂર ન હોય તેવી લિંકને રેકોર્ડ કરવા માટે પણ ગોપનીયતા જાળવવાના અભિગમ છે ફેસબુકએ તેમના રેકોર્ડ્સને મતદાન વર્તન સાથે સાંકળવાની પ્રક્રિયા વિકસાવી છે; આ પ્રયોગનું મૂલ્યાંકન કરવા માટે કરવામાં આવ્યું હતું કે હું તમને પ્રકરણ 4 (Bond et al. 2012; Jones et al. 2013) .
Shadish, Cook, and Campbell (2001) રચના કરવા વિશે વધુ જાણવા માટે, Shadish, Cook, and Campbell (2001) ના પ્રકરણ 3 જુઓ.
એઓએલ સર્ચ લોગ ડેબેલ પર વધુ જાણવા માટે, Ohm (2010) જુઓ. હું પ્રયોગોનું વર્ણન કરતી વખતે પ્રકરણ 4 માં કંપનીઓ અને સરકારો સાથે ભાગીદારી વિશે સલાહ આપે છે અસંખ્ય લેખકોએ સંશોધન વિશે ચિંતા વ્યક્ત કરી છે જે દુર્ગમ ડેટા પર આધાર રાખે છે, Huberman (2012) અને boyd and Crawford (2012) .
યુનિવર્સિટી સંશોધકો માહિતી ઍક્સેસ પ્રાપ્ત કરવા માટે એક સારો માર્ગ એક ઇન્ટર્ન અથવા મુલાકાત રિસર્ચર તરીકે કંપનીમાં કામ કરે છે. ડેટા એક્સેસ સક્રિય ઉપરાંત, આ પ્રક્રિયા પણ મદદ કરશે સંશોધક વિશે કેવી રીતે માહિતી બનાવવામાં આવી હતી, જે વિશ્લેષણ માટે મહત્વનું છે વધુ શીખે છે.
સરકારી ડેટામાં પ્રવેશ મેળવવામાં દ્રષ્ટિએ, Mervis (2014) ચર્ચા કરે છે કે રાજ ચેટ્ટી અને સાથીદારોએ સામાજિક ગતિશીલતા પરના તેમના સંશોધનમાં ઉપયોગમાં લેવાતા ટેક્સ રેકોર્ડ્સને કેવી રીતે મેળવી લીધી.
"Representativeness" ઇતિહાસ પર વધુ ખ્યાલ માટે, જુઓ Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , અને Kruskal and Mosteller (1980) .
સ્નો એન્ડ ધ વર્ક ઓફ ડૉલ એન્ડ હિલના કામનો મારો સારાંશ સંક્ષિપ્ત હતા. કોલેરા પર સ્નોના કામ પર વધુ જાણવા માટે, Freedman (1991) જુઓ. બ્રિટિશ ડૉક્ટર્સ સ્ટડી પર વધુ જાણવા માટે Doll et al. (2004) અને Keating (2014)
ઘણા સંશોધકોને એ જાણવાથી આશ્ચર્ય થશે કે ઢીંગલી અને હિલએ મહિલા ડોકટરો અને 35 વર્ષની નીચેના ડોકટરો પાસેથી માહિતી એકત્રિત કરી હોવા છતાં, તેઓ આ માહિતીનો તેમના પ્રથમ વિશ્લેષણમાં ઉપયોગ કરતા નથી. જેમ જેમ તેઓ દલીલ કરે છે: "ફેફસાના કેન્સર સ્ત્રીઓ અને પુરૂષો 35 વર્ષથી ઓછી ઉંમરે ભાગ્યે જ જોવા મળે છે, કારણ કે કેટલાક વર્ષો આવવા માટે ઉપયોગી જૂથો આ જૂથોમાં મેળવી શકાય તેવી શક્યતા નથી. આ પ્રારંભિક અહેવાલમાં અમે 35 અને તેથી વધુ વયના પુરૂષો તરફ ધ્યાન કેન્દ્રિત કર્યું છે. " Rothman, Gallacher, and Hatch (2013) , જે ઉશ્કેરણીજનક શીર્ષક ધરાવે છે" શા પ્રતિનિધિત્વ શા માટે ટાળવી જોઈએ, "તે મૂલ્ય માટે વધુ સામાન્ય દલીલ કરે છે. ઈરાદાપૂર્વક બિન-પ્રતિનિધિ માહિતી બનાવવી.
સંશોધકો અને સરકારો, જે સમગ્ર વસ્તી વિષે નિવેદનો કરવા માગે છે, માટે બિનપ્રવાહીતતા એક મોટી સમસ્યા છે. કંપનીઓ માટે આ ચિંતા ઓછી છે, જે સામાન્ય રીતે તેમના વપરાશકર્તાઓ પર ધ્યાન કેન્દ્રિત કરે છે. સ્ટેટિસ્ટિક્સ નેધરલેન્ડ્સ કેવી રીતે વ્યવસાયના મોટા ડેટાના પ્રતિનિધિત્વના મુદ્દાને ધ્યાનમાં લે છે તેના પર વધુ માહિતી માટે, Buelens et al. (2014) જુઓ Buelens et al. (2014) .
મોટા માહિતી સ્ત્રોતોના બિન પ્રતિનિધિ પ્રકૃતિ વિશે ચિંતા વ્યક્ત કરનારા સંશોધકોના ઉદાહરણો માટે, boyd and Crawford (2012) , K. Lewis (2015b) , અને Hargittai (2015) .
સામાજિક સર્વેક્ષણો અને રોગચાળાનું સંશોધનના લક્ષ્યોની વધુ વિગતવાર સરખામણી કરવા માટે, Keiding and Louis (2016) .
મતદારો વિશેના નમૂનાનું સામાન્યકરણ કરવા ટ્વિટરનો ઉપયોગ કરવાના પ્રયાસો પર વધુ, ખાસ કરીને 2009 ની જર્મન ચૂંટણીના કેસમાં, Jungherr (2013) અને Jungherr (2015) . Tumasjan et al. (2010) કાર્યને Tumasjan et al. (2010) વિશ્વભરના સંશોધકોએ તરંગી પદ્ધતિઓનો ઉપયોગ કર્યો છે-જેમ કે પક્ષોના હકારાત્મક અને નકારાત્મક સંકેતો વચ્ચે તફાવત પાર પાડવા માટે સેન્ટિમેન્ટ વિશ્લેષણનો ઉપયોગ કરવો - વિવિધ પ્રકારની વિવિધ પ્રકારની ચૂંટણીની આગાહી કરવા માટે પક્ષીએ માહિતીની ક્ષમતામાં સુધારો કરવા માટે (Gayo-Avello 2013; Jungherr 2015, chap. 7.) Huberty (2015) ચૂંટણીની આગાહી કરવાના આ પ્રયાસોના પરિણામોનો સારાંશ અહીં આપે છે:
"સોશિયલ મીડિયા પર આધારિત તમામ જાણીતા પદ્ધતિઓ નિષ્ફળ ગયા છે, જ્યારે સાચા આગળના દેખાવવાળી ચૂંટણીની આગાહીની માંગને આધિન છે. પધ્ધતિધિકારી અથવા એલ્ગોરિધમની મુશ્કેલીઓ કરતાં, સામાજિક મીડિયાના મૂળભૂત ગુણધર્મોને કારણે આ નિષ્ફળતા દેખાય છે. ટૂંકમાં, સામાજિક મીડિયા નથી, અને કદાચ ક્યારેય નહીં, મતદારોની એક સ્થિર, નિષ્ઠાહીન, પ્રતિનિધિ ચિત્ર આપે છે; સોશિયલ મીડિયાના સગવડના નમૂનાઓ અને પોસ્ટ હૉક પછી આ સમસ્યાઓને ઉકેલવા માટે પૂરતી માહિતી નથી. "
પ્રકરણ 3 માં, હું વધુ વિગતવાર માં નમૂના અને અંદાજ વર્ણન પડશે. જો કોઈ ચોક્કસ પરિસ્થિતિઓ હેઠળ, માહિતી અયોગ્ય હોય તો પણ, તેઓ સારા અંદાજ ઉત્પન્ન કરવા માટે ભારાંક કરી શકે છે.
સિસ્ટમ ડ્રિફ્ટ બહારથી જોવાનું ખૂબ જ મુશ્કેલ છે. જો કે, મુવીલાન્સ પ્રોજેક્ટ (પ્રકરણ 4 માં વધુ ચર્ચા) એક શૈક્ષણિક સંશોધન જૂથ દ્વારા 15 વર્ષથી વધુ ચાલે છે. આ રીતે, તેઓ સમયની સાથે (Harper and Konstan 2015) વિકસિત કરે છે અને તે કેવી રીતે વિશ્લેષણને પ્રભાવિત કરે છે (Harper and Konstan 2015) વિશેની માહિતી અને દસ્તાવેજોને વહેંચવા સક્ષમ છે.
ઘણા વિદ્વાનોએ ટ્વિટરમાં ડ્રિફ્ટ પર ધ્યાન કેન્દ્રિત કર્યું છે: Liu, Kliman-Silver, and Mislove (2014) અને Tufekci (2014) .
જનસંખ્યાના પ્રવાહ સાથે વ્યવહાર કરવા માટેનો એક અભિગમ વપરાશકર્તાઓની પેનલ બનાવવાનું છે, જે સંશોધકોને સમય જતાં લોકોનો અભ્યાસ કરવાની મંજૂરી આપે છે, જુઓ Diaz et al. (2016)
મેં પહેલી વખત જોન ક્લેઈનબર્ગ દ્વારા ચર્ચામાં "એલ્ગોરિધમની ગૂંચવણભરી" શબ્દ સાંભળ્યો, પરંતુ કમનસીબે મને યાદ નથી કે ક્યારે ચર્ચા કરવામાં આવી હતી કે ક્યાં. પ્રથમ વખત મેં પ્રિન્ટમાં શબ્દ જોયો ત્યારે Anderson et al. (2015) , જે ડેટિંગ સાઇટ્સ દ્વારા ઉપયોગમાં લેવામાં આવેલ એલ્ગોરિધમ્સ સામાજિક સંશોધનોનો અભ્યાસ કરવા માટે સંશોધકોની આ વેબસાઇટ્સની માહિતીનો ઉપયોગ કરવાની ક્ષમતાને કેવી રીતે ગમશે તે અંગે રસપ્રદ ચર્ચા છે. Anderson et al. (2014) પ્રતિક્રિયામાં K. Lewis (2015a) દ્વારા આ ચિંતાનો ઉછેર થયો હતો Anderson et al. (2014) .
ફેસબુક ઉપરાંત, ટ્વિટર પણ વપરાશકર્તાઓને ટ્રાઇડીક ક્લોઝરના વિચારને આધારે અનુસરવાની ભલામણ કરે છે; Su, Sharma, and Goel (2016) . તેથી ટ્વિટરમાં ત્રિકાશિક સમાપનનું સ્તર ટ્રાયડીક ક્લોઝર અને ટ્રાઇડીક ક્લોઝરને પ્રોત્સાહન આપવા માટે કેટલાક ગાણિતીક વલણ તરફના કેટલાક માનવ વલણનું મિશ્રણ છે.
કાવ્યમયતા વિશે વધુ માટે- ખાસ કરીને વિચાર કે કેટલાક સામાજિક વિજ્ઞાન સિદ્ધાંતો એ "એન્જિન કેમેરા નથી" (એટલે કે, તે ફક્ત તેનું વર્ણન કરતા નથી તે વિશ્વને આકાર આપે છે) -મેક્કેન્ઝી Mackenzie (2008) .
સરકારી આંકડાકીય એજન્સીઓ આંકડાકીય માહિતી સંપાદન સફાઈ માહિતી કૉલ. De Waal, Puts, and Daas (2014) સર્વેક્ષણ ડેટા માટે વિકસિત આંકડાકીય માહિતી સંપાદન યુકિતઓ વર્ણવે છે અને તેઓ મોટા ડેટા સ્ત્રોતોને લાગુ પડે છે તે હદ સુધી પરીક્ષણ કરે છે અને Puts, Daas, and Waal (2015) વધુ સામાન્ય દર્શકો
સામાજિક બૉટોની ઝાંખી માટે, Ferrara et al. (2016) જુઓ Ferrara et al. (2016) ટ્વિટરમાં સ્પામ શોધવા પર ધ્યાન કેન્દ્રિત કરેલા અભ્યાસોના કેટલાક ઉદાહરણો માટે Clark et al. (2016) જુઓ Clark et al. (2016) અને Chu et al. (2012) . છેલ્લે, Subrahmanian et al. (2016) ડીએઆરપીએ પક્ષના બોટ ચેલેન્જના પરિણામોનું વર્ણન કરે છે, જે ટ્વિટર પર બૉટો શોધવા માટેના અભિગમોની તુલના કરવા માટે રચાયેલ સામૂહિક સહયોગ છે.
Ohm (2015) સંવેદનશીલ માહિતીના વિચાર પર પહેલાંના સંશોધનની સમીક્ષા કરે છે અને મલ્ટિ-ફેક્ટર ટેસ્ટ આપે છે. તેમણે રજૂ કરેલા ચાર પરિબળો નુકસાનની તીવ્રતા, હાનિની સંભાવના, ગુપ્ત સંબંધોની હાજરી અને શું જોખમ બહુમતી ચિંતા દર્શાવે છે.
ન્યૂ યોર્કમાં ટેક્સીઓનો Camerer et al. (1997) અભ્યાસ Camerer et al. (1997) દ્વારા અગાઉના અભ્યાસ પર આધારિત હતો Camerer et al. (1997) કે જે કાગળ ટ્રિપ શીટ્સના ત્રણ જુદી સગવડનાં નમૂનાઓનો ઉપયોગ કરે છે. અગાઉ આ અભ્યાસમાં જાણવા મળ્યું હતું કે ડ્રાઇવરો લક્ષ્ય કમાણી કરનાર હોવાનું જણાય છે: તેઓ એવા દિવસો પર કામ કરતા હતા કે જ્યાં તેમની વેતન ઊંચી હતી.
અનુગામી કાર્યમાં, કિંગ અને સહકાર્યકર્તાઓએ ચાઇના (King, Pan, and Roberts 2014, [@king_how_2016] ) માં ઓનલાઇન સેન્સરશીપની શોધ કરી છે. ચાઇનામાં ઑનલાઇન સેન્સરશીપ માપવા માટે સંબંધિત અભિગમ માટે, Bamman, O'Connor, and Smith (2012) . King, Pan, and Roberts (2013) માં ઉપયોગમાં લેવામાં આવેલા 11 મિલિયન જેટલા પોસ્ટની લાગણીનો અંદાજ કાઢવા આંકડાકીય પદ્ધતિઓ પર વધુ જાણવા માટે, Hopkins and King (2010) . વધુ માહિતી માટે જુઓ: James et al. (2013) (ઓછું તકનિકી) અને Hastie, Tibshirani, and Friedman (2009) (વધુ તકનીકી).
આગાહી એ ઔદ્યોગિક માહિતી વિજ્ઞાનનો મોટો ભાગ છે (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . એક પ્રકારનું અનુમાન જે સામાજિક સંશોધકો દ્વારા સામાન્ય રીતે કરવામાં આવે છે તે વસ્તીવિષયક અનુમાન છે; જુઓ, ઉદાહરણ તરીકે, Raftery et al. (2012) .
ગૂગલ ફ્લૂ ટ્રેડ્સ એ સર્વાધિકૃત માહિતીના ઉપયોગથી ઈન્ફલ્યુએન્ઝા પ્રચલિત થવાનો પ્રથમ પ્રોજેક્ટ નથી. હકીકતમાં, યુનાઈટેડ સ્ટેટ્સના સંશોધકો (Polgreen et al. 2008; Ginsberg et al. 2009) અને સ્વીડન (Hulth, Rydevik, and Linde 2009) એ જાણવા મળ્યું છે કે ચોક્કસ શોધ શબ્દો (દા.ત., "ફલૂ") એ રાષ્ટ્રીય જાહેર સ્વાસ્થ્ય દેખરેખની આગાહી કરી છે માહિતી તે પહેલાં રજૂ કરવામાં આવી હતી ત્યારબાદ ઘણા, ઘણા અન્ય પ્રોજેક્ટ્સએ રોગ નિરીક્ષણ શોધ માટે ડિજિટલ ટ્રેસ ડેટાનો ઉપયોગ કરવાનો પ્રયાસ કર્યો છે; Althouse et al. (2015) જુઓ Althouse et al. (2015) સમીક્ષા માટે
સ્વાસ્થ્ય પરિણામોની આગાહી કરવા માટે ડિજિટલ ટ્રેસ ડેટાનો ઉપયોગ કરવા ઉપરાંત, ચૂંટણી પરિણામોની આગાહી કરવા માટે ટ્વિટર ડેટાનો ઉપયોગ કરીને વિશાળ કાર્ય પણ કરવામાં આવ્યું છે; સમીક્ષાઓ માટે Gayo-Avello (2011) , Gayo-Avello (2013) Jungherr (2015) Gayo-Avello (2013) , Jungherr (2015) (પ્રકરણ 7), અને Huberty (2015) . ગ્રોસ ડોમેસ્ટિક પ્રોડક્ટ (જીડીપી) જેવા આર્થિક સૂચકાંકોનું હાલકરણ, મધ્યસ્થ બેન્કોમાં પણ સામાન્ય છે, Bańbura et al. (2013) જુઓ Bańbura et al. (2013) . કોષ્ટક 2.8 માં કેટલાક અભ્યાસોનો સમાવેશ થાય છે, જે દુનિયામાં કોઈ પ્રકારની ઘટનાની આગાહી કરવા માટે કોઈ પ્રકારની ડિજિટલ ટ્રેસનો ઉપયોગ કરે છે.
ડિજિટલ ટ્રેસ | પરિણામ | પ્રશસ્તિ |
---|---|---|
યુએસમાં મૂવીઝની બોક્સ ઓફિસની આવક | Asur and Huberman (2010) | |
શોધ લોગ | યુ.એસ.માં ચલચિત્રો, સંગીત, પુસ્તકો અને વિડીયો ગેમ્સની વેચાણ | Goel et al. (2010) |
ડાઉ જોન્સ ઇન્ડસ્ટ્રિયલ એવરેજ (યુએસ શેરબજાર) | Bollen, Mao, and Zeng (2011) | |
સામાજિક મીડિયા અને શોધ લોગ | યુનાઈટેડ સ્ટેટ્સ, યુનાઇટેડ કિંગડમ, કેનેડા અને ચીનમાં રોકાણકારોની લાગણી અને શેરબજારનું સર્વેક્ષણો | Mao et al. (2015) |
શોધ લોગ | સિંગાપોર અને બેંગકોકમાં ડેન્ગ્યુ તાવનું પ્રમાણ | Althouse, Ng, and Cummings (2011) |
છેલ્લે, જોન ક્લેઇનબર્ગ અને સહકાર્યકરો (2015) એ અનુમાન લગાવ્યું છે કે આગાહીની સમસ્યાઓ બે ભાગમાં વિભાજીત થઈ જાય છે અને સામાજિક વૈજ્ઞાનિકોએ એક પર ધ્યાન કેન્દ્રિત કર્યું છે અને અન્યને અવગણવું પડ્યું છે એક નીતિ નિર્માતાની કલ્પના કરો, હું તેના અન્નાને કૉલ કરીશ, જે દુષ્કાળનો સામનો કરી રહ્યો છે અને વરસાદની તક વધારવા માટે એક વરસાદી ડાન્સ કરવા માટે એક શામન ભાડે રાખવો તે નક્કી કરવું આવશ્યક છે. અન્ય એક નીતિ નિર્માતા, હું તેના બેટીને કૉલ કરું છું, તે નક્કી કરવું જોઈએ કે ઘરની રસ્તે ભીનું થવામાં ટાળવા માટે એક છત્રી કામ કરવું કે નહીં. અન્ના અને બેટી હવામાનને સારી રીતે સમજી શકશે તો તેઓ વધુ સારા નિર્ણય લઈ શકે છે, પરંતુ તેમને અલગ અલગ વસ્તુઓ જાણવાની જરૂર છે. અન્નાને સમજવાની જરૂર છે કે વરસાદનું નૃત્ય વરસાદને કારણે થાય છે. બેટી, બીજી તરફ, કાર્યકારી વિશે કંઇ સમજવાની જરૂર નથી; તે માત્ર એક ચોક્કસ અનુમાન જરૂર સમાજ સંશોધકો ઘણીવાર અન્ના દ્વારા સામનો કરેલા જેવી સમસ્યાઓ પર ધ્યાન કેન્દ્રિત કરે છે - જે ક્લીનબર્ગ અને સહકર્મીઓ "વરસાદની જેમ નૃત્યની" જેવી નીતિની સમસ્યાઓ કહે છે - કારણ કે તેઓ કાર્યકારણના પ્રશ્નોનો સમાવેશ કરે છે. બેટીના પ્રશ્નો જેવા કે ક્લીનબર્ગ અને સહકર્મીઓ "છત્ર જેવી" નીતિની સમસ્યાઓ કહે છે - તે ખૂબ મહત્વનું પણ હોઈ શકે છે, પરંતુ સામાજિક સંશોધકોએ ખૂબ ઓછું ધ્યાન આપ્યું છે.
જર્નલ પીએસ પોલિટિકલ સાયન્સ મોટા ડેટા, સાધક અનુમાન, અને ઔપચારિક સિદ્ધાંત પર, અને Clark and Golder (2015) દરેક યોગદાનનો સારાંશ આપે છે. જર્નલ પ્રોસિડિંગ્સ ઓફ ધ નેશનલ એકેડેમી ઓફ સાયન્સીસ ઓફ યુનાઇટેડ સ્ટેટ્સ ઓફ અમેરિકાએ સાધક અનુમાન અને મોટા ડેટા પર એક પરિસંવાદ આપ્યો હતો, અને Shiffrin (2016) દરેક યોગદાનનો સારાંશ આપે છે. મશીન શીખવાની રીતો માટે કે જે મોટા પ્રમાણમાં માહિતી સ્ત્રોતની અંદર કુદરતી પ્રયોગો શોધવાનો પ્રયાસ કરે છે, જુઓ Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , અને Sharma, Hofman, and Watts (2016) .
કુદરતી પ્રયોગોના સંદર્ભમાં, Dunning (2012) ઘણા ઉદાહરણો સાથે પ્રારંભિક, પુસ્તક લંબાઈ સારવાર પૂરી પાડે છે. કુદરતી પ્રયોગોના એક શંકાસ્પદ દ્રષ્ટિકોણ માટે, Rosenzweig and Wolpin (2000) (અર્થશાસ્ત્ર) અથવા Sekhon and Titiunik (2012) (રાજકીય વિજ્ઞાન) જુઓ. Deaton (2010) અને Heckman and Urzúa (2010) એવી દલીલ કરે છે કે કુદરતી પ્રયોગો પર ધ્યાન કેન્દ્રિત કરવું સંશોધકોને બિનમહત્વપૂર્ણ સાર્થક અસરોનું અનુમાન લગાવવા પર ધ્યાન કેન્દ્રિત કરી શકે છે; Imbens (2010) આ દલીલોને કુદરતી પ્રયોગોના મૂલ્યના વધુ આશાવાદી દ્રષ્ટિકોણ સાથે ગણવામાં આવે છે.
વર્ણન કરતી વખતે સંશોધક કેવી રીતે સેવા આપવાની અસરમાં મુસદ્દો તૈયાર કરવામાં આવે છે તેના અંદાજોમાંથી કેવી રીતે જઈ શકે છે, હું વાદ્ય ચલો તરીકે ઓળખાતી તકનીકનું વર્ણન કરતો હતો. Imbens and Rubin (2015) , તેમના અધ્યાય 23 અને 24 માં, રજૂઆત પ્રદાન કરે છે અને ઉદાહરણ તરીકે ડ્રાફ્ટ લોટરીનો ઉપયોગ કરે છે. ફરિયાદીઓ પર લશ્કરી સેવાની અસરને કેટલીક વખત કટિઅર એવરેજ સાધક અસર (CAcE) કહેવામાં આવે છે અને ક્યારેક સ્થાનિક સરેરાશ ઉપચાર પદ્ધતિ (લેટે). Sovey and Green (2011) , Angrist and Krueger (2001) , અને Bollen (2012) રાજકીય વિજ્ઞાન, અર્થશાસ્ત્ર અને સમાજશાસ્ત્રમાં ઇન્સ્ટ્રુમેન્ટલ વેરિયેબલ્સના ઉપયોગની સમીક્ષાઓ આપે છે, અને Sovey and Green (2011) "રીડરની ચેકલિસ્ટ" પૂરી પાડે છે. વાદ્ય ચલો વાપરીને અભ્યાસોનું મૂલ્યાંકન
તે તારણ આપે છે કે 1970 ના મુસદ્દાની લોટરી હકીકતમાં યોગ્ય રીતે રેન્ડમેડ કરવામાં આવી ન હતી; શુદ્ધ રેન્ડમનેસ (Fienberg 1971) ના નાના ફેરફારો હતા. Berinsky and Chatfield (2015) એવી દલીલ કરે છે કે આ નાનું વિચલન એ મહત્વનું નથી અને યોગ્ય રીતે તૈયાર થયેલ Berinsky and Chatfield (2015) મહત્વની ચર્ચા કરે છે.
મેચિંગના સંદર્ભમાં, આશાવાદી સમીક્ષા માટે Stuart (2010) અને નિરાશાવાદી સમીક્ષા માટે Sekhon (2009) . કાપણી એક પ્રકાર તરીકે બંધબેસતા માટે વધુ જુઓ, Ho et al. (2007) જુઓ Ho et al. (2007) . દરેક વ્યક્તિ માટે એક સંપૂર્ણ મેચ શોધવામાં ઘણી વાર મુશ્કેલ હોય છે, અને આમાં ઘણી બધી જટિલતાઓનો પરિચય મળે છે. પ્રથમ, જ્યારે ચોક્કસ મેળ ઉપલબ્ધ ન હોય, સંશોધકોએ નક્કી કરવું પડે કે કેવી રીતે બે એકમો વચ્ચેનો અંતર માપવા અને જો આપેલ અંતર પર્યાપ્ત નજીક છે. બીજા જટિલતા ઊભી થાય છે જો સંશોધકો સારવાર જૂથમાં દરેક કેસ માટે બહુવિધ મેચોનો ઉપયોગ કરવા માગે છે, કારણ કે આ વધુ ચોક્કસ અંદાજ તરફ દોરી શકે છે. આ બંને મુદ્દાઓ, તેમજ અન્ય, Imbens and Rubin (2015) ના પ્રકરણ 18 માં વિગતવાર વર્ણન કરવામાં આવ્યું છે. ( ??? ) ના ભાગ II પણ જુઓ.
એક ઉદાહરણ માટે Dehejia and Wahba (1999) જુઓ, જ્યાં મેચિંગ પધ્ધતિઓ રેન્ડમેડ કમ્પ્યૂટેડ પ્રયોગ કરતા સમાન અંદાજ પેદા કરવા સક્ષમ હતા. પરંતુ, એવા ઉદાહરણો માટે Arceneaux, Gerber, and Green (2006) અને Arceneaux, Gerber, and Green (2010) જ્યાં મેચિંગ પદ્ધતિઓ એક પ્રાયોગિક બેન્ચમાર્ક પ્રજનન કરવામાં નિષ્ફળ રહી છે.
Rosenbaum (2015) અને Hernán and Robins (2016) મોટા ડેટા સ્રોતોમાં ઉપયોગી તુલના શોધવા માટે અન્ય સલાહ આપે છે.