વધુ કોમેન્ટરી

આ વિભાગ બદલે કથા વાંચી શકાય એક સંદર્ભ તરીકે ઉપયોગ કરવા માટે રચાયેલ છે.

  • પરિચય (વિભાગ 2.1)

ના નિરીક્ષણ આ પ્રકરણમાં સમાવેશ થાય છે એક પ્રકારની માનવજાતનું વર્ણન છે. ડિજિટલ જગ્યાઓ માનવજાતનું વર્ણન પર વધુ માટે જુઓ Boellstorff et al. (2012) , અને મિશ્ર ડિજિટલ અને ભૌતિક જગ્યાઓ માનવજાતનું વર્ણન પર વધુ માટે જુઓ Lane (2016) .

  • મોટા ડેટા (વિભાગ 2.2)

તમે માહિતી repurposing આવે છે, ત્યારે ત્યાં બે માનસિક યુક્તિઓ તમે શક્ય સમસ્યાઓ કે જે તમે અનુભવી શકે છે તે સમજવા માટે મદદ કરી શકે છે. પ્રથમ, તમે તમારી સમસ્યા માટે આદર્શ dataset કલ્પના કરવાનો પ્રયાસ કરી શકો અને dataset કે તમે ઉપયોગ કરી રહ્યા છો કે તુલના કરે છે. તેઓ કેવી રીતે સમાન હોય છે અને તેઓ કેવી રીતે અલગ છે? તમે તમારી જાતને તમારા ડેટા એકત્રિત ન હોય તો, તમે શું કરવા માંગો છો અને તમે શું છે વચ્ચે તફાવત હોઈ શકે તેવી શક્યતા છે. પરંતુ, જો તમે આ તફાવતો નાના અથવા મોટા છે તે નક્કી કરવા માટે હોય છે.

બીજું, યાદ રાખો કે કોઈને બનાવવામાં અને કેટલાક કારણોસર તમારી માહિતી એકત્ર કરી હતી. તમે તેમના તર્ક સમજવા માટે પ્રયત્ન કરવો જોઈએ. રિવર્સ એન્જિનિયરિંગ આ પ્રકારની તમે તમારા repurposed માહિતી શક્ય સમસ્યાઓ અને પક્ષપાતને ઓળખવા માટે મદદ કરી શકે છે.

ત્યાં ", મોટા માહિતી" કોઈ એક સર્વસંમતિ વ્યાખ્યા છે, પરંતુ ઘણા વ્યાખ્યાઓ 3 વિ પર ધ્યાન કેન્દ્રિત કરવા માટે લાગે છે: (દા.ત., વોલ્યુમ, વિવિધ, અને વેગ Japec et al. (2015) ). તેના બદલે માહિતી લાક્ષણિકતાઓ પર ધ્યાન કેન્દ્રિત કરતાં, મારા વ્યાખ્યા શા માટે માહિતી બનાવવામાં આવી હતી પર વધુ ધ્યાન કેન્દ્રિત કરે છે.

મોટા ડેટા શ્રેણી અંદર સરકાર વહીવટી માહિતી મારા સમાવેશ થોડી અસામાન્ય છે. લોકો આ કેસ કર્યો છે, સમાવેશ થાય છે Legewie (2015) , Connelly et al. (2016) , અને Einav and Levin (2014) . સંશોધન માટે સરકાર વહીવટી માહિતી ની કિંમત વિશે વધુ માટે, જુઓ Card et al. (2010) , Taskforce (2012) , અને Grusky, Smeeding, and Snipp (2015) .

સરકાર આંકડાકીય સિસ્ટમ, ખાસ કરીને યુએસ સેન્સસ બ્યુરો અંદરથી વહીવટી સંશોધન એક દૃશ્ય માટે, જુઓ Jarmin and O'Hara (2016) . આંકડા સ્વીડન ખાતે વહીવટી રેકોર્ડ સંશોધન એક પુસ્તક લંબાઈ સારવાર માટે, જુઓ Wallgren and Wallgren (2007) .

પ્રકરણમાં, હું થોડા સમય જેમ સામાન્ય સામાજિક સર્વેક્ષણ (GSS) એક સામાજિક મીડિયા ડેટા સોર્સ માટે ટ્વિટર જેવા પરંપરાગત મોજણી સરખામણીમાં. પરંપરાગત સર્વેક્ષણો અને સામાજિક મીડિયા માહિતી વચ્ચે એક સંપૂર્ણ અને કાળજી સરખામણી માટે, જુઓ Schober et al. (2016) .

  • મોટા માહિતી સામાન્ય લક્ષણો (વિભાગ 2.3)

મોટા માહિતી આ 10 લાક્ષણિકતાઓ અલગ અલગ રીતે વિવિધ વિવિધ લેખકો વિવિધ દ્વારા વર્ણવવામાં આવી છે. લેખન કે આ મુદ્દાઓ પર મારા વિચાર પ્રભાવિત સમાવેશ થાય છે: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , અને Goldstone and Lupyan (2016) .

આ પ્રકરણમાં દરમ્યાન, હું શબ્દ ડિજિટલ નિશાનો, જે મને લાગે પ્રમાણમાં તટસ્થ છે ઉપયોગ કર્યો છે. ડિજિટલ નિશાનો માટે અન્ય એક લોકપ્રિય શબ્દ ડિજિટલ પગલાં છે (Golder and Macy 2014) , પરંતુ હાલ Abelson, કેન Ledeen, અને હેરી લેવિસ તરીકે (2008) નિર્દેશ, વધુ યોગ્ય શબ્દ કદાચ ડિજિટલ ફિંગર છે. જ્યારે તમે પગલાં બનાવો, તમે શું થઈ રહ્યું છે અને તમારા પગલાં સામાન્ય રીતે વ્યક્તિગત તમે શોધી શકાતી નથી પરિચિત છે. એ જ તમારા ડિજિટલ નિશાનો માટે સાચું નથી. હકીકતમાં, તમે નિશાનો છોડી રહ્યાં છે જે બધા સમય વિશે ખૂબ જ ઓછી જાણકારી હોય છે. અને, જો કે આ નિશાનો તેમના પર તમારા નામ નથી, તેઓ ઘણી વખત તમને પાછા લિંક કરી શકો છો. અન્ય શબ્દોમાં, તેઓ વધુ ફિંગર જેવા છે: અદ્રશ્ય અને વ્યક્તિગત રીતે ઓળખતી.

મોટા

શા માટે મોટી ડેટાસેટ્સ, આંકડાકીય પરીક્ષણો સમસ્યાવાળા રેન્ડર પર વધુ માટે, જુઓ Lin, Lucas, and Shmueli (2013) અને McFarland and McFarland (2015) . આ મુદ્દાઓ સંશોધકો દોરી આંકડાકીય મહત્વ બદલે વ્યવહારુ મહત્વ પર ધ્યાન કેન્દ્રિત કરવું જોઈએ.

હંમેશા પર

જ્યારે વિચારણા હંમેશા માહિતી, તે મહત્વનું ધ્યાનમાં છે કે શું તમે સમય પર ચોક્કસ જ લોકો સાથે સરખામણી કરવામાં આવે અથવા તમે લોકો કેટલાક બદલવા જૂથ સાથે સરખામણી કરવામાં આવે છે; ઉદાહરણ માટે જુઓ, Diaz et al. (2016) .

બિન - પ્રતિક્રિયાશીલ

બિન-પ્રતિક્રિયાશીલ પગલાં પર એક ક્લાસિક પુસ્તક છે Webb et al. (1966) . પુસ્તક પૂર્વ તારીખ ઉદાહરણો ડિજિટલ વય, પરંતુ તેઓ હજુ પણ પ્રકાશિત કરવામાં આવે છે. માસ સર્વેલન્સ હાજરી કારણ કે તેમના વર્તન બદલવા લોકો ઉદાહરણો માટે, જુઓ Penney (2016) અને Brayne (2014) .

અપૂર્ણ

રેકોર્ડ જોડાણ પર વધુ માટે, જુઓ Dunn (1946) અને Fellegi and Sunter (1969) (ઐતિહાસિક) અને Larsen and Winkler (2014) (આધુનિક). સમાન સંપર્ક જેમ કે ડેટા નકલ, દાખલા તરીકે ઓળખ, નામ મેળ ખાતા પણ નામો હેઠળ કોમ્પ્યુટર વિજ્ઞાન વિકસાવવામાં આવી છે, શોધ, ડુપ્લિકેટ, અને રેકોર્ડ શોધ નકલી (Elmagarmid, Ipeirotis, and Verykios 2007) . ત્યાં પણ ગોપનીયતા જોડાણને જે વ્યક્તિગત માહિતી ઓળખવા ટ્રાન્સમિશન જરૂર નથી રેકોર્ડ અભિગમ સાચવીને છે (Schnell 2013) . ફેસબુક પણ મતદાન વર્તન તેમની રેકોર્ડ લિંક કરવા માટે આગળ ધપાવો વિકસાવી છે; આ એક પ્રયોગ છે કે હું તમને પ્રકરણ 4 વિશે કહી શકશો મૂલ્યાંકન કરવામાં આવ્યું હતું (Bond et al. 2012; Jones et al. 2013) .

રચના માન્યતા પર વધુ માટે, જુઓ Shadish, Cook, and Campbell (2001) , પ્રકરણ 3.

દુર્ગમ

એઓએલ શોધ લોગ રકાસ પર વધુ માટે, જુઓ Ohm (2010) . હું કંપનીઓ અને પ્રકરણ 4 સરકારો સાથે ભાગીદારી અંગે સલાહ આપે છે જ્યારે હું પ્રયોગો વર્ણવે છે. લેખકો સંખ્યાબંધ સંશોધન દુર્ગમ માહિતી પર આધાર રાખે છે વિશે ચિંતા વ્યક્ત કરી છે, જુઓ Huberman (2012) અને boyd and Crawford (2012) .

યુનિવર્સિટી સંશોધકો માહિતી ઍક્સેસ પ્રાપ્ત કરવા માટે એક સારો માર્ગ એક ઇન્ટર્ન અથવા મુલાકાત રિસર્ચર તરીકે કંપનીમાં કામ કરે છે. ડેટા એક્સેસ સક્રિય ઉપરાંત, આ પ્રક્રિયા પણ મદદ કરશે સંશોધક વિશે કેવી રીતે માહિતી બનાવવામાં આવી હતી, જે વિશ્લેષણ માટે મહત્વનું છે વધુ શીખે છે.

બિન-પ્રતિનિધિ

બિન-Representativeness સંશોધકો અને સરકાર જે સમગ્ર વસ્તી અંગે વિધાનો કરવા માંગો છો માટે એક મોટી સમસ્યા છે. આ કંપનીઓ છે કે જે ખાસ કરીને તેમના વપરાશકર્તાઓ પર ધ્યાન કેન્દ્રિત કર્યું છે માટે ચિંતા ઓછી છે. કેવી રીતે આંકડા નેધરલેન્ડ બિઝનેસ મોટા માહિતી બિન Representativeness મુદ્દો ગણવામાં આવે છે તેના પર વધુ માટે, જુઓ Buelens et al. (2014) .

પ્રકરણ 3, હું ઘણી મોટી વિગતવાર નમૂના અને અંદાજ વર્ણન કરીશું. જો માહિતી બિન-પ્રતિનિધિ, અમુક ચોક્કસ શરતો હેઠળ છે, તેઓ સારા અંદાજ પેદા કરવા માટે ભારાંક કરી શકાય છે.

ડ્રિફ્ટિંગ

સિસ્ટમ લક્ષ્ય બહારથી જોવા માટે ખૂબ જ મુશ્કેલ છે. જો કે, MovieLens પ્રોજેક્ટ (4 પ્રકરણ વધુ ચર્ચા) એક શૈક્ષણિક સંશોધન જૂથ દ્વારા 15 કરતાં વધુ વર્ષ માટે ચાલે કરવામાં આવી છે. તેથી, તેઓ દસ્તાવેજીકરણ અને વહેંચાયેલ માર્ગ છે કે જે સિસ્ટમ સમય સાથે વિકસ્યો છે અને કેવી રીતે વિશે જાણકારી હોય છે આ વિશ્લેષણ પર અસર પડી શકે (Harper and Konstan 2015) .

વિદ્વાનો સંખ્યા Twitter માં લક્ષ્ય પર ધ્યાન કેન્દ્રિત કર્યું છે: Liu, Kliman-Silver, and Mislove (2014) અને Tufekci (2014) .

ઍલ્ગરિધમનો આકુળવ્યાકુળ

હું પ્રથમ સાંભળ્યું શબ્દ "ઍલ્ગરિધમનો આકુળવ્યાકુળ" ચર્ચા માં જોન Kleinberg દ્વારા ઉપયોગ થાય છે. Performativity આઈડીયા કે કેટલાક સામાજિક વિજ્ઞાન સિદ્ધાંતો "એન્જિન ન કેમેરા" છે (Mackenzie 2008) . એટલે કે, તેઓ ખરેખર વિશ્વમાં આકાર બદલે માત્ર તે મેળવે.

ડર્ટી

સરકારી આંકડાકીય એજન્સીઓ માહિતી સફાઈ, આંકડાકીય માહિતી સંપાદન કૉલ કરો. De Waal, Puts, and Daas (2014) મોજણી માહિતી માટે વિકસાવવામાં આંકડાકીય માહિતી સંપાદન યુકિતઓ વર્ણન અને પરીક્ષણ કરવા માટે કે જે હદ તેઓ મોટા માહિતી સ્ત્રોત પર લાગુ, અને Puts, Daas, and Waal (2015) વધુ સામાન્ય પ્રેક્ષકો માટે જ અમુક વિચારોની રજૂ કરે છે.

ટ્વિટર, સ્પામ પર ધ્યાન કેન્દ્રિત કર્યું અભ્યાસ કેટલાક ઉદાહરણો માટે Clark et al. (2016) અને Chu et al. (2012) . છેલ્લે, Subrahmanian et al. (2016) ડીએઆરપીએ ટ્વિટર બોટ ચેલેન્જ પરિણામો વર્ણવે છે.

સંવેદનશીલ

Ohm (2015) સમીક્ષા સંવેદનશીલ માહિતી ના વિચાર પર અગાઉ સંશોધન અને મલ્ટી પરિબળ ટેસ્ટ આપે છે. ચાર પરિબળો તેમણે દરખાસ્ત છે: નુકસાન સંભાવના; નુકસાન સંભાવના; એક ગુપ્ત સંબંધ હાજરી; અને શું જોખમ Majoritarian ચિંતા પ્રતિબિંબિત કરે છે.

  • વસ્તુઓ ગણવા ​​(વિભાગ 2.4.1)

ન્યૂ યોર્ક માં ટેક્સીઓ Farber અભ્યાસ દ્વારા અગાઉ અભ્યાસ પર આધારિત હતી Camerer et al. (1997) કે કાગળ સફર શીટ્સ કાગળ ડ્રાઈવરો દ્વારા વાપરી સફર શરૂ સમય રેકોર્ડ કરવા માટે સ્વરૂપો, અંતે સમય, અને ભાડું ત્રણ અલગ અલગ સગવડ નમૂનાઓ ઉપયોગ થાય છે. આ અગાઉ એક અભ્યાસમાં જાણવા મળ્યું છે કે ડ્રાઇવરો લક્ષ્ય કમાણી થઈ લાગતું હતું: તેઓ દિવસ જ્યાં તેમના વેતન ઊંચા હતા પર ઓછા કામ કર્યું હતું.

Kossinets and Watts (2009) સામાજિક નેટવર્ક્સ homophily ઓન ધી ઓરિજીન ઓફ ધ્યાન કેન્દ્રિત કર્યું હતું. જુઓ Wimmer and Lewis (2010) એ જ સમસ્યા છે કે જે Facebook માંથી માહિતી વાપરે છે એક અલગ અભિગમ છે.

અનુગામી કામ માં, રાજા અને સાથીદારો વધુ ચાઇના માં ઓનલાઇન સેન્સરશીપ તપાસવામાં આવ્યા છે (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . ચાઇના માં ઓનલાઇન સેન્સરશીપ માપવા માટે સંબંધિત અભિગમ માટે, જુઓ Bamman, O'Connor, and Smith (2012) . વપરાયેલા જેવા આંકડાકીય પદ્ધતિઓ પર વધુ માટે King, Pan, and Roberts (2013) 11 મિલિયન પોસ્ટ્સ સેન્ટિમેન્ટ અંદાજ, જુઓ Hopkins and King (2010) . દેખરેખ શિક્ષણ પર વધુ માટે, જુઓ James et al. (2013) (ઓછી ટેકનિકલ) અને Hastie, Tibshirani, and Friedman (2009) (વધુ ટેકનિકલ).

  • આગાહી (વિભાગ 2.4.2)

આગાહી ઔદ્યોગિક માહિતી વિજ્ઞાન એક મોટી ભાગ છે (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . આગાહી એક પ્રકાર છે કે જે સામાન્ય રીતે સામાજિક સંશોધકો દ્વારા કરવામાં આવે છે, ઉદાહરણ તરીકે, વસ્તી વિષયક આગાહી છે Raftery et al. (2012) .

Google ફ્લૂ પ્રવાહો ઈન્ફલ્યુએન્ઝા વ્યાપ nowcast માટે શોધ ડેટાનો ઉપયોગ કરવા માટે પ્રથમ પ્રોજેક્ટ ન હતી. હકીકતમાં, યુનાઇટેડ સ્ટેટ્સ સંશોધકો (Polgreen et al. 2008; Ginsberg et al. 2009) અને સ્વીડન (Hulth, Rydevik, and Linde 2009) જાણવા મળ્યું છે કે ચોક્કસ શોધ શબ્દો (દા.ત., "ફલૂ") આગાહી રાષ્ટ્રીય જાહેર આરોગ્ય સર્વેલન્સ તે પહેલાં માહિતી રજૂ કરવામાં આવી હતી. ત્યાર બાદ ઘણી અન્ય પ્રોજેક્ટ રોગ સર્વેલન્સ શોધ માટે ડિજિટલ ટ્રેસ માહિતી વાપરવા માટે, જુઓ કરવાનો પ્રયાસ કર્યો છે Althouse et al. (2015) એક સમીક્ષા છે.

આરોગ્ય પરિણામો આગાહી ડિજિટલ ટ્રેસ માહિતી મદદથી ઉપરાંત, ત્યાં પણ ટ્વિટર માહિતી મદદથી ચૂંટણી પરિણામો આગાહી કામ એક વિશાળ જથ્થો છે; સમીક્ષાઓ માટે જુઓ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ચ 7 વાંચો.), અને Huberty (2015) .

ઈન્ફલ્યુએન્ઝા વ્યાપ આગાહી અને આગાહી ચૂંટણી વિશ્વમાં ઘટના અમુક પ્રકારના આગાહી ડિજિટલ ટ્રેસ અમુક પ્રકારના ઉપયોગ કરીને બંને ઉદાહરણો છે ટ્વિટર માહિતી નો ઉપયોગ કરીને શોધ ડેટા મદદથી. ત્યાં અભ્યાસ આ સામાન્ય માળખું હોય છે કે એક પ્રચંડ નંબર. કોષ્ટક 2.5 થોડા અન્ય ઉદાહરણો સમાવેશ થાય છે.

કોષ્ટક 2.5: અભ્યાસ અંશતઃ યાદી કેટલાક ડિજીટલ ટ્રેસ ઉપયોગ અમુક ઘટના આગાહી.
ડિજિટલ ટ્રેસ પરિણામ સાઇટેશન
Twitter યુએસ ફિલ્મો બોક્સ ઓફિસ આવક Asur and Huberman (2010)
શોધ લોગ આ યુ માં ચલચિત્રો, સંગીત, પુસ્તકો, અને વિડિયો ગેમ્સ વેચાણ Goel et al. (2010)
Twitter ડાઉ જોન્સ ઇન્ડસ્ટ્રિયલ એવરેજ (યુએસ શેરબજારમાં) Bollen, Mao, and Zeng (2011)
  • લગભગ પ્રયોગો (વિભાગ 2.4.3)

જર્નલ PS રાજકીય વિજ્ઞાન, મોટા માહિતી સાધક અનુમાન, અને ઔપચારિક સિદ્ધાંત પર એક પરિસંવાદ હતી, અને Clark and Golder (2015) દરેક ફાળો સારાંશ આપે છે. યુનાઇટેડ સ્ટેટ્સ ઓફ અમેરિકા સાયન્સ ઓફ ધ નેશનલ એકેડમી ઓફ જર્નલ પ્રોસિડિંગ્સ સાધક અનુમાન અને મોટા ડેટા પર પરિસંવાદ હતી, અને Shiffrin (2016) દરેક ફાળો સારાંશ આપે છે.

કુદરતી પ્રયોગો દ્રષ્ટિએ, Dunning (2012) એક ઉત્તમ પુસ્તક લંબાઈ સારવાર પૂરી પાડે છે. કુદરતી પ્રયોગ તરીકે વિયેતનામ ડ્રાફ્ટ લોટરી વાપરવા પર વધુ માટે, જુઓ Berinsky and Chatfield (2015) . મશીન શિક્ષણ અભિગમ આપોઆપ મોટા માહિતી સ્ત્રોત અંદર કુદરતી પ્રયોગો શોધવા માટે પ્રયત્ન માટે, જુઓ Jensen et al. (2008) અને Sharma, Hofman, and Watts (2015) .

બંધબેસતી દ્રષ્ટિએ, એક આશાવાદી સમીક્ષા માટે, જુઓ Stuart (2010) , અને એક નિરાશાવાદી સમીક્ષા માટે જુઓ Sekhon (2009) . કાપણી એક પ્રકાર તરીકે બંધબેસતા પર વધુ માટે, જુઓ Ho et al. (2007) . પુસ્તકો કે મેચિંગ ઉત્તમ સારવાર પૂરી પાડવા માટે, જુઓ Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , અને Imbens and Rubin (2015) .