પ્રવૃત્તિઓ

  • મુશ્કેલીની ડિગ્રી: સરળ સરળ , મધ્યમ માધ્યમ , હાર્ડ હાર્ડ , ખૂબ જ હાર્ડ ખૂબ જ હાર્ડ
  • ગણિત જરૂરી છે ( ગણિત જરૂરી છે )
  • કોડિંગની જરૂર છે ( કોડિંગની જરૂર છે )
  • માહિતી સંગ્રહ ( માહિતી સંગ્રહ )
  • મારા મનપસંદ ( મારુ મનપસન્દ )
  1. [ માધ્યમ , મારુ મનપસન્દ ] ઍગ્ગોરિધમિક ગૂંચવણ Google Flu Trends સાથે સમસ્યા હતી. Lazer et al. (2014) દ્વારા કાગળ વાંચો Lazer et al. (2014) , અને સમસ્યાનું સમજાવીને Google ને એક એન્જિનિયરને ટૂંકા, સ્પષ્ટ ઇમેઇલ લખો અને તેને કેવી રીતે ઠીક કરવું તે વિશેની એક ઑફર પ્રસ્તુત કરો

  2. [ માધ્યમ ] Bollen, Mao, and Zeng (2011) એવો દાવો કરે છે કે ટ્વિટરના ડેટાનો ઉપયોગ સ્ટોક માર્કેટની આગાહી કરવા માટે થઈ શકે છે. ટ્વીટર (Jordan 2010) માંથી એકત્ર કરવામાં આવેલા ડેટાના આધારે સ્ટોક શોધમાં હેજ ફંડ-ડેરવન્ટ કેપિટલ માર્કેટ્સના નિર્માણમાં આ તારણ કાઢવામાં આવ્યું હતું. તે ફંડમાં તમારા પૈસા મૂકતા પહેલાં તમે શું પુરાવા જોશો?

  3. [ સરળ ] જ્યારે કેટલાક જાહેર હેલ્થ એડવોકેટ ઇ-સિગારેટને ધુમ્રપાન છોડવા માટે અસરકારક સહાયતા માને છે, તો અન્યો સંભવિત જોખમો અંગે ચેતવણી આપે છે, જેમ કે નિકોટિનનું ઉચ્ચ સ્તર. કલ્પના કરો કે સંશોધક ઈ-સિગારેટ સંબંધિત ટ્વિટર પોસ્ટ્સને એકત્ર કરીને અને સેન્ટિમેન્ટ વિશ્લેષણ કરવા દ્વારા ઈ-સિગારેટ્સ તરફ જાહેર અભિપ્રાયનો અભ્યાસ કરવાનું નક્કી કરે છે.

    1. આ અભ્યાસમાં તમે જે ત્રણ સંભવિત પૂર્વગ્રહથી ચિંતિત છો તે શું છે?
    2. Clark et al. (2016) માત્ર આવા અભ્યાસ ચાલી હતી પ્રથમ, તેઓએ જાન્યુઆરી 2012 થી ડિસેમ્બર 2014 સુધી ઈ-સિગારેટ-સંબંધિત કીવર્ડ્સનો ઉપયોગ કરતા 850,000 ટ્વીટ્સ એકત્રિત કર્યા. નજીકના નિરીક્ષણ પર, તેમને સમજાયું કે આ ટ્વીટ્સ ઘણાબધા સ્વચાલિત (એટલે ​​કે માનવ દ્વારા ઉત્પાદિત નથી) અને આમાંના ઘણા સ્વયંચાલિત ટ્વીટ્સ અનિવાર્યપણે હતા કમર્શિયલ કાર્બનિક ટ્વીટ્સમાંથી ઓટોમેટેડ ટ્વિટ્સને અલગ કરવા માટે તેઓએ માનવ શોધ એલ્ગોરિધમ વિકસાવ્યા. આ માનવ શોધ અલ્ગોરિધમનો ઉપયોગ કરીને તેમને મળ્યું કે 80% ટ્વીટ્સ ઓટોમેટેડ હતા. શું આ શોધ ભાગ (એ) ને તમારા જવાબમાં ફેરફાર કરે છે?
    3. જ્યારે તેઓ કાર્બનિક અને સ્વયંચાલિત ટ્વીટ્સમાં લાગણીની સરખામણી કરતા હતા, ત્યારે તેમને જાણવા મળ્યું હતું કે ઓટોમેટેડ ટ્વીટ્સ કાર્બનિક ટ્વીટ્સ (6.1.8 વિરુદ્ધ 5.84) કરતાં વધુ હકારાત્મક હતા. શું આ શોધ તમારા જવાબને (b) બદલાય છે?
  4. [ સરળ ] નવેમ્બર 200 9 માં, ટ્વિટરએ ટ્વિટ બૉક્સમાં "તમે શું કરી રહ્યા છો?" અને "શું થઈ રહ્યું છે?" થી પ્રશ્ન બદલ્યો છે (https://blog.twitter.com/2009/whats-hapan)

    1. તમને લાગે છે કે પ્રોમ્પ્ટ્સના ફેરફાર પર ટ્વીટ્સ અને / અથવા તે ચીંચીંને કોણ અસર કરશે?
    2. એક રિસર્ચ પ્રોજેક્ટ નામ આપો જેના માટે તમે પ્રોમ્પ્ટ પસંદ કરો છો "તમે શું કરો છો?" શા માટે સમજાઈએ?
    3. એક સંશોધન પ્રોજેક્ટ નામ આપો જેના માટે તમે પ્રોમ્પ્ટને પસંદ કરો છો "શું થઈ રહ્યું છે?"
  5. [ સરળ ] "રેટિટ્સ" નો ઉપયોગ ટ્વિટર પર પ્રભાવ અને પ્રભાવને માપવા માટે થાય છે. શરૂઆતમાં, યુઝર્સને તેઓની ગમતી ચીંચીંની નકલ અને પેસ્ટ કરવી પડ્યો હતો, મૂળ હેડર સાથે મૂળ લેખકને ટેગ કર્યું હતું અને ચીંચીં કરવું પહેલાં તે "રીટ્વીટ" લખ્યો હતો, જે સૂચવે છે કે તે રીટ્વીટ છે. પછી, 2009 માં, ટ્વિટરએ "રીટ્વીટ" બટન ઉમેર્યું. જૂન 2016 માં, ટ્વિટરએ વપરાશકર્તાઓને પોતાના ટ્વીટ્સ (https://twitter.com/twitter/status/742749353689780224) ને રીટ્વીટ કરવાનું શક્ય બનાવ્યું હતું. શું તમને લાગે છે કે આ ફેરફારો તમારા સંશોધનમાં "રિટેટ્સ" નો ઉપયોગ કરે છે તેના પર અસર કરવી જોઈએ? કેમ અથવા કેમ નહીં?

  6. [ ખૂબ જ હાર્ડ , માહિતી સંગ્રહ , કોડિંગની જરૂર છે , મારુ મનપસન્દ ] વ્યાપક ચર્ચાયેલા કાગળમાં, મિશેલ અને સહકાર્યકરો (2011) લાંબા ગાળાની સાંસ્કૃતિક વલણોને ઓળખવા માટેના પ્રયાસરૂપે પાંચ મિલિયન ડિજિટાઇઝ્ડ પુસ્તકોની સામગ્રીનું વિશ્લેષણ કર્યું છે. તેઓ જે ડેટાનો ઉપયોગ કરે છે તે હવે Google NGrams ડેટાસેટ તરીકે રજૂ કરવામાં આવ્યો છે, અને તેથી અમે ડેટાનો ઉપયોગ કરીને તેના કાર્યોમાંના કેટલાકને અનુકરણ અને વિસ્તૃત કરી શકીએ છીએ.

    કાગળના ઘણા પરિણામો પૈકી એક, મિશેલ અને તેના સાથીદારો દલીલ કરે છે કે અમે ઝડપી અને ઝડપી ભૂલી જઈએ છીએ. ચોક્કસ વર્ષ માટે, "1883" કહો, તેઓ 1875 અને 1 9 75 વચ્ચે દર વર્ષે પ્રકાશિત 1-ગ્રામના પ્રમાણની ગણતરી કરે છે જે "1883" હતા. તેઓએ એવું વિચાર્યું હતું કે આ પ્રમાણ તે વર્ષમાં થયેલી ઘટનાઓમાં રુચિનું માપ છે. તેમની આકૃતિ 3a માં, તેમણે ત્રણ વર્ષ માટે વપરાયેલી વાહનોની રચના કરી: 1883, 1 9 10, અને 1 9 50. આ ત્રણ વર્ષમાં સામાન્ય પેટર્નનો સમાવેશ થાય છે: તે વર્ષ પહેલાં થોડી ઉપયોગ, પછી સ્પાઇક, પછી સડો આગળ, દર વર્ષે સડોના પ્રમાણને માપવા માટે, મિશેલ અને સહકર્મીઓએ 1875 અને 1975 ની વચ્ચેના દરેક વર્ષ માટે દરેક વર્ષના "અર્ધ-જીવન" ની ગણતરી કરી. તેમની આકૃતિ 3a (ઇનસેટ) માં, તેમણે દર્શાવ્યું કે દરેક વ્યક્તિનું અડધું જીવન વર્ષ ઘટે છે અને તેઓ દલીલ કરે છે કે આનો અર્થ એ છે કે આપણે ભૂતકાળને ઝડપી અને ઝડપી ભૂલી જઈએ છીએ. તેઓએ ઇંગ્લીશ ભાષાના કોર્પસના સંસ્કરણ 1 નો ઉપયોગ કર્યો હતો, પરંતુ ત્યાર બાદ ગૂગલે કોર્પસના બીજા વર્ઝન રિલીઝ કર્યું છે. કોડિંગ શરૂ કરતા પહેલા, પ્રશ્નનાં તમામ ભાગો વાંચી લો.

    આ પ્રવૃત્તિ તમને રીસ્યુબલ કોડ, પ્રેક્ટીસ પરિણામો, અને ડેટા રાંઝલિંગ (જેમ કે અનાડી ફાઇલો સાથે કામ કરવું અને ગુમ થયેલ ડેટા હેન્ડલિંગ) પ્રથા આપશે. આ પ્રવૃત્તિ તમને એક સમૃદ્ધ અને રસપ્રદ ડેટાસેટ સાથે ઊભી અને ચાલવામાં સહાય કરશે.

    1. Google Books NGram Viewer વેબસાઇટ પરથી કાચા ડેટા મેળવો ખાસ કરીને, તમારે અંગ્રેજી ભાષાના કોર્પસના સંસ્કરણ 2 નો ઉપયોગ કરવો જોઈએ, જે 1 જુલાઈ, 2012 ના રોજ રિલીઝ કરવામાં આવી હતી. વિસંકુચિત, આ ફાઇલ 1.4GB છે.

    2. Michel et al. (2011) આકૃતિ 3a ના મુખ્ય ભાગને ફરીથી બનાવો Michel et al. (2011) . આ આંકડોને ફરીથી બનાવવા માટે, તમારે બે ફાઇલોની જરૂર પડશે: તમે (એ) અને "કુલ ગણતરીઓ" ફાઇલમાં ડાઉનલોડ કરેલ એક, જેનો ઉપયોગ તમે કાચા ગણતરીઓને પ્રમાણમાં રૂપાંતરિત કરવા માટે કરી શકો છો. નોંધ કરો કે કુલ ગણતરીઓની ફાઇલમાં માળખું છે જે તેને વાંચવા માટે થોડું મુશ્કેલ બનાવે છે. એનજીઆરએમ ડેટાના સંસ્કરણ 2 એ Michel et al. (2011) , જે સંસ્કરણ 1 ડેટા પર આધારિત છે?

    3. હવે તમારા આલેખને એનજીઆરએમ દર્શક દ્વારા બનાવવામાં આવેલા ગ્રાફ સામે તપાસો.

    4. આકૃતિ 3a (મુખ્ય આકૃતિ) ને ફરી બનાવો, પરંતુ \(y\) -axis ને કાચા ઉલ્લેખની ગણતરી (ઉલ્લેખનો દર નહીં \(y\) બદલવો.

    5. (B) અને (d) વચ્ચેનો તફાવત શું તમને મિશેલ એટ અલના પરિણામોમાંથી કોઈ પણ પુનઃમૂલ્યાંકન માટે દોરી જાય છે? (2011). કેમ અથવા કેમ નહીં?

    6. હમણાં, ઉલ્લેખનું પ્રમાણ ઉપયોગ કરીને, આકૃતિ 3a ના ઇન્સેટને નકલ કરો. એટલે કે, 1875 અને 1975 વચ્ચેના દરેક વર્ષ માટે, તે વર્ષના અડધા જીવનની ગણતરી કરો. અર્ધો જીવનનો ઉલ્લેખ વર્ષોની સંખ્યા તરીકે કરવામાં આવે છે, જેનો ઉલ્લેખ અર્ધો ભાગની ટોચ પર પહોંચે તે પહેલા તે પસાર કરે છે. નોંધ કરો કે Michel et al. (2011) સહાયક ઓનલાઇન માહિતીના અડધા-ભાગને-વિભાગ -3.6 નો અંદાજ કાઢવા માટે વધુ જટિલ કંઈક છે -પરંતુ તેઓ દાવો કરે છે કે બંને અભિગમ સમાન પરિણામો ઉત્પન્ન કરે છે. શું એનજીઆરએમ ડેટાના સંસ્કરણ 2 એ Michel et al. (2011) પ્રસ્તુત થયેલા લોકો માટે સમાન પરિણામો ઉત્પન્ન કરે છે Michel et al. (2011) , જે સંસ્કરણ 1 ડેટા પર આધારિત છે? (સંકેત: જો તે ન થાય તો નવાઈ નશો.)

    7. ત્યાં એવા વર્ષ હતા કે જેમણે વર્ષોથી ખાસ કરીને ઝડપથી અથવા ખાસ કરીને ધીમે ધીમે ભૂલી ગયા હતા? સંક્ષિપ્તમાં તે પેટર્નના સંભવિત કારણો અંગે અનુમાન લગાવવું અને સમજાવવું કે તમે આઉટલીયર કેવી રીતે ઓળખી

    8. હવે આ પરિણામને ચીની, ફ્રેંચ, જર્મન, હિબ્રુ, ઇટાલિયન, રશિયન અને સ્પેનિશમાં NGrams ડેટાના સંસ્કરણ 2 માટે નકલ કરો.

    9. બધી ભાષાઓની સરખામણીમાં, ત્યાં કેટલા વર્ષ હતા કે જે આઉટલેઅર હતા, જેમ કે વર્ષ કે જે ખાસ કરીને ઝડપથી અથવા ખાસ કરીને ધીમે ધીમે ભૂલી ગયા હતા? સંક્ષિપ્તમાં તે પેટર્ન માટે શક્ય કારણો વિશે અનુમાન.

  7. [ ખૂબ જ હાર્ડ , માહિતી સંગ્રહ , કોડિંગની જરૂર છે , મારુ મનપસન્દ ] Penney (2016) જોયું કે જૂન 2013 માં એનએસએ / પીઆઇઆરએસએમ સર્વેલન્સ (એટલે ​​કે, સૉનડેન અસ્વીકૃતિઓ) વિશેની વ્યાપક પ્રચાર ગોપનીયતાને લગતી ચિંતાઓ વધારતા વિષયો પર વિકિપિડિયા લેખો પર ટ્રાફિકમાં તીક્ષ્ણ અને અચાનક ઘટાડો સાથે સંકળાયેલા હતા. જો એમ હોય તો, વર્તનમાં આ પરિવર્તન સામૂહિક દેખરેખથી પરિણામે ઠારણ પ્રભાવ સાથે સુસંગત રહેશે. Penney (2016) ના અભિગમને ક્યારેક વિક્ષેપિત સમય શ્રેણી ડિઝાઇન તરીકે ઓળખવામાં આવે છે, અને તે વિભાગ 2.4.3 માં વર્ણવેલ અભિગમોથી સંબંધિત છે.

    વિષયના કીવર્ડ્સ પસંદ કરવા માટે, પેનીએ યુ.એસ. ડિપાર્ટમેન્ટ ઑફ હોમલૅન્ડ સિક્યોરિટી દ્વારા સામાજિક મીડિયાને ટ્રેકિંગ અને મોનિટર કરવા માટે ઉપયોગમાં લેવાયેલ સૂચિનો ઉલ્લેખ કર્યો છે. DHS સૂચિ ચોક્કસ શોધ શબ્દોને વિવિધ મુદ્દાઓ, જેમ કે "હેલ્થ કન્સર્ન," "ઈન્ફ્રાસ્ટ્રક્ચર સિક્યુરિટી," અને "ટેરરિઝમ." માં વર્ગીકૃત કરે છે, પેનેએ "ટેરરિઝમ" થી સંબંધિત 48 કીવર્ડ્સનો ઉપયોગ કર્યો (જુઓ એપેન્ડિક્સ ટેબલ 8 ). ત્યારબાદ તેમણે જાન્યુઆરી 2012 થી ઓગસ્ટ 2014 ની અંત સુધી 32 વિકેટે વિકિપીડિયાના અનુરૂપ 48 વિકિપિડિયા લેખો માટે માસિક ધોરણે કુલ વિકિપીડિયાની લેખોની ગણતરી કરી. તેમના દલીલને મજબૂત કરવા, તેમણે ટ્રેકિંગ દ્વારા કેટલાક તુલનાત્મક જૂથો પણ બનાવ્યાં અન્ય વિષયો પર લેખ જોવાઈ

    હવે, તમે Penney (2016) નકલ અને વિસ્તૃત કરવા જઈ રહ્યા છો આ પ્રવૃત્તિ માટે જરૂરી બધી જ કાચી માહિતી વિકિપીડિયાથી ઉપલબ્ધ છે. અથવા તમે તેને R-package વિકિપીડિયાટ્રેન્ડ (Meissner and R Core Team 2016) માંથી મેળવી શકો છો. જ્યારે તમે તમારા પ્રતિસાદો લખો છો, કૃપા કરીને નોંધો કે તમે કયા ડેટા સ્રોતનો ઉપયોગ કર્યો છે (નોંધ કરો કે આ જ પ્રવૃત્તિ પ્રકરણ 6 માં પણ જોવા મળે છે.) આ પ્રવૃત્તિ તમને ડેટા રેગલિંગમાં પ્રેક્ટિસ આપશે અને મોટા ડેટા સ્ત્રોતોમાં કુદરતી પ્રયોગો વિશે વિચાર કરશે. તે તમને ભાવિ યોજનાઓ માટે સંભવિત રૂપે રસપ્રદ ડેટા સ્રોતથી પણ અપ અને ચલાવશે.

    1. Penney (2016) વાંચો અને તેના આકૃતિ 2 ની નકલ કરો, જેણે સૉનડૅનનાં પ્રકટીકરણના પહેલા અને પછીના "આતંકવાદ" સંબંધિત પૃષ્ઠો માટેના પૃષ્ઠ દૃશ્યો બતાવે છે. તારણોનું અર્થઘટન કરો.
    2. આગળ, આકૃતિ 4 એ, જે ડીએચએસ સૂચિમાંથી "ડીએચએસ અને અન્ય એજન્સીઓ" હેઠળ વર્ગીકૃત કરાયેલા કીવર્ડ્સનો ઉપયોગ કરીને (જેમ કે પરિશિષ્ટો ટેબલ 10 અને ફૂટનોટ 139 જુઓ) અભ્યાસ કરનાર જૂથ સાથે "ગ્રુપ" ("આતંકવાદ" - સંબંધિત લેખો) ની તુલના કરે છે તેની નકલ કરો. તારણોનું અર્થઘટન કરો.
    3. ભાગમાં (બી) તમે અભ્યાસ જૂથની તુલના એક તુલનાકાર જૂથ સાથે કરો. પેનીએ અન્ય બે તુલનાત્મક જૂથો સાથે પણ સરખામણી કરી: "ઈન્ફ્રાસ્ટ્રક્ચર સિક્યોરિટી" સંબંધિત લેખો (પરિશિષ્ટ ટેબલ 11) અને લોકપ્રિય વિકિપીડિયા પૃષ્ઠો (પરિશિષ્ટ ટેબલ 12). વૈકલ્પિક તુલનાત્મક જૂથ સાથે આવો, અને પરીક્ષણ કરો કે ભાગ (b) ના તારણો તમારા પસંદગીકાર જૂથની પસંદગી પ્રત્યે સંવેદનશીલ છે કે નહીં. જે પસંદગી સૌથી અર્થમાં બનાવે છે? શા માટે?
    4. પેનીએ જણાવ્યું હતું કે "આતંકવાદ" સંબંધિત કીવર્ડ્સનો ઉપયોગ વિકિપીડિયાના લેખોને પસંદ કરવા માટે કરવામાં આવ્યો હતો કારણ કે અમેરિકી સરકારે તેની ઑનલાઇન સર્વેલન્સ વ્યવહાર માટે કી સમર્થન તરીકે આતંકવાદનો ઉલ્લેખ કર્યો હતો. આ 48 "ટેરરિઝમ" -સંબંધિત કીવર્ડ્સના ચેક તરીકે, Penney (2016) દ્વારા એમટીયુકેક પર એક સર્વેક્ષણ હાથ ધરવામાં આવ્યું હતું, જેમાં સરકારના મુશ્કેલી, ગોપનીયતા-સંવેદનશીલ અને દૂરના સંદર્ભમાં દરેક એચટી કીવર્ડ્સને રેટ કરવા માટે ઉત્તરદાતાઓને પૂછવામાં આવ્યું છે (પરિશિષ્ટ ટેબલ 7 અને 8 ). એમટીયુકે પરના મોજણીની નકલ કરો અને તમારા પરિણામોની સરખામણી કરો.
    5. ભાગ (ડી) અને તમારા લેખના વાંચન પર આધારિત, શું તમે અભ્યાસ ગ્રુપમાં પેનીની વિષયના કીવર્ડ્સની પસંદગીથી સંમત છો? કેમ અથવા કેમ નહીં? જો નહિં, તો તમે તેના બદલે શું સૂચન કરશે?
  8. [ સરળ ] Efrati (2016) ગોપનીય માહિતીના આધારે અહેવાલ આપ્યો હતો કે, ફેસબુક પર "કુલ શેરિંગ" વર્ષમાં લગભગ 5.5% જેટલો ઘટાડો થયો હતો જ્યારે "મૂળ પ્રસારણ શેરિંગ" વર્ષ ઉપર 21% ઘટી હતી. આ ઘટાડો 30 વર્ષથી ઓછી ઉંમરના ફેસબુક વપરાશકર્તાઓ સાથે તીવ્ર હતો. આ અહેવાલમાં બે પરિબળોને ઘટાડાને આભારી છે. એક ફેસબુક પર "મિત્રો" લોકોની સંખ્યામાં વૃદ્ધિ છે. બીજું એ છે કે કેટલાક વહેંચણી પ્રવૃત્તિ મેસેજિંગ અને સ્પર્ધકો જેમ કે Snapchat માં ખસેડાઈ છે. આ રિપોર્ટમાં ફેસબુક, ન્યૂઝ ફીડ એલ્ગોરિધમ ટ્વીક્સ સહિતની વહેંચણીને પ્રોત્સાહન આપવા માટે વિવિધ વ્યૂહની પણ ચર્ચા કરી છે, જે મૂળ પોસ્ટ્સને વધુ પ્રખ્યાત બનાવે છે, સાથે સાથે "ઓન આ ડે" સુવિધા સાથેની મૂળ પોસ્ટ્સના સામયિક રીમાઇન્ડર્સ. જો કોઈ હોય તો, આ તારણો સંશોધકો માટે છે જે ફેસબુકનો ઉપયોગ ડેટા સ્રોત તરીકે કરવા માગે છે?

  9. [ માધ્યમ એક સમાજશાસ્ત્રી અને ઇતિહાસકાર વચ્ચે શું તફાવત છે? ગોલ્ડથોરપ (1991) મુજબ, મુખ્ય ભેદ ડેટા સંગ્રહ પર નિયંત્રણ છે. ઇતિહાસકારોને અવશેષોનો ઉપયોગ કરવાની ફરજ પાડવામાં આવે છે, જ્યારે સમાજશાસ્ત્રીઓ તેમના ડેટા સંગ્રહને ચોક્કસ હેતુઓ માટે બનાવી શકે છે. Goldthorpe (1991) વાંચો સમાજશાસ્ત્ર અને ઇતિહાસ વચ્ચેનો તફાવત, કસ્ટમમેડસ અને રેડીમેડ્સના વિચારથી શું છે?

  10. [ હાર્ડ ] આ અગાઉના ક્વોસિટોન પર નિર્માણ કરે છે. Goldthorpe (1991) ઘણા બધા જ જટિલ પ્રતિભાવો ઉભા થયા હતા, જેમાં નિકી હાર્ટ (1994) સમાવેશ થાય છે, જેમાં ચાંદીના ડેટા માટે ગોલ્ડથોર્પની ભક્તિને પડકારવામાં આવ્યો હતો. દરજી બનાવતી માહિતીની સંભવિત મર્યાદાઓને સ્પષ્ટ કરવા, હાર્ટે સમૃદ્ધ કાર્યકર્તા પ્રોજેક્ટને વર્ણવ્યું, જે સામાજિક વર્ગ અને મતદાનની વચ્ચેના સંબંધને માપવા માટેનું એક વિશાળ મોજું હતું, જે 1960 ના દાયકાના મધ્યમાં ગોલ્ડથોર્પ અને સહકાર્યકરો દ્વારા હાથ ધરાયું હતું. એક એવી વિદ્વાનની અપેક્ષા રાખી શકે છે કે જેણે મળેલા આંકડાઓ પર ડેટા રચવા તરફેણ કરી હોય, તો સમૃદ્ધ કાર્યકર્તા પ્રોજેક્ટ દ્વારા એકત્ર કરાયેલા ડેટા એકત્રિત કરવામાં આવ્યા હતા જે જીવન ધોરણમાં વધારો કરવાના યુગમાં સામાજિક વર્ગના ભવિષ્ય વિશે તાજેતરમાં પ્રસ્તાવિત સિદ્ધાંતને સંબોધવા માટે તૈયાર કરવામાં આવ્યા હતા. પરંતુ, ગોલ્ડથોર્પ અને તેના સાથીઓ કોઈક રીતે સ્ત્રીઓના મતદાન વર્તન વિશેની માહિતી એકત્રિત કરવા "ભૂલી ગયા". અહીં કેવી રીતે નિકી હાર્ટ (1994) સમગ્ર એપિસોડમાં સારાંશ આપ્યો હતો:

    "... આ નિષ્કર્ષને ટાળવો મુશ્કેલ છે કે સ્ત્રીઓને અવગણવામાં આવી હતી કારણ કે આ 'દરજી' ડેટાસેટ એક પારદર્શક તર્ક દ્વારા મર્યાદિત હતો જેમાં સ્ત્રી અનુભવને બાકાત રાખવામાં આવ્યો હતો. ક્લાસિક સભાનતા અને ક્રિયાપ્રતિક્રિયાઓના સૈદ્ધાંતિક દૃષ્ટિકોણ દ્વારા, પુરૂષોના વિધિઓને આધારે ..., ગોલ્ડથોર્પે અને તેમના સાથીઓએ પ્રયોગમૂલક પુરાવાઓના એક સમૂહનું નિર્માણ કર્યું હતું, જે તેમને પર્યાપ્ત યોગ્યતા માટે યોગ્ય પરીક્ષા આપવાને બદલે તેમની પોતાની સૈદ્ધાંતિક ધારણાઓનો ઉછેર અને સંવર્ધન કરતા હતા. "

    હાર્ટ ચાલુ રાખ્યું:

    "સમૃદ્ધ કાર્યકર્તા પ્રોજેક્ટના પ્રયોગમૂલક તારણો મધ્ય-સદીની સમાજશાસ્ત્રના પુરૂષવિજ્ઞાનવાદી મૂલ્યો વિશે વધુ જણાવે છે તેના કરતાં તેઓ સ્તરીકરણ, રાજકારણ અને ભૌતિક જીવનની પ્રક્રિયાઓને જાણ કરે છે."

    શું તમે બીજા ઉદાહરણોની કલ્પના કરી શકો છો જ્યાં ડાટા-કમ્પોઝડ ડેટા કલેક્શનમાં ડેટા કલેક્ટરના પક્ષપાત છે? આ અલ્ગોરિધમિક ગુંચવણાની સરખામણી કેવી રીતે કરે છે? સંશોધકોએ રેડીમેડ્સનો ઉપયોગ કરવો જોઈએ અને જ્યારે કસ્ટમમેડસનો ઉપયોગ કરવો જોઈએ, ત્યારે તેના માટે શું અસર થઈ શકે?

  11. [ માધ્યમ ] આ પ્રકરણમાં, મેં કંપનીઓ અને સરકારો દ્વારા સંચાલિત વહીવટી રેકોર્ડ ધરાવતા સંશોધકો માટે સંશોધકો દ્વારા એકત્રિત ડેટા વિપરિત કર્યો છે. કેટલાક લોકો આ વહીવટી રેકોર્ડ્સને "ડેટા મળ્યાં છે" કહે છે, જે તેઓ "ડિઝાઇન કરેલા ડેટા" સાથે વિપરીત છે. તે સાચું છે કે સંશોધકો દ્વારા વહીવટી રેકોર્ડ મળી આવે છે, પરંતુ તેઓ અત્યંત ડિઝાઇન કરેલ છે. ઉદાહરણ તરીકે, આધુનિક ટેક કંપનીઓ તેમની માહિતી એકત્રિત કરવા અને તેનું સંચાલન કરવા માટે ખૂબ જ સખત કામ કરે છે. આમ, આ વહીવટી રેકોર્ડ બંને મળી અને રચાયેલ છે, તે ફક્ત તમારા પરિપ્રેક્ષ્ય પર આધાર રાખે છે (આકૃતિ 2.12).

    આકૃતિ 2.12: ચિત્ર બતક અને સસલું છે; તમે જે જુઓ છો તે તમારા પરિપ્રેક્ષ્ય પર આધારિત છે. મોટા ડેટા સ્ત્રોતો બન્ને મળ્યાં અને રચ્યાં છે; ફરી, તમે જે જુઓ છો તે તમારા પરિપ્રેક્ષ્ય પર આધારિત છે. ઉદાહરણ તરીકે, મોબાઇલ-ફોન કંપની દ્વારા મેળવેલ કોલ ડેટા રેકોર્ડ્સ સંશોધકના પરિપ્રેક્ષ્યમાંથી ડેટા મળે છે. પરંતુ, આ ચોક્કસ જ રેકોર્ડ્સ ફોન કંપનીના બિલિંગ ડિપાર્ટમેન્ટમાં કામ કરતા વ્યક્તિના પરિપ્રેક્ષ્યમાં ડેટા રચવામાં આવ્યા છે. સોર્સ: પોપ્યુલર સાયન્સ મન્થલી (1899) / વિકિમીડીયા કોમન્સ.

    આકૃતિ 2.12: ચિત્ર બતક અને સસલું છે; તમે જે જુઓ છો તે તમારા પરિપ્રેક્ષ્ય પર આધારિત છે. મોટા ડેટા સ્ત્રોતો બન્ને મળ્યાં અને રચ્યાં છે; ફરી, તમે જે જુઓ છો તે તમારા પરિપ્રેક્ષ્ય પર આધારિત છે. ઉદાહરણ તરીકે, મોબાઇલ-ફોન કંપની દ્વારા મેળવેલ કોલ ડેટા રેકોર્ડ્સ સંશોધકના પરિપ્રેક્ષ્યમાંથી ડેટા મળે છે. પરંતુ, આ ચોક્કસ જ રેકોર્ડ્સ ફોન કંપનીના બિલિંગ ડિપાર્ટમેન્ટમાં કામ કરતા વ્યક્તિના પરિપ્રેક્ષ્યમાં ડેટા રચવામાં આવ્યા છે. સોર્સ: પોપ્યુલર સાયન્સ મન્થલી (1899) / વિકિમીડીયા કોમન્સ .

    ડેટા સ્રોતનું એક ઉદાહરણ પૂરું પાડો જ્યાં સંશોધન અને તે ડેટા સ્રોતનો ઉપયોગ કરતી વખતે તે બંનેને મળી અને ડિઝાઇન કરવામાં સહાયરૂપ છે.

  12. [ સરળ ] એક વિચારશીલ નિબંધમાં, ક્રિશ્ચિયન સેન્ડવીગ અને એસ્ઝ્ટર હાર્ગીટાઈ (2015) ડિજિટલ રિસર્ચને ડિજિટલ રિસર્ચમાં વિભાજિત કરે છે, તેના આધારે ડિજિટલ સિસ્ટમ એ "ઇન્સ્ટ્રુમેન્ટ" અથવા "ઓબ્જેક્ટ ઓફ સ્ટડી" છે. પ્રથમ પ્રકારની ઉદાહરણ-જ્યાં સિસ્ટમ છે એક સાધન છે - 2010 માં હૈતીમાં ભૂકંપ પછી માઇગ્રેશનને ટ્રેક કરવા માટે મોબાઇલ-ફોન ડેટાનો ઉપયોગ કરીને બાંગ્ન્સસન અને સહકાર્યકરો (2011) દ્વારા સંશોધન. બીજા પ્રકારનું ઉદાહરણ- જ્યાં સિસ્ટમ એ અભ્યાસનો એક પદાર્થ છે- જેનસન દ્વારા સંશોધન છે (2007) કેવી રીતે કેરળમાં મોબાઇલ ફોન્સની રજૂઆત, ભારતે માછલી માટે બજારની કામગીરી પર અસર કરી. મને આ ભેદને મદદ મળે છે કારણ કે તે સ્પષ્ટ કરે છે કે ડિજિટલ ડેટા સ્રોતનો ઉપયોગ કરીને અભ્યાસમાં તદ્દન અલગ ધ્યેયો હોઈ શકે છે, પછી ભલે તે સમાન પ્રકારના ડેટા સ્રોતનો ઉપયોગ કરી રહ્યાં હોય. આ તફાવતને વધુ સ્પષ્ટ કરવા માટે, ચાર અભ્યાસોનું વર્ણન કરો જે તમે જોયાં છે: ડિજિટલ સિસ્ટમનો ઉપયોગ સાધન તરીકે અને બે જે ડિજિટલ સિસ્ટમનો ઉપયોગ અભ્યાસના હેતુ તરીકે કરે છે. જો તમે ઇચ્છો તો આ પ્રકરણના ઉદાહરણો વાપરી શકો છો.