गतिविधिहरु

  • कठिनाईको डिग्री: सजिलो सजिलो , मध्यम मध्यम , कडा कठोर , धेरै कडा धेरै कडा
  • आवश्यक गणित ( गणित चाहिन्छ )
  • आवश्यक कोडिंग ( कोडिङ चाहिन्छ )
  • तथ्यांक संकलन ( तथ्यांक संकलन )
  • मेरो प्यारो ( मेरो मन पर्ने )
  1. [ मध्यम , मेरो मन पर्ने ] एल्गोरिथ्मिक विफलता Google Flu Trends सँग एक समस्या थियो। Lazer et al. (2014) द्वारा कागज पढ्नुहोस् Lazer et al. (2014) , र Google मा एक ईन्जिनियरिङ्लाई छोटो, सफा इमेल लेख्न को लागी समस्या को व्याख्या र यसलाई कसरी समाधान गर्ने विचार प्रदान गर्दछ।

  2. [ मध्यम ] Bollen, Mao, and Zeng (2011) दावी गरेको छ कि चहचहानाको डाटा स्टक बजारको भविष्यवाणी गर्न प्रयोग गर्न सकिन्छ। यो खोज को हेज फंड - डेरिवेट कैपिटल मार्केट्स को निर्माण को कारण बन्यो - चहचहाना (Jordan 2010) एकत्रित डेटा मा आधारित स्टक बजार मा निवेश गर्न को लागि। त्यो रकममा तपाईंको पैसा राख्नु अघि तपाई कुन प्रमाण देख्नुहुन्छ?

  3. [ सजिलो ] जबकि केहि सार्वजनिक स्वास्थ्य समर्थकहरु लाई धूम्रपान सिंक को लागि एक प्रभावी सहायता को बारे मा विचार गर्दछ, अन्य को संभावित जोखिम को बारे मा चेतावनी दि्छ, जस्तै निकोटीन को उच्च स्तर। कल्पना गर्नुहोस् कि एक शोधकर्ताले ई-सिगरेट-सम्बन्धी चहचहाना पोष्टहरू र भावनात्मक विश्लेषण सञ्चालन गरेर ई-सिगरेटमा सार्वजनिक राय अध्ययन गर्न निर्णय गर्छ।

    1. यस अध्ययनमा तपाईलाई प्रायजसो तीनवटा सम्भावनाहरू के हुन्?
    2. Clark et al. (2016) भर्खरै एउटा अध्ययन भाग्यो। पहिलो, तिनीहरूले 850,000 ट्वीट्स एकत्र गरे जुन जनवरी 2012 देखि डिसेम्बर 6 देखि ई-सिगरेट सम्बन्धी शब्दहरू प्रयोग गर्थे। नजिकको निरीक्षणमा, उनीहरूले सोचेका थिए कि यी धेरै टाईमहरू स्वचालित रूपमा (यानी मानवद्वारा उत्पादन नगरेको थिएन) र यी धेरै स्वचालित टाईहरू अनिवार्य रूपमा थिए। व्यवसायहरू। तिनीहरूले जैविक टाइटहरूबाट स्वचालित टाईमहरू अलग गर्न मानव अन्वेषण एल्गोरिथ्म विकसित गरे। यो मानव पत्ता लगाउने एल्गोरिदमको प्रयोगले उनीहरूले पत्ता लगाए कि 80% टाईहरू स्वचालित थिए। के यो खोजीले तपाइँको उत्तरलाई (ए) भाग परिवर्तन गर्छ?
    3. जब उनीहरूले जैविक र स्वचालित ट्वीट्समा भावनाको तुलना गरे, उनीहरूले पत्ता लगाए कि स्वचालित टाईम जैविक टाईम्स भन्दा बढी सकारात्मक थियो (6.17 बनाम 5.84)। के यो खोजीले तपाइँको उत्तर (बी) लाई परिवर्तन गर्दछ?
  4. [ सजिलो ] नोभेम्बर 200 9 मा, ट्विटरले ट्वीटर बाकसमा प्रश्नलाई "के गर्दैछ?" बाट "के गरिरहेको छ?" (Https://blog.twitter.com/2009/whats-happening)।

    1. तपाईले कसरी सोच्नुहुन्छ कि प्रमोशनहरूको परिवर्तनले कुन ट्वीट्स र / वा कुन कुरालाई ट्वीटरमा असर गर्नेछ?
    2. नाम एक अनुसन्धान परियोजना को लागी जसलाई तपाईं प्रम्प्ट चाहानुहुन्छ "के गर्दै हुनुहुन्छ?" व्याख्या गर्नुहोस् किन।
    3. नाम एक अनुसन्धान प्रोजेक्ट को लागी जसलाई तपाईंले प्रम्प्ट "के गरिरहनुभएको छ?" को लागी चाहानुहुन्छ किन।
  5. [ सजिलो ] "रिटाइमहरू" प्रायः चहचहानामा प्रभाव र प्रभाव फैलाउन प्रयोग गरिन्छ। सुरुमा, प्रयोगकर्ताहरूले ट्वीटर प्रतिलिपि गर्न र टाँस्न चाहानुपर्थ्यो र उनीहरूले मनपराउन सक्थे, मूल लेखकलाई उनको ह्यान्डलसँग ट्याग गर्नुहोस्, र ट्वीटर अघि मैन्युअल रूपले "RT" टाइप गर्नुहोस् कि यो एक रेटिभ थियो। त्यसपछि, 200 9 मा, ट्विटरले "retweet" बटन थप्यो। जुन 2016 मा, ट्विटरले प्रयोगकर्ताहरूलाई आफ्नै ट्वीट्सहरू पुनःप्राप्त गर्न सम्भव बनायो (https://twitter.com/twitter/status/742749353689780224)। के तपाईं सोच्नुहुन्छ कि यी परिवर्तनहरूले तपाइँलाई तपाइँको अनुसन्धानमा "क्यामेरा" प्रयोग गर्ने तरिकालाई असर पार्दछ? किन वा किन होइन?

  6. [ धेरै कडा , तथ्यांक संकलन , कोडिङ चाहिन्छ , मेरो मन पर्ने ] एक व्यापक रूपमा छलफल गरीएको पेपरमा, मिशेल र साथीहरूले (2011) ले लामो समयसम्म सांस्कृतिक प्रवृत्तहरूको पहिचान गर्ने प्रयासमा 5 लाख भन्दा बढी डिजाईड गरिएका पुस्तकहरूको सामग्रीको विश्लेषण गरे। उनीहरूले प्रयोग गरेको डाटा अब Google NGrams डेटासेटको रूपमा जारी गरिएको छ, र यसैले हामी डाटा प्रयोग गर्न सक्छौं र केहि कार्यहरू विस्तार गर्न सक्छौं।

    पेपरमा धेरै परिणामहरू मध्ये मिशेल र साथीहरूले तर्क दिएका छन् कि हामी छिटो र छिटो बिर्सिरहेका छौं। एक वर्षको लागि, "1883" भन्नुहोस्, "1875 र 1 9 75 को बीचमा प्रत्येक वर्षमा प्रकाशित 1-ग्राम अनुपात" 1883 "थियो। तिनीहरूले तर्क गरे कि यो अनुपात त्यो वर्षमा भएको घटनाहरूको रुचिको उपाय हो। उनीहरूको संख्या 3 एमा, उनीहरूले तीन वर्षको लागि प्रयोग प्रविधिको प्रयोग गरेका थिए: 1883, 1 9 10 र 1 9 50। यी तीन वर्षहरू एक सामान्य ढाँचा साझेदारी गर्छन्: त्यस वर्ष अघिको सानो प्रयोग, त्यसपछि एउटा स्पिकर, त्यसपछि पक्का हुन्छ। अर्को, प्रत्येक वर्ष को लागि क्षय दर को मात्रा को कमान्ड गर्न को लागि, मिशेल र सहयोगियों ने 1875 और 1 9 75 के बीच हर साल के लिए "आधा जीवन" की गणना की। उनके आंकड़े 3a (इन्सेट) में, उन्होंने दिखाया कि प्रत्येक की आधा जीवन वर्ष घट्दै गएको छ, र तिनीहरूले तर्क दिएका छन् कि यसको अर्थ हामीले अघिल्लो छिटो र छिटो बिर्सिरहेका छौं। तिनीहरूले अंग्रेजी भाषा कोर्स्पस को संस्करण 1 को प्रयोग गरे, तर त्यस पछि Google ले कोर्क्सको दोस्रो संस्करण जारी गरेको छ। तपाईंले कोडिङ सुरू गर्नु अघि प्रश्नको सबै भागहरू पढ्नुहोस्।

    यो क्रियाकलापले तपाईंलाई लेखन पुन: प्रयोज्य कोड अभ्यास गर्दछ, परिणामहरू व्याख्या गर्न, र डेटा बजाइरहेको छ (जस्तै अचिका फाइलहरूसँग काम गर्ने र हराएको डाटालाई हटाउने)। यो क्रियाकलापले तपाईंलाई एक धनी र रोचक डेटासेटसँग चलिरहेको र चलिरहेको पनि मद्दत गर्नेछ।

    1. गुगल पुस्तक नग्राम दर्शक वेबसाईटबाट कच्चा डाटा पाउनुहोस्। विशेष गरी, तपाईंले अंग्रेजी भाषा कोर्क्सको संस्करण 2 को प्रयोग गर्नु पर्छ जुन 1 जुलाई, 2012 मा रिलीज गरिएको थियो। असम्पीडित, यो फाइल 1.4 जीबी छ।

    2. Michel et al. (2011) को आंकडा 3 ए को मुख्य भाग को दोश्रो बनाये Michel et al. (2011) । यो संख्या पुन: सिर्जना गर्न, तपाइँलाई दुई फाईलहरू आवश्यक पर्दछ: तपाईले (ए) र "कुल गणना" फाइलमा डाउनलोड गर्नुभएको एउटा फाइल, जुन तपाइँले अनुपातमा कच्चा गणनाहरू बदल्न प्रयोग गर्न सक्नुहुनेछ। ध्यान दिनुहोस् कि कुल गणना फाइलको संरचना हो जसले यसलाई पढ्न निकै गाह्रो बनाउन सक्छ। क्या ग्याग्राम डेटाको संस्करण 2 Michel et al. (2011) प्रस्तुत गरिएकाहरूलाई परिणामहरू उत्पन्न गर्दछ Michel et al. (2011) , जुन संस्करण 1 डेटामा आधारित छन्?

    3. अब ग्याग्राम दर्शक द्वारा बनाईएको ग्राफको विरुद्ध आफ्नो ग्राफ जाँच गर्नुहोस्।

    4. संख्या 3a (मुख्य आकृति) पठाउनुहोस्, तर \(y\) -एक्स परिवर्तन गर्नुहोस् कच्चा उल्लेख गणनाहरू (उल्लेखको दर होइन)।

    5. के बीचको फरक (बी) र (घ) तपाईंलाई मिशेल एट अल को कुनै न कुनै परिणाम को पुनरावलोकन गर्न को लागी। (2011)। किन वा किन होइन?

    6. अब, व्याख्या को अनुपात को प्रयोग गरेर, आंकडा 3a को कोसेट को दोहराएँ। त्यो वर्ष 1875 र 1 9 75 को बीच प्रत्येक वर्ष को लागि त्यो साल को आधा जीवन को गणना गर्दछ। आधा-जीवन परिभाषित गरिएको वर्षहरूको संख्या परिभाषित गरिएको छ जुन उल्लेखको अनुपात आधाको चोटी मानमा पुग्छ। ध्यान दिनुहोस् कि Michel et al. (2011) सहायक अनलाइन सूचनाको आधा-जीवन-दृश्य खण्ड III.6 अनुमान गर्न अधिक जटिल केहि गर्न-तर उनीहरूको दाबी गर्छन् कि दुवै दृष्टिकोणले समान परिणामहरू उत्पादन गर्दछ। केग्राम डाटाको संस्करण 2 ले Michel et al. (2011) प्रस्तुत गरेकाहरूलाई समान परिणामहरू प्रदान गर्दछ Michel et al. (2011) , जुन संस्करण 1 डेटामा आधारित छन्? (संकेत: यदि छैन भने आश्चर्यचकित नगर्नुहोस्।)

    7. त्यहाँ कुनै पनि वर्ष हो कि वर्षहरु जस्तै कि कि विशेष गरी छिटो बिर्सिएको थियो वा विशेष गरी ढिलो भए? छोटो रूपमा त्यो ढाँचाको सम्भावनाको बारेमा अनुमान गर्नुहोस् र तपाइँ कसरी आउटलर्सहरू चिन्न सक्नुहुन्छ भनेर व्याख्या गर्नुहोस्।

    8. अब यो नतिजा चिनियाँ, फ्रान्सेली, जर्मन, हिब्रू, इटालियन, रुसी र स्पेनिशमा एनग्राम डाटाको संस्करण 2 का लागि।

    9. सबै भाषाहरूको तुलनामा, त्यहाँ कुनै पनि वर्षहरू थिए जो बाहिरका थिए, जस्तै वर्ष जुन बिस्तारै बिर्सनुभयो वा विशेष गरी ढिलो भए? छोटो रूपमा त्यो ढाँचाको सम्भावनाको बारेमा अनुमान गर्नुहोस्।

  7. [ धेरै कडा , तथ्यांक संकलन , कोडिङ चाहिन्छ , मेरो मन पर्ने ] Penney (2016) अन्वेषण गरे कि जुन 2013 मा एनएसए / PRISM निगरानी (यानी, स्नोडन अज्ञात) को बारे मा व्यापक प्रचार सम्बन्धी विषयहरु मा विकिपीडिया लेख मा ट्राफिक मा तीव्र र अचानक कमी संग सम्बन्धित थियो जो गोपनीयता को बढावा उठाते हो। यदि त्यसो भए, यो परिवर्तनमा परिवर्तनले जटिल निगरानीको साथ सामूहिक निगरानीबाट उत्पन्न हुने सम्भावना हुनेछ। Penney (2016) को दृष्टिकोण कहिलेकाहीं अवरोधित समय श्रृंखला डिजाइन भनिन्छ, र यो धारा 2.4.3 मा वर्णन गरिएको दृष्टिकोणसँग सम्बन्धित छ।

    विषयशब्द छनौट गर्न Penney, सोशल मीडिया ट्र्याक र निगरानीको लागि अमेरिकाको होमल्याण्ड सुरक्षा विभाग द्वारा प्रयोग गरिएको सूचीमा उल्लेख गरिएको छ। DHS सूचीले केहि खोजी सर्तहरूको दायरामा वर्गीकरण गर्दछ, जस्तै "स्वास्थ्य सम्बन्ध," "इन्फ्रास्ट्रक्चर सिक्योरिटी," र "आतंकवाद।" अध्ययन समूहको लागि, पेनेले "आतंकवाद" सम्बन्धी 48 वटा शब्दहरू प्रयोग गर्थे (परिशिष्ट तालिका 8 हेर्नुहोस् )। त्यसपछि तिनी एकदमै विकिपीडिया लेख दृश्यले एक 48-महिनाको अवधिमा जनवरी 2012 को सुरुदेखि अगस्त 2014 सम्मको मासिक आधारमा मासिक आधारमा गणना गर्दछ। यसको तर्कलाई बलियो बनाउनका लागि, उनले ट्रयाक गरेर धेरै तुलना समूहहरू पनि सिर्जना गरे। लेख विचारहरू अन्य विषयहरूमा।

    अब, तपाईं Penney (2016) लाई दोहोर्याउन र विस्तार गर्न जाँदै हुनुहुन्छ। यस गतिविधिको लागि तपाईलाई आवश्यक कच्चा डाटा विकिपीडियाबाट उपलब्ध छ। अथवा तपाईले आर-प्याकेज वििक्पिडिएट्रेंड (Meissner and R Core Team 2016) बाट प्राप्त गर्न सक्नुहुनेछ। जब तपाईं आफ्नो प्रतिक्रियाहरू लेख्नुहुन्छ, कृपया तपाईलाई कुन डेटा स्रोत प्रयोग गर्नुहोला। (ध्यान दिनुहोस् कि यो गतिविधिले अध्याय 6 मा पनि देखा पर्दछ) यो क्रियाकलापले तपाईंलाई डेटा रङ्गमा अभ्यास गर्दछ र ठूलो डेटा स्रोतहरूमा प्राकृतिक अनुभवहरूको बारे सोच्दछ। यसले तपाईंलाई भविष्य र भविष्यका परियोजनाहरूको लागि सम्भावित रोचक डेटा स्रोतको साथ चलिरहेको छ।

    1. Penney (2016) पढ्नुहोस् र उनको आंकडा 2 लाई दोहोर्याउनुहोस् जो Snowden खुलासाहरू अघि र पछि "आतंकवाद" -संबद्ध पृष्ठहरूको पृष्ठ दृश्य देखाउँछ। निष्कर्षहरू व्याख्या गर्नुहोस्।
    2. अर्को, 4A प्रतिकृति आंकडा, जो DHS सूचीबाट "DHS र अन्य एजेन्सीहरू" को अंतर्गत वर्गीकृत कीवर्ड प्रयोग गरेर तुलनात्मक समूहको साथ अध्ययन समूह ("आतंकवाद" -संबद्ध लेखहरू) तुलना गर्दछ (एन्सेन्डिक्स तालिका 10 र फुटनोट 139 हेर्नुहोस्)। निष्कर्षहरू व्याख्या गर्नुहोस्।
    3. भागमा (बी) तपाईंले अध्ययन समुहको तुलनामा एक तुलनात्मक समूहसँग तुलना गर्नुभयो। पेनीले दुई अन्य तुलनात्मक समूहहरूसँग तुलना गरे: "इन्फ्रास्ट्रक्चर सिक्योरिटी" सम्बन्धित लेख (परिशिष्ट तालिका 11) र विकिपीडिया पृष्ठहरू लोकप्रिय (परिशिष्ट टेबल 12)। एक वैकल्पिक तुल्यकालन समुहको साथ आओ, र परीक्षण गर्नुहोस् कि भाग (बी) को निष्कर्षले तुल्यकारक समुहको छनौटमा संवेदनशील छ कि छैन। सबै भन्दा राम्रो तरिकाले कुन विकल्प बनाउँछ? किन?
    4. पेनीले भनिन् कि "आतंकवाद" को सम्बन्धमा शब्दहरू विकिपीडियाका लेखहरू चयन गर्न प्रयोग भएको थियो किनकि अमेरिकी सरकारले यसको अनलाइन निगरानी प्रथाहरूको लागि एक प्रमुख औचित्यको रूपमा आतंकवादीलाई उद्धृत गर्यो। यी 48 "आतंकवाद" सम्बन्धी शब्दहरूको जाँचको रूपमा, Penney (2016) ले एमटीर्कमा एउटा सर्वेक्षण पनि गरे, जसलाई उत्तरदायी, गोपनीयता-संवेदनशील र अपमानता (एन्टेन्टेसन टेबल 7 र 8 को सन्दर्भमा प्रत्येक एचभी कुञ्जी शब्दहरू मूल्याङ्कन गर्न सोधिएको थियो। )। MTurk मा सर्वेक्षण को प्रतिकृया गर्नुहोस् र तपाईंको नतिजाहरु तुलना गर्नुहोस्।
    5. भाग (डी) मा परिणाम र तपाइँको लेख को पढाई को आधार मा, तपाईं अध्ययन समूह मा पेनी को रुचि खोजशब्द संग सहमत हुनुहुन्छ? किन वा किन होइन? यदि होइन भने, तपाई यसको सट्टामा के सुझाव दिनुहुन्छ?
  8. [ सजिलो ] Efrati (2016) गोपनीय जानकारीको आधारमा, रिपोर्टअनुसार फेसबुकमा "कुल साझेदारी" वर्ष भन्दा बढी 5.5% वर्षमा भएको छ, जबकि "मूल प्रसारण साझेदारी" वर्ष भन्दा बढी 21% वर्ष थियो। यो गिरावट विशेष गरी फेसबुक प्रयोगकर्ताहरूसँग 30 वर्षको उमेरमा तीव्र थियो। रिपोर्टले गिरावटको कारण दुई कारकहरू तिरियो। एक "साथी" को संख्या मा वृद्धि फेसबुक मा छ। अर्को कुरा भनेको केही साझेदारी गतिविधि सन्देश स्पीपचत जस्ता प्रतियोगी र प्रतिस्पर्धामा बदलिएको छ। उक्त रिपोर्टले यो पनि थाहा पाएको छ कि फेसबुकले एल्गोरिदम ट्वीक्स सहित साझेदारी गर्ने धेरै रणनीतिहरु, जुन "यो डे डे" सुविधाको साथ मूल पोष्टहरू र प्रमुख पदहरूका आवधिक रिमाइन्डरहरू समावेश गर्दछ। कुन प्रभावकारी, यदि कुनै हो, यी निष्कर्षहरु को शोधकर्ताहरु को लागि जो एक डेटा स्रोत को रूप मा फेसबुक को उपयोग गर्न चाहते हो?

  9. [ मध्यम ] एक समाजशास्त्री र एक इतिहासकार को बीच के अंतर छ? गोल्डथोरप (1991) अनुसार, मुख्य अंतर डेटा संग्रह मा नियंत्रण छ। इतिहासकारहरु को अवशेष को उपयोग गर्न को लागी मजबूर हुन्छ, जबकि समाजशास्त्री विशिष्ट उद्देश्यों को लागि आफ्नो डेटा संग्रह को दर्जा गर्न सक्छन्। Goldthorpe (1991) पढ्नुहोस्। कस्टममोड र रीडाइमेड को विचार संग सम्बन्धित समाजशास्त्र र इतिहास को बीच कसरि अंतर छ?

  10. [ कठोर ] यसले पछिल्लो quesiton मा बनाउँछ। Goldthorpe (1991) निकिकी हार्ट (1994) बाट एक सहित अनेक महत्वपूर्ण प्रतिक्रियाहरू पाईयो जसले दर्जा गरिएको डाटाको गोल्डथोरोपको भक्तिलाई चुनौती दिएको थियो। दर्जी-निर्मित डाटाको सम्भावित सीमाहरू स्पष्ट गर्न, हार्टले सम्वन्धी कार्यकर्ता प्रोजेक्टलाई वर्णन गरेको छ, एक ठूलो सर्वेक्षणले सोशल क्लाउड र मतदानको बीचमा गोल्डथोरोप र 1 9 60 का दशकका बीचका सहकर्मीहरू द्वारा आयोजितको मापदण्डको व्याख्या गर्न। एक जना एक विद्वानबाट आशा गर्न सक्छ जसले प्राप्त डाटामा डिजाइन गरिएको डेटालाई मन परायो, सम्वन्ध मजदुर प्रोजेक्टले एकत्रित डेटा एकत्र गर्यो जुन सामाजिक स्तरको भविष्यको बारेमा हालैका प्रस्तावित सिद्धान्तलाई जीवन स्तर बढाउनको बारेमा सम्बोधन गरिएको थियो। तर, गोल्डथोर्प र सहकर्मीहरूले कुनै पनि तरिकाले "बिर्सन" मा महिलाहरु को मतदान व्यवहार को बारे मा जानकारी एकत्र गरे। यहाँ छ कि निकइ हार्ट (1994) सारा सारांशको सारांश:

    "... यो [हो] निष्कर्ष निकाल्नबाट हटाउन महिलाहरु लाई छोडेनन् किनकी यो 'दर्जी बनाएको डाटासेट' एक परिमानीय तर्क द्वारा सीमित थियो जुन महिला अनुभव बहिष्कृत भयो। कक्षा चेतना र क्रियाकलापको सैद्धान्तिक दृष्टिले पुरुष चेतनाको रूपमा कार्य गरिरहनु भएको छ ... गोल्डथोर्प र तिनका सहकर्मीले अनुभववादी प्रमाणहरूको एक सेट बनाए जसको कारण उनीहरूले पर्याप्तताको वैध परीक्षणमा उनीहरूको आफ्नै सैद्धांतिक धारणाहरू फेरेर पोषण गरे। "

    हार्ट जारी छ:

    "सम्वन्धी कार्यकर्ता प्रोजेक्टको अनुभविक निष्कर्षले हामीलाई मध्य शताब्दी समाजशास्त्रको masculinist मानहरू बारे थप बताउँछ किनभने तिनीहरू स्तरीकरण, राजनीति र भौतिक जीवनको प्रक्रियालाई सूचित गर्दछ।"

    के तपाईं अन्य उदाहरणहरूको बारेमा सोच्न सक्नुहुन्छ जहाँ दर्जी-निर्मित डेटा संग्रहले यसमा डेटा कलेक्टरको पूर्वाधार बनाएको छ? यो कसरी एल्गोरिदमिक विलम्ब गर्न तुलना गर्दछ? शोधकर्ताहरू रिडिमेडहरू प्रयोग गर्नुपर्छ र जब तिनीहरू custommades प्रयोग गर्नु पर्छ के लागि यो सम्भावना हुन सक्छ?

  11. [ मध्यम ] यस अध्यायमा, मैले शोधकर्ताहरु द्वारा एकत्रित डेटा को विपरीत कम्पनीहरु र सरकारहरु द्वारा निर्मित प्रशासित रेकर्ड संग। केही व्यक्तिहरूले यी प्रशासनिक रेकर्डहरू "भेटिएका डेटाहरू" लाई बोलाउँछन्, जुन तिनीहरू "डिजाइन गरिएको डेटा "सँग भिन्न हुन्छन्। यो साँचो हो कि प्रशासक रेकर्डहरू शोधकर्ताहरूले पाइन्छन्, तर तिनीहरू पनि अत्यधिक डिजाइन गरिएका छन्। उदाहरणको लागि, आधुनिक टेक कम्पनीहरू तिनीहरूको डेटा संकलन र कर्पोरेट गर्न निकै गाह्रो हुन्छ। यसकारण, यी प्रशासनिक रेकर्डहरू भेट्टाउन र डिजाइन गरिएका छन्, यो केवल तपाईंको परिप्रेक्ष्यमा निर्भर गर्दछ (2.12 अंक)।

    चित्र 2.12: चित्र एक बतख र एक खरगोश हो; तपाईले हेर्नु भएकोमा तपाईको दृष्टिकोणमा निर्भर छ। ठूला डेटा स्रोतहरू फेला परेका छन् र डिजाइन गरियो; फेरि, तपाईंले के देख्नुभएको छ तपाईंको दृष्टिकोणमा निर्भर गर्दछ। उदाहरणका लागि, एक मोबाइल-फोन कम्पनीले एकत्र गरिएको कल डाटा रेकर्ड शोधकर्ताको दृष्टिकोणबाट डेटा फेला पर्यो। तर, यी सटीक उही रेकर्डहरूले डेटा कम्पनीको बिलिङ विभागमा काम गर्ने व्यक्तिको दृष्टिकोणबाट डिजाइन गरिएको डाटा बनाइयो। स्रोत: लोकप्रिय विज्ञान मासिक (18 99) / विकिमीडिया।

    चित्र 2.12: चित्र एक बतख र एक खरगोश हो; तपाईले हेर्नु भएकोमा तपाईको दृष्टिकोणमा निर्भर छ। ठूला डेटा स्रोतहरू फेला परेका छन् र डिजाइन गरियो; फेरि, तपाईंले के देख्नुभएको छ तपाईंको दृष्टिकोणमा निर्भर गर्दछ। उदाहरणका लागि, एक मोबाइल-फोन कम्पनीले एकत्र गरिएको कल डाटा रेकर्ड शोधकर्ताको दृष्टिकोणबाट डेटा फेला पर्यो। तर, यी सटीक उही रेकर्डहरूले डेटा कम्पनीको बिलिङ विभागमा काम गर्ने व्यक्तिको दृष्टिकोणबाट डिजाइन गरिएको डाटा बनाइयो। स्रोत: लोकप्रिय विज्ञान मासिक (18 99) / विकिमीडिया

    डाटा स्रोतको एक उदाहरण प्रदान गर्नुहोस् जहाँ यसलाई फेला परेन र डिजाइन गरिएको सहायक डेटा प्रयोग गर्दा अनुसन्धानको लागि उपयोगी हुन्छ।

  12. [ सजिलो ] एक विचारशील निबंधमा, क्रिश्चियन स्यान्डविग र एस्जिटर हर्जटिई (2015) दुई डिजिटल श्रेणीमा विभाजित डिजिटल अनुसन्धान "डिजिटल" प्रणाली वा "अध्ययनको वस्तु" हो भन्ने आधारमा विभाजन गरिएको छ। पहिलो प्रकारको उदाहरण - जहाँ प्रणाली हो एक साधन - 2010 मा हैती मा भूकम्प पछि माइग्रेसन पछि ट्रयाक गर्न Bengtsson र सहकर्मीहरु (2011) मा मोबाइल फोन डेटा को उपयोग गरेर। जेन्सेन द्वारा शोध को दोश्रो प्रकार को एक उदाहरण - जहां एक उदाहरण को एक उदाहरण हो। (2007) को कसरि केरले भर मा मोबाइल फोन को शुरुवात को रूप मा, भारत मा माछा मार्केट को कार्य को प्रभावित गरे। म यो भेदभाव उपयोगी पाउँछु किनकि यसले डिजिटल डेटा स्रोतहरू प्रयोग गरेर यो अध्ययन स्पष्ट पार्छ तापनि तिनीहरू एकै प्रकारका डेटा स्रोत प्रयोग गर्दै छन् भने। यस भेदलाई स्पष्ट गर्न को लागी, तपाईंले देख्नु भएको चार अध्ययनहरू वर्णन गर्नुहोस्: दुई जसले एक साधनको रूपमा डिजिटल प्रणाली प्रयोग गर्दछ र दुई को एक डिजिटल प्रणाली प्रयोगको वस्तुको रूपमा प्रयोग गर्दछ। यदि तपाइँ चाहानुहुन्छ भने यस अध्यायबाट उदाहरणहरू प्रयोग गर्न सक्नुहुन्छ।