[ , ] एल्गोरिदमिक उलझन Google फ़्लू रुझान के साथ एक समस्या थी। Lazer et al. (2014) द्वारा पेपर पढ़ें Lazer et al. (2014) , और समस्या को समझाते हुए और इसे ठीक करने के बारे में एक विचार देने के लिए एक इंजीनियर को एक संक्षिप्त, स्पष्ट ईमेल लिखें।
[ ] Bollen, Mao, and Zeng (2011) दावा है कि ट्विटर से डेटा का इस्तेमाल स्टॉक मार्केट की भविष्यवाणी करने के लिए किया जा सकता है। इस खोज से ट्विटर (Jordan 2010) से एकत्रित आंकड़ों के आधार पर शेयर बाजार में निवेश करने के लिए हेज फंड-डेरवेन्ट कैपिटल मार्केट्स का निर्माण हुआ। उस फंड में अपना पैसा लगाने से पहले आप क्या सबूत देखना चाहते हैं?
[ ] जबकि कुछ सार्वजनिक स्वास्थ्य समर्थक ई-सिगरेट को धूम्रपान समाप्ति के लिए एक प्रभावी सहायता मानते हैं, अन्य लोग निकोटीन के उच्च स्तर जैसे संभावित जोखिमों के बारे में चेतावनी देते हैं। कल्पना करें कि एक शोधकर्ता ई-सिगरेट से संबंधित ट्विटर पोस्ट एकत्र करके और भावनात्मक विश्लेषण आयोजित करके ई-सिगरेट की ओर सार्वजनिक राय का अध्ययन करने का निर्णय लेता है।
[ ] नवंबर 200 9 में, ट्विटर ने "क्या हो रहा है?" से ट्वीट बॉक्स में प्रश्न बदल दिया "क्या हो रहा है?" (Https://blog.twitter.com/2009/whats-happening)।
[ ] "मिठाई" अक्सर ट्विटर पर प्रभाव और प्रभाव के प्रभाव को मापने के लिए उपयोग किया जाता है। प्रारंभ में, उपयोगकर्ताओं को उनके पसंदीदा ट्वीट को कॉपी और पेस्ट करना था, मूल लेखक को उसके हैंडल से टैग करना था, और ट्वीट से पहले "आरटी" मैन्युअल रूप से टाइप करना था ताकि यह संकेत दिया जा सके कि यह एक रिटविट था। फिर, 200 9 में, ट्विटर ने एक "रिटविट" बटन जोड़ा। जून 2016 में, ट्विटर ने उपयोगकर्ताओं को अपनी ट्वीट्स को पुनः ट्वीट करने के लिए संभव बनाया (https://twitter.com/twitter/status/742749353689780224)। क्या आपको लगता है कि इन परिवर्तनों को प्रभावित करना चाहिए कि आप अपने शोध में "रीट्वीट" का उपयोग कैसे करते हैं? क्यों या क्यों नहीं?
[ , , , ] व्यापक रूप से चर्चा किए गए पेपर में, मिशेल और सहयोगियों (2011) ने लंबी अवधि के सांस्कृतिक रुझानों की पहचान करने के प्रयास में पांच मिलियन से अधिक डिजिटलीकृत पुस्तकों की सामग्री का विश्लेषण किया। उनके द्वारा उपयोग किए जाने वाले डेटा को अब Google NGrams डेटासेट के रूप में रिलीज़ किया गया है, और इसलिए हम डेटा का उपयोग अपने कुछ कार्यों को दोहराने और बढ़ाने के लिए कर सकते हैं।
पेपर में कई परिणामों में से एक में, मिशेल और सहयोगियों ने तर्क दिया कि हम तेजी से और तेज़ी से भूल रहे हैं। एक विशेष वर्ष के लिए, "1883" कहें, उन्होंने 1875 और 1 9 75 के बीच प्रत्येक वर्ष में प्रकाशित 1-ग्राम के अनुपात की गणना की जो "1883" थी। उन्होंने तर्क दिया कि यह अनुपात उस वर्ष हुई घटनाओं में रुचि का एक उपाय है। अपने आंकड़े 3 ए में, उन्होंने तीन साल के लिए उपयोग प्रक्षेपणों की योजना बनाई: 1883, 1 9 10 और 1 9 50। ये तीन साल एक आम पैटर्न साझा करते हैं: उस वर्ष से पहले थोड़ा उपयोग, फिर एक स्पाइक, फिर क्षय। इसके बाद, प्रत्येक वर्ष के लिए क्षय की दर को मापने के लिए, मिशेल और सहयोगियों ने 1875 और 1 9 75 के बीच सभी वर्षों के लिए प्रत्येक वर्ष "आधा जीवन" की गणना की। उनके आंकड़े 3 ए (इंसेट) में, उन्होंने दिखाया कि प्रत्येक का आधा जीवन वर्ष घट रहा है, और उन्होंने तर्क दिया कि इसका मतलब है कि हम अतीत को तेज़ी से और तेज़ी से भूल रहे हैं। उन्होंने अंग्रेजी भाषा कॉर्पस के संस्करण 1 का उपयोग किया, लेकिन बाद में Google ने कॉर्पस का दूसरा संस्करण जारी किया है। कोडिंग शुरू करने से पहले कृपया प्रश्न के सभी हिस्सों को पढ़ें।
यह गतिविधि आपको अभ्यास लिखने योग्य पुन: प्रयोज्य कोड, परिणामों की व्याख्या करने और डेटा wrangling (जैसे अजीब फ़ाइलों के साथ काम करना और लापता डेटा को संभालने) का अभ्यास करेगा। यह गतिविधि आपको एक समृद्ध और रोचक डेटासेट के साथ उठने और चलाने में भी मदद करेगी।
Google पुस्तकें एनजीआरएम व्यूअर वेबसाइट से कच्चा डेटा प्राप्त करें। विशेष रूप से, आपको अंग्रेजी भाषा कॉर्पस के संस्करण 2 का उपयोग करना चाहिए, जिसे 1 जुलाई, 2012 को जारी किया गया था। असम्पीडित, यह फ़ाइल 1.4 जीबी है।
Michel et al. (2011) के आकृति 3 ए के मुख्य भाग को मनोरंजन करें Michel et al. (2011) । इस आकृति को फिर से बनाने के लिए, आपको दो फाइलों की आवश्यकता होगी: जिसे आपने भाग (ए) और "कुल गणना" फ़ाइल में डाउनलोड किया है, जिसे आप कच्चे गणना को अनुपात में परिवर्तित करने के लिए उपयोग कर सकते हैं। ध्यान दें कि कुल गणना फ़ाइल में एक संरचना है जो इसे पढ़ने में थोड़ा मुश्किल बना सकती है। क्या एनजीआरएम डेटा का संस्करण 2 Michel et al. (2011) में प्रस्तुत किए गए समान परिणामों का उत्पादन करता है Michel et al. (2011) , जो संस्करण 1 डेटा पर आधारित हैं?
अब एनजीआरएम व्यूअर द्वारा बनाए गए ग्राफ के खिलाफ अपना ग्राफ देखें।
आकृति 3 ए (मुख्य आकृति) को मनोरंजक करें, लेकिन \(y\) -axis को कच्चे उल्लेख गणना (उल्लेख की दर नहीं \(y\) बदलें।
क्या (बी) और (डी) के बीच का अंतर आपको मिशेल एट अल के किसी भी परिणाम का पुनर्मूल्यांकन करने के लिए प्रेरित करता है। (2011)। क्यों या क्यों नहीं?
अब, उल्लेखों के अनुपात का उपयोग करके, आकृति 3 ए के इन्सेट को दोहराएं। यही है, प्रत्येक वर्ष 1875 और 1 9 75 के बीच, उस वर्ष के आधे जीवन की गणना करें। आधा जीवन परिभाषित किया गया है कि उल्लेखों के अनुपात से पहले पारित होने वाले वर्षों की संख्या आधा चरम मूल्य तक पहुंच जाती है। ध्यान दें कि Michel et al. (2011) सहायक ऑनलाइन जानकारी के आधा जीवन-देखें अनुभाग III.6 का अनुमान लगाने के लिए कुछ और जटिल करें- लेकिन वे दावा करते हैं कि दोनों दृष्टिकोण समान परिणाम उत्पन्न करते हैं। क्या एनजीआरएम डेटा का संस्करण 2 Michel et al. (2011) में प्रस्तुत किए गए समान परिणामों का उत्पादन करता है Michel et al. (2011) , जो संस्करण 1 डेटा पर आधारित हैं? (संकेत: अगर यह नहीं है तो आश्चर्यचकित मत हो।)
क्या ऐसे कोई साल थे जो ऐसे वर्षों के रूप में बहिष्कार थे जो विशेष रूप से जल्दी या विशेष रूप से धीरे-धीरे भूल गए थे? उस पैटर्न के संभावित कारणों के बारे में संक्षेप में अनुमान लगाएं और बताएं कि आपने आउटलाइर्स की पहचान कैसे की।
अब चीनी, फ्रेंच, जर्मन, हिब्रू, इतालवी, रूसी और स्पेनिश में एनजीआरएएस डेटा के संस्करण 2 के लिए इस परिणाम को दोहराएं।
सभी भाषाओं की तुलना में, क्या ऐसे कोई साल थे जो बहिष्कार थे, जैसे सालों जो विशेष रूप से जल्दी या विशेष रूप से धीरे-धीरे भूल गए थे? उस पैटर्न के संभावित कारणों के बारे में संक्षेप में अनुमान लगाएं।
[ , , , ] Penney (2016) ने पता लगाया कि जून 2013 में एनएसए / पीआरआईएसएम निगरानी (यानी, स्नोडेन खुलासे) के बारे में व्यापक प्रचार गोपनीयता संबंधी चिंताओं को बढ़ाने वाले विषयों पर विकिपीडिया लेखों के लिए यातायात में तेज और अचानक कमी से जुड़ा हुआ था। यदि ऐसा है, तो व्यवहार में यह परिवर्तन द्रव्यमान निगरानी के परिणामस्वरूप शीतलन प्रभाव के अनुरूप होगा। Penney (2016) दृष्टिकोण को कभी-कभी बाधित समय श्रृंखला डिजाइन कहा जाता है, और यह धारा 2.4.3 में वर्णित दृष्टिकोण से संबंधित है।
विषय कीवर्ड चुनने के लिए, पेनी ने अमेरिकी मीडिया विभाग द्वारा सोशल मीडिया की निगरानी और निगरानी के लिए उपयोग की जाने वाली सूची को संदर्भित किया। डीएचएस सूची कुछ खोज शब्दों को कई मुद्दों, यानी "स्वास्थ्य चिंता," "बुनियादी ढांचा सुरक्षा" और "आतंकवाद" में वर्गीकृत करती है। अध्ययन समूह के लिए, पेनी ने "आतंकवाद" से संबंधित 48 कीवर्ड का उपयोग किया (परिशिष्ट तालिका 8 देखें )। इसके बाद उन्होंने जनवरी 2012 की शुरुआत से अगस्त 2014 के अंत तक, 32 महीने की अवधि में इसी 48 विकिपीडिया लेखों के लिए मासिक आधार पर विकिपीडिया लेख दृश्य गणना को एकत्रित किया। अपने तर्क को मजबूत करने के लिए, उन्होंने ट्रैकिंग करके कई तुलनात्मक समूहों को भी बनाया अन्य विषयों पर लेख विचार।
अब, आप Penney (2016) को दोहराने और विस्तारित करने जा रहे हैं। इस गतिविधि के लिए आपको आवश्यक सभी कच्चे डेटा विकिपीडिया से उपलब्ध हैं। या आप इसे आर-पैकेज विकिपीडियाटेंड (Meissner and R Core Team 2016) से प्राप्त कर सकते हैं। जब आप अपना जवाब लिखते हैं, तो कृपया ध्यान दें कि आपने किस डेटा स्रोत का उपयोग किया था। (ध्यान दें कि यह वही गतिविधि अध्याय 6 में भी दिखाई देती है।) यह गतिविधि आपको डेटा डेटा में उलझन और बड़े डेटा स्रोतों में प्राकृतिक प्रयोगों के बारे में सोचने में अभ्यास करेगी। यह आपको भविष्य की परियोजनाओं के लिए संभावित रूप से दिलचस्प डेटा स्रोत के साथ भी ले जाएगा और चल रहा है।
[ ] Efrati (2016) ने गोपनीय जानकारी के आधार पर रिपोर्ट की, कि फेसबुक पर "कुल साझाकरण" वर्ष में लगभग 5.5% सालाना घट गया है जबकि "मूल प्रसारण साझाकरण" वर्ष में 21% सालाना नीचे था। यह गिरावट 30 साल से कम उम्र के फेसबुक उपयोगकर्ताओं के साथ विशेष रूप से तीव्र थी। रिपोर्ट में गिरावट को दो कारकों के लिए जिम्मेदार ठहराया गया। फेसबुक पर "दोस्तों" की संख्या में वृद्धि हुई है। दूसरा यह है कि कुछ साझाकरण गतिविधि मैसेजिंग और स्नैपचैट जैसे प्रतियोगियों में स्थानांतरित हो गई है। रिपोर्ट में कई रणनीतियां भी आईं, जिनमें फेसबुक ने शेयरिंग एल्गोरिदम tweaks समेत साझा करने को बढ़ावा देने की कोशिश की थी, जिसमें मूल पोस्ट अधिक प्रमुख, साथ ही साथ "ऑन द डे" फीचर के साथ मूल पोस्ट की आवधिक अनुस्मारक भी शामिल थीं। क्या प्रभाव, यदि कोई हो, तो इन निष्कर्षों के शोधकर्ताओं के लिए है जो फेसबुक का डेटा स्रोत के रूप में उपयोग करना चाहते हैं?
[ ] समाजशास्त्री और इतिहासकार के बीच क्या अंतर है? गोल्डथोरपे (1991) अनुसार, मुख्य अंतर डेटा संग्रह पर नियंत्रण है। इतिहासकारों को अवशेषों का उपयोग करने के लिए मजबूर किया जाता है, जबकि समाजशास्त्री अपने डेटा संग्रह को विशिष्ट उद्देश्यों के अनुरूप बना सकते हैं। Goldthorpe (1991) पढ़ें। कस्टममेड और रेडीमेड के विचार से संबंधित समाजशास्त्र और इतिहास के बीच अंतर कैसे है?
[ ] यह पिछले quesiton पर बनाता है। Goldthorpe (1991) ने कई महत्वपूर्ण प्रतिक्रियाएं कीं, जिनमें से निकी हार्ट (1994) से एक भी शामिल था, जिसने गोल्डथोरपे को बनाए गए आंकड़ों के प्रति समर्पण को चुनौती दी थी। दर्जे के बने आंकड़ों की संभावित सीमाओं को स्पष्ट करने के लिए, हार्ट ने समृद्ध कार्यकर्ता परियोजना का वर्णन किया, जो कि 1 9 60 के दशक के मध्य में गोल्डथोरपे और सहयोगियों द्वारा आयोजित सामाजिक वर्ग और मतदान के बीच संबंधों को मापने के लिए एक बड़ा सर्वेक्षण था। जैसा कि कोई एक विद्वान से उम्मीद कर सकता है जिसने पाया गया डेटा पर डिज़ाइन किए गए डेटा का पक्ष लिया है, समृद्ध कार्यकर्ता प्रोजेक्ट ने उन आंकड़ों को एकत्रित किया जो जीवन स्तर को बढ़ाने के युग में सामाजिक वर्ग के भविष्य के बारे में हाल ही में प्रस्तावित सिद्धांत को संबोधित करने के लिए तैयार किए गए थे। लेकिन, गोल्डथोरपे और सहयोगियों ने महिलाओं के मतदान व्यवहार के बारे में जानकारी इकट्ठा करने के लिए किसी भी तरह "भूल गए"। यहां बताया गया है कि निकी हार्ट (1994) ने पूरे एपिसोड का सारांश कैसे दिया:
"... यह निष्कर्ष निकालना मुश्किल है कि महिलाओं को छोड़ दिया गया था क्योंकि यह 'दर्जी बना' डेटासेट एक पारदर्शी तर्क से सीमित था जिसमें महिला अनुभव शामिल नहीं था। कक्षा की चेतना और कार्रवाई के पुरुष सैद्धांतिकरण के रूप में कार्यवाही के एक सैद्धांतिक दृष्टि से प्रेरित ..., गोल्डथोरपे और उनके सहयोगियों ने अनुभवजन्य प्रमाणों का एक सेट बनाया जो पर्याप्तता के वैध परीक्षण के लिए उन्हें अपने स्वयं के सैद्धांतिक धारणाओं को खिलाया और पोषित किया। "
हार्ट जारी रखा:
"समृद्ध श्रमिक परियोजना के अनुभवजन्य निष्कर्ष हमें स्तरीकरण, राजनीति और भौतिक जीवन की प्रक्रियाओं को सूचित करने के मुकाबले मध्य-शताब्दी समाजशास्त्र के मासूमवादी मूल्यों के बारे में अधिक बताते हैं।"
क्या आप अन्य उदाहरणों के बारे में सोच सकते हैं जहां दर्जे के डेटा संग्रह में डेटा कलेक्टर का पूर्वाग्रह है? यह एल्गोरिदमिक उलझन की तुलना कैसे करता है? शोधकर्ताओं को रेडीमेड का उपयोग करना चाहिए और जब उन्हें कस्टममेड का उपयोग करना चाहिए, तो इसके लिए क्या प्रभाव हो सकते हैं?
[ ] इस अध्याय में, मैंने शोधकर्ताओं द्वारा कंपनियों और सरकारों द्वारा बनाए गए प्रशासनिक रिकॉर्ड के साथ शोधकर्ताओं द्वारा एकत्र किए गए आंकड़ों को अलग किया है। कुछ लोग इन प्रशासनिक रिकॉर्ड्स को "डेटा मिला" कहते हैं, जिसे वे "डिज़ाइन किए गए डेटा" से अलग करते हैं। यह सच है कि शोधकर्ताओं द्वारा प्रशासनिक रिकॉर्ड पाए जाते हैं, लेकिन वे भी अत्यधिक डिज़ाइन किए गए हैं। उदाहरण के लिए, आधुनिक तकनीक कंपनियां अपने डेटा एकत्र करने और क्यूरेट करने के लिए बहुत मेहनत करती हैं। इस प्रकार, ये प्रशासनिक रिकॉर्ड दोनों पाए जाते हैं और डिज़ाइन किए जाते हैं, यह केवल आपके परिप्रेक्ष्य (आकृति 2.12) पर निर्भर करता है।
डेटा स्रोत का एक उदाहरण प्रदान करें जहां अनुसंधान के लिए उस डेटा स्रोत का उपयोग करते समय इसे पाया और डिज़ाइन किया गया दोनों उपयोगी है।
[ ] एक विचारशील निबंध में, ईसाई सैंडविग और एस्टर हरगिट्टाई (2015) डिजिटल शोध को "व्यापक" या "अध्ययन की वस्तु" के आधार पर डिजिटल शोध को दो व्यापक श्रेणियों में विभाजित करते हैं। पहली तरह का उदाहरण - जहां सिस्टम है एक उपकरण- 2010 में हैती में भूकंप के बाद प्रवासन को ट्रैक करने के लिए मोबाइल फोन डेटा का उपयोग करने पर बेंग्ससन और सहयोगियों (2011) द्वारा शोध किया गया है। दूसरी तरह का एक उदाहरण - जहां सिस्टम अध्ययन का एक उद्देश्य है- जेन्सेन द्वारा शोध किया जाता है (2007) ने पूरे केरल में मोबाइल फोन की शुरुआत के तरीके पर, मछली के लिए बाजार के कामकाज पर असर डाला। मुझे यह भेद उपयोगी लगता है क्योंकि यह स्पष्ट करता है कि डिजिटल डेटा स्रोतों का उपयोग करने वाले अध्ययनों में अलग-अलग लक्ष्य हो सकते हैं भले ही वे उसी प्रकार के डेटा स्रोत का उपयोग कर रहे हों। इस भेद को और स्पष्ट करने के लिए, आपने जो चार अध्ययन देखा है, उनका वर्णन करें: दो जो एक डिजिटल सिस्टम का उपयोग एक उपकरण के रूप में करते हैं और दो जो डिजिटल सिस्टम का अध्ययन के उद्देश्य के रूप में उपयोग करते हैं। यदि आप चाहें तो आप इस अध्याय से उदाहरणों का उपयोग कर सकते हैं।