[ , ] एल्गोरिथ्मिक विफलता Google Flu Trends सँग एक समस्या थियो। Lazer et al. (2014) द्वारा कागज पढ्नुहोस् Lazer et al. (2014) , र Google मा एक ईन्जिनियरिङ्लाई छोटो, सफा इमेल लेख्न को लागी समस्या को व्याख्या र यसलाई कसरी समाधान गर्ने विचार प्रदान गर्दछ।
[ ] Bollen, Mao, and Zeng (2011) दावी गरेको छ कि चहचहानाको डाटा स्टक बजारको भविष्यवाणी गर्न प्रयोग गर्न सकिन्छ। यो खोज को हेज फंड - डेरिवेट कैपिटल मार्केट्स को निर्माण को कारण बन्यो - चहचहाना (Jordan 2010) एकत्रित डेटा मा आधारित स्टक बजार मा निवेश गर्न को लागि। त्यो रकममा तपाईंको पैसा राख्नु अघि तपाई कुन प्रमाण देख्नुहुन्छ?
[ ] जबकि केहि सार्वजनिक स्वास्थ्य समर्थकहरु लाई धूम्रपान सिंक को लागि एक प्रभावी सहायता को बारे मा विचार गर्दछ, अन्य को संभावित जोखिम को बारे मा चेतावनी दि्छ, जस्तै निकोटीन को उच्च स्तर। कल्पना गर्नुहोस् कि एक शोधकर्ताले ई-सिगरेट-सम्बन्धी चहचहाना पोष्टहरू र भावनात्मक विश्लेषण सञ्चालन गरेर ई-सिगरेटमा सार्वजनिक राय अध्ययन गर्न निर्णय गर्छ।
[ ] नोभेम्बर 200 9 मा, ट्विटरले ट्वीटर बाकसमा प्रश्नलाई "के गर्दैछ?" बाट "के गरिरहेको छ?" (Https://blog.twitter.com/2009/whats-happening)।
[ ] "रिटाइमहरू" प्रायः चहचहानामा प्रभाव र प्रभाव फैलाउन प्रयोग गरिन्छ। सुरुमा, प्रयोगकर्ताहरूले ट्वीटर प्रतिलिपि गर्न र टाँस्न चाहानुपर्थ्यो र उनीहरूले मनपराउन सक्थे, मूल लेखकलाई उनको ह्यान्डलसँग ट्याग गर्नुहोस्, र ट्वीटर अघि मैन्युअल रूपले "RT" टाइप गर्नुहोस् कि यो एक रेटिभ थियो। त्यसपछि, 200 9 मा, ट्विटरले "retweet" बटन थप्यो। जुन 2016 मा, ट्विटरले प्रयोगकर्ताहरूलाई आफ्नै ट्वीट्सहरू पुनःप्राप्त गर्न सम्भव बनायो (https://twitter.com/twitter/status/742749353689780224)। के तपाईं सोच्नुहुन्छ कि यी परिवर्तनहरूले तपाइँलाई तपाइँको अनुसन्धानमा "क्यामेरा" प्रयोग गर्ने तरिकालाई असर पार्दछ? किन वा किन होइन?
[ , , , ] एक व्यापक रूपमा छलफल गरीएको पेपरमा, मिशेल र साथीहरूले (2011) ले लामो समयसम्म सांस्कृतिक प्रवृत्तहरूको पहिचान गर्ने प्रयासमा 5 लाख भन्दा बढी डिजाईड गरिएका पुस्तकहरूको सामग्रीको विश्लेषण गरे। उनीहरूले प्रयोग गरेको डाटा अब Google NGrams डेटासेटको रूपमा जारी गरिएको छ, र यसैले हामी डाटा प्रयोग गर्न सक्छौं र केहि कार्यहरू विस्तार गर्न सक्छौं।
पेपरमा धेरै परिणामहरू मध्ये मिशेल र साथीहरूले तर्क दिएका छन् कि हामी छिटो र छिटो बिर्सिरहेका छौं। एक वर्षको लागि, "1883" भन्नुहोस्, "1875 र 1 9 75 को बीचमा प्रत्येक वर्षमा प्रकाशित 1-ग्राम अनुपात" 1883 "थियो। तिनीहरूले तर्क गरे कि यो अनुपात त्यो वर्षमा भएको घटनाहरूको रुचिको उपाय हो। उनीहरूको संख्या 3 एमा, उनीहरूले तीन वर्षको लागि प्रयोग प्रविधिको प्रयोग गरेका थिए: 1883, 1 9 10 र 1 9 50। यी तीन वर्षहरू एक सामान्य ढाँचा साझेदारी गर्छन्: त्यस वर्ष अघिको सानो प्रयोग, त्यसपछि एउटा स्पिकर, त्यसपछि पक्का हुन्छ। अर्को, प्रत्येक वर्ष को लागि क्षय दर को मात्रा को कमान्ड गर्न को लागि, मिशेल र सहयोगियों ने 1875 और 1 9 75 के बीच हर साल के लिए "आधा जीवन" की गणना की। उनके आंकड़े 3a (इन्सेट) में, उन्होंने दिखाया कि प्रत्येक की आधा जीवन वर्ष घट्दै गएको छ, र तिनीहरूले तर्क दिएका छन् कि यसको अर्थ हामीले अघिल्लो छिटो र छिटो बिर्सिरहेका छौं। तिनीहरूले अंग्रेजी भाषा कोर्स्पस को संस्करण 1 को प्रयोग गरे, तर त्यस पछि Google ले कोर्क्सको दोस्रो संस्करण जारी गरेको छ। तपाईंले कोडिङ सुरू गर्नु अघि प्रश्नको सबै भागहरू पढ्नुहोस्।
यो क्रियाकलापले तपाईंलाई लेखन पुन: प्रयोज्य कोड अभ्यास गर्दछ, परिणामहरू व्याख्या गर्न, र डेटा बजाइरहेको छ (जस्तै अचिका फाइलहरूसँग काम गर्ने र हराएको डाटालाई हटाउने)। यो क्रियाकलापले तपाईंलाई एक धनी र रोचक डेटासेटसँग चलिरहेको र चलिरहेको पनि मद्दत गर्नेछ।
गुगल पुस्तक नग्राम दर्शक वेबसाईटबाट कच्चा डाटा पाउनुहोस्। विशेष गरी, तपाईंले अंग्रेजी भाषा कोर्क्सको संस्करण 2 को प्रयोग गर्नु पर्छ जुन 1 जुलाई, 2012 मा रिलीज गरिएको थियो। असम्पीडित, यो फाइल 1.4 जीबी छ।
Michel et al. (2011) को आंकडा 3 ए को मुख्य भाग को दोश्रो बनाये Michel et al. (2011) । यो संख्या पुन: सिर्जना गर्न, तपाइँलाई दुई फाईलहरू आवश्यक पर्दछ: तपाईले (ए) र "कुल गणना" फाइलमा डाउनलोड गर्नुभएको एउटा फाइल, जुन तपाइँले अनुपातमा कच्चा गणनाहरू बदल्न प्रयोग गर्न सक्नुहुनेछ। ध्यान दिनुहोस् कि कुल गणना फाइलको संरचना हो जसले यसलाई पढ्न निकै गाह्रो बनाउन सक्छ। क्या ग्याग्राम डेटाको संस्करण 2 Michel et al. (2011) प्रस्तुत गरिएकाहरूलाई परिणामहरू उत्पन्न गर्दछ Michel et al. (2011) , जुन संस्करण 1 डेटामा आधारित छन्?
अब ग्याग्राम दर्शक द्वारा बनाईएको ग्राफको विरुद्ध आफ्नो ग्राफ जाँच गर्नुहोस्।
संख्या 3a (मुख्य आकृति) पठाउनुहोस्, तर \(y\) -एक्स परिवर्तन गर्नुहोस् कच्चा उल्लेख गणनाहरू (उल्लेखको दर होइन)।
के बीचको फरक (बी) र (घ) तपाईंलाई मिशेल एट अल को कुनै न कुनै परिणाम को पुनरावलोकन गर्न को लागी। (2011)। किन वा किन होइन?
अब, व्याख्या को अनुपात को प्रयोग गरेर, आंकडा 3a को कोसेट को दोहराएँ। त्यो वर्ष 1875 र 1 9 75 को बीच प्रत्येक वर्ष को लागि त्यो साल को आधा जीवन को गणना गर्दछ। आधा-जीवन परिभाषित गरिएको वर्षहरूको संख्या परिभाषित गरिएको छ जुन उल्लेखको अनुपात आधाको चोटी मानमा पुग्छ। ध्यान दिनुहोस् कि Michel et al. (2011) सहायक अनलाइन सूचनाको आधा-जीवन-दृश्य खण्ड III.6 अनुमान गर्न अधिक जटिल केहि गर्न-तर उनीहरूको दाबी गर्छन् कि दुवै दृष्टिकोणले समान परिणामहरू उत्पादन गर्दछ। केग्राम डाटाको संस्करण 2 ले Michel et al. (2011) प्रस्तुत गरेकाहरूलाई समान परिणामहरू प्रदान गर्दछ Michel et al. (2011) , जुन संस्करण 1 डेटामा आधारित छन्? (संकेत: यदि छैन भने आश्चर्यचकित नगर्नुहोस्।)
त्यहाँ कुनै पनि वर्ष हो कि वर्षहरु जस्तै कि कि विशेष गरी छिटो बिर्सिएको थियो वा विशेष गरी ढिलो भए? छोटो रूपमा त्यो ढाँचाको सम्भावनाको बारेमा अनुमान गर्नुहोस् र तपाइँ कसरी आउटलर्सहरू चिन्न सक्नुहुन्छ भनेर व्याख्या गर्नुहोस्।
अब यो नतिजा चिनियाँ, फ्रान्सेली, जर्मन, हिब्रू, इटालियन, रुसी र स्पेनिशमा एनग्राम डाटाको संस्करण 2 का लागि।
सबै भाषाहरूको तुलनामा, त्यहाँ कुनै पनि वर्षहरू थिए जो बाहिरका थिए, जस्तै वर्ष जुन बिस्तारै बिर्सनुभयो वा विशेष गरी ढिलो भए? छोटो रूपमा त्यो ढाँचाको सम्भावनाको बारेमा अनुमान गर्नुहोस्।
[ , , , ] Penney (2016) अन्वेषण गरे कि जुन 2013 मा एनएसए / PRISM निगरानी (यानी, स्नोडन अज्ञात) को बारे मा व्यापक प्रचार सम्बन्धी विषयहरु मा विकिपीडिया लेख मा ट्राफिक मा तीव्र र अचानक कमी संग सम्बन्धित थियो जो गोपनीयता को बढावा उठाते हो। यदि त्यसो भए, यो परिवर्तनमा परिवर्तनले जटिल निगरानीको साथ सामूहिक निगरानीबाट उत्पन्न हुने सम्भावना हुनेछ। Penney (2016) को दृष्टिकोण कहिलेकाहीं अवरोधित समय श्रृंखला डिजाइन भनिन्छ, र यो धारा 2.4.3 मा वर्णन गरिएको दृष्टिकोणसँग सम्बन्धित छ।
विषयशब्द छनौट गर्न Penney, सोशल मीडिया ट्र्याक र निगरानीको लागि अमेरिकाको होमल्याण्ड सुरक्षा विभाग द्वारा प्रयोग गरिएको सूचीमा उल्लेख गरिएको छ। DHS सूचीले केहि खोजी सर्तहरूको दायरामा वर्गीकरण गर्दछ, जस्तै "स्वास्थ्य सम्बन्ध," "इन्फ्रास्ट्रक्चर सिक्योरिटी," र "आतंकवाद।" अध्ययन समूहको लागि, पेनेले "आतंकवाद" सम्बन्धी 48 वटा शब्दहरू प्रयोग गर्थे (परिशिष्ट तालिका 8 हेर्नुहोस् )। त्यसपछि तिनी एकदमै विकिपीडिया लेख दृश्यले एक 48-महिनाको अवधिमा जनवरी 2012 को सुरुदेखि अगस्त 2014 सम्मको मासिक आधारमा मासिक आधारमा गणना गर्दछ। यसको तर्कलाई बलियो बनाउनका लागि, उनले ट्रयाक गरेर धेरै तुलना समूहहरू पनि सिर्जना गरे। लेख विचारहरू अन्य विषयहरूमा।
अब, तपाईं Penney (2016) लाई दोहोर्याउन र विस्तार गर्न जाँदै हुनुहुन्छ। यस गतिविधिको लागि तपाईलाई आवश्यक कच्चा डाटा विकिपीडियाबाट उपलब्ध छ। अथवा तपाईले आर-प्याकेज वििक्पिडिएट्रेंड (Meissner and R Core Team 2016) बाट प्राप्त गर्न सक्नुहुनेछ। जब तपाईं आफ्नो प्रतिक्रियाहरू लेख्नुहुन्छ, कृपया तपाईलाई कुन डेटा स्रोत प्रयोग गर्नुहोला। (ध्यान दिनुहोस् कि यो गतिविधिले अध्याय 6 मा पनि देखा पर्दछ) यो क्रियाकलापले तपाईंलाई डेटा रङ्गमा अभ्यास गर्दछ र ठूलो डेटा स्रोतहरूमा प्राकृतिक अनुभवहरूको बारे सोच्दछ। यसले तपाईंलाई भविष्य र भविष्यका परियोजनाहरूको लागि सम्भावित रोचक डेटा स्रोतको साथ चलिरहेको छ।
[ ] Efrati (2016) गोपनीय जानकारीको आधारमा, रिपोर्टअनुसार फेसबुकमा "कुल साझेदारी" वर्ष भन्दा बढी 5.5% वर्षमा भएको छ, जबकि "मूल प्रसारण साझेदारी" वर्ष भन्दा बढी 21% वर्ष थियो। यो गिरावट विशेष गरी फेसबुक प्रयोगकर्ताहरूसँग 30 वर्षको उमेरमा तीव्र थियो। रिपोर्टले गिरावटको कारण दुई कारकहरू तिरियो। एक "साथी" को संख्या मा वृद्धि फेसबुक मा छ। अर्को कुरा भनेको केही साझेदारी गतिविधि सन्देश स्पीपचत जस्ता प्रतियोगी र प्रतिस्पर्धामा बदलिएको छ। उक्त रिपोर्टले यो पनि थाहा पाएको छ कि फेसबुकले एल्गोरिदम ट्वीक्स सहित साझेदारी गर्ने धेरै रणनीतिहरु, जुन "यो डे डे" सुविधाको साथ मूल पोष्टहरू र प्रमुख पदहरूका आवधिक रिमाइन्डरहरू समावेश गर्दछ। कुन प्रभावकारी, यदि कुनै हो, यी निष्कर्षहरु को शोधकर्ताहरु को लागि जो एक डेटा स्रोत को रूप मा फेसबुक को उपयोग गर्न चाहते हो?
[ ] एक समाजशास्त्री र एक इतिहासकार को बीच के अंतर छ? गोल्डथोरप (1991) अनुसार, मुख्य अंतर डेटा संग्रह मा नियंत्रण छ। इतिहासकारहरु को अवशेष को उपयोग गर्न को लागी मजबूर हुन्छ, जबकि समाजशास्त्री विशिष्ट उद्देश्यों को लागि आफ्नो डेटा संग्रह को दर्जा गर्न सक्छन्। Goldthorpe (1991) पढ्नुहोस्। कस्टममोड र रीडाइमेड को विचार संग सम्बन्धित समाजशास्त्र र इतिहास को बीच कसरि अंतर छ?
[ ] यसले पछिल्लो quesiton मा बनाउँछ। Goldthorpe (1991) निकिकी हार्ट (1994) बाट एक सहित अनेक महत्वपूर्ण प्रतिक्रियाहरू पाईयो जसले दर्जा गरिएको डाटाको गोल्डथोरोपको भक्तिलाई चुनौती दिएको थियो। दर्जी-निर्मित डाटाको सम्भावित सीमाहरू स्पष्ट गर्न, हार्टले सम्वन्धी कार्यकर्ता प्रोजेक्टलाई वर्णन गरेको छ, एक ठूलो सर्वेक्षणले सोशल क्लाउड र मतदानको बीचमा गोल्डथोरोप र 1 9 60 का दशकका बीचका सहकर्मीहरू द्वारा आयोजितको मापदण्डको व्याख्या गर्न। एक जना एक विद्वानबाट आशा गर्न सक्छ जसले प्राप्त डाटामा डिजाइन गरिएको डेटालाई मन परायो, सम्वन्ध मजदुर प्रोजेक्टले एकत्रित डेटा एकत्र गर्यो जुन सामाजिक स्तरको भविष्यको बारेमा हालैका प्रस्तावित सिद्धान्तलाई जीवन स्तर बढाउनको बारेमा सम्बोधन गरिएको थियो। तर, गोल्डथोर्प र सहकर्मीहरूले कुनै पनि तरिकाले "बिर्सन" मा महिलाहरु को मतदान व्यवहार को बारे मा जानकारी एकत्र गरे। यहाँ छ कि निकइ हार्ट (1994) सारा सारांशको सारांश:
"... यो [हो] निष्कर्ष निकाल्नबाट हटाउन महिलाहरु लाई छोडेनन् किनकी यो 'दर्जी बनाएको डाटासेट' एक परिमानीय तर्क द्वारा सीमित थियो जुन महिला अनुभव बहिष्कृत भयो। कक्षा चेतना र क्रियाकलापको सैद्धान्तिक दृष्टिले पुरुष चेतनाको रूपमा कार्य गरिरहनु भएको छ ... गोल्डथोर्प र तिनका सहकर्मीले अनुभववादी प्रमाणहरूको एक सेट बनाए जसको कारण उनीहरूले पर्याप्तताको वैध परीक्षणमा उनीहरूको आफ्नै सैद्धांतिक धारणाहरू फेरेर पोषण गरे। "
हार्ट जारी छ:
"सम्वन्धी कार्यकर्ता प्रोजेक्टको अनुभविक निष्कर्षले हामीलाई मध्य शताब्दी समाजशास्त्रको masculinist मानहरू बारे थप बताउँछ किनभने तिनीहरू स्तरीकरण, राजनीति र भौतिक जीवनको प्रक्रियालाई सूचित गर्दछ।"
के तपाईं अन्य उदाहरणहरूको बारेमा सोच्न सक्नुहुन्छ जहाँ दर्जी-निर्मित डेटा संग्रहले यसमा डेटा कलेक्टरको पूर्वाधार बनाएको छ? यो कसरी एल्गोरिदमिक विलम्ब गर्न तुलना गर्दछ? शोधकर्ताहरू रिडिमेडहरू प्रयोग गर्नुपर्छ र जब तिनीहरू custommades प्रयोग गर्नु पर्छ के लागि यो सम्भावना हुन सक्छ?
[ ] यस अध्यायमा, मैले शोधकर्ताहरु द्वारा एकत्रित डेटा को विपरीत कम्पनीहरु र सरकारहरु द्वारा निर्मित प्रशासित रेकर्ड संग। केही व्यक्तिहरूले यी प्रशासनिक रेकर्डहरू "भेटिएका डेटाहरू" लाई बोलाउँछन्, जुन तिनीहरू "डिजाइन गरिएको डेटा "सँग भिन्न हुन्छन्। यो साँचो हो कि प्रशासक रेकर्डहरू शोधकर्ताहरूले पाइन्छन्, तर तिनीहरू पनि अत्यधिक डिजाइन गरिएका छन्। उदाहरणको लागि, आधुनिक टेक कम्पनीहरू तिनीहरूको डेटा संकलन र कर्पोरेट गर्न निकै गाह्रो हुन्छ। यसकारण, यी प्रशासनिक रेकर्डहरू भेट्टाउन र डिजाइन गरिएका छन्, यो केवल तपाईंको परिप्रेक्ष्यमा निर्भर गर्दछ (2.12 अंक)।
डाटा स्रोतको एक उदाहरण प्रदान गर्नुहोस् जहाँ यसलाई फेला परेन र डिजाइन गरिएको सहायक डेटा प्रयोग गर्दा अनुसन्धानको लागि उपयोगी हुन्छ।
[ ] एक विचारशील निबंधमा, क्रिश्चियन स्यान्डविग र एस्जिटर हर्जटिई (2015) दुई डिजिटल श्रेणीमा विभाजित डिजिटल अनुसन्धान "डिजिटल" प्रणाली वा "अध्ययनको वस्तु" हो भन्ने आधारमा विभाजन गरिएको छ। पहिलो प्रकारको उदाहरण - जहाँ प्रणाली हो एक साधन - 2010 मा हैती मा भूकम्प पछि माइग्रेसन पछि ट्रयाक गर्न Bengtsson र सहकर्मीहरु (2011) मा मोबाइल फोन डेटा को उपयोग गरेर। जेन्सेन द्वारा शोध को दोश्रो प्रकार को एक उदाहरण - जहां एक उदाहरण को एक उदाहरण हो। (2007) को कसरि केरले भर मा मोबाइल फोन को शुरुवात को रूप मा, भारत मा माछा मार्केट को कार्य को प्रभावित गरे। म यो भेदभाव उपयोगी पाउँछु किनकि यसले डिजिटल डेटा स्रोतहरू प्रयोग गरेर यो अध्ययन स्पष्ट पार्छ तापनि तिनीहरू एकै प्रकारका डेटा स्रोत प्रयोग गर्दै छन् भने। यस भेदलाई स्पष्ट गर्न को लागी, तपाईंले देख्नु भएको चार अध्ययनहरू वर्णन गर्नुहोस्: दुई जसले एक साधनको रूपमा डिजिटल प्रणाली प्रयोग गर्दछ र दुई को एक डिजिटल प्रणाली प्रयोगको वस्तुको रूपमा प्रयोग गर्दछ। यदि तपाइँ चाहानुहुन्छ भने यस अध्यायबाट उदाहरणहरू प्रयोग गर्न सक्नुहुन्छ।