कुंजी:
[ , ] एल्गोरिथम confounding Google फ़्लू रुझान के साथ एक समस्या थी। द्वारा कागज पढ़ें Lazer et al. (2014) , और गूगल में एक इंजीनियर समस्या को समझा और कैसे इस समस्या को ठीक करने के लिए की एक विचार की पेशकश करने के लिए एक छोटी, स्पष्ट ईमेल लिखें।
[ ] Bollen, Mao, and Zeng (2011) का दावा है कि ट्विटर से डेटा शेयर बाजार भविष्यवाणी करने के लिए इस्तेमाल किया जा सकता है। यह निष्कर्ष एक हेज फंड-Derwent राजधानी ट्विटर से एकत्र आंकड़ों के आधार पर शेयर बाजार में निवेश बाजार करने के निर्माण के लिए नेतृत्व (Jordan 2010) । क्या सबूत है कि आप फंड में अपना पैसा लगाने से पहले देखना चाहता है?
[ ] कुछ सार्वजनिक स्वास्थ्य अधिवक्ताओं ओलों जबकि धूम्रपान बंद करने के लिए एक प्रभावी सहायता के रूप में ई-सिगरेट, दूसरों को इस तरह निकोटीन के उच्च स्तर के रूप में संभावित खतरों के बारे में चेतावनी दी है। कल्पना कीजिए कि एक शोधकर्ता ई-सिगरेट से संबंधित ट्विटर पदों का संग्रह है और भावना विश्लेषण द्वारा आयोजित ई-सिगरेट की ओर जनता की राय का अध्ययन करने का फैसला किया।
[ ] नवंबर 2009 में, ट्विटर सवाल एम्बेड बॉक्स में से "आप क्या कर रहे हो?" को बदलकर "क्या हो रहा है?" (Https://blog.twitter.com/2009/whats-happening)।
[ ] Kwak et al. (2010) का विश्लेषण 41.7 मिलियन उपयोगकर्ता प्रोफाइल, 1.47 अरब सामाजिक संबंधों, 4262 ट्रेंडिंग टॉपिक्स, और जून 6 और जून के बीच 31 वें 106 मिलियन tweets, 2009 इस विश्लेषण उन्होंने निष्कर्ष निकाला कि ट्विटर जानकारी का एक नया माध्यम से एक साझा करने के रूप में कार्य करता है के आधार पर अधिक सामाजिक जाल।
[ ] "रीट्वीट" अक्सर प्रभाव को मापने के लिए इस्तेमाल किया है और ट्विटर पर प्रभाव के फैले हुए हैं। प्रारंभ में, उन की नकल करने और ट्वीट वे पसंद पेस्ट, उसका / उसकी संभाल के साथ मूल लेखक टैग, और मैन्युअल ट्वीट से पहले "आरटी" प्रकार का संकेत है कि यह एक किये है था। फिर, 2009 में ट्विटर एक "गये" बटन गयी। जून 2016 में, ट्विटर यह संभव उपयोक्ता अपने ट्वीट retweet करने के लिए (https://twitter.com/twitter/status/742749353689780224) के लिए बनाया है। आपको लगता है इन परिवर्तनों को प्रभावित करना चाहिए कि कैसे आप अपने अनुसंधान के क्षेत्र में "रीट्वीट" उपयोग न करें? क्यों या क्यों नहीं?
[ , , ] Michel et al. (2011) एक कोष पुस्तकों को डिजिटल करने के लिए गूगल के प्रयास से उभर निर्माण किया। कोष है, जो 2009 में प्रकाशित हुआ था और 5 लाख से अधिक किताबें डिजीटल निहित के पहले संस्करण का उपयोग करना, लेखकों भाषाई परिवर्तन और सांस्कृतिक प्रवृत्तियों की जांच करने के लिए शब्द उपयोग आवृत्ति का विश्लेषण किया। जल्द ही गूगल बुक्स कोर्पस शोधकर्ताओं के लिए एक लोकप्रिय डेटा स्रोत बन गया, और डेटाबेस की एक 2 संस्करण 2012 में जारी किया गया था।
हालांकि, Pechenick, Danforth, and Dodds (2015) ने चेतावनी दी है कि शोधकर्ताओं ने पूरी तरह से व्यापक निष्कर्ष ड्राइंग के लिए यह प्रयोग करने से पहले कोष का नमूना लेने की प्रक्रिया को चिह्नित करने की जरूरत है। मुख्य मुद्दा यह है कि कोष, पुस्तकालय की तरह है प्रत्येक पुस्तक में से एक से युक्त है। नतीजतन, एक व्यक्ति के रूप में, विपुल लेखक काफ़ी गूगल बुक्स शब्दकोश में नए वाक्यांशों डालने में सक्षम है। इसके अलावा, वैज्ञानिक ग्रंथों 1900 के दशक के दौरान कोष की एक तेजी से ठोस हिस्से का गठन। इसके अलावा, अंग्रेजी फिक्शन डेटासेट, Pechenick एट अल के दो संस्करणों की तुलना। पाया सबूत है कि अपर्याप्त छानने के पहले संस्करण के उत्पादन में इस्तेमाल किया गया था। गतिविधि के लिए आवश्यक डेटा के सभी यहाँ उपलब्ध है: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) की पड़ताल करें कि क्या जून 2013 में राष्ट्रीय सुरक्षा सलाहकार / चश्मे निगरानी (यानी, स्नोडेन के खुलासे) के बारे में व्यापक प्रचार एक तेज और अचानक विषय है कि गोपनीयता चिंताओं को बढ़ा पर विकिपीडिया लेख के लिए यातायात में कमी के साथ जुड़ा हुआ है। यदि हां, तो व्यवहार में इस बदलाव के लिए बड़े पैमाने पर निगरानी से उत्पन्न एक हल्का प्रभाव के साथ संगत होगा। के दृष्टिकोण Penney (2016) कभी कभी एक बाधित समय श्रृंखला डिजाइन कहा जाता है और अवलोकन डेटा (धारा 2.4.3) से प्रयोगों का अनुमान करने के बारे में अध्याय में दृष्टिकोण से संबंधित है।
विषय कीवर्ड्स का चुनाव करने के लिए, पेनी पर नज़र रखने और सोशल मीडिया की निगरानी के लिए अमेरिका के होमलैंड सुरक्षा विभाग द्वारा इस्तेमाल के लिए सूची के लिए भेजा। डीएचएस सूची मुद्दों, यानी "स्वास्थ्य चिंता का विषय," "इन्फ्रास्ट्रक्चर सुरक्षा," और "आतंकवाद। की एक श्रेणी में कुछ खोज शब्दों categorizes आतंकवाद" (8 तालिका देखने के लिए "अध्ययन समूह के लिए, पेनी अड़तालीस खोजशब्दों से संबंधित करने के लिए इस्तेमाल किया" अनुबंध)। वह तो एक बत्तीस महीने की अवधि में इसी अड़तालीस विकिपीडिया लेख के लिए एक मासिक आधार पर विकिपीडिया लेख देखे जाने की संख्या एकत्रित अगस्त 2014 के अंत करने के लिए जनवरी 2012 की शुरुआत से अपने तर्क को मजबूत करने के लिए, वह भी कई तुलना बनाया अन्य विषयों पर लेख विचारों पर नज़र रखने से समूहों।
अब, आप को दोहराने और विस्तार करने के लिए जा रहे हैं Penney (2016) । सभी कच्चे डेटा है कि आप इस गतिविधि के लिए की आवश्यकता होगी विकिपीडिया (https://dumps.wikimedia.org/other/pagecounts-raw/) से उपलब्ध है। या आप इसे आर पैकेज wikipediatrend से प्राप्त कर सकते हैं (Meissner and Team 2016) । जब आप लिखते हैं-अप अपनी प्रतिक्रियाओं, कृपया ध्यान दें जो डेटा स्रोत आप का इस्तेमाल किया। (नोट: यह एक ही गतिविधि भी अध्याय 6 में दिखाई देता है)
[ ] Efrati (2016) रिपोर्ट, गोपनीय जानकारी के आधार पर, कि "कुल साझा" फेसबुक पर एक साल से अधिक के बारे में 5.5% वर्ष से मना कर दिया था, जबकि "मूल प्रसारण साझा" नीचे वर्ष की तुलना में 21% वर्ष था। यह गिरावट उम्र के 30 वर्ष से कम फेसबुक उपयोगकर्ताओं के साथ विशेष रूप से गंभीर था। रिपोर्ट दो कारकों की गिरावट को जिम्मेदार ठहराया। एक "दोस्त" लोग फेसबुक पर की संख्या में वृद्धि है। दूसरे यह है कि कुछ साझा गतिविधि संदेश भेजने के लिए और इस तरह SnapChat के रूप में प्रतियोगियों के लिए स्थानांतरित कर दिया गया है। रिपोर्ट में यह भी कई रणनीति फेसबुक साझा बढ़ावा देने की कोशिश की थी, समाचार फ़ीड एल्गोरिथ्म तोड़ मरोड़ कि मूल पदों अधिक प्रमुख बनाने के लिए, साथ ही मूल पदों उन कई साल पहले "इस दिन पर" की आवधिक अनुस्मारक सहित का पता चला। क्या निहितार्थ, यदि कोई हो, इन निष्कर्षों शोधकर्ताओं ने एक डेटा स्रोत के रूप में फेसबुक का उपयोग करना चाहते हैं के लिए है?
[ ] Tumasjan et al. (2010) सूचना एक राजनीतिक पार्टी का उल्लेख ट्वीट के उस अनुपात वोट कि पार्टी 2009 में जर्मन संसदीय चुनाव में प्राप्त (चित्रा 2.9) के अनुपात में मेल नहीं खाते। दूसरे शब्दों में, यह है कि आप चुनाव भविष्यवाणी करने के लिए ट्विटर का इस्तेमाल कर सकते दिखाई दिया। समय इस अध्ययन प्रकाशित किया गया था पर यह बेहद रोमांचक माना जाता था क्योंकि यह बड़ा डेटा का एक आम स्रोत के लिए एक मूल्यवान उपयोग का सुझाव करने के लिए लग रहा था।
बड़ा डेटा का बुरा सुविधाओं को देखते हुए, हालांकि, आप तुरंत इस परिणाम की उलझन में होना चाहिए। 2009 में ट्विटर पर जर्मनी के काफी एक गैर प्रतिनिधि समूह थे, और एक पार्टी के समर्थकों राजनीति के बारे में अधिक से अधिक बार कलरव हो सकता है। इस प्रकार, यह आश्चर्य की बात है कि लगता है सभी संभव पूर्वाग्रहों कि आप कल्पना कर सकते हैं किसी भी तरह बाहर रद्द होगा। वास्तव में, में परिणाम Tumasjan et al. (2010) निकला भी अच्छा होने के लिए सच हो सकता है। अपने पत्र में, Tumasjan et al. (2010) क्रिश्चियन डेमोक्रेट (सीडीयू), ईसाई सोशल डेमोक्रेट (CSU), एसपीडी, उदारवादी (एफडीपी), वाम (मरो Linke) और ग्रीन पार्टी (Grüne): छह राजनीतिक दलों पर विचार किया। हालांकि, उस समय ट्विटर पर सबसे उल्लेख जर्मन राजनीतिक दल समुद्री डाकू पार्टी (Piraten), एक पार्टी लड़ता है कि इंटरनेट की सरकार विनियमन था। जब समुद्री डाकू पार्टी विश्लेषण में शामिल किया गया था, ट्विटर उल्लेख चुनाव परिणाम (चित्रा 2.9) के एक भयानक कारक बन जाता है (Jungherr, Jürgens, and Schoen 2012) ।
इसके बाद दुनिया भर के अन्य शोधकर्ताओं का इस्तेमाल किया है शौक़ीन तरीकों-ऐसी भावना विश्लेषण का उपयोग कर सकारात्मक और नकारात्मक के बीच भेद करने के रूप में चुनाव के विभिन्न प्रकार की एक किस्म की भविष्यवाणी करने के लिए ट्विटर डेटा की क्षमता में सुधार करने के क्रम में पार्टियों का उल्लेख है (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) । यहाँ है कैसे Huberty (2015) में संक्षेप चुनावों की भविष्यवाणी करने के इन प्रयासों के परिणाम:
"सभी ज्ञात भविष्यवाणी सोशल मीडिया पर आधारित विधियों जब सच दूरंदेशी चुनावी भविष्यवाणी की मांग के अधीन विफल रहे हैं। इन असफलताओं सोशल मीडिया के मौलिक गुण, बल्कि पद्धति या एल्गोरिथम कठिनाइयों के लिए की तुलना की वजह से हो दिखाई देते हैं। संक्षेप में, सोशल मीडिया नहीं करते हैं, और शायद कभी नहीं, एक स्थिर, निष्पक्ष, प्रतिनिधि मतदाताओं की तस्वीर की पेशकश करेगा; और सामाजिक मीडिया की सुविधा के नमूने इन समस्याओं पोस्ट अस्थायी ठीक करने के लिए पर्याप्त डेटा की कमी है। "
अनुसंधान कि नेतृत्व के कुछ पढ़ा Huberty (2015) उस निष्कर्ष पर, और का वर्णन करता है, तो कैसे और ट्विटर चुनावों की भविष्यवाणी करने के लिए इस्तेमाल किया जाना चाहिए एक राजनीतिक उम्मीदवार के लिए एक पृष्ठ ज्ञापन लिखें।
[ ] एक समाजशास्त्री और एक इतिहासकार के बीच क्या अंतर है? Goldthorpe के अनुसार (1991) , एक समाजशास्त्री और एक इतिहासकार के बीच मुख्य अंतर डेटा संग्रह पर नियंत्रण है। इतिहासकारों अवशेष का उपयोग करने के समाजशास्त्रियों विशिष्ट प्रयोजनों के लिए अपने डेटा संग्रह दर्जी कर सकते हैं, जबकि मजबूर हैं। पढ़ें Goldthorpe (1991) । कैसे Custommades और रेडीमेड्स के विचार से संबंधित समाजशास्त्र और इतिहास के बीच अंतर है?
[ ] पिछले प्रश्न पर बिल्डिंग, Goldthorpe (1991) निकी हार्ट से एक सहित महत्वपूर्ण प्रतिक्रियाओं की एक संख्या है, आकर्षित किया (1994) कि Goldthorpe की भक्ति को चुनौती दी बनाया डेटा से तैयार करने की। दर्जी डेटा के संभावित सीमाओं को स्पष्ट करने के लिए, हार्ट संपन्न कार्यकर्ता परियोजना, सामाजिक वर्ग और मतदान के बीच रिश्ता है कि 1960 दशक के मध्य में Goldthorpe और उनके सहयोगियों द्वारा आयोजित किया गया मापने के लिए एक बड़े सर्वेक्षण में वर्णित है। एक एक विद्वान जो डिजाइन किए पाया डेटा पर डेटा इष्ट से उम्मीद कर सकते हैं, समृद्ध कार्यकर्ता परियोजना डेटा है कि जीवन स्तर में वृद्धि के युग में सामाजिक वर्ग के भविष्य के बारे में हाल ही में प्रस्तावित सिद्धांत को संबोधित करने के लिए सिलवाया था एकत्र। लेकिन, Goldthorpe और उनके सहयोगियों को किसी भी तरह से महिलाओं के मतदान के व्यवहार के बारे में जानकारी इकट्ठा करने के लिए "भूल"। यहाँ कैसे निकी हार्ट (1994) पूरे प्रकरण सारांश:
"। । । यह निष्कर्ष है कि महिलाओं क्योंकि इस 'दर्जी' डाटासेट एक paradigmatic तर्क जो महिला के अनुभव को बाहर रखा द्वारा ही सीमित था छोड़े गए थे बचने के लिए मुश्किल [है]। वर्ग चेतना और पुरुष व्यस्तताओं के रूप में कार्रवाई का एक सैद्धांतिक दृष्टि से प्रेरित है। । । , Goldthorpe और उनके सहयोगियों ने अनुभवजन्य सबूत जो तंग आ चुके हैं और उन्हें पर्याप्तता का एक मान्य परीक्षण करने के लिए प्रकाश में लाने के बजाय अपने खुद के सैद्धांतिक मान्यताओं पाला का एक सेट का निर्माण किया। "
हार्ट जारी रखा:
"संपन्न कार्यकर्ता परियोजना के अनुभवजन्य निष्कर्ष हमें सदी के मध्य समाजशास्त्र के masculinist मूल्यों के बारे में अधिक बताने से वे स्तरीकरण, राजनीति और भौतिक जीवन की प्रक्रियाओं को सूचित करें।"
आप अन्य उदाहरण हैं जहां दर्जी डेटा संग्रह में इसे बनाया डेटा कलेक्टर के पूर्वाग्रहों है के बारे में सोच सकते हैं? यह कैसे एल्गोरिथम confounding की तुलना करता है? क्या निहितार्थ यह है कि जब शोधकर्ताओं रेडीमेड्स का उपयोग करना चाहिए के लिए हो सकता है और जब वे Custommades उपयोग करना चाहिए?
[ ] इस अध्याय में, मैं कंपनियों और सरकारों द्वारा बनाई गई प्रशासनिक रिकॉर्ड के साथ शोधकर्ताओं के लिए शोधकर्ताओं द्वारा एकत्र आंकड़ों विषम। कुछ लोगों को फोन इन प्रशासनिक रिकॉर्ड है जो वे के साथ इसके विपरीत "डेटा, मिला" "डिज़ाइन किया गया डेटा।" यह सच है कि प्रशासनिक रिकॉर्ड शोधकर्ताओं द्वारा पाए जाते हैं, लेकिन वे भी अत्यधिक तैयार कर रहे हैं। उदाहरण के लिए, आधुनिक तकनीक कंपनियों को इकट्ठा करने और अपने डेटा उपपादरी के लिए और संसाधनों की भारी मात्रा में समय खर्च करते हैं। इस प्रकार, इन प्रशासनिक रिकॉर्ड दोनों पाया जाता है और तैयार कर रहे हैं, यह सिर्फ अपने दृष्टिकोण (चित्रा 2.10) पर निर्भर करता है।
जहां यह देखकर जब अनुसंधान के लिए डेटा स्रोत का उपयोग दोनों के रूप में पाया और डिजाइन सहायक है डेटा स्रोत का एक उदाहरण प्रदान करें।
[ ] एक विचारशील निबंध में, ईसाई Sandvig और Eszter Hargittai (2015) डिजिटल अनुसंधान, जहां डिजिटल प्रणाली "साधन" या के दो प्रकार के अध्ययन के पहले तरह का एक उदाहरण का वर्णन "अध्ययन की वस्तु है।" जहां Bengtsson और उनके सहयोगियों (2011) 2010 में हैती में आए भूकंप के बाद पलायन ट्रैक करने के लिए मोबाइल फोन के डेटा का इस्तेमाल किया दूसरी तरह का एक उदाहरण है, जहां जेन्सेन (2007) के अध्ययन कैसे केरल भर में मोबाइल फोन की शुरूआत भारत के लिए मछली बाजार के कामकाज पर असर पड़ा। क्योंकि यह स्पष्ट किया डिजिटल डेटा स्रोतों का उपयोग अध्ययन काफी अलग लक्ष्यों को भले ही वे डेटा स्रोत का एक ही तरह के प्रयोग कर रहे हैं हो सकता है कि मैं इस उपयोगी पाते हैं। दो कि एक साधन के रूप में एक डिजिटल प्रणाली का उपयोग करें और दो कि अध्ययन के एक वस्तु के रूप में एक डिजिटल प्रणाली का उपयोग करें: आदेश में आगे इस तरह के अंतर को स्पष्ट करने के लिए, चार अध्ययन है कि आप देखा है का वर्णन है। आप इस अध्याय से उदाहरण का उपयोग करें यदि आप चाहते हैं।