प्रमुख:
[ , ] अल्गोरिदमिक उलझाने गुगल फ्लू चलन एउटा समस्या थियो। द्वारा कागज पढ्नुहोस् Lazer et al. (2014) , र समस्या बताउँदै र समस्या समाधान गर्न कसरी एक विचार भेटी Google मा एक इन्जिनियर एउटा छोटो, स्पष्ट इमेल लेख्नुहोस्।
[ ] Bollen, Mao, and Zeng (2011) ट्विटर देखि डाटा शेयर बजार भविष्यवाणी गर्न प्रयोग गर्न सकिन्छ भनेर दावी गरे। यो खोजन एक भ्काडी कोष-Derwent पूंजी ट्विटर देखि संकलित डाटा आधारमा शेयर बजार मा लगानी बजार-गर्न को सिर्जना गर्न नेतृत्व (Jordan 2010) । के प्रमाण तपाईं कोष मा आफ्नो पैसा राख्दै अघि हेर्न चाहनुहुन्छ?
[ ] केही सार्वजनिक स्वास्थ्य समर्थकले धूम्रपान अवरोध लागि प्रभावकारी सहायता रूपमा असिना ई-चुरोट बेला अरूलाई यस्तो निकोटीन को उच्च-स्तर रूपमा सम्भावित जोखिम बारेमा चेतावनी दिनुहोस्। एक शोधकर्ता सङ्कलन ई-चुरोट-सम्बन्धित ट्विटर पोस्ट र विचार विश्लेषण सञ्चालन गरेर ई-चुरोट तिर सार्वजनिक राय अध्ययन गर्न निर्णय भनेर कल्पना गर्नुहोस्।
[ ] नोभेम्बर 2009 मा, ट्विटर प्रश्न को Tweet बक्समा देखि "तपाईं के गर्दै हुनुहुन्छ?" परिवर्तन "के भइरहेको छ?" (Https://blog.twitter.com/2009/whats-happening)।
[ ] Kwak et al. (2010) को विश्लेषण 41.7 लाख प्रयोगकर्ता प्रोफाइल, 1.47 अर्ब सामाजिक सम्बन्ध, 4262 चलिरहेका विषय, र जुन 6 र जुन 31 बीच 106 मिलियन ट्वीट, 2009. तिनीहरूले ट्विटर एक भन्दा साझेदारी जानकारी को एक नयाँ मध्यम बढी गर्दछ निष्कर्षमा यो विश्लेषण आधारित सामाजिक सञ्जाल।
[ ] "Retweets" अक्सर प्रभाव मापन गर्न प्रयोग र ट्विटर मा प्रभाव फैलाउन छन्। सुरुमा, प्रयोगकर्ताहरूले प्रतिलिपि गर्न र तिनीहरूले मनपराउनु भएको Tweet पेस्ट, उनको / उनको ह्यान्डल संग मूल लेखक ट्याग, र स्वयं यो एक Retweet भन्ने संकेत "RT" टाइप Tweet अघि थियो। त्यसपछि, 2009 मा ट्विटर एक "Retweet" बटन थपियो। जुन 2016 मा, ट्विटर सम्भव प्रयोगकर्ता (https://twitter.com/twitter/status/742749353689780224) आफ्नै ट्विट Retweet लागि गरे। तपाईं यी परिवर्तनहरू कसरी तपाईं आफ्नो अनुसन्धान मा "retweets" प्रयोग असर गर्नुपर्छ लाग्छ? किन वा किन छैन?
[ , , ] Michel et al. (2011) पुस्तकहरू digitize Google को प्रयास बाट उदीयमान एक कर्पस निर्माण। 2009 मा प्रकाशित र 5 लाख डिजीटल पुस्तकहरू भन्दा समावेश थियो जो कर्पस, पहिलो संस्करण प्रयोग, लेखक भाषाई परिवर्तन र सांस्कृतिक रुझान छानबीन शब्द प्रयोग आवृत्ति विश्लेषण। चाँडै Google पुस्तक Corpus अनुसन्धानकर्ताहरूले लागि एक लोकप्रिय डेटा स्रोत भए, र डेटाबेस को एक 2nd संस्करण 2012 मा जारी भएको थियो।
तर, Pechenick, Danforth, and Dodds (2015) अनुसन्धानकर्ताहरूले पूर्णतया व्यापक निष्कर्ष चित्रकला लागि यो प्रयोग गर्नु अघि कर्पस को नमूना प्रक्रिया चिनारी गर्न आवश्यक छ कि यस्तो चेतावनी दिए। मुख्य मुद्दा कर्पस प्रत्येक पुस्तकको एक युक्त, पुस्तकालय-जस्तो छ भन्ने छ। एक परिणाम, एक व्यक्ति रूपमा, prolific लेखक noticeably Google पुस्तक lexicon मा नयाँ वाक्यांश सम्मिलित गर्न सक्षम छ। यसबाहेक, वैज्ञानिक पदहरू पनि 1900s भर कर्पस को एक झन् ठोस भाग गठन। साथै, द्वारा अंग्रेजी मिथ्या डाटासेट, Pechenick एट अल को दुई संस्करण तुलना। अपर्याप्त फिल्टरिङ पहिलो संस्करण उत्पादन मा प्रयोग भएको थियो कि फेला प्रमाण। गतिविधि लागि आवश्यक सबै डाटा यहाँ उपलब्ध छ: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) को एनएसए / चश्मे निगरानी (ie, Snowden खुलासे) जुन 2013 मा बारेमा व्यापक प्रचार गोपनीयताको चासो उठाउनु शीर्षकहरूमा एक तेज र अचानक यातायात विकिपीडिया लेख कमी संग सम्बन्धित छ कि पडताल। भने, व्यवहार परिवर्तन ठूलो निगरानी परिणामस्वरूप एक Chilling प्रभाव अनुरूप हुनेछ। को दृष्टिकोण Penney (2016) कहिलेकाहीं एक अवरूद्ध समय श्रृंखला डिजाइन भनिन्छ र अवलोकनीय डाटा (धारा 2.4.3) देखि प्रयोगहरू approximating बारेमा अध्यायको दृष्टिकोण सम्बन्धित छ।
विषय किवर्ड चयन गर्न Penney ट्रयाक र सामाजिक मिडिया अनुगमन लागि मातृभूमि सुरक्षा को अमेरिकी विभाग द्वारा प्रयोग सूचीमा उल्लेख गरे। यो DHS सूची मुद्दाहरू, अर्थात् "स्वास्थ्य चासो," "पूर्वाधार सुरक्षा," र "आतंकवाद। दायरा मा केही खोज सर्तहरू वर्गीकृत आतंकवाद" (तालिका 8 हेर्न "अध्ययन समूह लागि, Penney को चालीस आठ किवर्ड सम्बन्धित प्रयोग" परिशिष्ट)। त्यो त विकिपीडिया लेख अवलोकन गणना एक तीस-दुई महिना अवधिमा संवाददाता चालीस आठ विकिपीडिया लेख लागि मासिक आधारमा, अगस्त 2014. को अन्त गर्न जनवरी 2012 को सुरुदेखि आफ्नो तर्क बलियो बनाउन लागि थपिन, त्यो पनि धेरै तुलना सिर्जना अन्य विषय मा लेख दृश्य ट्रयाक गरेर समूह।
अब, तपाईं दोहराने र विस्तार गर्न जाँदैछन् Penney (2016) । के तपाईं यो गतिविधि लागि आवश्यक हुनेछ सबै कच्चा डाटा विकिपीडिया (https://dumps.wikimedia.org/other/pagecounts-raw/) देखि उपलब्ध छ। वा तपाईं आर प्याकेज wikipediatrend देखि प्राप्त गर्न सक्छन् (Meissner and Team 2016) । तपाईं लेख्न-अप तपाईंको प्रतिक्रिया गर्दा, कृपया याद गर्नुहोस् जो डेटा स्रोत तपाईंले प्रयोग। (नोट: यो नै गतिविधि पनि अध्याय 6 मा देखिन्छ)
[ ] Efrati (2016) रिपोर्ट, गोप्य जानकारीका आधारमा, "मूल प्रसारण साझेदारी" तल वर्ष भन्दा 21% वर्ष हुँदा फेसबुकमा "कुल साझेदारी" वर्ष भन्दा बढी बारेमा 5.5% वर्ष द्वारा अस्वीकार थिए। यो गिरावट फेसबुक उमेर 30 वर्ष मुनिका प्रयोगकर्ताहरूसँग विशेष तीव्र थियो। रिपोर्ट दुई कारक गिरावट श्रेय। एक "मित्र" मान्छे फेसबुकमा छ को संख्या मा वृद्धि छ। अन्य केही साझेदारी गतिविधि सन्देश र यस्तो Snapchat रूपमा प्रतियोगिहरु गर्न सारे छ भन्ने छ। रिपोर्ट पनि धेरै रणनीति फेसबुक साझेदारी बढाउने प्रयास गरेका थिए, समाचार फीड तर्कको ट्वीक्स कि मूल पोस्ट अधिक प्रमुख बनाउन, साथै धेरै वर्ष पहिले "यो दिन मा" मूल पोस्ट प्रयोगकर्ताहरूको मासिक पत्रिका रिमाइन्डर सहित प्रकट गर्नुभयो। यी निष्कर्ष अनुसन्धानकर्ताहरूले एक डेटा स्रोत रूपमा फेसबुक प्रयोग गर्न चाहने लागि के निहितार्थ, कुनै पनि भने, छ?
[ ] Tumasjan et al. (2010) एक राजनीतिक पार्टी उल्लेख ट्वीट को कि अनुपात वोट पार्टी 2009 मा जर्मन संसदीय निर्वाचनमा पाएको (चित्रा 2.9) को अनुपात मिलान रिपोर्ट। अर्को शब्दमा, यो तपाईं चुनाव भविष्यवाणी गर्न ट्विटर प्रयोग सक्ने देखियो। यो अध्ययन प्रकाशित भएको थियो समय मा यो ठूलो डाटा को एक साधारण स्रोत को लागि एक मूल्यवान प्रयोग सुझाव देखिन्थ्यो किनभने अत्यन्तै रोमाञ्चक छलफल भएको थियो।
ठूलो डाटा को खराब सुविधाहरू दिइएको तथापि, तपाईं तुरुन्त यो परिणाम को संदेह हुनुपर्छ। 2009 मा ट्विटर मा जर्मन एकदम गैर-प्रतिनिधि समूह थिए, र एक पक्ष को समर्थकहरूको प्राय राजनीति बारे tweet सक्छ। तसर्थ, यो सबै सम्भव पक्षपात तपाईं कल्पना सक्ने तरिका बाहिर रद्द भनेर आश्चर्य। वास्तवमा, मा परिणाम Tumasjan et al. (2010) साँचो हुन पनि राम्रो हुन बाहिर गरियो। आफ्नो कागज मा, Tumasjan et al. (2010) मसीही डेमोक्रेट (CDU), मसीही सामाजिक डेमोक्रेट (सीएसयू), एसपीडी, Liberals (FDP), बायाँ (मर Linke), र ग्रीन पार्टी (Grüne): छ राजनीतिक दलहरू छलफल। तर, सबैभन्दा उल्लेख जर्मन राजनीतिक त्यतिबेला ट्विटर मा पक्ष लुटेरा पार्टी (Piraten), इन्टरनेटको सरकार विनियमन झगडे एक पक्ष थियो। को लुटेरा पार्टी विश्लेषण मा समावेश गरिएको थियो जब, ट्विटर निर्वाचन परिणाम (चित्रा 2.9) को एक भयानक भविष्यवक्ता हुन्छ उल्लेख (Jungherr, Jürgens, and Schoen 2012) ।
त्यसपछि, संसारभरिका अन्य अनुसन्धानकर्ताहरूले प्रयोग गरेका छन् fancier विधिहरू-यस्तो सकारात्मक र नकारात्मक छुट्याउन विचार विश्लेषण प्रयोग गरेर चुनाव विभिन्न प्रकारका विभिन्न भविष्यवाणी गर्ने ट्विटर डाटा को क्षमता सुधार गर्न दलहरू-को को उल्लेख (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) । यहाँ कसरी गर्ने Huberty (2015) चुनाव भविष्यवाणी गर्न यी प्रयासहरूको परिणाम सारांशित:
"सामाजिक मिडिया आधारित सबै ज्ञात पूर्वानुमान विधिहरू गर्दा साँचो अगाडि-देख निर्वाचन पूर्वानुमान को माग गर्न अधीनमा असफल भयो। यी असफलता बरु methodological वा एल्गोरिथमिक कठिनाइ भन्दा, सामाजिक मिडिया को मौलिक गुण कारण हुन देखिन्छ। छोटो मा, सामाजिक मिडिया छैन, र कहिल्यै शायद, एक स्थिर, unbiased, प्रतिनिधि को निर्वाचक मण्डल को तस्वीर प्रदान गर्नेछ; र सामाजिक मिडिया को सुविधा नमूनाहरू यी समस्याहरू hoc पोस्ट समाधान गर्न पर्याप्त डाटा कमी छ। "
नेतृत्व अनुसन्धान केही पढ्नुहोस् Huberty (2015) भन्ने निष्कर्षमा गर्न, र ट्विटर चुनाव पूर्वानुमान गर्न प्रयोग गर्नुपर्छ भने र कसरी व्याख्या गर्ने राजनीतिक उम्मेदवार एक पृष्ठ ज्ञापन लेख्नुहोस्।
[ ] एक समाजशास्त्री र एक इतिहासकार कस्तो भिन्नता छ? Goldthorpe अनुसार (1991) , एक समाजशास्त्री र एक इतिहासकार बीच मुख्य फरक डाटा संग्रह नियन्त्रण छ। इतिहासकारहरूले sociologists विशिष्ट उद्देश्य आफ्नो डाटा संग्रह उपयुक्त सक्नुहुन्छ जबकि अवशेषहरूको प्रयोग गर्न बाध्य छन्। पढ्नुहोस् Goldthorpe (1991) । समाजशास्त्र र इतिहास भिन्नता Custommades र Readymades को विचार मा कसरी सम्बन्धित छ?
[ ] अघिल्लो प्रश्न मा निर्माण, Goldthorpe (1991) एक Nicky हार्ट देखि सहित महत्वपूर्ण प्रतिक्रियाहरू संख्या आकर्षित (1994) गरे डाटा मिलाउन Goldthorpe गरेको भक्ति चुनौती छ। दर्जी बनाएका डाटा को सम्भावित सीमितता स्पष्टीकरण, हार्ट को समृद्ध कार्यकर्ता परियोजना, मध्य-1960 मा Goldthorpe र सहकर्मीहरुको सञ्चालन भएको थियो सामाजिक वर्ग र मतदान बीचको सम्बन्ध मापन गर्न एक ठूलो सर्वेक्षण वर्णन गरे। एक फेला डाटा डाटा डिजाइन इष्ट गर्ने विद्वान आशा सक्छ को रूप मा, समृद्ध कार्यकर्ता परियोजना जीवित स्तर वृद्धि को एक युग मा सामाजिक वर्ग को भविष्यबारे एक हालै प्रस्तावित सिद्धान्त सम्बोधन गर्न अनुकूल थियो डाटा संकलन। तर, Goldthorpe र सहयोगिहरु तरिका महिला मतदान व्यवहार बारेमा जानकारी सङ्कलन गर्न "भूल"। यहाँ Nicky हार्ट कसरी गर्ने (1994) सारा प्रसङ्ग सारांश:
"। । । गाह्रो यो डेटासेटको महिला अनुभव बहिष्कृत जो एक paradigmatic तर्क द्वारा सीमित थियो 'दर्जी गरे' किनभने महिला हटाइएका थिए कि निष्कर्षमा जोगिन [छ]। वर्ग चेतना र कार्य पुरुष preoccupations रूपमा एक सैद्धान्तिक दर्शन संचालित। । । , Goldthorpe र उनको सहयोगिहरु खुवाउनु र पर्याप्तता मान्य परीक्षण गर्न तिनीहरूलाई पर्दाफास सट्टा आफ्नै सैद्धान्तिक अनुमानको nurtured जो empirical प्रमाणहरू एक सेट निर्माण। "
हार्ट जारी:
"तिनीहरूले स्तरीकरण, राजनीति र भौतिक जीवनको प्रक्रियाहरू सूचित भन्दा समृद्ध कार्यकर्ता परियोजना को empirical निष्कर्ष हामीलाई मध्य शताब्दीका समाजशास्त्र को masculinist मान बारेमा थप भन।"
तपाईं कहाँ दर्जी बनाएका डाटा संग्रह यसलाई मा निर्मित डाटा कलेक्टर को पक्षपात छ अन्य उदाहरण विचार गर्न सक्छौं? यो एल्गोरिथमिक उलझाने कसरी तुलना गर्नुहुन्छ? यो अनुसन्धानकर्ताहरूले Readymades प्रयोग गर्नुपर्छ जब लागि के निहितार्थ हुन सक्छ र तिनीहरूले Custommades प्रयोग गर्नुपर्छ?
[ ] यो अध्यायमा म कम्पनीहरु र सरकारको द्वारा सिर्जना प्रशासनिक रेकर्ड संग अनुसन्धानकर्ताहरूले लागि अनुसन्धानकर्ताहरूले संकलित डाटा contrasted। केही मानिसहरू कल यी प्रशासनिक रेकर्ड जो तिनीहरूले विपरीत "डाटा, फेला परेन" "डिजाइन डाटा।" यो प्रशासनिक रेकर्ड अनुसन्धानकर्ताहरूले द्वारा छन् त्यो सत्य हो, तर तिनीहरूले पनि अत्यधिक डिजाइन गर्दै हुनुहुन्छ। उदाहरणका लागि, आधुनिक प्रविधी कम्पनीहरु सङ्कलन र आफ्नो डाटा पादरी समय को भारी मात्रा र स्रोतसाधन खर्च। तसर्थ, यी प्रशासनिक रेकर्ड दुवै फेला र डिजाइन, यो सिर्फ आफ्नो दृष्टिकोण (चित्रा 2.10) मा निर्भर गर्दछ।
अनुसन्धान को लागि कि डेटा स्रोत प्रयोग गर्दा फेला र डिजाइन उपयोगी छ दुवै रूपमा यो देखेर जहाँ डेटा स्रोत को एक उदाहरण।
[ ] एक विचारशील निबंध मा, मसीही Sandvig र Eszter Hargittai (2015) जहाँ डिजिटल सिस्टम "साधन" वा छ डिजिटल अनुसन्धान, को दुई प्रकारका अध्ययन पहिलो प्रकारको एउटा उदाहरण वर्णन "अध्ययन को वस्तु।" छ जहाँ Bengtsson र सहयोगिहरु (2011) दोस्रो प्रकारको एउटा उदाहरण हो 2010. मा हैटी मा भूकम्प पछि माइग्रेसन ट्रयाक गर्न मोबाइल फोन डाटा प्रयोग कहाँ जेन्सेन (2007) कसरी केरला भर मोबाइल फोन को परिचय, भारत माछा को लागि बजार को कामकाज प्रभावित अध्ययन। यो डिजिटल डाटा स्रोतहरू प्रयोग गरेर अध्ययन पनि यदि उनि डेटा स्रोत को नै प्रकारको प्रयोग गर्दै एकदम लक्ष्य भिन्न गर्न सक्ने clarifies किनभने म यो उपयोगी पाउँछौं। एक साधन रूपमा डिजिटल सिस्टम प्रयोग गर्ने दुईवटा र अध्ययन को वस्तु रूपमा डिजिटल सिस्टम प्रयोग गर्ने दुईवटा: थप यो भेदभाव स्पष्ट गर्न, तपाईं देखेका छौँ कि चार अध्ययन वर्णन। के तपाईं चाहनुहुन्छ भने यो अध्याय देखि उदाहरणहरू प्रयोग गर्न सक्नुहुन्छ।