की:
[ , ] अल्गोरिथमसंबंधी confounding Google Flu Trends सह एक समस्या होती. करून कागद वाचू Lazer et al. (2014) , आणि समस्या समजावून आणि समस्या निराकरण कसे एक कल्पना अर्पण Google वर एक अभियंता अल्प, स्पष्ट ई-मेल लिहा.
[ ] Bollen, Mao, and Zeng (2011) ट्विटर डेटा शेअर बाजार अंदाज करण्यासाठी वापरले जाऊ शकते, असा दावा. या शोध एक हेज फंड-Derwent कॅपिटल ट्विटर गोळा केलेला डेटा आधारित शेअर बाजारात गुंतवणूक बाजार-टू निर्माण झाली (Jordan 2010) . काय पुरावा तुम्हाला फंड आपले पैसे टाकल्यावर आधी पाहू इच्छितो?
[ ] काही सार्वजनिक आरोग्य वकील धूम्रपान समाप्ती एक प्रभावी मदत म्हणून ई-सिगारेट गारा तर इतर संभाव्य धोके, अशा निकोटीनचा उच्च पातळी बद्दल चेतावणी द्या. एक संशोधक ई-सिगारेट-संबंधित Twitter पोस्ट गोळा आणि भावना विश्लेषण आयोजित करून ई-सिगारेट दिशेने सार्वजनिक मत अभ्यास निर्णय अशी कल्पना करा.
[ ] नोव्हेंबर 2009 मध्ये ट्विटर प्रश्न ट्विट बॉक्स मध्ये "तुम्ही काय करीत आहात?" मधून "काय चालले आहे?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) विश्लेषण 41.7 दशलक्ष वापरकर्ता प्रोफाइल, 1.47 अब्ज सामाजिक संबंध, 4262 ट्रेंडिंग विषय आणि जून 6 आणि जून 31 दरम्यान 106 दशलक्ष ट्वीट, 2009 या विश्लेषण ते ट्विटर पेक्षा सामायिक माहिती नवीन माध्यम म्हणून अधिक ला सेवा पुरविणारे समारोप आधारित सामाजिक नेटवर्क.
[ ] "Retweets" अनेकदा प्रभाव मोजण्यासाठी वापरले आणि Twitter वर प्रभाव पसरली आहेत. सुरुवातीला, वापरकर्त्यांना कॉपी आणि ते आवडले ट्विट पेस्ट, त्याच्या / तिच्या हँडल मूळ लेखक टॅग आणि स्वतः तो एक ट्विट करा आहे की सूचित ट्विट करण्यापूर्वी "रिकी" टाइप होते. मग, 2009 मध्ये ट्विटर एक "ट्विट करा" बटण आहे. जून 2016 मध्ये, ट्विटर शक्य वापरकर्ते त्यांच्या स्वत: चे ट्वीट ट्विट करा करण्यासाठी (https://twitter.com/twitter/status/742749353689780224) केले. हे बदल आपण आपले संशोधन मध्ये आपण "retweets" वापर कसा परिणाम झाला पाहिजे असं वाटतं का? का किंवा का नाही?
[ , , ] Michel et al. (2011) पुस्तके डिजिटाइझ Google च्या प्रयत्न पासून उदयास निधी बांधले. 2009 मध्ये प्रकाशित आणि 5 दशलक्ष पेक्षा जास्त डिजिटल पुस्तके समाविष्ट होते जे निधी उभारण्यासाठी प्रथम आवृत्ती वापरणे, लेखक भाषिक बदल आणि सांस्कृतिक ट्रेंड तपास शब्द वापर वारंवारता विश्लेषण केले आहे. लवकरच, Google Books कॉर्पस संशोधक एक लोकप्रिय डेटा स्त्रोत बनले आणि 2012 मध्ये आकडेवारीचा 2 आवृत्ती प्रकाशित झाली.
तथापि, Pechenick, Danforth, and Dodds (2015) संशोधक पूर्णपणे व्यापक निष्कर्ष काढण्यासाठी ते वापरण्यापूर्वी निधीची नमूना प्रक्रिया व्यक्तिचित्रण करणे आवश्यक आहे, असा इशारा दिला. मुख्य मुद्दा निधी प्रत्येक पुस्तक एक असलेली, लायब्ररी, सारखी आहे. परिणामी एक व्यक्ती म्हणून, उत्पादनशील लेखक लक्षातही, Google Books शब्दकोश नवीन वाक्ये घालण्यासाठी सक्षम आहे. शिवाय, वैज्ञानिक ग्रंथ इ.स.चे 1900 चे दशक संपूर्ण निधी एक वाढत्या हिस्सा हा तयार करतो. याच्या व्यतिरीक्त, इंग्रजी कादंबरी डेटाबेस Pechenick ET अल दोन आवृत्त्या तुलना. आढळले पुरावा अपुरा फिल्टर प्रथम आवृत्ती उत्पादन वापरले जात होते. क्रियाकलाप आवश्यक सर्व डेटा येथे उपलब्ध आहे: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) राष्ट्रीय सुरक्षा सल्लागार / त्रिकोणाकृती घन पाळत ठेवणे (म्हणजेच, स्नोडेन साक्षात्कारही) जून 2013 मध्ये व्यापक प्रसिद्धी गोपनीयता चिंता वाढवण्याची विषयांवर विकिपीडिया लेख धारदार आणि अचानक वाहतूक कमी संबंधित आहे किंवा नाही हे शोध. असे असल्यास, वर्तन हा बदल वस्तुमान पाळत ठेवणे परिणामी एक शीतकरण परिणाम सुसंगत होईल. दृष्टिकोन Penney (2016) कधी कधी एक व्यत्यय मालिका डिझाइन म्हटले जाते आणि आकलनशक्तीच्या डेटा (कलम 2.4.3) पासून प्रयोग अंदाज बद्दल धडा दृष्टिकोण संबंधित आहे.
विषय कीवर्ड निवडण्याकरीता, Penney ट्रॅक आणि सामाजिक मीडिया देखरेख जन्मभुमी सुरक्षा विभाग द्वारे वापरले यादी संदर्भित. दहशतवाद "(तक्ता 8 पाहू", Penney अठ्ठेचाळीस कीवर्ड संबंधित वापरले अभ्यास गट कारण "संस्कारांचा खेळ यादी समस्या, म्हणजेच" आरोग्य कन्सर्न, "" इन्फ्रास्ट्रक्चर सुरक्षा, "आणि" दहशतवाद. श्रेणी मध्ये विशिष्ट शोध संज्ञा श्रेणीबद्ध परिशिष्ट). तर मग जानेवारी 2012 सुरूवात ऑगस्ट 2014 च्या शेवटी पासून, एक बत्तीस महिन्यात याच अठ्ठेचाळीस विकिपीडिया लेख मासिक आधारावर विकिपीडिया लेखाच्या दृश्य संख्या एकत्रित त्याच्या वादविवादाचे मजबूत करण्यासाठी, तो देखील अनेक तुलना निर्माण इतर विषय, लेख, दृश्ये ट्रॅक गटांना.
आता, तुम्ही याला आणि पाठविणे जात आहेत Penney (2016) . आपण या क्रियाकलाप आवश्यक आहे की सर्व कच्चा डेटा विकिपीडिया (https://dumps.wikimedia.org/other/pagecounts-raw/) पासून उपलब्ध आहे. किंवा आपण आर पॅकेज wikipediatrend पासून ते मिळवू शकता (Meissner and Team 2016) . आपण लिहू-अप तेव्हा आपले प्रतिसाद, कृपया जे डेटा स्त्रोत वापरले लक्षात ठेवा. (टिप: ही त्याच क्रियाकलाप देखील Chapter 6 दिसते)
[ ] Efrati (2016) अहवाल, गोपनीय माहिती आधारित, "मूळ प्रसारण शेअरिंग करताना" खाली वर्षात 21% वर्ष होते "एकूण सामायिकरण" Facebook वर वर्षात सुमारे 5.5% वर्षी घट झाली होती. घट झाली आहे वय 30 वर्षे फेसबुक सह विशेषतः तीव्र होते. अहवाल दोन घटक कमी गुणविशेष. एक "मित्र" लोक फेसबुक वर आहेत संख्या वाढ आहे. काही सामायिक केलेले क्रियाकलाप मेसेजिंग आणि अशा SnapChat म्हणून प्रतिस्पर्धी करण्यात आले आहे की इतर आहे. अहवाल देखील अनेक घोटाळ्यात फेसबुक शेअरिंग चालना देण्यासाठी प्रयत्न केला होता, मूळ पोस्ट अधिक स्पष्टपणे करा की बातम्या फीड अल्गोरिदम समन्वय, तसेच अनेक वर्षे पूर्वी "या दिवशी" मूळ पोस्ट वापरकर्त्यांसाठी नियतकालिक स्मरणपत्रे समावेश दिल्या आहेत. काय परिणाम, कोणतेही असल्यास, या निष्कर्ष एक डेटा स्त्रोत फेसबुक वापरू इच्छित कोण संशोधक आहेत का?
[ ] Tumasjan et al. (2010) पक्ष 2009 मध्ये जर्मन लोकसभा निवडणूक प्राप्त मते (आकृती 2.9) प्रमाण राजकीय पक्ष उल्लेख ट्वीट च्या प्रमाणात जुळलेल्या नोंदवली. दुसऱ्या शब्दांत, तो आपण निवडणूक अंदाज Twitter वर वापरू शकतो, असे दिसू लागले. ती मोठी डेटा सामान्य स्रोत एक मौल्यवान वापर सुचविणे होती कारण या अभ्यासात प्रकाशित झाले वेळी अत्यंत रोमांचक मानली जात होती.
वाईट मोठे डेटा वैशिष्ट्ये दिले, मात्र, आपण लगेच हा परिणाम संशयवादी असणे आवश्यक आहे. 2009 मध्ये Twitter वर जर्मन जोरदार एक नॉन-प्रतिनिधी गट होते, आणि एक पक्ष समर्थक अधिक अनेकदा राजकारण ट्विट शकते. याप्रमाणे, ते आपण कल्पना नाही की सर्व शक्य चुका कसा तरी बाहेर रद्द होईल, यात आश्चर्य वाटते. खरं तर, परिणाम Tumasjan et al. (2010) खरे असल्याचे खूप चांगला असल्याचे बाहेर वळले. त्यांच्या लेखात, Tumasjan et al. (2010) ख्रिश्चन डेमोक्रॅट (CDU), ख्रिश्चन सामाजिक डेमोक्रॅट (csu), स्टिव्ह, Liberals (FDP), डावे (Linke मरतात), आणि ग्रीन पार्टी (Grüne): सहा राजकीय पक्षांना मानले. तथापि, त्या वेळी सर्वात जास्त उल्लेख जर्मन राजकीय Twitter वर पक्ष पायरेट पार्टी (Piraten), इंटरनेट सरकारी कायदा fights की एक पक्ष होता. पायरेट पार्टी विश्लेषण समाविष्ट करण्यात आले, तेव्हा, ट्विटर उल्लेख निवडणूक निकाल (आकृती 2.9) एक भयंकर जनतेस होते (Jungherr, Jürgens, and Schoen 2012) .
एखाद्या गोष्टीत विशेष रस घेणारा पद्धती अशा त्यानंतर, जगभरातील इतर संशोधक वापरले आहेत सकारात्मक आणि नकारात्मक फरक भावना विश्लेषण वापरून निवडणुकीमध्ये विविध प्रकारांचे अनेक पर्याय उपलब्ध अंदाज Twitter वर डेटा क्षमता सुधारणा करण्यासाठी पक्ष-उल्लेख (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . कसे ते येथे आहे Huberty (2015) निवडणुकीत अंदाज हे प्रयत्न परिणाम सारांश:
"खरे पुढे दिसणारा निवडणूक अंदाज मागणी कामा तेव्हा सोशल मीडियावर आधारित सर्व परिचीत अंदाज पद्धती अपयशी ठरले आहेत. या अडचणी ऐवजी methodological किंवा अल्गोरिथमसंबंधी अडचणी सामाजिक मीडिया मूलभूत गुणधर्म असल्याचे दिसून येते. थोडक्यात, सामाजिक मीडिया नाही, आणि कदाचित नाही, एक स्थिर, निःपक्षपाती, प्रतिनिधी मतदार चित्र अर्पण आणि सामाजिक मीडिया सोयीसाठी नमुने या समस्या या पोस्ट निराकरण करण्यासाठी पुरेसा डेटा अभाव आहे. "
होऊ संशोधन काही वाचा Huberty (2015) निष्कर्ष, आणि ट्विटर निवडणूक अंदाज करण्यासाठी वापरली पाहिजे तर आणि कसे वर्णन राजकीय उमेदवार एक एक पृष्ठ चा संक्षेप लिहा.
[ ] समाजशास्त्रज्ञ आणि इतिहासकार काय फरक आहे? Goldthorpe मते (1991) , समाजशास्त्रज्ञ आणि इतिहासकार मुख्य फरक आहे डेटा संकलन नियंत्रण आहे. इतिहासकार समाजशास्त्रज्ञ विशिष्ट हेतूने त्यांच्या डेटा संकलन प्राप्त करू शकतात तर वस्तु वापर करणे भाग आहेत. वाचा Goldthorpe (1991) . Custommades आणि Readymades कल्पना समाजशास्त्र आणि इतिहास फरक कशी संबंधित आहे?
[ ] मागील प्रश्न तयार करणे, Goldthorpe (1991) गंभीर प्रतिसाद अनेक, निकी हार्ट समावेश अनि (1994) केली डेटा आवडीनुसार Goldthorpe भक्ती आव्हान आहे. शिंपी-केले डेटा संभाव्य मर्यादा स्पष्टीकरण करणे, हार्ट संपन्न कामगार प्रकल्प, चेंडू 1960 मध्ये Goldthorpe आणि सहकारी द्वारे आयोजित करण्यात आले आहे की, सामाजिक वर्ग व मतदान संबंध मोजण्यासाठी एक मोठ्या सर्वेक्षण वर्णन. एक आढळले डेटा डेटा रचना ज्याला जास्त अनुकूलता दाखविली एक विद्वान पासून अपेक्षा कदाचित म्हणून संपन्न कामगार प्रकल्प जीवनमान वाढत एक युग मध्ये सामाजिक वर्ग भविष्य बद्दल एक अलीकडे प्रस्तावित सिद्धांत पत्ता अनुरूप होते डेटा गोळा. पण, Goldthorpe आणि सहकारी कसा तरी महिला मतदान वर्तन माहिती गोळा करण्यात "विसरलो". येथे निकी हार्ट कसे आहे (1994) संपूर्ण भाग सारांश:
". . . महिला वगळले होते की या डेटासेटमध्ये महिला अनुभव वगळले एक paradigmatic तर्कशास्त्र द्वारे मर्यादीत होते, 'शिंपी केले कारण निष्कर्ष टाळण्यासाठी कठीण [आहे]. नर नियोजित वर्गाला देहभान आणि कृती एक सैद्धांतिक दृष्टी द्वारे गत्यंतर. . . , Goldthorpe आणि त्यांच्या सहकाऱ्यांनी प्रायोगिक पुरावे दिले आणि पुरेसे एक वैध चाचणी त्यांना तोंड द्यावे लागले ऐवजी त्यांच्या स्वत: च्या सैद्धांतिक पायरी जतन जे एक संच बांधले. "
हार्ट चालू:
"संपन्न कामगार प्रकल्प प्रायोगिक निष्कर्ष ते साहित्य बियाणे, राजकारण आणि साहित्य जीवन प्रक्रिया माहिती पेक्षा आम्हाला मध्य शतकाच्या समाजशास्त्र masculinist मूल्ये अधिक सांग."
आपण शिंपी-केले डेटा संकलन तो मध्ये तयार डेटा कलेक्टर चुका आहे जेथे इतर उदाहरणे विचार करू शकता? हे कसे अल्गोरिथमसंबंधी confounding तुलना नाही? काय परिणाम या संशोधक Readymades वापर करावा करताना आणि ते Custommades वापर करावा तेव्हा शकते?
[ ] या प्रकरणात, मी कंपन्या आणि सरकार बनवले प्रशासकीय रेकॉर्ड संशोधक यांच्यासाठी संशोधक द्वारे संकलित डेटा फरक स्पष्ट. काही लोक कॉल या प्रशासकीय रेकॉर्ड ते फरक आहे "डेटा, सापडला नाही" रचना "डेटा." हे खरे आहे, संशोधक प्रशासकीय रेकॉर्ड सापडले आहेत की, पण ते देखील अत्यंत डिझाइन केले आहेत. उदाहरणार्थ, आधुनिक टेक कंपन्या गोळा आणि त्यांचा डेटा मदतनीस वेळ प्रचंड प्रमाणात आणि संसाधने खर्च. त्यामुळे, या प्रशासकीय रेकॉर्ड दोन्ही आढळले आणि डिझाइन केले आहेत, ते फक्त आपल्या दृष्टीकोन (आकृती 2.10) अवलंबून असते.
डेटा स्त्रोत उदाहरण प्रदान संशोधन आहे की, डेटा स्त्रोत वापरताना आढळले आणि डिझाइन उपयुक्त आहे दोन्ही ते पाहून जेथे.
[ ] एक विवेकी निबंध, ख्रिश्चन Sandvig आणि Eszter Hargittai (2015) जेथे डिजिटल प्रणाली "साधने" किंवा डिजिटल संशोधन, दोन प्रकारच्या आहे वर्णन "अभ्यास ऑब्जेक्ट." अभ्यास पहिल्या प्रकारची उदाहरण जेथे Bengtsson आणि सहकारी (2011) 2010 मध्ये हैती मध्ये भूकंप नंतर स्थलांतर ट्रॅक वापरले मोबाइल फोन डेटा दुसऱ्या प्रकारचे एक उदाहरण आहे जेथे इथे (2007) केरळ संपूर्ण मोबाइल फोन परिचय, भारत मासे बाजारात कार्यरत परिणाम कसे अभ्यास. डिजिटल डेटा स्रोत वापरून अभ्यास त्यांना डेटा स्त्रोत त्याच प्रकारची वापरत आहात जरी जोरदार विविध गोल असू शकतात की स्पष्ट कारण मी हे उपयुक्त. दोन साधन म्हणून डिजिटल प्रणाली वापर आणि दोन अभ्यास एक वस्तू डिजिटल प्रणाली वापरा की, पुढील हा फरक स्पष्ट करण्यासाठी, आपण पाहिले आहे की चार अभ्यास वर्णन. आपण इच्छुक असल्यास आपण हा धडा उदाहरणे वापरू शकता.