क्रियाएँ

कुंजी:

  • कठिनाई के डिग्री: आसान आसान , मध्यम मध्यम , कठिन कठिन , बहुत मुश्किल बहुत मुश्किल
  • गणित की आवश्यकता है ( गणित की आवश्यकता है )
  • आवश्यकता है कोडिंग ( कोडिंग )
  • डेटा संग्रहण ( डेटा संग्रहण )
  • मेरे पसंदीदा ( मेरे पसंदीदा )
  1. [ मध्यम , मेरे पसंदीदा ] एल्गोरिथम confounding Google फ़्लू रुझान के साथ एक समस्या थी। द्वारा कागज पढ़ें Lazer et al. (2014) , और गूगल में एक इंजीनियर समस्या को समझा और कैसे इस समस्या को ठीक करने के लिए की एक विचार की पेशकश करने के लिए एक छोटी, स्पष्ट ईमेल लिखें।

  2. [ मध्यम ] Bollen, Mao, and Zeng (2011) का दावा है कि ट्विटर से डेटा शेयर बाजार भविष्यवाणी करने के लिए इस्तेमाल किया जा सकता है। यह निष्कर्ष एक हेज फंड-Derwent राजधानी ट्विटर से एकत्र आंकड़ों के आधार पर शेयर बाजार में निवेश बाजार करने के निर्माण के लिए नेतृत्व (Jordan 2010) । क्या सबूत है कि आप फंड में अपना पैसा लगाने से पहले देखना चाहता है?

  3. [ आसान ] कुछ सार्वजनिक स्वास्थ्य अधिवक्ताओं ओलों जबकि धूम्रपान बंद करने के लिए एक प्रभावी सहायता के रूप में ई-सिगरेट, दूसरों को इस तरह निकोटीन के उच्च स्तर के रूप में संभावित खतरों के बारे में चेतावनी दी है। कल्पना कीजिए कि एक शोधकर्ता ई-सिगरेट से संबंधित ट्विटर पदों का संग्रह है और भावना विश्लेषण द्वारा आयोजित ई-सिगरेट की ओर जनता की राय का अध्ययन करने का फैसला किया।

    1. तीन संभावित पूर्वाग्रहों है कि आप इस अध्ययन में के बारे में सबसे चिंतित हैं क्या हैं?
    2. Clark et al. (2016) में ऐसा ही एक अध्ययन में भाग गया। पहला, वे 850,000 ट्वीट्स है कि जनवरी 2012 से ई-सिगरेट-संबंधी कीवर्ड का इस्तेमाल किया दिसंबर 2014 के माध्यम से करीब निरीक्षण पर एकत्र, उन्होंने महसूस किया कि इन ट्वीट के कई स्वचालित कर रहे थे (यानी, मनुष्यों द्वारा उत्पादित नहीं) और इन स्वचालित ट्वीट के कई अनिवार्य थे विज्ञापनों में। वे जैविक ट्वीट से स्वचालित ट्वीट अलग करने के लिए एक मानव का पता लगाने एल्गोरिथ्म विकसित की है। इस मानव का पता लगाने एल्गोरिथ्म उन्होंने पाया कि ट्वीट के 80% स्वचालित उपयोग कर रहे थे। यह निष्कर्ष भाग (क) से आपका जवाब परिवर्तन करता है?
    3. जब वे जैविक और स्वचालित ट्वीट में भावना की तुलना में उन्होंने पाया कि स्वचालित ट्वीट जैविक ट्वीट (6.17 बनाम 5.84) की तुलना में अधिक सकारात्मक रहे हैं। इस खोज के लिए (ख) आपका जवाब परिवर्तन करता है?
  4. [ आसान ] नवंबर 2009 में, ट्विटर सवाल एम्बेड बॉक्स में से "आप क्या कर रहे हो?" को बदलकर "क्या हो रहा है?" (Https://blog.twitter.com/2009/whats-happening)।

    1. तुम्हें क्या लगता है संकेतों की परिवर्तन जो कलरव और / या वे क्या कलरव को प्रभावित करेगा?
    2. नाम से एक अनुसंधान परियोजना है जिसके लिए आप शीघ्र पसंद करेंगे "आप क्या कर रहे हो?" समझा क्यों।
    3. नाम से एक अनुसंधान परियोजना है जिसके लिए आप शीघ्र पसंद करेंगे "क्या हो रहा है?" समझा क्यों।
  5. [ मध्यम ] Kwak et al. (2010) का विश्लेषण 41.7 मिलियन उपयोगकर्ता प्रोफाइल, 1.47 अरब सामाजिक संबंधों, 4262 ट्रेंडिंग टॉपिक्स, और जून 6 और जून के बीच 31 वें 106 मिलियन tweets, 2009 इस विश्लेषण उन्होंने निष्कर्ष निकाला कि ट्विटर जानकारी का एक नया माध्यम से एक साझा करने के रूप में कार्य करता है के आधार पर अधिक सामाजिक जाल।

    1. क्वाक एट अल ढूँढने ध्यान में रखते हुए अनुसंधान की किस प्रकार आप ट्विटर डेटा के साथ क्या होगा? अनुसंधान के किस प्रकार आप ट्विटर डेटा के साथ क्या नहीं होता? क्यूं कर?
    2. 2010 में, ट्विटर वर्धित सेवा उपयोगकर्ताओं के लिए सिलवाया सुझाव बनाने कौन पालन करने के लिए एक। तीन सिफारिशों के मुख्य पृष्ठ पर एक समय में दिखाए जाते हैं। अनुशंसाएँ अक्सर एक से तैयार कर रहे हैं "मित्रों के मित्र," और आपसी संपर्क भी सिफारिश में प्रदर्शित कर रहे हैं। उपयोगकर्ता की सिफारिशों का एक नया सेट को देखने या सिफारिशों की एक लंबी सूची के साथ एक पृष्ठ पर जाएँ ताज़ा कर सकते हैं। क्या आपको लगता है इस नई सुविधा के भाग एक के लिए अपने जवाब बदल जाएगा)? क्यों या क्यों नहीं?
    3. Su, Sharma, and Goel (2016) सेवा कौन पालन करने के लिए प्रभाव का मूल्यांकन किया और पाया कि जब लोकप्रियता स्पेक्ट्रम भर में उन सिफारिशों से लाभान्वित, सबसे लोकप्रिय उपयोगकर्ताओं काफी हद तक औसत से अधिक फायदा। यह निष्कर्ष पार्ट बी के लिए अपने जवाब परिवर्तन करता है)? क्यों या क्यों नहीं?
  6. [ आसान ] "रीट्वीट" अक्सर प्रभाव को मापने के लिए इस्तेमाल किया है और ट्विटर पर प्रभाव के फैले हुए हैं। प्रारंभ में, उन की नकल करने और ट्वीट वे पसंद पेस्ट, उसका / उसकी संभाल के साथ मूल लेखक टैग, और मैन्युअल ट्वीट से पहले "आरटी" प्रकार का संकेत है कि यह एक किये है था। फिर, 2009 में ट्विटर एक "गये" बटन गयी। जून 2016 में, ट्विटर यह संभव उपयोक्ता अपने ट्वीट retweet करने के लिए (https://twitter.com/twitter/status/742749353689780224) के लिए बनाया है। आपको लगता है इन परिवर्तनों को प्रभावित करना चाहिए कि कैसे आप अपने अनुसंधान के क्षेत्र में "रीट्वीट" उपयोग न करें? क्यों या क्यों नहीं?

  7. [ मध्यम , डेटा संग्रहण , कोडिंग ] Michel et al. (2011) एक कोष पुस्तकों को डिजिटल करने के लिए गूगल के प्रयास से उभर निर्माण किया। कोष है, जो 2009 में प्रकाशित हुआ था और 5 लाख से अधिक किताबें डिजीटल निहित के पहले संस्करण का उपयोग करना, लेखकों भाषाई परिवर्तन और सांस्कृतिक प्रवृत्तियों की जांच करने के लिए शब्द उपयोग आवृत्ति का विश्लेषण किया। जल्द ही गूगल बुक्स कोर्पस शोधकर्ताओं के लिए एक लोकप्रिय डेटा स्रोत बन गया, और डेटाबेस की एक 2 संस्करण 2012 में जारी किया गया था।

    हालांकि, Pechenick, Danforth, and Dodds (2015) ने चेतावनी दी है कि शोधकर्ताओं ने पूरी तरह से व्यापक निष्कर्ष ड्राइंग के लिए यह प्रयोग करने से पहले कोष का नमूना लेने की प्रक्रिया को चिह्नित करने की जरूरत है। मुख्य मुद्दा यह है कि कोष, पुस्तकालय की तरह है प्रत्येक पुस्तक में से एक से युक्त है। नतीजतन, एक व्यक्ति के रूप में, विपुल लेखक काफ़ी गूगल बुक्स शब्दकोश में नए वाक्यांशों डालने में सक्षम है। इसके अलावा, वैज्ञानिक ग्रंथों 1900 के दशक के दौरान कोष की एक तेजी से ठोस हिस्से का गठन। इसके अलावा, अंग्रेजी फिक्शन डेटासेट, Pechenick एट अल के दो संस्करणों की तुलना। पाया सबूत है कि अपर्याप्त छानने के पहले संस्करण के उत्पादन में इस्तेमाल किया गया था। गतिविधि के लिए आवश्यक डेटा के सभी यहाँ उपलब्ध है: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. मिशेल एट अल। के मूल पत्र में (2011) , वे अंग्रेजी डेटा सेट के 1 संस्करण इस्तेमाल किया, "1880" साल के उपयोग की आवृत्ति साजिश रची, "1912" और "1973", और निष्कर्ष निकाला कि "हम कर रहे हैं हमारे अतीत हर बीतते साल के साथ तेजी से भूल "(छवि। 3 ए, मिशेल एट अल।)। एक ही भूखंड 1 का उपयोग) कोष, अंग्रेजी डाटासेट (छवि। 3 ए, मिशेल एट अल के रूप में ही की 1 संस्करण पेश करता है।)
    2. अब 1 संस्करण, अंग्रेजी उपन्यास डाटासेट के साथ एक ही भूखंड को दोहराने।
    3. अब कोष, अंग्रेजी डाटासेट के 2 संस्करण के साथ एक ही भूखंड को दोहराने।
    4. अंत में, 2 संस्करण, अंग्रेजी उपन्यास डाटासेट के साथ एक ही भूखंड को दोहराने।
    5. इन चार भूखंडों के बीच मतभेद और समानता का वर्णन करें। आप मनाया प्रवृत्ति के मिशेल एट अल। के मूल व्याख्या से सहमत हैं? (सुझाव: ग) और डी) Pechenick एट अल में चित्रा 16 के रूप में ही होना चाहिए)।
    6. अब है कि आप विभिन्न गूगल बुक्स निगम का उपयोग कर इस एक खोज दोहराया है, एक और भाषाई परिवर्तन या सांस्कृतिक घटना मिशेल एट अल। के मूल कागज में प्रस्तुत चुनें। आप Pechenick एट अल में प्रस्तुत सीमाओं की रोशनी में उनकी व्याख्या से सहमत हैं।? अपने तर्क को मजबूत बनाने के लिए, एक ही ग्राफ ऊपर के रूप में सेट डेटा के विभिन्न संस्करणों का उपयोग दोहराने की कोशिश करो।
  8. [ बहुत मुश्किल , डेटा संग्रहण , कोडिंग , मेरे पसंदीदा ] Penney (2016) की पड़ताल करें कि क्या जून 2013 में राष्ट्रीय सुरक्षा सलाहकार / चश्मे निगरानी (यानी, स्नोडेन के खुलासे) के बारे में व्यापक प्रचार एक तेज और अचानक विषय है कि गोपनीयता चिंताओं को बढ़ा पर विकिपीडिया लेख के लिए यातायात में कमी के साथ जुड़ा हुआ है। यदि हां, तो व्यवहार में इस बदलाव के लिए बड़े पैमाने पर निगरानी से उत्पन्न एक हल्का प्रभाव के साथ संगत होगा। के दृष्टिकोण Penney (2016) कभी कभी एक बाधित समय श्रृंखला डिजाइन कहा जाता है और अवलोकन डेटा (धारा 2.4.3) से प्रयोगों का अनुमान करने के बारे में अध्याय में दृष्टिकोण से संबंधित है।

    विषय कीवर्ड्स का चुनाव करने के लिए, पेनी पर नज़र रखने और सोशल मीडिया की निगरानी के लिए अमेरिका के होमलैंड सुरक्षा विभाग द्वारा इस्तेमाल के लिए सूची के लिए भेजा। डीएचएस सूची मुद्दों, यानी "स्वास्थ्य चिंता का विषय," "इन्फ्रास्ट्रक्चर सुरक्षा," और "आतंकवाद। की एक श्रेणी में कुछ खोज शब्दों categorizes आतंकवाद" (8 तालिका देखने के लिए "अध्ययन समूह के लिए, पेनी अड़तालीस खोजशब्दों से संबंधित करने के लिए इस्तेमाल किया" अनुबंध)। वह तो एक बत्तीस महीने की अवधि में इसी अड़तालीस विकिपीडिया लेख के लिए एक मासिक आधार पर विकिपीडिया लेख देखे जाने की संख्या एकत्रित अगस्त 2014 के अंत करने के लिए जनवरी 2012 की शुरुआत से अपने तर्क को मजबूत करने के लिए, वह भी कई तुलना बनाया अन्य विषयों पर लेख विचारों पर नज़र रखने से समूहों।

    अब, आप को दोहराने और विस्तार करने के लिए जा रहे हैं Penney (2016) । सभी कच्चे डेटा है कि आप इस गतिविधि के लिए की आवश्यकता होगी विकिपीडिया (https://dumps.wikimedia.org/other/pagecounts-raw/) से उपलब्ध है। या आप इसे आर पैकेज wikipediatrend से प्राप्त कर सकते हैं (Meissner and Team 2016) । जब आप लिखते हैं-अप अपनी प्रतिक्रियाओं, कृपया ध्यान दें जो डेटा स्रोत आप का इस्तेमाल किया। (नोट: यह एक ही गतिविधि भी अध्याय 6 में दिखाई देता है)

    1. पढ़ें Penney (2016) और चित्रा 2 जो "आतंकवाद" संबंधी से पहले पृष्ठों के लिए और स्नोडेन रहस्योद्घाटन के बाद पृष्ठ विचारों से पता चलता दोहराने। निष्कर्षों की व्याख्या।
    2. अगले, अंजीर -4 ए, जो सरकारी विभाग के सूची से "सरकारी विभाग और अन्य एजेंसियों" के अंतर्गत वर्गीकृत खोजशब्दों का प्रयोग एक तुलनित्र समूह के साथ अध्ययन समूह ( "आतंकवाद" संबंधी लेख) तुलना दोहराने (देखें परिशिष्ट टेबल 10)। निष्कर्षों की व्याख्या।
    3. पार्ट बी में) आप एक तुलनित्र समूह के अध्ययन समूह की तुलना में। "इन्फ्रास्ट्रक्चर सुरक्षा" से संबंधित लेख (परिशिष्ट टेबल 11) और लोकप्रिय विकिपीडिया पृष्ठों (परिशिष्ट टेबल 12): पेनी भी दो अन्य तुलनित्र समूहों की तुलना में। एक विकल्प के तुलनित्र समूह के साथ आओ, और परीक्षण करता है, तो भाग ख से निष्कर्ष) तुलनित्र समूह की अपनी पसंद के प्रति संवेदनशील है। तुलनित्र समूह का कौन सा विकल्प सबसे अधिक उपयुक्त है? क्यूं कर?
    4. लेखक ने कहा कि "आतंकवाद" से संबंधित खोजशब्दों विकिपीडिया लेख का चयन करने के लिए है, क्योंकि अमेरिकी सरकार अपने ऑनलाइन निगरानी प्रथाओं के लिए एक महत्वपूर्ण औचित्य के रूप में आतंकवाद का हवाला दिया इस्तेमाल किया गया। इन 48 "आतंकवाद" से संबंधित खोजशब्दों का एक चेक के रूप में, Penney (2016) भी उत्तरदाताओं पूछ सरकार मुसीबत, गोपनीयता के प्रति संवेदनशील, और बचाव के मामले में खोजशब्दों के प्रत्येक दर करने के लिए Mturk पर एक सर्वेक्षण किया (परिशिष्ट टेबल 7 और 8)। Mturk पर सर्वेक्षण दोहराने के लिए और अपने परिणामों की तुलना करें।
    5. ) भाग डी में परिणाम और लेख के अपने पढ़ने के आधार पर, आप अध्ययन समूह में विषय खोजशब्दों के लेखक की पसंद के साथ सहमत हैं? क्यों या क्यों नहीं? यदि नहीं, तो क्या आप के बजाय सुझाव है?
  9. [ आसान ] Efrati (2016) रिपोर्ट, गोपनीय जानकारी के आधार पर, कि "कुल साझा" फेसबुक पर एक साल से अधिक के बारे में 5.5% वर्ष से मना कर दिया था, जबकि "मूल प्रसारण साझा" नीचे वर्ष की तुलना में 21% वर्ष था। यह गिरावट उम्र के 30 वर्ष से कम फेसबुक उपयोगकर्ताओं के साथ विशेष रूप से गंभीर था। रिपोर्ट दो कारकों की गिरावट को जिम्मेदार ठहराया। एक "दोस्त" लोग फेसबुक पर की संख्या में वृद्धि है। दूसरे यह है कि कुछ साझा गतिविधि संदेश भेजने के लिए और इस तरह SnapChat के रूप में प्रतियोगियों के लिए स्थानांतरित कर दिया गया है। रिपोर्ट में यह भी कई रणनीति फेसबुक साझा बढ़ावा देने की कोशिश की थी, समाचार फ़ीड एल्गोरिथ्म तोड़ मरोड़ कि मूल पदों अधिक प्रमुख बनाने के लिए, साथ ही मूल पदों उन कई साल पहले "इस दिन पर" की आवधिक अनुस्मारक सहित का पता चला। क्या निहितार्थ, यदि कोई हो, इन निष्कर्षों शोधकर्ताओं ने एक डेटा स्रोत के रूप में फेसबुक का उपयोग करना चाहते हैं के लिए है?

  10. [ मध्यम ] Tumasjan et al. (2010) सूचना एक राजनीतिक पार्टी का उल्लेख ट्वीट के उस अनुपात वोट कि पार्टी 2009 में जर्मन संसदीय चुनाव में प्राप्त (चित्रा 2.9) के अनुपात में मेल नहीं खाते। दूसरे शब्दों में, यह है कि आप चुनाव भविष्यवाणी करने के लिए ट्विटर का इस्तेमाल कर सकते दिखाई दिया। समय इस अध्ययन प्रकाशित किया गया था पर यह बेहद रोमांचक माना जाता था क्योंकि यह बड़ा डेटा का एक आम स्रोत के लिए एक मूल्यवान उपयोग का सुझाव करने के लिए लग रहा था।

    बड़ा डेटा का बुरा सुविधाओं को देखते हुए, हालांकि, आप तुरंत इस परिणाम की उलझन में होना चाहिए। 2009 में ट्विटर पर जर्मनी के काफी एक गैर प्रतिनिधि समूह थे, और एक पार्टी के समर्थकों राजनीति के बारे में अधिक से अधिक बार कलरव हो सकता है। इस प्रकार, यह आश्चर्य की बात है कि लगता है सभी संभव पूर्वाग्रहों कि आप कल्पना कर सकते हैं किसी भी तरह बाहर रद्द होगा। वास्तव में, में परिणाम Tumasjan et al. (2010) निकला भी अच्छा होने के लिए सच हो सकता है। अपने पत्र में, Tumasjan et al. (2010) क्रिश्चियन डेमोक्रेट (सीडीयू), ईसाई सोशल डेमोक्रेट (CSU), एसपीडी, उदारवादी (एफडीपी), वाम (मरो Linke) और ग्रीन पार्टी (Grüne): छह राजनीतिक दलों पर विचार किया। हालांकि, उस समय ट्विटर पर सबसे उल्लेख जर्मन राजनीतिक दल समुद्री डाकू पार्टी (Piraten), एक पार्टी लड़ता है कि इंटरनेट की सरकार विनियमन था। जब समुद्री डाकू पार्टी विश्लेषण में शामिल किया गया था, ट्विटर उल्लेख चुनाव परिणाम (चित्रा 2.9) के एक भयानक कारक बन जाता है (Jungherr, Jürgens, and Schoen 2012)

    चित्रा 2.9: ट्विटर का उल्लेख 2009 जर्मन चुनाव के परिणाम की भविष्यवाणी करने के लिए दिखाई देते हैं (Tumasjan एट अल 2010।), लेकिन इस परिणाम को पता चला है कि कुछ मनमाना और अनुचित विकल्प (Jungherr, Jürgens, और Schoen 2012) पर निर्भर करती है।

    चित्रा 2.9: ट्विटर का उल्लेख 2009 जर्मन चुनाव के परिणाम की भविष्यवाणी करने के लिए दिखाई देते हैं (Tumasjan et al. 2010) , लेकिन इस परिणाम को पता चला है कि कुछ मनमाना और अनुचित विकल्पों पर निर्भर करने के लिए (Jungherr, Jürgens, and Schoen 2012)

    इसके बाद दुनिया भर के अन्य शोधकर्ताओं का इस्तेमाल किया है शौक़ीन तरीकों-ऐसी भावना विश्लेषण का उपयोग कर सकारात्मक और नकारात्मक के बीच भेद करने के रूप में चुनाव के विभिन्न प्रकार की एक किस्म की भविष्यवाणी करने के लिए ट्विटर डेटा की क्षमता में सुधार करने के क्रम में पार्टियों का उल्लेख है (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) । यहाँ है कैसे Huberty (2015) में संक्षेप चुनावों की भविष्यवाणी करने के इन प्रयासों के परिणाम:

    "सभी ज्ञात भविष्यवाणी सोशल मीडिया पर आधारित विधियों जब सच दूरंदेशी चुनावी भविष्यवाणी की मांग के अधीन विफल रहे हैं। इन असफलताओं सोशल मीडिया के मौलिक गुण, बल्कि पद्धति या एल्गोरिथम कठिनाइयों के लिए की तुलना की वजह से हो दिखाई देते हैं। संक्षेप में, सोशल मीडिया नहीं करते हैं, और शायद कभी नहीं, एक स्थिर, निष्पक्ष, प्रतिनिधि मतदाताओं की तस्वीर की पेशकश करेगा; और सामाजिक मीडिया की सुविधा के नमूने इन समस्याओं पोस्ट अस्थायी ठीक करने के लिए पर्याप्त डेटा की कमी है। "

    अनुसंधान कि नेतृत्व के कुछ पढ़ा Huberty (2015) उस निष्कर्ष पर, और का वर्णन करता है, तो कैसे और ट्विटर चुनावों की भविष्यवाणी करने के लिए इस्तेमाल किया जाना चाहिए एक राजनीतिक उम्मीदवार के लिए एक पृष्ठ ज्ञापन लिखें।

  11. [ मध्यम ] एक समाजशास्त्री और एक इतिहासकार के बीच क्या अंतर है? Goldthorpe के अनुसार (1991) , एक समाजशास्त्री और एक इतिहासकार के बीच मुख्य अंतर डेटा संग्रह पर नियंत्रण है। इतिहासकारों अवशेष का उपयोग करने के समाजशास्त्रियों विशिष्ट प्रयोजनों के लिए अपने डेटा संग्रह दर्जी कर सकते हैं, जबकि मजबूर हैं। पढ़ें Goldthorpe (1991) । कैसे Custommades और रेडीमेड्स के विचार से संबंधित समाजशास्त्र और इतिहास के बीच अंतर है?

  12. [ कठिन ] पिछले प्रश्न पर बिल्डिंग, Goldthorpe (1991) निकी हार्ट से एक सहित महत्वपूर्ण प्रतिक्रियाओं की एक संख्या है, आकर्षित किया (1994) कि Goldthorpe की भक्ति को चुनौती दी बनाया डेटा से तैयार करने की। दर्जी डेटा के संभावित सीमाओं को स्पष्ट करने के लिए, हार्ट संपन्न कार्यकर्ता परियोजना, सामाजिक वर्ग और मतदान के बीच रिश्ता है कि 1960 दशक के मध्य में Goldthorpe और उनके सहयोगियों द्वारा आयोजित किया गया मापने के लिए एक बड़े सर्वेक्षण में वर्णित है। एक एक विद्वान जो डिजाइन किए पाया डेटा पर डेटा इष्ट से उम्मीद कर सकते हैं, समृद्ध कार्यकर्ता परियोजना डेटा है कि जीवन स्तर में वृद्धि के युग में सामाजिक वर्ग के भविष्य के बारे में हाल ही में प्रस्तावित सिद्धांत को संबोधित करने के लिए सिलवाया था एकत्र। लेकिन, Goldthorpe और उनके सहयोगियों को किसी भी तरह से महिलाओं के मतदान के व्यवहार के बारे में जानकारी इकट्ठा करने के लिए "भूल"। यहाँ कैसे निकी हार्ट (1994) पूरे प्रकरण सारांश:

    "। । । यह निष्कर्ष है कि महिलाओं क्योंकि इस 'दर्जी' डाटासेट एक paradigmatic तर्क जो महिला के अनुभव को बाहर रखा द्वारा ही सीमित था छोड़े गए थे बचने के लिए मुश्किल [है]। वर्ग चेतना और पुरुष व्यस्तताओं के रूप में कार्रवाई का एक सैद्धांतिक दृष्टि से प्रेरित है। । । , Goldthorpe और उनके सहयोगियों ने अनुभवजन्य सबूत जो तंग आ चुके हैं और उन्हें पर्याप्तता का एक मान्य परीक्षण करने के लिए प्रकाश में लाने के बजाय अपने खुद के सैद्धांतिक मान्यताओं पाला का एक सेट का निर्माण किया। "

    हार्ट जारी रखा:

    "संपन्न कार्यकर्ता परियोजना के अनुभवजन्य निष्कर्ष हमें सदी के मध्य समाजशास्त्र के masculinist मूल्यों के बारे में अधिक बताने से वे स्तरीकरण, राजनीति और भौतिक जीवन की प्रक्रियाओं को सूचित करें।"

    आप अन्य उदाहरण हैं जहां दर्जी डेटा संग्रह में इसे बनाया डेटा कलेक्टर के पूर्वाग्रहों है के बारे में सोच सकते हैं? यह कैसे एल्गोरिथम confounding की तुलना करता है? क्या निहितार्थ यह है कि जब शोधकर्ताओं रेडीमेड्स का उपयोग करना चाहिए के लिए हो सकता है और जब वे Custommades उपयोग करना चाहिए?

  13. [ मध्यम ] इस अध्याय में, मैं कंपनियों और सरकारों द्वारा बनाई गई प्रशासनिक रिकॉर्ड के साथ शोधकर्ताओं के लिए शोधकर्ताओं द्वारा एकत्र आंकड़ों विषम। कुछ लोगों को फोन इन प्रशासनिक रिकॉर्ड है जो वे के साथ इसके विपरीत "डेटा, मिला" "डिज़ाइन किया गया डेटा।" यह सच है कि प्रशासनिक रिकॉर्ड शोधकर्ताओं द्वारा पाए जाते हैं, लेकिन वे भी अत्यधिक तैयार कर रहे हैं। उदाहरण के लिए, आधुनिक तकनीक कंपनियों को इकट्ठा करने और अपने डेटा उपपादरी के लिए और संसाधनों की भारी मात्रा में समय खर्च करते हैं। इस प्रकार, इन प्रशासनिक रिकॉर्ड दोनों पाया जाता है और तैयार कर रहे हैं, यह सिर्फ अपने दृष्टिकोण (चित्रा 2.10) पर निर्भर करता है।

    चित्रा 2.10: चित्र दोनों एक बतख और एक खरगोश है; क्या आप देख आपके दृष्टिकोण पर निर्भर करता है। सरकार और व्यापार प्रशासनिक रिकॉर्ड दोनों पाया जाता है और तैयार कर रहे हैं; क्या आप देख आपके दृष्टिकोण पर निर्भर करता है। उदाहरण के लिए, एक सेल फोन कंपनी द्वारा एकत्र की कॉल डेटा रिकॉर्ड एक शोधकर्ता के नजरिए से डेटा पाए जाते हैं। लेकिन, इन सटीक एक ही रिकॉर्ड किसी को फोन कंपनी की बिलिंग विभाग में काम करने का डेटा परिप्रेक्ष्य डिजाइन किए हैं। स्रोत: विकिपीडिया

    चित्रा 2.10: चित्र दोनों एक बतख और एक खरगोश है; क्या आप देख आपके दृष्टिकोण पर निर्भर करता है। सरकार और व्यापार प्रशासनिक रिकॉर्ड दोनों पाया जाता है और तैयार कर रहे हैं; क्या आप देख आपके दृष्टिकोण पर निर्भर करता है। उदाहरण के लिए, एक सेल फोन कंपनी द्वारा एकत्र की कॉल डेटा रिकॉर्ड एक शोधकर्ता के नजरिए से डेटा पाए जाते हैं। लेकिन, इन सटीक एक ही रिकॉर्ड किसी को फोन कंपनी की बिलिंग विभाग में काम करने का डेटा परिप्रेक्ष्य डिजाइन किए हैं। स्रोत: विकिपीडिया

    जहां यह देखकर जब अनुसंधान के लिए डेटा स्रोत का उपयोग दोनों के रूप में पाया और डिजाइन सहायक है डेटा स्रोत का एक उदाहरण प्रदान करें।

  14. [ आसान ] एक विचारशील निबंध में, ईसाई Sandvig और Eszter Hargittai (2015) डिजिटल अनुसंधान, जहां डिजिटल प्रणाली "साधन" या के दो प्रकार के अध्ययन के पहले तरह का एक उदाहरण का वर्णन "अध्ययन की वस्तु है।" जहां Bengtsson और उनके सहयोगियों (2011) 2010 में हैती में आए भूकंप के बाद पलायन ट्रैक करने के लिए मोबाइल फोन के डेटा का इस्तेमाल किया दूसरी तरह का एक उदाहरण है, जहां जेन्सेन (2007) के अध्ययन कैसे केरल भर में मोबाइल फोन की शुरूआत भारत के लिए मछली बाजार के कामकाज पर असर पड़ा। क्योंकि यह स्पष्ट किया डिजिटल डेटा स्रोतों का उपयोग अध्ययन काफी अलग लक्ष्यों को भले ही वे डेटा स्रोत का एक ही तरह के प्रयोग कर रहे हैं हो सकता है कि मैं इस उपयोगी पाते हैं। दो कि एक साधन के रूप में एक डिजिटल प्रणाली का उपयोग करें और दो कि अध्ययन के एक वस्तु के रूप में एक डिजिटल प्रणाली का उपयोग करें: आदेश में आगे इस तरह के अंतर को स्पष्ट करने के लिए, चार अध्ययन है कि आप देखा है का वर्णन है। आप इस अध्याय से उदाहरण का उपयोग करें यदि आप चाहते हैं।