2.3.2.3 गैर-प्रतिनिधि

गैर-representativeness दुई स्रोतहरू विभिन्न आबादी र विभिन्न उपयोग ढाँचाहरू छन्।

ठूलो डाटा प्रणालीबद्ध दुई मुख्य तरिकामा biased हुन गर्छन। यो विश्लेषण सबै प्रकारको लागि समस्या पैदा पर्दैन, तर केही विश्लेषण लागि यो एक महत्वपूर्ण दोष हुन सक्छ।

व्यवस्थित पूर्वाग्रह को पहिलो स्रोत कब्जा मानिसहरूलाई सामान्यतया सबै मान्छे को न पूर्ण ब्रह्माण्डको वा कुनै पनि विशिष्ट जनसंख्या देखि अनियमित नमूना हो भन्ने छ। उदाहरणका लागि, ट्विटर मा अमेरिकी अमेरिका को एक अनियमित नमुना छैनन् (Hargittai 2015) । व्यवस्थित पूर्वाग्रह को दोस्रो स्रोत धेरै ठूलो डाटा प्रणाली कार्यहरू कब्जा छ, र केही मान्छे अरूलाई भन्दा धेरै कार्यहरू योगदान। उदाहरणका लागि, ट्विटर मा केही मानिसहरू अरूलाई भन्दा पटक थप ट्वीट सयौं योगदान। तसर्थ, कुनै खास मंच मा घटनाहरू मंच नै भन्दा केही उपसमूहहरु अझ भारी चिन्तनशील हुन सक्छ।

सामान्यतया अनुसन्धानकर्ताहरूले तिनीहरूले भन्ने डाटा बारेमा धेरै जान्न चाहन्छु। तर, ठूलो डाटा को गैर-प्रतिनिधि प्रकृति दिइएको, यो उपयोगी पनि आफ्नो सोचाइ पल्टाउन छ। तपाईं छैन भनेर डाटा बारेमा धेरै जान्नु आवश्यक छ। तपाईं छैन भनेर डाटा तपाईं भनेर डाटा देखि प्रणालीबद्ध अलग हुँदा यो विशेष गरी साँचो हो। उदाहरणका लागि, तपाईं एक विकासशील देशहरुमा मोबाइल फोन कम्पनी बाट कल रेकर्ड छ भने, तपाईंले आफ्नो डेटासेटमा मानिसहरूले, तर पनि मोबाइल फोन स्वामित्व निकै खराब हुन सक्छ जो मानिसहरूले केवल विचार गर्नुपर्छ। यसबाहेक, अध्याय 3 मा, हामी बारे भार गैर-प्रतिनिधि डाटा देखि राम्रो अनुमान गर्न अनुसन्धानकर्ताहरूले कसरी सक्षम पार्न सक्छ सिक्न छौँ।