பெரிய தரவு மூலங்கள் குப்பை மற்றும் ஸ்பேம் ஏற்ற முடியும்.
சில ஆராய்ச்சியாளர்கள் தானாக சேகரிக்கப்பட்ட ஏனெனில் பெரிய தரவு மூலங்கள், குறிப்பாக ஆன்லைன் ஆதாரங்களில் இருந்து அந்த அழகிய இருக்கும் என்று நம்புகிறேன். உண்மையில், பெரிய தரவு மூலங்கள் பணிபுரிந்த மக்கள் அவர்கள் அடிக்கடி அழுக்கு என்று எனக்கு தெரியும். என்று அவர்கள் அடிக்கடி ஆராய்ச்சியாளர்கள் வட்டி உண்மையான நடவடிக்கைகளை பிரதிபலிக்கும் என்று தரவு சேர்க்க, உள்ளது. பல சமூக விஞ்ஞானிகள் ஏற்கனவே பெரிய அளவிலான சமூக ஆய்வு தரவு சுத்தம், ஆனால் பெரிய தரவு மூலங்கள் சுத்தம் இரண்டு காரணங்களுக்காக கடினமாக தெரிந்திருந்தால்: 1) அவர்கள் ஆராய்ச்சியாளர்கள் ஆராய்ச்சியாளர்கள் மற்றும் 2) ஆராய்ச்சியாளர்கள் படைக்கப்படவில்லை பொதுவாக எப்படி குறைவாக புரிதல் வேண்டும் அவர்கள் உருவாக்கிய.
அழுக்கு டிஜிட்டல் சுவடு தரவு ஆபத்துக்களை மீண்டும் மற்றும் சக 'மூலம் தெளிவாகக் காட்டப்படுகிறது (2010) 2001 ஆராய்ச்சியாளர்கள் பொதுவாக மாதங்கள் அல்லது ஆண்டுகள் கூட சேகரித்து பின்னோக்கிய தரவு பயன்படுத்தி துன்பியல் நிகழ்வுகளுக்கு பதில் படிக்க செப்டம்பர் 11, தாக்குதல்களுக்கு உணர்ச்சி பதில் ஆய்வு. ஆனால், மீண்டும் மற்றும் சக 85,000 அமெரிக்க இருந்து ஒரு எப்போதும் டிஜிட்டல் தடயங்கள்-timestamped ஆதாரமாக, தானாக பதிவு செய்திகள் எதுவும் பேஜர்களில்-இந்த ஒரு மிக நுண்ணிய அளவோடு மீது உணர்ச்சி பதில் படிக்க ஆராய்ச்சியாளர்கள் செயல்படுத்தப்படும். மீண்டும் மற்றும் சக (1) சோகம் தொடர்பான வார்த்தைகள் சதவீதம் மூலம் பேஜர் செய்திகளை உணர்ச்சி உள்ளடக்கம் குறியீட்டு மூலம் செப்டம்பர் 11 ஒரு நிமிடம் மூலம் நிமிட உணர்ச்சி காலவரிசை உருவாக்கப்பட்ட (எ.கா., அழுது, துக்கம்), (2) கவலை (எ.கா., கவலை, பயத்துடன்), மற்றும் (3) கோபம் (எ.கா., வெறுப்பு, விமர்சன). அவர்கள் துக்கம் மற்றும் பதட்டம் வலிமையான வடிவம் இல்லாமல் நாள் முழுவதும் ஏற்ற இறக்கம் என்று கண்டறியப்பட்டது, ஆனால் நாள் முழுவதும் கோபம் ஒரு வேலைநிறுத்தம் அதிகமாக இருந்தன என்று. அது ஒரு எதிர்பாராத நிகழ்வு உடனடி பதில் போன்ற ஒரு உயர் தீர்மானம் கால வேண்டும் சாத்தியமில்லை நிலையான முறைகளை பயன்படுத்தி: இந்த ஆராய்ச்சி எப்போதும் தரவு மூலங்கள் அதிகாரத்தை ஒரு அற்புதமான உவமை தெரிகிறது.
ஓராண்டிற்கு பின்னர், இருப்பினும், சிந்தியா Pury (2011) தரவு மேலும் கவனமாக பார்த்து. அவள் கூறப்படும் கோபம் செய்திகளை பெரிய அளவில் ஒரு பேஜர் தோற்றுவிக்கப்பட்ட அவர்கள் அனைத்து ஒத்த என்று கண்டுபிடிக்கப்பட்டது. இங்கே அந்த கூறப்படும் கோபம் செய்திகளை கூறினார்:
"மீண்டும் துவக்கவும் டி இயந்திரம் [பெயர்] அமைச்சரவை [] இல் [இடம்] உள்ள CRITICAL: [தேதி மற்றும் நேரம்]"
அவர்கள் பொதுவாக கோபம் குறிப்பிடுகின்றன ஆனால் இந்த வழக்கில் இல்லை இருக்கலாம் வார்த்தை "முக்கிய", சேர்க்கப்படவில்லை ஏனெனில் இந்த செய்திகளை கோபம் பெயரிடப்பட்ட. செய்திகளை இந்த ஒற்றை தானியங்கி பேஜர் உருவாக்கப்படும் நீக்குதல் முற்றிலும் நாள் (படம் 2.2) காலப்போக்கில் கோபம் வெளிப்படையாக அதிகரிப்பு நீக்குகிறது. வேறு வார்த்தைகளில் கூறுவதானால், முக்கிய விளைவாக Back, Küfner, and Egloff (2010) ஒரு பேஜர் ஒரு செயற்கை பொருளாக இருந்தது. இந்த உதாரணம் காட்டுகிறபடி, சிக்கலான மற்றும் நையாண்டி தரவு ஒப்பீட்டளவில் எளிமையான ஆய்வு தீவிரமாக தவறாக போக சாத்தியம் உள்ளது.
ஒரு நியாயமான கவனமாக ஆராய்ச்சியாளர் ஒரு சத்தம் இருந்து தற்செயலாக-அத்தகைய உருவாக்கப்பட்ட உள்ளது என்று கெட்ட தரவு பேஜர்-முடியும் கண்டறிய வேண்டும் என்றாலும், வேண்டுமென்றே வேண்டாதவர்களுக்கு ஈர்க்கும் என்று சில ஆன்லைன் அமைப்புகள் உள்ளன. இந்த வேண்டாதவர்களுக்கு தீவிரமாக போலி தரவு உருவாக்க, மற்றும்-பெரும்பாலும் தங்கள் தேவையற்றது மறைத்து மிகவும் கடினமாக இலாப-வேலை உந்துதல். உதாரணமாக, ட்விட்டர் அரசியல் நடவடிக்கைகளை இதற்காக சில அரசியல் காரணங்கள் வேண்டுமென்றே அவர்கள் உண்மையான விட பிரபலமான பார்க்க செய்யப்படுகின்றன குறைந்தது சில நியாயமான அதிநவீன ஸ்பேம், சேர்க்கப்பட்டுள்ளார்கள் (Ratkiewicz et al. 2011) . வேண்டுமென்றே ஸ்பேம் கொண்டிருக்கலாம் என்று தரவு வேலை ஆராய்ச்சியாளர்கள் அவர்கள் கண்டறியப்பட்டது மற்றும் தொடர்புடைய ஸ்பேம் நீக்கியுள்ளோம் என்று தங்கள் பார்வையாளர்களை நம்பச்செய்யும் சவாலை எதிர்கொள்ள.
இறுதியாக, கருதப்படுகிறது என்ன கெட்ட தரவு உங்கள் ஆராய்ச்சி கேள்விகளுக்கு நுட்பமான வழிகளில் பொறுத்து கொள்ளலாம். உதாரணமாக, விக்கிபீடியா பல திருத்தங்களை தானியங்கி போட்களை செய்தது (Geiger 2014) . நீங்கள் விக்கிப்பீடியா சூழலியல் ஆர்வமாக இருந்தால், பின்னர் இந்த போட்களை முக்கியம். ஆனால், நீங்கள் மனிதர்கள் விக்கிப்பீடியா பங்களிப்பு எப்படி ஆர்வம் இருந்தால், இந்த போட்களை மூலம் இந்த திருத்தங்களை விலகி இருக்க வேண்டும்.
கெட்ட தரவு தரவு போன்று எளிய சிதறல் செய்து, எளிய ஆராய்வதற்கான பகுப்பாய்வு செய்ய படைக்கப்பட்டன எப்படி விளங்கிக் கொள்வது முட்டாளாக இருப்பது தவிர்க்க சிறந்த வழிகளில்.