பெரிய தரவு மூலங்கள் குப்பை மற்றும் ஸ்பேம் ஏற்ற முடியும்.
சில ஆராய்ச்சியாளர்கள் பெரிய தரவு ஆதாரங்கள், குறிப்பாக ஆன்லைன் ஆதாரங்கள், அவர்கள் தானாகவே சேகரிக்கப்படுவதால் பிரசித்தி பெற்றவை என்று நம்புகின்றனர். உண்மையில், பெரிய தரவு ஆதாரங்களுடன் பணிபுரிந்தவர்கள் அவர்கள் அடிக்கடி அழுக்காக இருப்பதை அறிவார்கள். அதாவது, ஆராய்ச்சியாளர்களுக்கான ஆர்வத்தின் உண்மையான செயல்களைப் பிரதிபலிக்காத தரவுகளை அவை அடிக்கடி உள்ளடக்குகின்றன. பெரும்பாலான சமூக அறிவியலாளர்கள் ஏற்கனவே பெரிய அளவிலான சமூக கணக்கெடுப்புத் தரவுகளை சுத்தம் செய்வதற்கான செயல்முறைகளை நன்கு அறிந்திருக்கிறார்கள், ஆனால் பெரிய தரவு ஆதாரங்களை தூய்மைப்படுத்துவது கடினமாக உள்ளது. இந்த சிரமத்தின் இறுதி ஆதாரமானது இந்த பெரிய தரவு ஆதாரங்களில் பல ஆராய்ச்சிக்காக பயன்படுத்தப்படவேயில்லை என்பதால், அவை சேகரிக்கப்பட்டு, சேமித்து வைக்கப்படவில்லை, தரவு துப்புரவு வசதிகளை எளிதாக்கும் வகையில் ஆவணப்படுத்தப்பட்டுள்ளன.
செப்டம்பர் 11, 2001 தாக்குதல்களுக்கு உணர்ச்சி ரீதியான பதிலைக் குறித்து பேக் மற்றும் சகோ (2010) ஆய்வு மூலம் அழுக்கான டிஜிட்டல் தரவின் தரவு ஆபத்துகள் விவரிக்கப்பட்டுள்ளன. மாதங்களில் அல்லது வருடங்களில் சேகரிக்கப்பட்ட பின்னோக்குத் தரவுகளைப் பயன்படுத்தி சோக நிகழ்வுகள் குறித்து ஆராய்ச்சியாளர்கள் பொதுவாக ஆய்வு செய்கின்றனர். ஆனால் 85,000 அமெரிக்க பேஜர்களிடமிருந்து டைம்ஸ்டாம்ப்ட், தானாக பதிவு செய்யப்பட்ட செய்திகளை டிஜிட்டல் தடயங்களின் ஆதாரமாகக் கண்டுபிடித்து, மீண்டும் மற்றும் சக ஊழியர்கள் கண்டுபிடித்தனர், மேலும் இது அவர்களுக்கு மிகச் சிறந்த நேரத்தின் மீது உணர்ச்சி ரீதியான பதிலைப் படிக்க உதவியது. (1) சோகம் (எ.கா., "அழுவதை" மற்றும் "துக்கம்"), (2) கவலை (2) கவலைகள் (2) எ.கா., "கவலை" மற்றும் "பயம்"), மற்றும் (3) கோபம் (எ.கா., "வெறுப்பு" மற்றும் "விமர்சன"). சோகம் மற்றும் பதட்டம் ஒரு வலுவான முறை இல்லாமல் நாள் முழுவதும் ஏற்ற இறக்கத்தைக் கண்டது, ஆனால் நாள் முழுவதிலும் கோபத்தில் ஒரு வியத்தகு அதிகரிப்பு இருந்தது. இந்த ஆராய்ச்சி தரவுகளின் ஆதாரங்களில் எப்பொழுதும் சக்தி வாய்ந்த ஒரு அற்புதமான எடுத்துக்காட்டு ஆகும்: பாரம்பரிய தரவு மூலங்கள் பயன்படுத்தப்பட்டிருந்தால், இது எதிர்பாராத நிகழ்விற்கு உடனடி பதிலுக்கான உயர் தீர்மானம் நேரத்தை பெற முடியாததாக இருந்திருக்கும்.
ஒரு வருடம் கழித்து, சிந்தியா ப்யூரி (2011) தரவு மிகவும் கவனமாகப் பார்த்தது. ஏராளமான கூறப்படும் கோபமான செய்திகளை ஒரே பேஜரால் உருவாக்கப்பட்டு, அவர்கள் அனைவரும் ஒத்ததாக இருந்ததைக் கண்டறிந்தார். இங்கே கூறப்படும் கோபமான செய்திகளைக் கூறியது என்னவென்றால்:
"மீண்டும் துவக்கவும் டி இயந்திரம் [பெயர்] அமைச்சரவை [] இல் [இடம்] உள்ள CRITICAL: [தேதி மற்றும் நேரம்]"
இந்த செய்திகளை கோபமாக பெயரிடப்பட்டதால், அவை "கடுமையானவை" என்ற வார்த்தையை உள்ளடக்கியிருந்தன, இது பொதுவாக கோபத்தை குறிக்கும், ஆனால் இந்த விஷயத்தில் இல்லை. இந்த ஒற்றை தானியங்கு பேஜரால் உருவாக்கப்பட்ட செய்திகளை அகற்றுதல், நாள் முழுவதும் கோபத்தின் வெளிப்பாடு அதிகரிக்கிறது (எண்ணிக்கை 2.4). வேறு வார்த்தைகளில் சொன்னால், Back, Küfner, and Egloff (2010) ஆகியவற்றின் முக்கிய முடிவு ஒரு Back, Küfner, and Egloff (2010) கலைப்படைப்பாக இருந்தது. இந்த உதாரணம் விவரிக்கையில், ஒப்பீட்டளவில் சிக்கலான மற்றும் குழப்பமான தரவு ஒப்பீட்டளவில் எளிமையான பகுப்பாய்வு தீவிரமாக தவறான சாத்தியம் உள்ளது.
வேண்டுமென்றே கவனிக்காத ஆராய்ச்சியாளரால் கண்டுபிடிக்க முடியாத ஒரு சத்தமில்லாத பேஜரில் இருந்து விரும்பாத தீங்கான தரவு உருவாக்கப்பட்டாலும், வேண்டுமென்றே ஸ்பேமர்களை கவர்ந்திழுக்கும் சில ஆன்லைன் அமைப்புகள் உள்ளன. இந்த ஸ்பேமர்கள் துல்லியமான தரவுகளைத் தீவிரமாக உருவாக்கி, தங்கள் ஸ்பேமை மறைத்து வைப்பதற்காக இலாப நோக்கற்ற வேலைகளால் உந்தப்பட்டனர். உதாரணமாக, ட்விட்டரில் அரசியல் நடவடிக்கை குறைந்தபட்சம் சில நியாயமான அதிநவீன ஸ்பேம்களைக் கொண்டிருப்பதாகத் தோன்றுகிறது, இதன்மூலம் சில அரசியல் காரணங்கள் வேண்டுமென்றே மிகவும் பிரபலமானவை என்பதைக் காட்டிலும் மிகவும் பிரபலமானவை. (Ratkiewicz et al. 2011) . துரதிருஷ்டவசமாக, இந்த வேண்டுமென்றே ஸ்பேமை அகற்றுவது மிகவும் கடினம்.
நிச்சயமாக அழுக்கு தரவு கருதப்படுகிறது பகுதியாக, ஆய்வு கேள்வி சார்ந்தது. உதாரணமாக, விக்கிப்பீடியாவில் பல திருத்தங்கள் தானியங்கு போட்களால் உருவாக்கப்பட்டது (Geiger 2014) . நீங்கள் விக்கிபீடியாவின் சுற்றுச்சூழலில் ஆர்வம் கொண்டிருந்தால், இந்த போட்-உருவாக்கிய திருத்தங்கள் முக்கியம். ஆனால் மனிதர்கள் எவ்வாறு விக்கிபீடியாக்கு பங்களிப்பு செய்தாலும், போட்-உருவாக்கிய திருத்தங்கள் விலக்கப்பட வேண்டும்.
ஒற்றை புள்ளிவிவர நுட்பம் அல்லது அணுகுமுறை நீங்கள் உங்கள் அழுக்கு தரவை போதிய அளவு சுத்தம் செய்திருப்பதை உறுதி செய்ய முடியும். இறுதியில், மோசமான தரவு மூலம் முட்டாளாக தவிர்க்க சிறந்த வழி உங்கள் தரவு உருவாக்கப்பட்ட எப்படி பற்றி எவ்வளவு புரிந்து கொள்ள வேண்டும் என்று நினைக்கிறேன்.