2.3.2.6 அழுக்கு

பெரிய தரவு மூலங்கள் குப்பை மற்றும் ஸ்பேம் ஏற்ற முடியும்.

சில ஆராய்ச்சியாளர்கள் தானாக சேகரிக்கப்பட்ட ஏனெனில் பெரிய தரவு மூலங்கள், குறிப்பாக ஆன்லைன் ஆதாரங்களில் இருந்து அந்த அழகிய இருக்கும் என்று நம்புகிறேன். உண்மையில், பெரிய தரவு மூலங்கள் பணிபுரிந்த மக்கள் அவர்கள் அடிக்கடி அழுக்கு என்று எனக்கு தெரியும். என்று அவர்கள் அடிக்கடி ஆராய்ச்சியாளர்கள் வட்டி உண்மையான நடவடிக்கைகளை பிரதிபலிக்கும் என்று தரவு சேர்க்க, உள்ளது. பல சமூக விஞ்ஞானிகள் ஏற்கனவே பெரிய அளவிலான சமூக ஆய்வு தரவு சுத்தம், ஆனால் பெரிய தரவு மூலங்கள் சுத்தம் இரண்டு காரணங்களுக்காக கடினமாக தெரிந்திருந்தால்: 1) அவர்கள் ஆராய்ச்சியாளர்கள் ஆராய்ச்சியாளர்கள் மற்றும் 2) ஆராய்ச்சியாளர்கள் படைக்கப்படவில்லை பொதுவாக எப்படி குறைவாக புரிதல் வேண்டும் அவர்கள் உருவாக்கிய.

அழுக்கு டிஜிட்டல் சுவடு தரவு ஆபத்துக்களை மீண்டும் மற்றும் சக 'மூலம் தெளிவாகக் காட்டப்படுகிறது (2010) 2001 ஆராய்ச்சியாளர்கள் பொதுவாக மாதங்கள் அல்லது ஆண்டுகள் கூட சேகரித்து பின்னோக்கிய தரவு பயன்படுத்தி துன்பியல் நிகழ்வுகளுக்கு பதில் படிக்க செப்டம்பர் 11, தாக்குதல்களுக்கு உணர்ச்சி பதில் ஆய்வு. ஆனால், மீண்டும் மற்றும் சக 85,000 அமெரிக்க இருந்து ஒரு எப்போதும் டிஜிட்டல் தடயங்கள்-timestamped ஆதாரமாக, தானாக பதிவு செய்திகள் எதுவும் பேஜர்களில்-இந்த ஒரு மிக நுண்ணிய அளவோடு மீது உணர்ச்சி பதில் படிக்க ஆராய்ச்சியாளர்கள் செயல்படுத்தப்படும். மீண்டும் மற்றும் சக (1) சோகம் தொடர்பான வார்த்தைகள் சதவீதம் மூலம் பேஜர் செய்திகளை உணர்ச்சி உள்ளடக்கம் குறியீட்டு மூலம் செப்டம்பர் 11 ஒரு நிமிடம் மூலம் நிமிட உணர்ச்சி காலவரிசை உருவாக்கப்பட்ட (எ.கா., அழுது, துக்கம்), (2) கவலை (எ.கா., கவலை, பயத்துடன்), மற்றும் (3) கோபம் (எ.கா., வெறுப்பு, விமர்சன). அவர்கள் துக்கம் மற்றும் பதட்டம் வலிமையான வடிவம் இல்லாமல் நாள் முழுவதும் ஏற்ற இறக்கம் என்று கண்டறியப்பட்டது, ஆனால் நாள் முழுவதும் கோபம் ஒரு வேலைநிறுத்தம் அதிகமாக இருந்தன என்று. அது ஒரு எதிர்பாராத நிகழ்வு உடனடி பதில் போன்ற ஒரு உயர் தீர்மானம் கால வேண்டும் சாத்தியமில்லை நிலையான முறைகளை பயன்படுத்தி: இந்த ஆராய்ச்சி எப்போதும் தரவு மூலங்கள் அதிகாரத்தை ஒரு அற்புதமான உவமை தெரிகிறது.

ஓராண்டிற்கு பின்னர், இருப்பினும், சிந்தியா Pury (2011) தரவு மேலும் கவனமாக பார்த்து. அவள் கூறப்படும் கோபம் செய்திகளை பெரிய அளவில் ஒரு பேஜர் தோற்றுவிக்கப்பட்ட அவர்கள் அனைத்து ஒத்த என்று கண்டுபிடிக்கப்பட்டது. இங்கே அந்த கூறப்படும் கோபம் செய்திகளை கூறினார்:

"மீண்டும் துவக்கவும் டி இயந்திரம் [பெயர்] அமைச்சரவை [] இல் [இடம்] உள்ள CRITICAL: [தேதி மற்றும் நேரம்]"

அவர்கள் பொதுவாக கோபம் குறிப்பிடுகின்றன ஆனால் இந்த வழக்கில் இல்லை இருக்கலாம் வார்த்தை "முக்கிய", சேர்க்கப்படவில்லை ஏனெனில் இந்த செய்திகளை கோபம் பெயரிடப்பட்ட. செய்திகளை இந்த ஒற்றை தானியங்கி பேஜர் உருவாக்கப்படும் நீக்குதல் முற்றிலும் நாள் (படம் 2.2) காலப்போக்கில் கோபம் வெளிப்படையாக அதிகரிப்பு நீக்குகிறது. வேறு வார்த்தைகளில் கூறுவதானால், முக்கிய விளைவாக Back, Küfner, and Egloff (2010) ஒரு பேஜர் ஒரு செயற்கை பொருளாக இருந்தது. இந்த உதாரணம் காட்டுகிறபடி, சிக்கலான மற்றும் நையாண்டி தரவு ஒப்பீட்டளவில் எளிமையான ஆய்வு தீவிரமாக தவறாக போக சாத்தியம் உள்ளது.

படம் 2.2: செப்டம்பர் 11, 2001 நிச்சயமாக 85,000 அமெரிக்க பேஜர்களில் அடிப்படையில் ஆத்திரமடைந்துள்ள கணக்கிடப்பட்ட போக்குகள் (பின்னே, Küfner, மற்றும் Egloff 2010; Pury 2011; மீண்டும், Küfner, மற்றும் Egloff 2011). முதலில், மீண்டும், Küfner, மற்றும் Egloff (2010) நாள் முழுவதும் கோபம் அதிகரித்து ஒரு முறை பதிவாகும். [பெயர்] [இடம்] உள்ள அமைச்சரவையில் மீண்டும் துவக்கவும் டி இயந்திரம் [பெயர்]: CRITICAL: [தேதி மற்றும் நேரம்] எனினும், இந்த வெளிப்படையான கோபம் செய்திகளை மிகவும் பலமுறை இந்த செய்தியை அனுப்பியுள்ளது என்று ஒரு பேஜர் பெருகுகின்றன. இந்த செய்தியை நீக்க உடன், கோபம் வெளிப்படையாக அதிகரிப்பு (திரும்பவும், Küfner, மற்றும் Egloff 2011 Pury 2011) மறைந்துவிடும். இந்த எண்ணிக்கை Pury (2011) படம் 1B ஒரு இனப்பெருக்கம் உள்ளது.

படம் 2.2: செப்டம்பர் 11, 2001 நிச்சயமாக 85,000 அமெரிக்க பேஜர்களில் அடிப்படையில் ஆத்திரமடைந்துள்ள கணக்கிடப்பட்ட போக்குகள் (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . முதலில், Back, Küfner, and Egloff (2010) நாள் முழுவதும் கோபம் அதிகரித்து ஒரு முறை பதிவாகும். "அமைச்சரவை [பெயர்] துவங்கும் டி இயந்திரம் [பெயர்] [இடம்] மணிக்கு: CRITICAL: [தேதி மற்றும் நேரம்]" எனினும், இந்த வெளிப்படையான கோபம் செய்திகளை மிக மீண்டும் மீண்டும் பின்வரும் செய்தியை வெளியிட்டது என்று ஒரு பேஜர் பெருகுகின்றன. இந்த செய்தியை நீக்க உடன், கோபம் வெளிப்படையாக அதிகரிப்பு மறைந்து (Pury 2011; Back, Küfner, and Egloff 2011) . இந்த படத்தில் படம் 1B ஒரு இனப்பெருக்கம் Pury (2011) .

ஒரு நியாயமான கவனமாக ஆராய்ச்சியாளர் ஒரு சத்தம் இருந்து தற்செயலாக-அத்தகைய உருவாக்கப்பட்ட உள்ளது என்று கெட்ட தரவு பேஜர்-முடியும் கண்டறிய வேண்டும் என்றாலும், வேண்டுமென்றே வேண்டாதவர்களுக்கு ஈர்க்கும் என்று சில ஆன்லைன் அமைப்புகள் உள்ளன. இந்த வேண்டாதவர்களுக்கு தீவிரமாக போலி தரவு உருவாக்க, மற்றும்-பெரும்பாலும் தங்கள் தேவையற்றது மறைத்து மிகவும் கடினமாக இலாப-வேலை உந்துதல். உதாரணமாக, ட்விட்டர் அரசியல் நடவடிக்கைகளை இதற்காக சில அரசியல் காரணங்கள் வேண்டுமென்றே அவர்கள் உண்மையான விட பிரபலமான பார்க்க செய்யப்படுகின்றன குறைந்தது சில நியாயமான அதிநவீன ஸ்பேம், சேர்க்கப்பட்டுள்ளார்கள் (Ratkiewicz et al. 2011) . வேண்டுமென்றே ஸ்பேம் கொண்டிருக்கலாம் என்று தரவு வேலை ஆராய்ச்சியாளர்கள் அவர்கள் கண்டறியப்பட்டது மற்றும் தொடர்புடைய ஸ்பேம் நீக்கியுள்ளோம் என்று தங்கள் பார்வையாளர்களை நம்பச்செய்யும் சவாலை எதிர்கொள்ள.

இறுதியாக, கருதப்படுகிறது என்ன கெட்ட தரவு உங்கள் ஆராய்ச்சி கேள்விகளுக்கு நுட்பமான வழிகளில் பொறுத்து கொள்ளலாம். உதாரணமாக, விக்கிபீடியா பல திருத்தங்களை தானியங்கி போட்களை செய்தது (Geiger 2014) . நீங்கள் விக்கிப்பீடியா சூழலியல் ஆர்வமாக இருந்தால், பின்னர் இந்த போட்களை முக்கியம். ஆனால், நீங்கள் மனிதர்கள் விக்கிப்பீடியா பங்களிப்பு எப்படி ஆர்வம் இருந்தால், இந்த போட்களை மூலம் இந்த திருத்தங்களை விலகி இருக்க வேண்டும்.

கெட்ட தரவு தரவு போன்று எளிய சிதறல் செய்து, எளிய ஆராய்வதற்கான பகுப்பாய்வு செய்ய படைக்கப்பட்டன எப்படி விளங்கிக் கொள்வது முட்டாளாக இருப்பது தவிர்க்க சிறந்த வழிகளில்.