பெரிய தரவுக்குழுக்களைப் ஒரு முடிவுக்கு வழிமுறையாக உள்ளன; அவர்கள் தங்களை ஒரு முடிவு அல்ல.
பெரிய தரவு ஆதாரங்களின் பரவலாகப் பரவலான அம்சம் அவை பெரியவையாகும். உதாரணமாக, பல ஆவணங்களைப் பற்றி விவாதிக்கவும்-சில நேரங்களில் தற்பெருமை பேசவும்-அவை எவ்வளவு அளவு தரவுகளை ஆய்வு செய்தன. உதாரணமாக, கூகிள் புக்ஸ் கார்ப்பஸ்ஸில் சொல்-பயன் போக்குகளை படிக்கும் விஞ்ஞானத்தில் வெளியிடப்பட்ட ஒரு காகித (Michel et al. 2011) :
"[எங்கள்] கார்பஸ் ஆங்கிலத்தில் (361 பில்லியன்), பிரஞ்சு (45 பில்லியன்), ஸ்பானிஷ் (45 பில்லியன்), ஜெர்மன் (37 பில்லியன்), சீன (13 பில்லியன்), ரஷியன் (35 பில்லியன்), மற்றும் ஹீப்ரு (2 பில்லியன்). பழமையான படைப்புகள் 1500 களில் வெளியிடப்பட்டன. ஆரம்ப தசாப்தங்கள் பல நூறு ஆயிரம் வார்த்தைகளை உள்ளடக்கிய வருடத்திற்கு ஒரு சில புத்தகங்கள் மட்டுமே பிரதிபலிக்கின்றன. 1800 ஆம் ஆண்டுக்குள், அந்த ஆண்டுக்கு 98 மில்லியன் வார்த்தைகள் வளர்ந்துள்ளன; 1900 ஆம் ஆண்டில், 1.8 பில்லியன்; 2000 ஆம் ஆண்டில், 11 பில்லியன். ஒரு மனிதனால் கார்பஸ் வாசிக்க முடியாது. 2000 ஆம் ஆண்டு முதல் ஆங்கில மொழிப் பதிவுகள் மட்டும் 200 வார்த்தைகள் / நிமிடங்களில் மட்டுமே பேசுவதற்கு நீங்கள் முயற்சி செய்தால், உணவு அல்லது தூக்கத்திற்கு குறுக்கீடு இல்லாமல் 80 வருடங்கள் எடுக்கும். கடிதங்களின் வரிசை மனித மரபணுவை விட 1000 மடங்கு அதிகமாகும்: நீங்கள் நேராக வரிசையில் எழுதினால், அது சந்திரனுக்கும் 10 மடங்குக்கும் மேலானதாக இருக்கும். "
இந்த தரவு அளவு சந்தேகத்திற்கு இடமின்றி சுவாரஸ்யமாக உள்ளது, மேலும் Google புத்தகம் குழு இந்த தகவலை பொதுமக்களிடம் வெளியிட்டு விட்டது என்ற உண்மையை நாம் அனைவரும் அதிர்ச்சியுறச் செய்கிறோம் (உண்மையில், இந்த அத்தியாயத்தின் முடிவில் சில நடவடிக்கைகள் இந்த தரவைப் பயன்படுத்துகின்றன). ஆனால், நீங்கள் இதைப் போன்ற ஏதாவது ஒன்றைப் பார்க்கும்போது நீங்கள் கேட்க வேண்டும்: எல்லா தரவுகளும் உண்மையிலேயே என்ன செய்கின்றன? தரவு சந்திரனுக்கும், ஒருமுறைக்கும் ஒரு முறை மட்டுமே சென்றால் அதே ஆராய்ச்சியை மேற்கொள்ள முடியுமா? தரவு எவரெஸ்ட் சிகரத்தின் மேல் அல்லது ஈபிள் கோபுரத்தின் மேல் மட்டுமே சென்றால் என்ன செய்வது?
இந்த விஷயத்தில், அவர்களின் ஆராய்ச்சி, உண்மையில், ஒரு நீண்ட காலத்திற்குள் வார்த்தைகள் ஒரு பெரிய corpus தேவைப்படும் சில கண்டுபிடிப்புகள் இல்லை. உதாரணமாக, அவர்கள் ஆராயும் ஒரு விஷயம் இலக்கணத்தின் பரிணாம வளர்ச்சி, குறிப்பாக ஒழுங்கற்ற வினை ஒருங்கிணைப்பு விகிதத்தில் மாற்றங்கள். சில ஒழுங்கற்ற வினைச்சொற்கள் மிகவும் அரிதாக இருப்பதால், காலப்போக்கில் மாற்றங்களைக் கண்டறிய ஒரு பெரிய அளவு தரவு தேவைப்படுகிறது. இருப்பினும், பெரும்பாலும், ஆராய்ச்சியாளர்கள் பெரிய தரவு ஆதாரத்தின் அளவை ஒரு முடிவுக்கு எடுத்துக்கொள்வதாகத் தோன்றுகிறது- "என்னால் எவ்வளவு துல்லியமான தகவல்களைத் தரமுடியும்" - இன்னும் சில முக்கியமான விஞ்ஞான நோக்கங்களுக்கு ஒரு வழி.
என் அனுபவத்தில், அரிதான நிகழ்வுகளின் ஆய்வு பெரிய தரவுத்தளங்களை இயக்கும் மூன்று குறிப்பிட்ட விஞ்ஞான முனைகளில் ஒன்றாகும். இரண்டாவதாக, இந்தியாவில் சமூக இயக்கம் மீது ராஜ் செட்டி மற்றும் சகோ (2014) ஆகியோரால் நடத்தப்பட்ட ஒரு ஆய்வின் மூலம் இது வெளிப்படுத்தப்படுகிறது. கடந்த காலத்தில், பல ஆராய்ச்சியாளர்கள் பெற்றோர்கள் மற்றும் குழந்தைகளின் வாழ்க்கை விளைவுகளை ஒப்பிடுவதன் மூலம் சமூக இயக்கம் ஆய்வு. இந்த இலக்கியத்தில் இருந்து ஒரு நிலையான கண்டுபிடிப்பானது நன்மை பெற்ற பெற்றோருக்கு குழந்தைகளுக்கு (Hout and DiPrete 2006) , ஆனால் இந்த உறவின் பலம் காலப்போக்கில் மற்றும் நாடுகளில் (Hout and DiPrete 2006) வேறுபடுகிறது. இருப்பினும், அண்மையில், செட்டி மற்றும் சக ஊழியர்கள் அமெரிக்காவில் பதிவுசெய்யப்பட்ட பிராந்தியங்களில் இயல்பான இயல்பான தன்மையை மதிப்பிடுவதற்காக 40 மில்லியன் மக்களிடமிருந்து வரி ஆவணங்களைப் பயன்படுத்த முடிந்தது (எண்ணிக்கை 2.1). உதாரணமாக, ஒரு குழந்தை தேசிய வருவாய் விநியோகத்தின் உயரதிகாரத்தை அடைந்தால், அது கலிபோர்னியாவில் சான் ஜோஸ்ஸில் 13% ஆகும், ஆனால் வட கரோலினாவில் உள்ள சார்லோட்டில் 4% மட்டுமே உள்ளது என்று அவர்கள் கண்டறிந்துள்ளனர். நீங்கள் ஒரு கணம் உருவம் 2.1 ஐப் பார்த்தால், மற்றவர்களிடமிருந்து பிற இடங்களில் பிறழ்வு இயல்பான தன்மை அதிகமாக இருப்பதை நீங்கள் வியக்கத் தொடங்கலாம். செட்டி மற்றும் சக ஊழியர்கள் அதே கேள்வியைக் கொண்டிருந்தனர், மேலும் உயர்நிலைப்பகுதி பகுதிகளில் குறைந்த குடியிருப்பு குடியிருப்பு, குறைவான வருமான சமத்துவமின்மை, சிறந்த ஆரம்ப பள்ளிகள், அதிக சமூக மூலதனம் மற்றும் அதிக குடும்ப உறுதிப்பாடு ஆகியவற்றைக் கண்டறிந்துள்ளனர். இந்த காரணிகள் அதிக இயல்பான தன்மையைக் கொண்டிருப்பதாகக் காட்டவில்லை, ஆனால் அவை மேலும் வேலைகளில் ஆராயப்படக்கூடிய சாத்தியமான வழிமுறைகளை பரிந்துரைக்கின்றன, இது செட்டி மற்றும் சக ஊழியர்கள் தொடர்ந்து வேலை செய்திருக்கிறார்கள். இந்த திட்டத்தில் தரவு அளவு எவ்வளவு முக்கியமானது என்பதை கவனிக்கவும். செட்டி மற்றும் சக ஊழியர்கள் 40 மில்லியனுக்கும் அதிகமான 40,000 மக்களைக் கொண்ட வரி ஆவணங்களைப் பயன்படுத்தியிருந்தால், அவர்கள் பிராந்திய முதுகெலும்புகளை மதிப்பீடு செய்ய முடியாமல் இருந்திருக்கலாம், இந்த மாறுபாட்டை உருவாக்கும் வழிமுறைகளை அடையாளம் காண முயற்சி செய்ய அவர்கள் ஒருபோதும் முடிந்திருக்க முடியாது.
இறுதியாக, அரிய நிகழ்வைப் படிப்பதோடு மட்டுமல்லாமல், பல்வகைமைப் படிப்பதற்கும் கூடுதலாக, பெரிய தரவுத்தளங்கள் ஆராய்ச்சியாளர்களை சிறிய வேறுபாடுகளை கண்டறிய உதவுகின்றன. உண்மையில், தொழில்துறையில் பெரிய தரவுகளில் கவனம் செலுத்துவது இந்த சிறிய வித்தியாசங்களைப் பற்றியதாகும்: ஒரு விளம்பரத்தில் 1% மற்றும் 1.1% கிளிக்-வழியாக விகிதங்களுக்கு இடையேயான வித்தியாசத்தை நம்பகமான முறையில் கண்டுபிடிப்பது கூடுதல் வருவாயில் மில்லியன் கணக்கான டாலர்களை மொழிபெயர்க்கலாம். இருப்பினும், சில விஞ்ஞான அமைப்புகளில், அவை புள்ளிவிவரரீதியாக முக்கியத்துவம் வாய்ந்தவை என்றாலும் கூட, சிறிய வேறுபாடுகள் முக்கியமானதாக இருக்காது (Prentice and Miller 1992) . ஆனால், சில கொள்கை அமைப்புகளில், மொத்தத்தில் பார்க்கும் போது அவை முக்கியமானதாக மாறும். உதாரணமாக, இரண்டு பொது சுகாதார தலையீடுகள் இருந்தால், மற்றொன்று விட சற்றே சிறப்பாக செயல்படும், மேலும் பயனுள்ள தலையீட்டை எடுத்துக் கொண்டு ஆயிரக்கணக்கான ஆயிரக்கணக்கான உயிர்களை காப்பாற்ற முடியும்.
சரியாகப் பயன்படுத்தினால், பொதுவாக பிணைப்பு பொதுவாக ஒரு நல்ல சொத்து என்றாலும், சில நேரங்களில் அது ஒரு கருத்து ரீதியான பிழைக்கு வழிவகுக்கும் என்று நான் கவனித்திருக்கிறேன். சில காரணங்களால், அவற்றின் தரவு எவ்வாறு உருவாக்கப்படுகிறது என்பதை புறக்கணிக்க ஆராய்ச்சியாளர்களை வழிநடத்துகிறது. பிக்ஸட் சீரற்ற பிழை பற்றி கவலைப்பட வேண்டிய அவசியத்தை குறைக்கும் போது, அது உண்மையில் முறையான பிழைகள் பற்றி கவலைப்பட வேண்டிய அவசியத்தை அதிகரிக்கிறது , தரவை உருவாக்கிய தரவுகளில் பிழைகள் இருந்து எழும் பிழைகளை நான் கீழே விவரிக்கிறேன். உதாரணமாக, ஒரு திட்டத்தில், நான் பின்னர் இந்த அத்தியாயத்தில் விவரிக்கிறேன், ஆராய்ச்சியாளர்கள் செப்டம்பர் 11, 2001 இல் உருவாக்கப்பட்ட செய்திகளைப் பயன்படுத்தி பயங்கரவாத தாக்குதலுக்கு (Back, Küfner, and Egloff 2010) ஒரு உயர்-தீர்மானம் உணர்ச்சி நேரத்தை தயாரிக்க பயன்படுத்தினர். ஆய்வாளர்கள் பெரும் எண்ணிக்கையிலான செய்திகளைக் கொண்டிருந்ததால், அவர்கள் கண்டறிந்த முறைமைகள் - நாளின் போக்கில் அதிகரித்து வரும் சீற்றம் - சீரற்ற மாறுபாடுகளால் விளக்கப்படலாம் என்பதைப் பற்றி கவலைப்பட வேண்டிய அவசியமில்லை. இவ்வளவு புள்ளிவிவரங்கள் இருந்தன, எல்லா புள்ளிவிவர புள்ளியியல் சோதனைகள் இது ஒரு உண்மையான முறையாகும் என்று மிகவும் தெளிவாக இருந்தது. ஆனால், இந்த புள்ளிவிவர சோதனைகள் தரவு எப்படி உருவாக்கப்பட்டது என்பதை அறியாமல் இருந்தன. உண்மையில், அநேக முறைமைகள் ஒரே ஒரு போட் க்கு உரியவையாக இருந்தன, அவை நாள் முழுவதும் அதிகமான அர்த்தமற்ற செய்திகளை உருவாக்கியது. இந்த ஒரு பாட்டை நீக்குவது காகிதத்தின் முக்கிய கண்டுபிடிப்புகள் சிலவற்றை அழித்துவிட்டது (Pury 2011; Back, Küfner, and Egloff 2011) . சாதாரணமாக, திட்டமிட்ட பிழையைப் பற்றி சிந்திக்காத ஆய்வாளர்கள், ஒரு பெரிய அளவிலான தரவுகளை பயன்படுத்தி ஒரு தானியக்க போட் மூலம் தயாரிக்கப்படாத அர்த்தமற்ற செய்திகளின் உணர்ச்சி உள்ளடக்கம் போன்ற ஒரு குறிப்பிடத்தக்க அளவு துல்லியமான மதிப்பீட்டைப் பெற ஆபத்தை எதிர்கொள்கின்றனர்.
முடிவில், பெரிய தரவுத்தளங்கள் தங்களை ஒரு முடிவுக்கு கொண்டுவருவதில்லை, ஆனால் அரிய நிகழ்வுகள் பற்றிய ஆய்வு, பல்வகைமை பற்றிய மதிப்பீடு மற்றும் சிறு வேறுபாடுகளைக் கண்டறிதல் உட்பட சில வகையான ஆராய்ச்சிகளை அவை செயல்படுத்த முடியும். பெரிய தரவுத் தரவுகளானது எவ்வாறு தரவு உருவாக்கப்படுகின்றன என்பதை புறக்கணிக்க சில ஆராய்ச்சியாளர்களை வழிநடத்திச்செல்லும், இது ஒரு குறிப்பிடத்தக்க அளவிலான கணிசமான மதிப்பீட்டை பெறுவதற்கு வழிவகுக்கும்.