2.3.1.1 பிக்

பெரிய தரவுக்குழுக்களைப் ஒரு முடிவுக்கு வழிமுறையாக உள்ளன; அவர்கள் தங்களை ஒரு முடிவு அல்ல.

பெரிய தரவு மூன்று நல்ல பண்புகள் முதல் மிகவும் விவாதிக்கப்படுகிறது: இந்த பெரிய தரவு உள்ளன. பல மக்கள், ஒரு நபருக்கு தகவல் நிறைய, அல்லது காலப்போக்கில் பல அவதானிப்புகள்: இந்த தரவு மூலங்கள் மூன்று வெவ்வேறு வழிகளில் பெரிய இருக்க முடியும். ஒரு பெரிய தரவுத்தொகுப்பின் கொண்ட, அரிய நிகழ்வுகள், படிக்கும் சிறு வேறுபாடுகள், கண்டுபிடித்தல் மற்றும் உற்றுநோக்கல் தரவு இருந்து காரண மதிப்பீடுகள் செய்து, ஆராய்ச்சி அளக்கும் வேறுபாட்டில் சில குறிப்பிட்ட வகையான செயல்படுத்துகிறது. இது மெத்தனமும் ஒரு குறிப்பிட்ட வகை வழிவகுக்கும் தெரிகிறது.

எந்த அளவு பயனுள்ளதாக இருக்கும் முதல் விஷயம் குறிப்பிட்ட துணைக்குழுக்கள் மதிப்பீடுகளை செய்ய சராசரிகள் அப்பால் நகர்ந்து வருகிறது. உதாரணமாக, கேரி கிங், ஜெனிபர் பான், மற்றும் மோலி ராபர்ட்ஸ் (2013) சீனாவில் சமூக ஊடக பதிவுகள் அரசாங்கம் தணிக்கை செய்யப்படும் என்று நிகழ்தகவு அளவிடப்படுகிறது. தன்னை நீக்கல் இந்த சராசரி நிகழ்தகவு அரசாங்கம் சில பதிவுகள் ஆனால் மற்றவர்களுக்கு தணிக்கை ஏன் புரிந்து மிகவும் பயனுள்ளதாக இருக்கிறது. ஆனால், தங்கள் தரவுத்தொகுப்பின் சேர்க்கப்படவில்லை ஏனெனில் 11 மில்லியன் பதிவுகள், கிங் மற்றும் சகாக்களும் 85 தனித்தனி வகைகளில் (எ.கா., ஆபாசம், திபெத், மற்றும் பெய்ஜிங்கில் போக்குவரத்து) இடுகைகள் தணிக்கை நிகழ்தகவு மதிப்பீடுகள் தயாரித்தது. வெவ்வேறு பிரிவுகளில் பதிவுகள் தணிக்கை நிகழ்தகவு ஒப்பிடுவதன் மூலம், அவர்கள் எப்படி, ஏன் அரசு பதவிகளில் சில வகையான தணிக்கை பற்றி மேலும் அறிந்து கொள்ள முடிந்தது. 11 ஆயிரம் பதிவுகள் (11 மில்லியன் விட பதிவுகள்) உடன், அவர்கள் இந்த வகை குறிப்பிட்ட மதிப்பீடுகள் உற்பத்தி செய்ய முடியும் நடந்திருக்காது.

இரண்டாவது, அளவு அரிய நிகழ்வுகள் படிக்கிறான் பயனுள்ளதாக இருக்கிறது. உதாரணமாக, கோயல் மற்றும் சக (2015) ட்வீட் வைரஸ் போக முடியும் என்று பல்வேறு வழிகளில் படிக்கவேண்டும். மறு ட்வீட் பெரிய அருவிகள் ஒரு மிகவும் அபூர்வமாக-பற்றி ஒன்று ஏனெனில் 3,000-அவர்கள் தங்கள் ஆய்வில் போதுமான பெரிய அருவிகள் கண்டுபிடிக்க பொருட்டு ஒரு பில்லியனுக்கும் மேற்பட்ட ட்வீட் படிக்க தேவை.

மூன்றாவது, பெரிய தரவுக்குழுக்களைப் சிறிய வேறுபாடுகள் கண்டறிய ஆராய்ச்சியாளர்கள் செயல்படுத்த. உண்மையில், துறையில் பெரிய தரவு கவனம் மிகவும் இந்த சிறிய வேறுபாடுகள் பற்றி: நம்பத்தகுந்த ஒரு விளம்பரத்தை 1% மற்றும் 1.1% விகிதங்கள் கிளிக் மூலம் இடையே உள்ள வேறுபாடு கண்டறியும் கூடுதல் வருவாய் மில்லியன் டாலர்களை மொழிபெயர்க்க முடியும். சில அறிவியல் அமைப்புகளை, இது போன்ற சிறிய வேறுபாடுகள் குறிப்பிட்ட முக்கிய இருக்கலாம் (அவர்கள் குறிப்பிடத்தக்க புள்ளிவிவர கூட). ஆனால், சில கொள்கை அமைப்புகளை, இது போன்ற சிறிய வேறுபாடுகள் முக்கியமான மதிப்பீட்டு பார்க்கப்படும் போது ஆக முடியும். உதாரணமாக, அங்கு இரண்டு பொது சுகாதார தலையீடுகள் மற்றும் ஒரு மற்ற விட சற்று அதிக பயனுள்ள, பின்னர் மேலும் திறமையான தலையீடு முடிவடையும் என்று கூடுதல் ஆயிரக்கணக்கான உயிர்களைக் மாறுவதற்கு உள்ளன.

இறுதியாக, பெரிய தரவு தொகுப்புகளின் பெரிதும் உற்றுநோக்கல் தரவு இருந்து காரண மதிப்பீடுகள் செய்ய எங்கள் திறனை அதிகரிக்க. பெரிய தரவுக்குழுக்களைப் அடிப்படையில், உற்றுநோக்கல் தரவு இருந்து காரண என்றுச் சொல்வதை பொருத்தமான மற்றும் இயற்கை சோதனைகள்-இரண்டு நுட்பங்கள் ஆராய்ச்சியாளர்கள் கண்கானிப்பு இருந்து காரண கூற்றுக்கள் செய்யும் உருவாக்கப்பட்டது என்று தரவு இருவரும் பெரிதும் பெரிய தரவுக்குழுக்களைப் நன்மை பிரச்சினைகள் மாற்ற வேண்டாம் என்றாலும். நான் விளக்க நான் ஆராய்ச்சி உத்திகள் விவரிக்க போது இந்த அத்தியாயத்தில் விரிவாக பின்னர் இந்த கூற்றை விளக்குவதற்கு வேண்டும்.

bigness பொதுவாக சரியாக பயன்படுத்தும் போது ஒரு நல்ல சொத்து உள்ளது என்றாலும், நான் bigness பொதுவாக ஒரு கருத்துரு பிழை ஏற்படுகிறது என்று நான் கவனித்திருக்கிறேன். சில காரணங்களால், bigness தங்கள் தரவு உருவாக்கப்படும் எப்படி புறக்கணிக்க ஆராய்ச்சியாளர்கள் வழிவகுக்கும் தெரிகிறது. Bigness சீரற்ற பிழை பற்றி கவலைப்பட தேவை குறைக்கும் போது, அது உண்மையில், நான் என்று இன்னும் கீழே உள்ள விவரிக்க வேண்டும் என்று பிழைகளை வகையான தரவு உருவாக்கப்பட்ட மற்றும் சேகரிக்கப்பட்ட எப்படி பாகுபாடுகளை இருந்து எழும் பிழைகள் பற்றி கவலைப்பட தேவை அதிகரிக்கிறது. ஒரு சிறிய தரவுத் தொகுப்பில், சீரற்ற பிழை மற்றும் முறையான பிழை இரண்டு முக்கியமான இருக்க முடியும், ஆனால் ஒரு பெரிய தரவுத்தொகுப்பின் சீரற்ற பிழை விட்டு சராசரியாக மற்றும் முறையான பிழை மேலாதிக்கம் வேண்டும் உள்ளது முடியும். யார் முறையான பிழை தவறான விஷயம் ஒரு துல்லியமான மதிப்பீட்டை பெற தங்கள் பெரிய தரவுக்குழுக்களைப் பயன்படுத்தி முடிவடையும் பற்றி நினைக்கவில்லை ஆராய்ச்சியாளர்கள்; அவர்கள் துல்லியமாக தவறான இருக்க வேண்டும் (McFarland and McFarland 2015) .