மாதிரி விளக்கமளிப்பிற்கான சார்பற்ற தரவு மோசமாக உள்ளது, ஆனால் மாதிரி ஒப்பீடுகளுடன் மிகவும் பயனுள்ளதாக இருக்கும்.
சில சமூக விஞ்ஞானிகள் ஒரு குறிப்பிட்ட நாட்டிலுள்ள அனைத்து பெரியவர்களுடனும் நன்கு வரையறுக்கப்பட்ட மக்களிடமிருந்து ஒரு அபாயகரமான சீரற்ற மாதிரியிலிருந்து வந்த தரவுடன் பழக்கப்படுகிறார்கள். இந்த வகையான தரவு பிரதிநிதித் தரவு என அழைக்கப்படுவதால், மாதிரி பெரிய "மக்களை" குறிக்கிறது. பல ஆய்வாளர்கள் பரிசு பிரதிநிதி தரவு, மற்றும் சில, பிரதிநிதி தரவு கடுமையான அறிவியல் ஒத்திருக்கிறது, ஆனால் nonrepresentative தரவு sloppiness உடன் ஒத்ததாக உள்ளது. மிகவும் தீவிரமான, சில சந்தேகங்கள் எந்தவொரு விளக்கமளிக்கும் தரவிலிருந்து எதையும் கற்றுக்கொள்ள முடியாது என்று நம்புகின்றன. உண்மை என்றால், இது பெரிய தரவு ஆதாரங்களில் இருந்து கற்றுக்கொள்ளக்கூடியவற்றை மிகக் கடுமையாகக் கட்டுப்படுத்துவதாகத் தோன்றுகிறது, ஏனெனில் அவற்றில் பலவற்றுடன் ஒப்பிட முடியாதவை. அதிர்ஷ்டவசமாக, இந்த சந்தேகங்கள் ஓரளவு சரிதான். எந்தவொரு ஆராய்ச்சிக் குறிக்கோலும், எந்தவொரு நிரூபணமற்ற தரவையும் சரியாக பொருந்தவில்லை, ஆனால் உண்மையில் இது மிகவும் பயனுள்ளதாக இருக்கும் சிலவற்றில் உள்ளன.
இந்த வேறுபாட்டை புரிந்து கொள்ள, ஒரு விஞ்ஞான உன்னதமான சிந்தனையை நாம் சிந்திக்க வேண்டும்: லண்டனில் 1853-54 காலரா வெடிப்பு குறித்த ஜான் ஸ்னோவின் ஆய்வு. அந்த நேரத்தில், காலரா "கெட்ட காற்று" காரணமாக பல மருத்துவர்கள் நம்பினர், ஆனால் அது தொற்றுநோயாக இருப்பதாக ஸ்னோ நம்பினார், ஒருவேளை கழிவுநீர் சுத்திகரிக்கப்பட்ட குடிநீர் மூலம் பரவியது. இந்த யோசனை சோதிக்க, நாம் இப்போது ஒரு இயற்கை பரிசோதனை என்று என்ன நன்மை பயன்படுத்தி. அவர் இரண்டு வெவ்வேறு நீர் நிறுவனங்களால் வழங்கப்பட்ட குடும்பங்களின் காலரா விகிதங்களை ஒப்பிடுகிறார்: லம்பேத் மற்றும் சவுத்வர்க் & வாக்ஸ்ஹால். இந்த நிறுவனங்கள் இதேபோன்ற குடும்பங்களுக்கு சேவை செய்தன. ஆனால் அவை ஒரு முக்கிய வழியிலேயே வேறுபட்டுள்ளன: 1849 ஆம் ஆண்டில், தொற்றுநோய் தொடங்குவதற்கு ஒரு சில ஆண்டுகளுக்கு முன்பு-லம்பேத் லண்டனில் உள்ள முக்கிய கழிவுநீர் வெளியேற்றத்திலிருந்து அதன் உட்கட்டமைப்பை உயர்த்தியது, அதேசமயம் சவுத்வர்க் & வாக்ஸ்ஹால் கழிவுநீர் கழிவுகள். ஸ்னோவர்க் & வாக்ஸ்ஹால் வாடிக்கையாளர்களின் கழிவுநீர் சுத்திகரிக்கப்பட்ட தண்ணீரை வழங்கும் நிறுவனங்களில், காலரா இறப்பிற்கு 10 மடங்கு அதிகமாக இருந்ததைக் கண்டார். லண்டனில் உள்ள பிரதிநிதிகளின் மாதிரி அடிப்படையில் அல்ல என்றாலும், காலராவின் காரணம் பற்றி ஸ்னோவின் வாதத்திற்கான வலுவான விஞ்ஞான ஆதாரங்களை இந்த முடிவு வழங்குகிறது.
இருப்பினும், இந்த இரண்டு நிறுவனங்களின் தரவுகள் வேறு ஒரு கேள்விக்கு பதில் கூற முடியாது: வெடிப்பு நேரத்தில் லண்டனில் காலராவின் தாக்கம் என்ன? அந்த இரண்டாவது கேள்விக்கு முக்கியம், லண்டனில் இருந்து ஒரு பிரதிநிதி மாதிரியைக் கொண்டிருப்பது மிகச் சிறந்தது.
ஸ்னோவின் வேலை விவரிக்கப்படுகையில், எந்தவொரு விஞ்ஞான வினாக்களும் இல்லை, இது சார்பற்ற தரவு மிகவும் பயனுள்ளதாக இருக்கும், மேலும் இது மிகவும் பொருத்தமானது அல்ல. இந்த இரண்டு வகையான கேள்விகளை வேறுபடுத்த ஒரு கச்சா வழி என்னவென்றால், சில கேள்விகள், மாதிரி மாதிரி ஒப்பீடுகள் மற்றும் சில மாதிரி மாதிரி பொதுமைப்பாடுகள் பற்றியவை. இந்த வேறுபாட்டை எபிடிமியாலஜிவில் மற்றொரு உன்னதமான ஆய்வு மூலம் விளக்க முடியும்: பிரிட்டிஷ் டாக்டர்கள் ஆய்வு, இது புகைப்பழக்கம் புற்றுநோயை ஏற்படுத்துவதைக் காட்டுவதில் முக்கிய பங்கைக் கொண்டிருந்தது. இந்த ஆய்வில், ரிச்சர்ட் டால் மற்றும் ஏ. பிராட்ஃபோர்ட் ஹில் பல ஆண்டுகளாக சுமார் 25,000 ஆண் டாக்டர்களைப் பின்பற்றி, ஆய்வு தொடங்கியபோது அவர்கள் புகைபிடித்த அளவு அடிப்படையில் இறப்பு விகிதங்களை ஒப்பிட்டனர். டால் அண்ட் ஹில் (1954) ஒரு வலுவான வெளிப்பாடு-பிரதிபலிப்பு உறவைக் கண்டது: அதிகமான மக்கள் புகைபிடித்தனர், அவர்கள் நுரையீரல் புற்றுநோயால் இறக்க நேரிடலாம். நிச்சயமாக, இது ஆண் டாக்டர்கள் இந்த குழு அடிப்படையில் அனைத்து பிரிட்டிஷ் மக்கள் மத்தியில் நுரையீரல் புற்றுநோயின் தாக்கத்தை மதிக்க முடியாது, ஆனால் உள்ள-ஒப்பீடு ஒப்பிடுகையில் புகைப்பிடிக்க நுரையீரல் புற்றுநோயை ஏற்படுத்துகிறது என்பதற்கான சான்றுகள் இன்னமும் அளிக்கின்றன.
இப்போது மாதிரி ஒப்பீடுகள் மற்றும் மாதிரியான மாதிரி பொதுமைப்படுத்துதல்களுக்கிடையிலான வித்தியாசத்தை நான் விளக்கினேன், இரண்டு எச்சரிக்கைகள் வரிசையில் உள்ளன. முதலாவதாக, ஆண் பிரிட்டிஷ் டாக்டர்களின் ஒரு மாதிரிக்குள் வைத்திருக்கும் உறவு, பிரிட்டிஷ் டாக்டர்கள் அல்லது ஆண் பிரிட்டிஷ் தொழிற்சாலை தொழிலாளர்கள் அல்லது பெண் ஜேர்மன் தொழிற்சாலை தொழிலாளர்கள் அல்லது பல குழுக்களில் உள்ள ஒரு உறவைப் பொறுத்தவரை இயற்கையாகவே கேள்விகள் உள்ளன. இந்த கேள்விகளுக்கு சுவாரஸ்யமான மற்றும் முக்கியமானது, ஆனால் ஒரு மாதிரி இருந்து ஒரு பொது மக்களுக்கு பொதுமதிப்பீடு செய்யக்கூடிய அளவைப் பற்றி அவை வேறுபட்டவை. எடுத்துக்காட்டாக, புகைபிடிக்கும் புற்றுநோய்க்கும் இடையிலான உறவு ஆண் பிரிட்டிஷ் டாக்டர்களிடையே உள்ள உறவு ஒருவேளை இந்த பிற குழுக்களில் ஒத்திருப்பதாக ஒருவேளை நீங்கள் சந்தேகிக்கிறீர்கள். இந்த பிரித்தெடுத்தல் செய்ய உங்கள் திறனை ஆண் பிரிட்டிஷ் மருத்துவர்கள் எந்த மக்கள் ஒரு probabilistic சீரற்ற மாதிரி என்று உண்மையில் இருந்து வரவில்லை; மாறாக, இது புகைபிடிப்பையும் புற்றுநோயையும் இணைக்கும் நுண்ணறிவின் புரிந்துகொள்ளுதலிலிருந்து வருகிறது. எனவே, ஒரு மாதிரி இருந்து மக்கள் தொகை வரையறுக்கப்பட்ட ஒரு புள்ளிவிவர பிரச்சினை, ஆனால் ஒரு குழு மற்றொரு குழுவில் காணப்படும் முறைமை போக்குவரத்து பற்றி கேள்விகள் பெரும்பாலும் (Pearl and Bareinboim 2014; Pearl 2015) பிரச்சினை (Pearl and Bareinboim 2014; Pearl 2015) .
இந்த கட்டத்தில், புகைபிடித்தல் மற்றும் புற்றுநோய்க்கு இடையிலான உறவைக் காட்டிலும் மிகவும் சமூக வடிவங்கள் குழுக்களாக அநேகமாக குறைந்த அளவிலான இடமாற்றக்கூடியவை என்று சுட்டிக்காட்டலாம். நான் ஒத்துக்கொள்கிறேன். எந்த அளவிற்கு மாற்றியமைக்க வேண்டுமென நாம் எதிர்பார்க்க வேண்டும் என்பது இறுதியில் ஒரு விஞ்ஞான கேள்வியாகும், இது கோட்பாடு மற்றும் ஆதாரங்களின் அடிப்படையில் தீர்மானிக்கப்பட வேண்டும். அது தானாகவே எடுத்துக் கொள்ளப்படலாம் என்று கருதப்படக்கூடாது, ஆனால் அவை ஏற்றுக்கொள்ளப்படாது என்று கருதப்படக்கூடாது. நீங்கள் பட்டதாரி மாணவர்களை படிப்பதன் மூலம் மனித நடத்தையைப் பற்றி ஆராய்வது பற்றி விவாதங்களை தொடர்ந்து வந்திருந்தால் (Sears 1986, [@henrich_most_2010] ) சுருக்கமான கேள்விகள் உங்களுக்குத் தெரிந்திருக்கும். இருப்பினும், இந்த விவாதங்கள் இருந்தபோதிலும், ஆராய்ச்சியாளர்கள் இளங்கலை மாணவர்களைப் படிப்பதில் இருந்து எதையும் கற்றுக்கொள்ள முடியாது எனக் கூறுவது நியாயமில்லை.
இரண்டாவது எச்சரிக்கையானது, nonrepresentative தரவு பெரும்பாலான ஆராய்ச்சியாளர்கள் பனி அல்லது பொம்மை மற்றும் ஹில் போன்ற கவனமாக இல்லை என்று. எனவே, ஆராய்ச்சியாளர்கள் அல்லாத பிரதிநிதித்துவ தரவு இருந்து ஒரு மாதிரி மாதிரி பொதுமைப்படுத்த முயற்சி போது தவறு என்ன விளக்குவதற்கு, நான் Andranik Tumasjan மற்றும் சக (2010) சக (2010) மூலம் 2009 ஜேர்மன் பாராளுமன்ற தேர்தலில் ஒரு ஆய்வு பற்றி சொல்ல விரும்புகிறேன். 100,000 க்கும் மேற்பட்ட ட்வீட்களை ஆய்வு செய்வதன் மூலம், ஒரு அரசியல் கட்சியைக் குறிப்பிடும் ட்வீட் விகிதம் பாராளுமன்றத் தேர்தலில் கட்சி பெறப்பட்ட வாக்குகளின் எண்ணிக்கை (எண்ணிக்கை 2.3) ஒப்பிடுவதை அவர்கள் கண்டனர். வேறு வார்த்தைகளில் கூறுவதானால், ட்விட்டர் தரவுகள், அடிப்படையில் இலவசமாக இருந்தன, பாரம்பரிய பொது கருத்துக்கணிப்புகளை மாற்றக்கூடியனவாக இருந்தன, அவை பிரதிநிதித்துவ தரவுகளின் முக்கியத்துவம் காரணமாக விலை உயர்ந்தவை.
நீங்கள் ஏற்கனவே ட்விட்டர் பற்றி ஏற்கனவே அறிந்திருக்கிறீர்கள், நீங்கள் உடனடியாக இந்த முடிவுக்கு சந்தேகம் இருக்க வேண்டும். ஜேர்மனியர்கள் 2009 இல் ட்விட்டரில் ஜேர்மன் வாக்காளர்களின் ஒரு அபாயகரமான மாதிரி இல்லை, சில கட்சிகளின் ஆதரவாளர்கள் மற்ற கட்சிகளின் ஆதரவாளர்களைக் காட்டிலும் அரசியலைப் பற்றி மிகவும் அடிக்கடி ட்வீட் செய்திருக்கலாம். இவ்வாறு, நீங்கள் கற்பனை செய்யக்கூடிய சாத்தியக்கூறுகள் அனைத்தையும் ரத்து செய்யும்போது, இந்த தகவல்கள் நேரடியாக ஜேர்மன் வாக்காளர்களை பிரதிபலிப்பதாக இருக்கும் என்பதில் ஆச்சரியமில்லை. உண்மையில், Tumasjan et al. (2010) முடிவு Tumasjan et al. (2010) உண்மையாக இருக்க மிகவும் நன்றாக இருந்தது. அட்ரீஸ் ஜங்கர், பாஸ்கல் ஜூர்கென்ஸ், மற்றும் ஹரால்ட் ஸ்கோன் (2012) ஆகியோரின் ஒரு பின்தொடர் தாளானது அசல் பகுப்பாய்வு உண்மையில் ட்விட்டரில் அதிகம் குறிப்பிட்டுள்ள அரசியல் கட்சியை ஒதுக்கிவிட்டதாக சுட்டிக் காட்டியுள்ளது: அரசாங்க கட்டுப்பாட்டை எதிர்த்துப் போராடும் சிறிய கட்சியான Pirate Party இணையத்தில். ஆய்வில் Pirate Party சேர்க்கப்பட்டபோது, ட்விட்டர் குறிப்பிடுவது தேர்தல் முடிவுகள் (படம் 2.3) ஒரு பயங்கரமான முன்கணிப்பு ஆகும். இந்த உதாரணம் விளக்குவதால், மாதிரியான பெரிய தரவு ஆதாரங்களைப் பயன்படுத்தி, மாதிரி பொதுமைப்படுத்தல்கள் செய்ய மிகவும் தவறானவை. மேலும், நீங்கள் 100,000 ட்வீட்ஸைக் கொண்டிருந்தது உண்மையில் பொருத்தமற்றது என்பதை கவனத்தில் கொள்ள வேண்டும்: எந்தவொரு பிரதிநிதித்துவமற்ற தரப்பிரதியும் இன்னும் பிரதிநிதித்துவம் இல்லை, நான் சர்வேயைப் பற்றி விவாதிக்கையில் நான் 3-ஆம் அதிகாரத்தில் மீண்டும் வருகிறேன்.
முடிக்க, பல பெரிய தரவு ஆதாரங்கள் சில நன்கு வரையறுக்கப்பட்ட மக்கள் பிரதிநிதி மாதிரிகள் அல்ல. மாதிரியிலிருந்து பெறப்பட்ட மக்களுக்கு பொதுமக்கள் தேவைப்படும் கேள்விகளைக் கேட்கும் கேள்விகளுக்கு இது மிகவும் சிக்கலாக உள்ளது. ஆனால், மாதிரி மாதிரி ஒப்பீடுகள் பற்றிய கேள்விகளுக்கு, தந்திரோபாய அல்லது அனுபவபூர்வ சான்றுகளுடன் பரிமாறப்படுவதைப் பற்றி ஆராய்ச்சியாளர்கள் தங்கள் மாதிரியின் பண்புகள் மற்றும் ஆதரவின் கூற்றுகள் பற்றி தெளிவானவை என்பதால், நிரூபிக்கப்படாத தரவு சக்தி வாய்ந்ததாக இருக்கலாம். உண்மையில், என் நம்பிக்கையானது, பெரிய தரவு ஆதாரங்கள், பல nonrepresentative குழுக்களிடையே உள்ள மாதிரி ஒப்பீடுகளை இன்னும் அதிகமாக்குவதற்கு ஆய்வாளர்களை உதவுகிறது, மேலும் என் யூகம் பல குழுக்களிடமிருந்து மதிப்பீடுகள் சமூக ஆய்வுகளை முன்னெடுத்துச் செல்வதால் ஒரு நிகழ்தகவு சார்ந்த மாதிரி.