நீங்கள் நல்ல தரவு ஒரு நல்ல கேள்வி சேர்த்து இருந்தால் எளிய எண்ணும் சுவாரஸ்யமான இருக்க முடியும்.
இது அதிநவீன ஒலித்தல் மொழியில் பிணைக்கப்பட்டுள்ளது என்றாலும், சமூக ஆராய்ச்சி நிறைய உண்மையில் விஷயங்களை எண்ணும். பெரிய தரவுகளின் வயதில், ஆராய்ச்சியாளர்கள் முன்னெப்போதையும் விட அதிகமாக எண்ணலாம், ஆனால் அவை முன்கூட்டியே கணக்கிட ஆரம்பிக்க வேண்டும் என்று அர்த்தமல்ல. அதற்கு பதிலாக, ஆராய்ச்சியாளர்கள் கேட்க வேண்டும்: விஷயங்களை எண்ணி மதிப்பு என்ன? இது முற்றிலும் அகநிலை விஷயத்தைப் போல தோன்றலாம், ஆனால் சில பொதுவான முறைகள் உள்ளன.
பெரும்பாலும் மாணவர்கள் தங்கள் கணக்கெடுப்பு ஆராய்ச்சி ஊக்குவிக்கும்: நான் யாரும் முன்னர் எண்ணி என்று ஒன்று எண்ண போகிறேன். உதாரணமாக, ஒரு மாணவர் பலர் புலம்பெயர்ந்தோரைப் படித்திருக்கிறார்கள், பலர் இரட்டையர்களைப் படித்திருக்கிறார்கள், ஆனால் புலம்பெயர்ந்த இரட்டையர்களை யாரும் படிக்கவில்லை என்று ஒரு மாணவர் கூறலாம். என் அனுபவத்தில், நான் இல்லாத ஊக்கத்தை இந்த மூலோபாயம், பொதுவாக நல்ல ஆராய்ச்சிக்கு வழிவகுக்காது. இல்லாதிருந்தால் உந்துதல் என்பது அங்கு ஒரு துளை இருக்கிறது என்று கூறுவது போல் இருக்கிறது, அதை நிரப்ப மிகவும் கடினமாக உழைக்கிறேன். ஆனால் ஒவ்வொரு துளைகளும் பூர்த்தி செய்யப்பட வேண்டியதில்லை.
இல்லாமலேயே ஊக்குவிக்கப்படுவதற்கு பதிலாக, முக்கியமான அல்லது சுவாரஸ்யமான (அல்லது சிறந்த முறையில்) இருக்கும் ஆராய்ச்சி கேள்விகளைக் காண்பது சிறந்த உத்தி என்று நான் நினைக்கிறேன். இந்த இரு சொற்களும் ஒரு பிட் கடினமாக வரையறுக்கின்றன, ஆனால் முக்கியமான ஆராய்ச்சி பற்றி சிந்திக்க ஒரு வழி, சில அளவிலான தாக்கத்தை ஏற்படுத்தும் அல்லது ஊட்டச்சத்து தயாரிப்பாளர்களால் ஒரு முக்கியமான முடிவை உணவாக கொண்டுள்ளது. எடுத்துக்காட்டாக, வேலையின்மை விகிதத்தை அளவிடுவது முக்கியமானதாகும், ஏனென்றால் அது கொள்கை முடிவுகளை செலுத்தும் பொருளாதாரத்தின் ஒரு குறியீடாகும். பொதுவாக, ஆராய்ச்சியாளர்கள் முக்கியம் என்ன ஒரு நல்ல உணர்வு என்று நான் நினைக்கிறேன். எனவே, இந்த பிரிவின் மீதமுள்ள, நான் இரண்டு உதாரணங்களை வழங்க போகிறேன். ஒவ்வொரு வழக்கில், ஆராய்ச்சியாளர்கள் haphazardly எண்ணும் இல்லை; மாறாக, சமூக அமைப்புகள் எப்படி இயங்குகின்றன என்பதைப் பற்றிய பொதுவான கருத்துக்கள் குறித்து முக்கியமான நுண்ணறிவுகளை வெளிப்படுத்தும் மிகவும் குறிப்பிட்ட அமைப்புகளில் அவர்கள் எண்ணினர். வேறு வார்த்தைகளில் கூறுவதானால், இந்த குறிப்பிட்ட எண்ணிக்கையிலான பயிற்சிகளை சுவாரஸ்யமானதாக்குகிறது என்பதே நிறைய விஷயங்கள் தரவுகளல்ல, இது இன்னும் பொதுவான யோசனைகளிலிருந்து வருகிறது.
ஹென்றி பார்பரின் (2015) நியூயார்க் நகர டாக்சி ஓட்டுநர்களின் நடத்தை பற்றிய ஆய்வில் இருந்து எண்ணுதல் எளிமையான ஆற்றலின் ஒரு எடுத்துக்காட்டு. இந்த குழு இயல்பாகவே சுவாரசியமாக ஒலித்திருக்காவிட்டாலும், இது தொழிலாளர் பொருளாதாரத்தில் இரண்டு போட்டியிடும் கோட்பாடுகளை சோதிக்கும் ஒரு மூலோபாய ஆராய்ச்சி தளமாகும் . ஃபர்பரின் ஆராய்ச்சியின் நோக்கத்திற்காக டாக்சி டிரைவர்கள் பணிச்சூழலைப் பற்றி இரண்டு முக்கிய அம்சங்கள் உள்ளன: (1) கால அவகாசம், வானிலை போன்ற காரணிகளின் அடிப்படையிலும், (2) அவர்கள் மணிநேர எண்ணிக்கை தங்கள் தீர்மானங்களை அடிப்படையாகக் கொண்ட ஒவ்வொரு நாளும் ஒவ்வொரு நாளும் மாறும் வேலையைச் செய்யலாம். இந்த அம்சங்கள் மணிநேர ஊதியங்கள் மற்றும் மணிநேரம் ஆகியவற்றிற்கு இடையிலான உறவு பற்றிய சுவாரஸ்யமான கேள்விக்கு வழிவகுக்கும். பொருளாதாரத்தில் நியோகாசியல் மாதிரிகள், அதிகபட்ச மணிநேர ஊதியம் கொண்ட நாட்களில் டாக்ஸி டிரைவர்கள் அதிக அளவில் வேலை செய்யும் என்று கணிக்கின்றனர். மாற்றாக, நடத்தை பொருளியல் இருந்து மாதிரிகள் சரியாக எதிர் கணித்து. டிரைவர்கள் ஒரு குறிப்பிட்ட வருமானத்தை இலக்காக வைத்துக் கொண்டால் - நாள் ஒன்றுக்கு $ 100 என்று சொல்லவும், அந்த இலக்கை அடைக்கும் வரை பணி செய்யவும், பின்னர் ஓட்டுனர்கள் சில நாட்களுக்கு அதிக நேரம் சம்பாதிக்கிறார்கள். உதாரணமாக, நீங்கள் ஒரு இலக்கு வருமானமாக இருந்தால், ஒரு நல்ல நாளில் (ஒரு மணி நேரத்திற்கு $ 25) மற்றும் ஒரு கெட்ட நாளில் (ஒரு மணி நேரத்திற்கு 20 டாலர்) நான்கு மணிநேர வேலை செய்து முடிக்கலாம். எனவே, குறைந்த மணி நேர ஊதியம் (நடத்தை பொருளாதார மாதிரிகளால் முன்னறிவிக்கப்பட்ட) நாட்களில் அதிக மணிநேர சம்பளங்கள் (நியோகிளாசிக்கல் மாதிரிகள் முன்னறிவித்தபடி) அல்லது அதிக மணிநேரங்களுடன் டிரைவர்கள் அதிக மணிநேரம் வேலை செய்கிறார்கள்?
2009 ஆம் ஆண்டு முதல் 2013 ஆம் ஆண்டு வரையான காலப்பகுதியில், நியூ யார்க் நகரின் வாடகை வண்டிகளால் எடுக்கப்பட்ட ஒவ்வொரு டாக்சி டிப்ஸிற்கும் இந்த கேள்விக்கு பதில் அளிப்பதற்காக, இந்தத் தரவு -ஒவ்வொரு பயணத்திற்கான தகவல்களுக்கு-டிரைவிற்கான நேரம், துவக்க நேரம், இறுதி இருப்பிடம், கட்டணம் மற்றும் முனை (கடன் அட்டை மூலம் முத்திரை செலுத்தியிருந்தால்) தொடங்கும் போது, . இந்த டாக்ஸி மீட்டர் தரவைப் பயன்படுத்தி, ஃபாபர், பல ஓட்டுநர்கள் வேலை நாட்களில் அதிகமாக வேலை செய்கின்றனர், இது நியோகிளாசிக்கல் தியரிக்கு இசைவானதாகும்.
இந்த முக்கிய கண்டுபிடிப்போடு மட்டுமல்லாமல், பல்வகைமை மற்றும் இயக்கவியலின் ஒரு சிறந்த புரிதலுக்காக தரவுகளின் அளவுகளைப் பயன்படுத்த ஃபர்பர் முடிந்தது. காலப்போக்கில், புதிய ஓட்டுனர்கள் படிப்படியாக அதிக ஊதிய நாட்கள் (எ.கா., அவர்கள் நியோகிளாசிக்கல் மாதிரியாக முன்னறிவிக்கும்படி நடந்து கொள்ள வேண்டும்) மீது அதிக மணிநேரம் வேலை செய்ய கற்றுக்கொள்கிறார்கள். மேலும் புதிய இலக்குகளைச் செலுத்தும் புதிய டிரைவர்கள், டாக்ஸி ஓட்டுனர்களாக இருப்பதைவிட அதிக வாய்ப்புள்ளது. தற்போதைய டிரைவர்களின் கவனிக்கப்பட்ட நடத்தை விளக்க உதவும் இந்த நுட்பமான கண்டுபிடிப்புகள் இரண்டும், தரவுத்தளத்தின் அளவு காரணமாக மட்டுமே சாத்தியம். குறுகிய காலத்தில் (Camerer et al. 1997) ஒரு சிறிய எண்ணிக்கையிலான டாக்ஸி ஓட்டுனர்களிடமிருந்து பேப்பர் ட்ரிப் தாள்களைப் பயன்படுத்திய முந்தைய ஆய்வுகளில் அவை கண்டறிய முடியாதவை.
Farber இன் ஆய்வு ஒரு பெரிய தரவு மூலத்தை பயன்படுத்தி ஆராய்ச்சிக்கு ஒரு சிறந்த சூழ்நிலையில் நெருக்கமாக இருந்தது, ஏனெனில் நகரத்தால் சேகரிக்கப்பட்ட தரவு ஃபாரபர் சேகரிக்கப்பட்டிருந்த தரவுக்கு மிக நெருக்கமாக இருந்தது (ஒரு வேறுபாடு ஃபர்பர் ஊதியங்கள் மற்றும் கட்டண குறிப்புகள்- ஆனால் நகர தரவு மட்டுமே கிரெடிட் கார்டு மூலம் வழங்கப்பட்ட உதவிக்குறிப்புகளை உள்ளடக்கியது). எனினும், தரவு மட்டும் போதுமானதாக இல்லை. பார்பரின் ஆராய்ச்சியின் முக்கியமானது தரவுக்கு ஒரு சுவாரஸ்யமான கேள்வியைக் கொண்டு வந்தது, இந்த குறிப்பிட்ட அமைப்பைத் தாண்டி பெரிய தாக்கங்களைக் கொண்ட ஒரு கேள்வி.
சீன அரசாங்கத்தால் ஆன்லைன் தணிக்கை மீது கேரி கிங், ஜெனிஃபர் பான், மற்றும் மோலி ராபர்ட்ஸ் (2013) ஆகியோரால் ஆராய்ச்சி செய்யப்படுவதால், விஷயங்களை எண்ணிப்பார்க்க இரண்டாவது உதாரணம் உள்ளது. ஆயினும், இந்த விஷயத்தில், ஆராய்ச்சியாளர்கள் தங்களது பெரிய தரவுகளை சேகரிக்க வேண்டியிருந்தது, அவற்றின் தரவு முழுமையற்றது என்ற உண்மையை அவர்கள் சமாளிக்க வேண்டியிருந்தது.
சீனாவில் சமூக ஊடகப் பதிவுகள் பல்லாயிரக்கணக்கான மக்களை உள்ளடக்கியதாக கருதப்படும் ஒரு மகத்தான அரச இயந்திரத்தால் தணிக்கை செய்யப்படுவதால், கிங் மற்றும் சக ஊழியர்கள் ஊக்கமளித்தனர். இருப்பினும், ஆராய்ச்சியாளர்கள் மற்றும் குடிமக்கள், என்ன தணிக்கை நீக்கப்பட வேண்டும் என்பதைத் தணிக்கை செய்வது எப்படி என்பதில் சிறிது அர்த்தம் இல்லை. சீனாவின் அறிஞர்கள் உண்மையிலேயே முரண்பாடான எதிர்பார்ப்புகளைக் கொண்டுள்ளனர், எந்த வகையான பதிவுகள் நீக்கப்படக்கூடும் என்பது பற்றியதாகும். சிலர், தணிக்கைக்கு உட்பட்ட இடுகைகளில் கவனம் செலுத்துகிறார்கள் என்று சிலர் நினைக்கிறார்கள், மற்றவர்கள் எதிர்ப்புக்கள் போன்ற ஒருங்கிணைந்த நடத்தை ஊக்குவிக்கும் பதவிகளில் கவனம் செலுத்துகிறார்கள் என்று நினைக்கிறார்கள். இந்த எதிர்பார்ப்புகளில் எது சரியானது என்பதைக் கண்டறிவது, சீன மற்றும் பிற சர்வாதிகார அரசாங்கங்களைத் தணிக்கை செய்வதில் ஆராய்ச்சியாளர்கள் எவ்வாறு புரிந்துகொள்கின்றனர் என்பதற்கான தாக்கங்கள் உள்ளன. எனவே, கிங் மற்றும் சக பதிப்புகள் வெளியிடப்பட்ட மற்றும் பின்னர் நீக்கப்பட்டு வெளியிடப்பட்ட பதிவுகள் நீக்கப்பட்டது மற்றும் பதிவுகள் வெளியிடப்பட்டது வேண்டும்.
இந்த பதிவுகள் சேகரித்தல் தொடர்புடைய பதிவுகள் வெவ்வேறு பக்கம் அமைப்பு-கிடைப்பது, பின் இது பின்னர் நீக்கப்பட்டன பார்க்க இந்த பதிவுகள் அடைவதை கொண்டு 1,000 க்கும் மேற்பட்ட சீன சமூக ஊடக வலைத்தளங்கள்-ஒவ்வொரு ஊர்ந்து அற்புதமான பொறியியல் சாதனையை சம்பந்தப்பட்ட. பெரிய அளவில் வலை ஊர்ந்து தொடர்புடைய சாதாரண பொறியியல் பிரச்சினைகள் கூடுதலாக, இந்த திட்டம் பல தணிக்கை செய்யப்பட்ட பதிவுகள் 24 மணி நேரத்திற்கும் குறைவாக கீழே எடுக்கப்படும் ஏனெனில் இது மிகவும் வேகமாக இருக்க வேண்டும் என்று சவாலாக இருந்தது. வேறு வார்த்தைகளில் கூறுவதானால், ஒரு மெதுவான கிராலர் தணிக்கைசெய்தனர் என்று பதிவுகள் நிறைய தவற விடும். மேலும், நகர்வுகளில் சமூக ஊடக வலைத்தளங்கள் அணுகலை தடுக்க அல்லது இல்லையெனில் ஆய்வு பதில் தங்கள் கொள்கைகளை மாற்ற போகின்றீர் கண்டறிதல் தவிர்த்துவிட்டு, அனைத்து இந்த தரவு சேகரிப்பு செய்ய வேண்டியிருந்தது.
இந்த மகத்தான பொறியியல் பணியை நிறைவு செய்த காலப்பகுதியில், கிங் மற்றும் சகாக்கர்கள் சுமார் பதினைந்து மில்லியன் பதிவுகள் 85 வெவ்வேறு முன்கூட்டியே தலைப்புகள், ஒவ்வொன்றும் ஒரு உணர்திறன் கொண்ட உணர்வுடன் பெற்றனர். உதாரணமாக, அதிக உணர்திறன் ஒரு தலைப்பு அயி வேய்வி, விவாதம் கலைஞர்; நடுத்தர உணர்திறன் ஒரு தலைப்பு சீன நாணய பாராட்டு மற்றும் குறைபாடு ஆகும், மற்றும் குறைந்த உணர்திறன் ஒரு தலைப்பு உலக கோப்பை ஆகும். இதில் 11 மில்லியன் பதிவுகள், கிட்டத்தட்ட 2 மில்லியன் தணிக்கை செய்யப்பட்டுள்ளன. சற்றே வியப்புக்குள்ளாக, கிங் மற்றும் சக ஊழியர்கள் மிகவும் உணர்ச்சிகரமான தலைப்புகளில் பதிவுகள் நடுத்தர- மற்றும் குறைந்த உணர்திறன் தலைப்புகளில் விட சற்று அதிகமாக தணிக்கை என்று கண்டறியப்பட்டது. வேறு வார்த்தைகளில் கூறுவதானால், சீன தணிக்கையாளர்கள் Ai Weiwei உலக கோப்பை பற்றி ஒரு பதவி என்று குறிப்பிடும் ஒரு பதவியை தணிக்கை வாய்ப்பு உள்ளது. இந்த விஷயங்கள் அரசாங்கத்தின் முக்கிய விஷயங்களில் அனைத்து தணிக்கைகளையும் தணிக்கை செய்யும் என்ற கருத்தை ஆதரிக்கவில்லை.
தலைப்பில் தணிக்கை விகிதம் இந்த எளிய கணக்கீடு தவறாக இருக்கலாம். உதாரணமாக, அரசாங்கம் ஏய் வெயிவிக்கு ஆதரவாக இருக்கும் பதவிகளை தணிக்கை செய்யலாம், ஆனால் அவரை விமர்சித்துள்ள பதவிகளை விடுங்கள். இடுகைகளை மேலும் கவனமாக வேறுபடுத்துவதற்காக, ஆராய்ச்சியாளர்கள் ஒவ்வொரு பதவியின் உணர்வையும் அளவிட வேண்டும். துரதிருஷ்டவசமாக, அதிக வேலை செய்தாலும், முன்பே இருக்கும் அகராதிகள் பயன்படுத்தி உணர்ச்சி கண்டறிதல் முழுமையாக தானியங்கி முறைகளை பல சூழ்நிலைகளில் இன்னும் நன்றாக இல்லை (பிரிவு 2.3.9 இல் விவரிக்கப்பட்ட செப்டம்பர் 11, 2001 ஒரு உணர்ச்சி காலக்கெடுவை உருவாக்கும் பிரச்சினைகள்). எனவே, கிங் மற்றும் சக ஊழியர்கள் தங்கள் 11 மில்லியன் சமூக ஊடக பதிவுகள், (1) மாநிலத்தை விமர்சிக்கிறார்கள், (2) அரசின் ஆதரவாளர்கள், அல்லது (3) நிகழ்வுகள் பற்றிய பொருத்தமற்ற அல்லது உண்மை அறிக்கைகள் என்பதைக் குறிப்பிடுவதற்கு ஒரு வழி தேவை. இது ஒரு பாரிய வேலையைப் போல் தெரிகிறது, ஆனால் அவை தரவுத் தளங்களில் பொதுவாகக் காணக்கூடிய சக்திவாய்ந்த தந்திரத்தை பயன்படுத்தி ஆனால் சமுதாயத்தில் ஒப்பீட்டளவில் அரிதாக இருக்கிறது: மேற்பார்வைக் கற்றல் ; எண்ணிக்கை 2.5 ஐப் பார்க்கவும்.
முதலாவதாக, ப்ராப்ராஸ்செசிங் என்று அழைக்கப்படும் ஒரு படி, சமூக ஊடக பதிவுகள் ஒரு ஆவணம்-காலவரைக்குள் மாறியது, இதில் ஒவ்வொரு ஆவணத்திற்கும் ஒரு வரிசையும், ஒரு குறிப்பிட்ட வார்த்தை (எ.கா., எதிர்ப்பு அல்லது ட்ராஃபிக்) . அடுத்து, ஆராய்ச்சி உதவியாளர்களின் குழுவானது இடுகைகளின் ஒரு மாதிரி உணர்வைக் கைமுகமாகக் காட்டியது. பின்னர், இந்த கை-பெயரிடப்பட்ட தரவைப் பயன்படுத்தி ஒரு இயந்திர கற்றல் மாதிரி உருவாக்க, அதன் பண்புகளை அடிப்படையாகக் கொண்ட ஒரு இடுகையின் உணர்வைத் தூண்ட முடியும். இறுதியாக, அவர்கள் இந்த மாதிரி 11 மில்லியன் பதிவுகள் உணர்வு மதிப்பிடுவதற்கு பயன்படுத்தினர்.
11 மில்லியன் பதில்களை கைமுறையாகப் படித்துப் பதிவு செய்வதற்குப் பதிலாக, இது தர்க்கரீதியாக சாத்தியமில்லாதது-கிங் மற்றும் சகாக்கள் ஒரு சிறிய எண்ணிக்கையிலான இடுகைகளை கைமுறையாக பெயரிட்டு, அனைத்து இடுகைகளின் உணர்வை மதிப்பிடுவதற்கு மேற்பார்வை செய்யப்பட்ட கற்றலைப் பயன்படுத்தினர். இந்த பகுப்பாய்வு முடிந்தபின், அவர்கள் முடிந்த ஒரு முடிவை முடிக்க முடிந்தது, ஒரு பதவி நீக்கப்படுவதற்கான சாத்தியக்கூறு தொடர்பில் மாநில அரசு அல்லது அரசுக்கு ஆதரவளித்ததா என்பது தொடர்பாக தொடர்பற்றது.
இறுதியில், மூன்று வகையான பதிவுகள் வழக்கமாக தணிக்கை செய்யப்பட்டன: ஆபாசம், தணிக்கை பற்றிய விமர்சனம் மற்றும் கூட்டு நடவடிக்கை திறன் (அதாவது, பெரிய அளவிலான ஆர்ப்பாட்டங்களுக்கு இட்டுச்செல்லும் வாய்ப்பு) ஆகியவற்றின் அடிப்படையில் மட்டுமே கிங் மற்றும் சக ஊழியர்கள் கண்டறியப்பட்டனர். நீக்கப்பட்ட பதிவுகள் மற்றும் நீக்கப்பட்ட பதிவுகள் ஆகியவற்றைக் கவனிப்பதன் மூலம், தணிக்கை செய்வோர் தணிக்கை செய்வதையும், கணக்கிடுவதாலும் எவ்வாறு வேலை செய்ய முடியும் என்பதை அறிய முடிந்தது. மேலும், இந்த புத்தகம் முழுவதிலும் ஏற்படும் ஒரு கருத்தை முன்வைக்கின்றது, மேற்பார்வை செய்யப்பட்ட கற்றல் அணுகுமுறை அவர்கள் சில விளைவுகளை பயன்படுத்தியிருப்பதையும் பின்னர் டிஜிட்டல் வயதில் சமூக ஆராய்ச்சி . அத்தியாயங்கள் 3 (கேள்விகளைக் கேட்பது) மற்றும் 5 (வெகுஜன ஒத்துழைப்பை உருவாக்குதல்) ஆகியவற்றில் 2.5 ஐ ஒப்பிட்டுப் பார்ப்பதற்கு நீங்கள் மிகவும் ஒத்த படங்களைக் காண்பீர்கள்; இது பல அத்தியாயங்களில் தோன்றும் சில கருத்துக்களில் ஒன்று.
இந்த எடுத்துக்காட்டுகள் - நியூயார்க்கில் டாக்சி டிரைவர்கள் மற்றும் சீன அரசாங்கத்தின் சமூக ஊடக தணிக்கை நடத்தை ஆகியவற்றின் செயல்பாட்டு நடத்தை - பெரிய தரவு ஆதாரங்களின் ஒப்பீட்டளவில் எளிமையான கணக்கீடு சில சூழ்நிலைகளில் சுவாரஸ்யமான மற்றும் முக்கியமான ஆராய்ச்சிக்கு வழிவகுக்கும் என்று காட்டுகின்றன. இருப்பினும், இரு சந்தர்ப்பங்களிலும், ஆராய்ச்சியாளர்கள் சுவாரசியமான கேள்விகளை பெரிய தரவு ஆதாரத்திற்கு கொண்டு வர வேண்டியிருந்தது; தரவு தன்னை போதுமானதாக இல்லை.