විශාල දත්ත මූලාශ්ර සෑම තැනකම පවතී, නමුත් සමාජ පර්යේෂණයන් සඳහා ඒවා භාවිතා කිරීම පහසු දෙයක් විය හැකිය. මගේ අත්දැකීම් අනුව, දත්ත සඳහා "නොමිලේ දිවා ආහාර" වැනි යමක් තිබේ: ඔබ එය ගොඩක් වැඩ ගොඩක් නොකළහොත්, ඔබ බොහෝ වැඩ කටයුතු ගැන සිතා බැලීමට සිදු වනු ඇත. විශ්ලේෂණය කරයි.
වර්තමානයේ හෙවත් හෙද හෙදියන්ගේ විශාල දත්ත මූලාශ්රයන් ලක්ෂණ 10 ක් ඇත. මේවායින් තුනක් සාමාන්යයෙන් (නමුත් සෑම විටම) පර්යේෂණ සඳහා ප්රයෝජනවත් වේ: විශාල, හැම විටම සහ නොකැරුණු. හත් දෙනෙකු සාමාන්යයෙන් (නමුත් නො වේ) පර්යේෂණය සඳහා ගැටලුකාරි වේ: අසම්පූර්ණ, අසමසමයි, නොවිසඳුනු, ප්ලැටිම්, ඇල්ගොරිතම වශයෙන් ව්යාකූල, අපිරිසිදු සහ සංවේදී ය. සමාජීය පර්යේෂණයන් සඳහා විශාල දත්ත මූලාශ්ර නිර්මාණය නොවූ නිසා මෙම ලක්ෂණ බොහෝමයක් අවසානයේදී පැනනගයි.
මෙම පරිච්ඡේදයේ අදහස් මත පදනම්ව, සමාජ පර්යේෂණ සඳහා විශාල දත්ත ප්රභවයන් වඩාත් වැදගත් වනු ඇති ප්රධාන ක්රම තුනක් තිබේ. පළමුව, තරඟකාරී න්යායික පුරෝකථනයන් අතර පර්යේෂකයන්ට ඒවාට හැකියාව ලබා දිය හැකිය. මෙම ආකාරයේ කෘතීන් සඳහා උදාහරණ ලෙස Farber (2015) (නිව්යෝර්ක් ටැක්සි රියදුරන්) සහ King, Pan, and Roberts (2013) (චීනයේ වාරනය) ඇතුළත් වේ. දෙවනුව, බොහෝ දත්ත මූලාශ්රවල විකාශනය තුළින් ප්රතිපත්ති සඳහා වැඩිදියුණු කළ හැකි මිනුම් ලබා ගත හැකිය. මෙම ආකාරයේ කෘතිය උදාහරණයක් ලෙස Ginsberg et al. (2009) (Google Flu Trends). අන්තිමේ දී, විශාල දත්ත මූලාශ්ර පර්යේෂකයන්ට පර්යේෂණ සිදු නොවී හේතු සොයා බැලීමට හේතු වේ. මෙම වර්ගයේ වැඩ සඳහා උදාහරණ ලෙස Mas and Moretti (2009) (ඵලදායිත්වය සඳහා සම Mas and Moretti (2009) බලපෑම් සහ Einav et al. (2015) (eBay මත වෙන්දේසිවල ආරම්භක මිල පිළිබඳ බලපෑම). කෙසේවෙතත්, මෙම ප්රවේශයන් කෙසේ වෙතත්, පර්යේෂකයන්ට දත්ත වලට බොහෝ දේ ගෙන ඒමට අවශ්ය වන අතර, ඇස්තමේන්තු කිරීම වැදගත් හෝ ප්රමාණවත් තරඟකාරී පුරෝකථනයන් ඇති න්යායයන් දෙකකි. මේ අනුව, විශාල දත්ත ප්රභවයන් කුමක් කළ හැකිදැයි සිතීමට හොඳම ක්රමය වන්නේ, වැදගත් හා වැදගත් ප්රශ්න ඇසීමට පර්යේෂකයන්ට උපකාර කළ හැකි බවයි.
අවසන් කිරීමට පෙර, දත්ත සහ න්යාය අතර ඇති සම්බන්ධය මත විශාල දත්ත ප්රභවයන් වැදගත් බලපෑමක් ඇතිවිය හැකි බව මා සිතන බව මම සිතනවා. මේ වන විට මෙම පරිච්ඡේදය න්යායාත්මකව පාදක වූ ආනුභූතික පර්යේෂණ ප්රවේශය ගෙන තිබේ. නමුත් විශාල දත්ත මූලාශ්ර පර්යේෂකයන් පර්යේෂකයන්ට අනුකරණය කිරීමට ඉඩ සලසා දෙයි. එනම්, අනුක්රමාත්මක කරුණු, රටා හා ප්රහේලිකා පරිණාමය කිරීම මගින් පර්යේෂකයන්ට නව න්යායන් නිර්මාණය කළ හැකිය. මෙම විකල්පයට අනුව න්යාය සඳහා දත්ත-පළමු ප්රවේශය නව නොවේ. එය පදනම් වූ න්යාය සඳහා ඔවුන්ගේ කැඳවුම සමග Barney Glaser සහ Anselm Strauss (1967) විසින් බලගතු ලෙස ප්රකාශයට පත් කරන ලදී. කෙසේ වෙතත්, මෙම දත්ත-පළමු ප්රවේශය, ඩිජිටල් යුගයේ පර්යේෂණයන්හි ඇතැම් ජනමාධ්ය වල ප්රකාශිත පරිදි "න්යාය අවසානය" යන්නෙන් අදහස් නොකෙරේ. (Anderson 2008) . ඒ වෙනුවට, දත්ත පරිසරය වෙනස් වන පරිදි, දත්ත සහ න්යාය අතර ඇති සම්බන්ධය තුල ප්රතිතුලනය කිරීමක් බලාපොරොත්තු විය යුතුය. දත්ත රැස්කිරීම් මිල අධික වු ලොවක දී, න්යායරිවාදයට යෝජනා කරන ලද දත්තයන් පමණක්ම ප්රයෝජනවත් වනු ඇත. එහෙත්, දැවැන්ත ප්රමාණ දත්ත දැනටමත් නොමිලේ ලබාගත හැකි ලොවක දී, දත්ත-පළමු ප්රවේශය (Goldberg 2015) උත්සාහ කිරීම ද (Goldberg 2015) .
මම මේ පරිච්ඡේදයේ පෙන්වා ඇති පරිදි, පර්යේෂකයන්ට මිනිසුන් දෙස බලමින් බොහෝ දේ ඉගෙන ගත හැකිය. ඊළඟ පරිච්ඡේද තුන තුළ, අපි අපගේ දත්ත රැස්කිරීම් සහ අප විසින් ප්රශ්න සමඟ ඇසුරු කිරීමෙන් (ඍජු 3 පරිච්ඡේදය), පරීක්ෂණ (4 වන පරිච්ඡේදය) පවත්වා ගෙන යාම සහ ඒවා සම්බන්ධ කර ගැනීමෙන් අපට වඩාත් සෘජුවම සම්බන්ධ කරගත හැකි ආකාරය විස්තර කරමු. පර්යේෂණ ක්රියාවලිය සෘජුවම (පරිච්ඡේද 5).