විශාල දත්ත කාණ්ඩ අවසන් කිරීමට මාධ්යයක් ය; ඔවුන් තමන් තුළ අවසන් නොවේ.
විශාල දත්ත ප්රභවයන්ගේ වඩාත් පුලුල්ව සාකච්ඡාවට ලක් වූ අංගයක් වන්නේ ඒවා විශාලයි. නිදසුනක් වශයෙන්, බොහෝ ලිපි ලේඛන, ඒවා විශ්ලේෂණය කළ කොපමණ සංඛ්යාවක් ගැන කතා කිරීම හා සමහර විට පුරසාරම් දෙඩීමෙන් ආරම්භ කරති. උදාහරණයක් ලෙස, Google පොත් පෙළ නායකත්වයක් දී වචනය භාවිත ප්රවණතා අධ්යයනය විද්යා පළ වූ කඩදාසි පහත ඇතුළත් (Michel et al. 2011) :
ඉංග්රීසි (බිලියන 361), ප්රංශ (බිලියන 45), ස්පාඤ්ඤ (බිලියන 45), ජර්මන් (බිලියන 37), චීන (බිලියන 13), රුසියානු (බිලියන 35) සහ හෙබ්රෙව් (බිලියන 2). පැරණිතම කෘති 1500 ගණන්වල පළ විය. මුල් දශක කිහිපය තුළ වසරකට පොත් කිහිපයක් පමණි. වර්ෂ 1800 වන විට කෝප්පය වසරකට වචන මිලියන 98 දක්වා වර්ධනය වේ. 1900, බිලියන 1.8 යි; සහ 2000, බිලියන 11 ක්. මිනිස් සිරුරට කියවෙන්නේ මිනිසා විසින් නොවේ. 2000 වර්ෂයේ සිට පමණක් ඉංග්රීසි භාෂාවෙන් සටහන් පමණක් කියවීමට උත්සාහ කළොත්, ආහාර හෝ නින්ද සඳහා බාධා කිරීම් නොමැතිව වචන 200 ක් / වේලාවක සාධාරණ වේගයකින් යුක්ත වුවහොත් අවුරුදු 80 ක් ගත වේ. අක්ෂරවල අනුපිළිවෙල මිනිස් මානුමානයන්ට වඩා 1000 ගුණයක් දිගු වේ: ඔබ කෙළින්ම රේඛාව ලියූ විට එය සඳ හා නැවත 10 ගුණයක් වෙත ලඟා වනු ඇත. "
මෙම දත්තවල පරිමාණය නිසැකවම විශ්මයජනක වන අතර, මෙම ගූගල් ග්රන්ථ සමූහය මෙම දත්ත මහජනතාවට නිකුත් කර ඇත (ඇත්ත වශයෙන්ම, මෙම පරිච්ඡේදයේ අවසානයේ සමහර ක්රියාකාරකම් මෙම දත්ත භාවිතා කරයි). නමුත්, මේ වගේ දෙයක් ඔබ දකින විට ඔබ අහන්න ඕන: සියලු දත්ත සැබවින්ම කරන්නේ කුමක් ද? දත්ත එකවර චන්ද්රයා වෙත ළඟා විය හැකි වුවහොත් නැවතත් එකම පර්යේෂණ සිදු කළ හැකිද? මෙම දත්ත එවරස්ට් කඳු මුදුනට හෝ අයිෆල් කුළුණෙහි මුදුනේ සිට පැමිණිය හැකි නම් කුමක් ද?
මේ අවස්ථාවේ දී, ඔවුන්ගේ පර්යේෂණය ඇත්ත වශයෙන්ම දීර්ඝ කාල පරිච්ඡේදයක් තුළ දී වචන විශාල ලිපියක් අවශ්ය වන සොයා ගැනීම් කිහිපයක් තිබේ. නිදසුනක් ලෙස, ඔවුන් සොයා ගන්නේ එක් ව්යාකරණ පරිණාමයකි, විශේෂයෙන් අවිධිමත් වාක්යානු ජාන විකෘති අනුපාතය වෙනස් කිරීමයි. සමහර අවිධිමත් ක්රියාපද ඉතා දුර්ලභ බැවින්, කාලයත් සමඟ වෙනස්කම් හඳුනා ගැනීමට විශාල දත්ත ප්රමාණයක් අවශ්ය වේ. කෙසේ වෙතත්, බොහෝ විට, පර්යේෂකයන් විශාල දත්ත මූලාශ්රයක ප්රමාණය සැලකිල්ලට ගනී. අවසානය ලෙස, "මම හැකි තරම් ප්රමාණාත්මක දත්ත බලන්න" - තවත් වැදගත් විද්යාත්මක අරමුනක් සඳහා මාර්ගයක් ලෙසට.
මගේ අත්දැකීම්වලදී, දුර්ලභ ගණයේ සිදුවීම් අධ්යයනය කිරීම සඳහා විශාල දත්ත කට්ටලයක් සවිබල ගැන්වෙන විශේෂිත විද්යාත්මක නිමාවන්ගෙන් එකක් වේ. දෙවනුව එක්සත් රාජධානියේ සමාජ සංචලතාව පිළිබඳ රාජ් චේට්ටි සහ සගයන් (2014) විසින් අධ්යයනය කිරීම මගින් විෂමතාවයක් අධ්යයනය කළ හැකිය. අතීතයේ බොහෝ පර්යේෂකයන් විසින් සමාජීය චලනය අධ්යයනය කර ඇත්තේ දෙමාපියන්ගේ හා දරුවන්ගේ ජීවිතයේ සිදුවීම් සමඟ සැසඳීමෙනි. මෙම සාහිත්යයේ නිරවද්ය සොයා ගැනීම වන්නේ වාසිදායක දෙමව්පියන් වාසිදායක දරුවන් බවට පත්ව ඇති බවය. එහෙත් මෙම සබඳතාවේ ශක්තිය පුරා කාලය හා රටවල් අතර විවිධ වේ. (Hout and DiPrete 2006) . කෙසේ වෙතත් මෑතදී, චෙට්ටි සහ සගයන්ට ඇමෙරිකාවේ කලාපය පුරා අන්තර් ජනගණීය සංචලතාවයේ විෂමතාවයන් ගණනය කිරීම සඳහා මිලියන 40 කගේ බදු වාර්තා භාවිතා කිරීමට හැකි විය (රූපය 2.1). නිදසුනක් වශයෙන්, ළමා ආදායමක් උපදවන ජාතික මට්ටමේ බෙදාහැරීමේ ඉහලම පරාසයට ළඟා වූ පවුලක් විසින් පහත් පංචන්දී පවුලෙන් 13% ක් පමණ වන අතර, කැලිෆෝනියාවේ සැන් ජෝස්ස් හි 13% ක් පමණ වන නමුත් උතුරු කැරොලිනා හි චාර්ලට් හි 4% ක් පමණ වේ. ඔබ තත්පරයකට රූපය දෙස බැලුවහොත්, අනෙක් ස්ථානවලට වඩා සමහර ජනගහනය තුළ අන්තර්ජීවජනක සංචලතාව වැඩි වී ඇත්තේ මන්දැයි ඔබ විමසනු ඇත. චෙට්ටි සහ සගයන්ට එකම ප්රශ්නයම තිබුනේය. එම අධි සංවධනය සඳහා ප්රදේශවලට අඩු නේවාසික බෙදීම්, අඩු ආදායම් අසමානතාව, හොඳ ප්රාථමික පාසල්, විශාල සමාජ ප්රාග්ධනය සහ වැඩි පවුල් පවතියි. ඇත්ත වශයෙන්ම, මෙම සම්බන්ධතාවන් පමණක් මෙම සාධක වඩා ඉහල සංචලනය හේතු වන බව නොපෙන්වන නමුත්, තවදුරටත් වැඩ කටයුතු සඳහා ගවේෂණය කළ හැකි වෙනත් යාන්ත්රණයන් යෝජනා කළ හැකි අතර ඒවා චෙට්ටි සහ සගයන් පසුකාලීනව සිදු කර ඇත. මෙම ව්යාපෘතියේ දත්ත ප්රමාණය ඉතා වැදගත් බව සැලකිල්ලට ගන්න. චෙට්ටි සහ සගයන් විසින් 40,000 කට අධික සංඛ්යාවක් වෙනුවට 40,000 කට අධික බදු සංඛ්යාවක් භාවිතා කර තිබේ නම්, කලාපීය අසමමිතිකත්වය තක්සේරු කිරීමට ඔවුන්ට නොහැකි විය. මෙම විචලනය නිර්මානය කරන යාන්ත්රණයන් හඳුනා ගැනීමට උත්සාහ කිරීම සඳහා පසුකාලීන පර්යේෂණ සිදු කිරීමට ඔවුන්ට නොහැකි විය.
අවසාන වශයෙන්, දුර්ලභ අවස්ථාවන් අධ්යයනය කිරීම හා විෂමජාතීත්වය අධ්යයනය කිරීමට අමතරව, විශාල දත්ත කාණ්ඩයන්ටද පර්යේෂකයන්ට කුඩා වෙනස්කම් හඳුනා ගැනීමට හැකියාව ඇත. ඇත්ත වශයෙන්ම, කර්මාන්තයේ විශාල දත්ත පිළිබඳ අවධානය බොහෝ දුරට මෙම කුඩා වෙනස්කම් ගැන: බොහෝ විට දැන්වීම් මත 1% සහ 1.1% අතර ක්ලික් කිරීමේ අනුපාත විශ්වසනීයව අනාවරණය කර ගත හැකිය අතිරේක ආදායම් වලින් ඩොලර් මිලියන ගණනකට පරිවර්තනය කළ හැකිය. කෙසේ වෙතත් ඇතැම් විද්යාත්මක සැකසුම්වල දී, එවැනි කුඩා වෙනස්කම් විශේෂයෙන් වැදගත් නොවන අතර, ඒවා සංඛ්යාත්මකව වැදගත් වුවද (Prentice and Miller 1992) . එහෙත්, සමහර ප්රතිපත්ති සැකසීම් වලදී, සමස්තයක් වශයෙන් දැක්වෙන විට ඒවා වැදගත් විය හැකිය. නිදසුනක් වශයෙන්, මහජන සෞඛ්යය මැදිහත්වීම් දෙකක් ඇති අතර, අනෙක් එකට වඩා තරමක් වඩා ඵලදායී නම්, වඩා ඵලදායී මැදිහත් වීමක් තෝරාගැනීම මගින් අතිරේක ජීවිත දහස් ගණනක් ඉතිරි කර ගත හැකිය.
ව්යාජ ලෙස භාවිතා කළ විට එය හොඳ දේපලක් වුවද, එය සමහර අවස්ථාවල සංකල්පමය දෝෂයක් ඇති බව මට පෙනේ. යම් හේතුවක් නිසා, ඔවුන්ගේ දත්ත ජනනය කළේ කෙසේදැයි නොසලකා හැරීමට පර්යේෂකයන් මෙහෙයවනු ඇත. Bigness අහඹු දෝෂයක් ගැන කරදර කිරීමට ඇවැසි කරන්නේ අතර, එය සැබවින්ම ක්රමානුකූල වැරදි ගැන කරදර වෙන්න අවශ්ය වැඩි, මම ඒ පහත විස්තර කරන්නම් බව, වැරදි ආකාරයේ දත්ත නිර්මාණය වී ඇති ආකාරය ගැන අගතීන් පැන නැගිය. නිදසුනක් වශයෙන්, මම මෙම පරිච්ඡේදයෙන් පසුව විස්තර කරමි. පර්යේෂකයන් විසින් සැප්තැම්බර් 11 වන දින නිකුත් කරන ලද පණිවුඩයන්, ත්රස්තවාදී ප්රහාරයට ප්රතික්රියා කිරීමේ අධි (Back, Küfner, and Egloff 2010) චිත්තවේගී කාල පරාසයක් නිර්මාණය කිරීම සඳහා (Back, Küfner, and Egloff 2010) . පර්යේෂකයන්ට විශාල පණිවුඩ තිබුණු නිසා, ඔවුන් නිරීක්ෂණය කළ හැටි, දිවා කාලය පුරා කෝපය වැඩි කිරීම සඳහා අහඹු විචලනයකින් පැහැදිලි විය. එතරම් සංඛ්යාත්මක දත්ත තිබුණු අතර, රටෙහි සියලු සංඛ්යානමය සංඛ්යා ලේඛනවලින් පෙනී ගියේ, මෙය සැබෑ ආකෘතියක් බවයි. එහෙත්, මෙම සංඛ්යානමය පරීක්ෂණ, දත්ත නිර්මාණය කරන ලද්දේ කෙසේදැයි නොදැනී ය. සැබවින්ම, දවස පුරා මුළු දවසම අර්ථවත් නොවන පණිවුඩ ජනනය කරන ලද තනි බෝතලයක් බවට හැදෑරූ බව බොහෝමයක් විය. මෙම (Pury 2011; Back, Küfner, and Egloff 2011) ඉවත් කිරීම (Pury 2011; Back, Küfner, and Egloff 2011) සම්පූර්ණයෙන්ම විනාශ කර ඇත. සරලවම, ක්රමානුකූල දෝෂයක් නොපවතින පර්යේෂකයන්ට ස්වයංක්රීය බොට්ස් විසින් නිපදවන අර්ථවත් නොවන පණිවුඩවල චිත්තවේගාත්මක අන්තර්ගතය වැනි නිරවද්ය ප්රමාණ පිළිබඳ නිවැරදි තක්සේරුවක් ලබා ගැනීම සඳහා ඔවුන්ගේ විශාල දත්ත කට්ටල භාවිතා කිරීමේ අවදානමකට මුහුණපාති.
අවසානයේ දී විශාල දත්ත කට්ටල තමන් තුළම අවසානයක් නොවේ. දුර්ලභ අවස්ථාවන් අධ්යයනය කිරීම, විෂමතාවයේ තක්සේරු කිරීම හා කුඩා වෙනස්කම් හඳුනාගැනීම වැනි සමහර පර්යේෂණ වලට ඒවා සක්රීය කළ හැකිය. විශාල දත්ත කට්ටලයක් ඔවුන්ගේ දත්ත නිර්මානය කළ ආකාරය නොසලකා හැරීමට ඇතැම් පර්යේෂකයන්ට මඟ පෙන්වනු ඇති බව පෙනෙන්නට තිබේ. එමගින් ඔවුන්ට නිශ්චිත ප්රමාණයක නිශ්චිත ඇස්තමේන්තුවක් ලබා ගත හැකිය.