විශාල දත්ත කාණ්ඩ අවසන් කිරීමට මාධ්යයක් ය; ඔවුන් තමන් තුළ අවසන් නොවේ.
විශාල දත්ත හොඳ ලක්ෂණ තුනක් පළමු වඩාත් සාකච්ඡා වන්නේ: අකුරු ලොකු දත්ත වේ. බොහෝ මිනිසුන්, එක් අයෙකු සඳහා තොරතුරු විශාල, හෝ කාලය පුරා බොහෝ නිරීක්ෂණ: මෙම දත්ත මූලාශ්රයන් එකිනෙකට වෙනස් ක්රම තුනක් දී මහා විය හැක. විශාල දත්ත සමුදාය සහිත කුඩා වෙනස්කම් සොයා බැලීය දුර්ලභ සිදුවීම් අධ්යයනය, පර්යේෂණ-මිනුම් heterogeneity විශේෂිත ආකාරයේ සමහර හැකියාව, සහ නිරීක්ෂණ දත්ත පොදු ඇස්තමේන්තු කිරීම. එය ද කොටසේ බෑවුමේ ස්වභාවය නිශ්චිත වර්ගය තුඩු පෙනේ.
ප්රමාණය විශේෂයෙන්ම ප්රයෝජනවත් වේ සඳහා පළමු දෙය විශේෂිත අනු කණ්ඩායම් සඳහා තක්සේරු කිරීම් සඳහා සාමාන්ය බර ඔබ්බට ගමන් කර ඇත. උදාහරණයක් ලෙස, ගැරී රජු, ජෙනිෆර් පෑන්, සහ Molly රොබට්ස් (2013) චීනයේ සමාජ මාධ්ය තනතුරු රජය විසින් වාරණය කරන ලද බව සම්භාවිතාව මැන්නේ ය. තමන් විසින් මකා දැමීමට මෙම සාමාන්ය සම්භාවිතාව රජය සමහර තනතුරු නමුත් අන් අය censors ඇයි තේරුම් ගැනීම සඳහා ඉතා ප්රයෝජනවත් නොවේ. එහෙත්, ඔවුන්ගේ දත්ත සමුදාය තනතුරු මිලියන 11 සමන්විත වූ නිසා, රජ හා සගයන් ද වෙනම කාණ්ඩ 85 (උදා: කාමුක දර්ශන, ටිබෙට්, සහ වාහන බීජිං) මත තනතුරු සඳහා වාරණයක් සම්භාවිතාව සඳහා ඇස්තමේන්තු ඉදිරිපත්. විවිධ කාණ්ඩ තනතුරු සඳහා වාරණයක් සම්භාවිතාව සංසන්දනය කිරීම මගින් ඔවුහු, ආන්ඩුවේ තනතුරු ඇතැම් වර්ගවල censors ආකාරය ඇයි ගැන වැඩි තේරුම් ගැනීමට හැකි විය. 11 දහසක් තනතුරු (රුපියල් මිලියන 11 වෙනුවට තනතුරු) නිසා, ඔවුන් මෙම ප්රවර්ගය සතු විශේෂිත ඇස්තමේන්තු නිෂ්පාදනය කිරීමට හැකි වී නැහැ.
දෙවනුව, ප්රමාණය දුර්ලභ සිදුවීම් අධ්යයනය සඳහා විශේෂයෙන් ප්රයෝජනවත් වේ. උදාහරණයක් ලෙස, Goel හා සගයන් (2015) tweets වෛරස යා හැකි බව විවිධ ක්රම අධ්යයනය කිරීමට අවශ්ය විය. එය 3000-ඔවුන්ගේ විශ්ලේෂණය සඳහා ප්රමාණවත් තරම් විශාල ධාරාවල සොයා ගැනීම සඳහා රුපියල් බිලියනයකට වැඩි tweets අධ්යයනය කිරීම සඳහා අවශ්ය යළි tweets විශාල ධාරාවල ඉතා දුර්ලභ-එකක් පමණ වන නිසයි.
තෙවනුව, විශාල දත්ත කාණ්ඩ කුඩා වෙනස්කම් හඳුනා ගැනීමට පර්යේෂකයන් සක්රිය කරන්න. ඇත්ත වශයෙන්ම, කර්මාන්තය තුළ විශාල දත්ත මත අවධානය යොමු බොහෝ මෙම කුඩා වෙනස්කම් ගැන ය: විශ්වාසවන්ත කටයුතු දැන්වීම් මත 1% හා 1.1% ක්ලික් තෲ අනුපාතය අතර වෙනස සොයා බැලීය අමතර ආදායම් ඩොලර් මිලියන බවට පරිවර්තනය කළ හැක. ඇතැම් විද්යාත්මක සැකසුම් දී, එවැනි කුඩා වෙනස්කම් (ඔවුන් සංඛ්යාත්මක ලෙස වැදගත් වුවද) විශේෂයෙන්ම වැදගත් විය නොහැකි විය. එහෙත්, ඇතැම් ප්රතිපත්ති සැකසීම් තුළ, එම කුඩා වෙනස්කම් වැදගත් සමස්ත පෙනීයා බවට පත් වෙන්න පුළුවන්. උදාහරණයක් ලෙස, මහජන සෞඛ්ය මැදිහත්වීම් දෙකක් තිබේ එක් අනෙක් වඩා තරමක් වඩාත් ඵලදායී වේ නම්, වඩාත් ඵලදායී මැදිහත්වීම මාරු දක්වා අතිරේක ජීවිත දහස් ගණනක් බේරා අවසන් විය.
අවසාන වශයෙන්, විශාල දත්ත කාණ්ඩ විශාල නිරීක්ෂණ දත්ත පොදු තක්සේරු කිරීම් සඳහා ඇති අපේ හැකියාව වැඩි වේ. විශාල දත්ත කාණ්ඩ මූලිකව, ස්වාභාවික පරීක්ෂණ දෙකක් පර්යේෂකයන් නිරීක්ෂණ දත්ත-දෙකේම පොදු හිමිකම් කරමින් විශාල දත්ත කාණ්ඩ විශාල වශයෙන් ප්රතිලාභ සඳහා නිර්මාණය කර ඇති ක්රම නිරීක්ෂණ දත්ත පොදු අනුමානය විශ්වාසනීයත්වයක් කරමින් ඇති ගැටළු හා ගැලපෙන වෙනස්වීම් සහ වෙනස් කරන්න එපා වුවද. මම පර්යේෂණ උපාය මාර්ග විස්තර විට පසුව මෙම පරිච්ඡේදයේ වැඩි විස්තර මෙම ප්රකාශය පැහැදිලි හා පැහැදිලි කරන්නම්.
නිවැරදිව භාවිත කරන විට bigness සාමාන්යයෙන් හොඳ දේපල වුවද, මම bigness පොදුවේ සංකල්පීය දෝෂයක් හේතු වන බව දැක තියෙනවා. යම් හේතුවක් නිසා, bigness දත්ත උත්පාදනය කරන ආකාරය නොසලකා හැරීමට පර්යේෂකයන් නායකත්වය පෙනේ. Bigness අහඹු දෝෂයක් ගැන කරදර වෙන්න අවශ්ය අවම කරන්නේ අතර, එය ඇත්ත වශයෙන්ම ක්රමානුකූලව වැරදි ගැන කරදර වෙන්න අවශ්ය වැඩි, මම තවත් ඒ පහත ඇති විස්තර කරන්නම් බව, වැරදි ආකාරයේ දත්ත නිර්මාණය හා එකතු වී ඇති ආකාරය ගැන අගතීන් පැන නැගිය. කුඩා දත්ත සමුදාය තුළ, අහඹු දෝෂයක් හා ක්රමානුකූල දෝෂයක් යන දෙකම වැදගත් විය හැකි නමුත්, විශාල දත්ත සමුදාය තුළ අහඹු දෝෂයක් ඉවතට සාමාන්යය කළ හැකි හා ක්රමානුකූල දෝෂයක් මත ආධිපත්යය දරන ඇත. වැරදි දෙයක් පිළිබඳ නිවැරදි ඇස්තමේන්තුවක් ලබා ගැනීමට ඔවුන්ගේ විශාල දත්ත කාණ්ඩ භාවිතා ක්රමානුකූල දෝෂයක් ගැන හිතන්නේ නැහැ සිටින පර්යේෂකයන් අවසන් වනු ඇත; ඔවුන් හරියටම වැරදි දේ වනු ඇත (McFarland and McFarland 2015) .