බිග් දත්ත මූලාශ්රයන් නිසරු හා ස්පෑම් භාවිතයට යොදා ගත හැකිය.
ඔවුන් ස්වයංක්රීයවම එකතු කරන නිසා සමහර පර්යේෂකයන් විශ්වාස කරන බව විශාල දත්ත මූලාශ්රයන්, විශේෂයෙන් සමඟ අමුත්තන් මූලාශ්ර වලින් අය, අතරට එක්වූ දකුණු ලක අගනගරය වේ. ඇත්ත වශයෙන්ම, ඔවුන් නිතර අපිරිසිදු බව මහා දත්ත මූලාශ්රයන් සමඟ වැඩ කර ඇත ජනතාව දන්නවා. ඔවුන් නිතර නිතර පර්යේෂකයන් මූර්ත පොලී ක්රියා පිළිබිඹු නොකරන බව දත්ත ඇතුළත් වේ. බොහෝ සමාජ විද්යාඥයින් දැනටමත් මහා පරිමාණ සමාජ සමීක්ෂණ දත්ත පිරිසිදු කිරීමේ ක්රියාවලිය හුරු පුරුදු, නමුත් විශාල දත්ත මූලාශ්රයන් පිරිසිදු හේතු දෙකක් වඩාත් අපහසු වන්නේ: 1) ඔවුන් පර්යේෂකයන් සහ 2 සඳහා පර්යේෂකයන් විසින් නිර්මාණය නැත) පර්යේෂකයන් සාමාන්යයෙන් ආකාරය අඩු අවබෝධයක් ඔවුන් නිර්මාණය කරන ලදී.
අපිරිසිදු ඩිජිටල් හෝඩුවාවක් දත්ත ආපසු සහ සගයන් 'විසින් පැහැදිලි කිරීම සිදු වේ අනතුරු (2010) සැප්තැම්බර් 11 ප්රහාර හැඟීම්බර ප්රතිචාර අධ්යයනය, පර්යේෂකයන් 2001 සාමාන්යයෙන් පවා මාස හෝ වසර ගණනාවක් පුරා එකතු නෙත් යොමා බලන දත්ත භාවිතා ඛේදජනක සිද්ධීන් ප්රතිචාරය හදාරන. එහෙත්, ආපසු සහ සගයන් ඩිජිටල් අංශු මාත්ර වන timestamped ප්රභවය සෑම විටම-මත සොයා, .85,000 ඇමරිකානු පේජර්-සහ මෙම ඉබේම වාර්තා පණිවුඩ වඩා හොඳ මඟින්ද අවධාරණය මත මානසික ප්රතිචාරය අධ්යයනය කිරීම සඳහා පර්යේෂකයන් හැකි වුණා. ආපසු සහ සගයන් (1) දුක (උදා, හැඬීම, දුක), (2) කාංසාව (උදා, අදාළ වචන ප්රතිශතය විසින් පේජරය පණිවිඩ මානසික අන්තර්ගතයට කේතනය සැප්තැම්බර් මස 11 වෙනි දින විනාඩියක්-විසින්-විනාඩි මානසික කාල සටහනකට නිර්මාණය කනස්සල්ලට, බිය), සහ (3) වන කෝපය (උදා, වෛරය, විවේචනාත්මක). ඔවුන් දුක හා කාංසාව ප්රබල රටාව තොරව දවස පුරා උච්ඡාවචනය බව සොයා, නමුත් දවස පුරා කෝපයෙන් කැපී පෙනෙන වර්ධනයක් පවතින බව. එය අනපේක්ෂිත සිදුවීමක් වහාම ප්රතිචාර එවැනි ඉහළ-විභේදන කාල සටහනකට කිරීමට නොහැකි වනු ඇත ක්රමවේද භාවිතා: මෙම පර්යේෂණ දත්ත ආරංචි මාර්ග සැමවිටම මත බලය පුදුමාකාර උපමාව බව පෙනේ.
එක් වසරකට පසු, කෙසේ වෙතත්, සින්තියා Pury (2011) දත්ත දී වඩා හොඳින් බැලුවා. ඇය කෝපයෙන් සිටින යයි කියන පණිවිඩ විශාල ගණනක් තනි පේජරය විසින් ජනනය කරන ලද අතර ඔවුන් සියලු සමාන බව සොයා ගන්නා ලදී. මෙන්න අයට තරහ යයි කියන පණිවිඩ කිව්වේ:
"නැවත ආරම්භ NT යන්ත්රය [නම] කැබිනට් [නම] [ස්ථානයේ] දී: විවේචනාත්මක: [දිනය හා වේලාව]"
සාමාන්යයෙන් ඒවා කෝපය පෙන්නුම් නමුත් මෙම නඩුවේ නැත ඉඩ ඇති "විවේචනාත්මක" යන වචනය ඇතුළත් නිසා මෙම පණිවිඩ තරහ ලේබල් කරන ලදී. මේ එකම ස්වයංක්රීය පේජරය විසින් ජනනය කරන ලද පණිවුඩ ඉවත් කිරීම සම්පූර්ණයෙන්ම දවසේ පාඨමාලාව කෝපය දී පැහැදිලි වර්ධනයක් (රූපය 2.2) ඉවත්වේ. වෙනත් වචන වලින් කිවහොත්, ප්රධාන ප්රතිඵලයක් Back, Küfner, and Egloff (2010) එක් පේජරය ක පුරාවස්තුවක් විය. මෙම උදාහරණය පෙන්නුම් ලෙස, සාපේක්ෂ ලෙස සංකීර්ණ සහ ව්යාකූල දත්ත සාපේක්ෂව සරල විශ්ලේෂණයක් බරපතල වැරදි යන්න ගැනීමට හැකියාවක් පවතිනවා.
එක් ඝෝෂාකාරී සිට නොසිතාම-එවැනි නිර්මාණය කිරීමයි අපිරිසිදු දත්ත සෑහෙන පරිස්සම් පර්යේෂකයෙකු විසින් හඳුනා ගත පේජරය-කළ හැකි අතර, ද මතා spammers ආකර්ෂණය බව සමහර සමඟ අමුත්තන් පද්ධති තිබෙනවා. මෙම spammers ක්රියාකාරීව ව්යාජ දත්ත නිර්මාණය, සහ-බොහෝ විට සැගවී ඔවුන්ගේ ස්පෑම් තබා ගැනීමට ඉතා දුෂ්කර ලාභ වැඩ පෙලඹී. උදාහරණයක් ලෙස, Twitter මත දේශපාලන ක්රියාකාරකම් සමහර දේශපාලන හේතු හිතාමතාම ඔවුන් සැබෑ වඩා ජනප්රිය බැලීමට සිදු සේවක් අඩු තරමේ යම් සාධාරණ නවීන අයාචිත තැපැල්, ඇතුළත් කර ගැනීමට පෙනේ වේ (Ratkiewicz et al. 2011) . මතා ස්පෑම් අඩංගු විය හැකි බව දත්ත සමග වැඩ පර්යේෂකයන් ඔවුන් අනාවරණය සහ අදාළ ස්පෑම් ලෙස ඉවත් කර ඇති බව ඔවුන්ගේ ප්රේක්ෂක ඒත්තු අභියෝගය මුහුණ දීමට සිදු වේ.
අවසාන වශයෙන්, අපිරිසිදු දත්ත සැලකේ ඔබේ පර්යේෂණ ප්රශ්න මත සියුම් ක්රම රඳා හැක. උදාහරණයක් ලෙස, විකිපීඩියා, නිදහස් විශ්වකෝෂය බොහෝ සංස්කරණයන්, ස්වයංක්රීය රොබෝ විසින් නිර්මාණය කරනු (Geiger 2014) . ඔබ විකිපීඩියා, නිදහස් විශ්වකෝෂය පිළිබඳ පරිසර විද්යාව ගැන සැලකිලිමත් වන්නේ නම්, එවිට මෙම රොබෝ වැදගත් වේ. ඒත්, ඔයා මිනිසුන් විකිපීඩියා, නිදහස් විශ්වකෝෂය දායක වන ආකාරය ගැන උනන්දුවන්නේ නම්, මෙම රොබෝ විසින් කරන ලද මෙම සංස්කරණයන් බැහැර කළ යුතු ය.
අපිරිසිදු දත්ත මුලා කරමින් වැළකී සිටීමට ගත හැකි හොඳම ඔබගේ දත්ත එවැනි සරල විසිරණය ඉඩම් කට්ටි කිරීම වැනි සරල ගවේෂණ විශ්ලේෂණය සිදු කිරීමට නිර්මාණය කර අවබෝධ කර ගැනීමට ය.