බිග් දත්ත මූලාශ්රයන් නිසරු හා ස්පෑම් භාවිතයට යොදා ගත හැකිය.
සමහර දත්ත පර්යේෂකයන් විශ්වාස කරන්නේ විශාල දත්ත මූලාශ්ර, විශේෂයෙන්ම මාර්ගගත මූලාශ්ර, ඒවා ස්වයංක්රීයව එකතු කර ඇති නිසාය. ඇත්ත වශයෙන්ම, විශාල දත්ත ප්රභවයන් සමඟ කටයුතු කර ඇති අය, ඔවුන් නිතරම අපිරිසිදු බව දනී. එනම් පර්යේෂකයන්ට උනන්දුවක් දක්වන සැබෑ ක්රියාවන් නොසැලකූ දත්ත වලට ඔවුන් නිතරම ඇතුළත් වේ. විශාල සමාජ විද්යා සමීක්ෂණ දත්ත පිරිසිදු කිරීමේ ක්රියාවලිය බොහෝ සමාජ විද්යාඥයින් දැනටමත් හුරුපුරුදු ය. එහෙත් විශාල දත්ත ප්රභවයන් පිරිසිදු කිරීම වඩා දුෂ්කර ය. මෙම අපහසුතාවයේ අවසාන මූලාශ්රය වන්නේ මෙම විශාල දත්ත මූලාශ්ර බොහොමයක් පර්යේෂණය සඳහා භාවිතා කිරීමට අදහස් නොකරන බවයි. එබැවින් දත්ත පිරිසිදු කිරීමට පහසුකම් සලසමින්, ගබඩා කර ලේඛන ගත නොකරන බවය.
2001 සැප්තැම්බර් 11 වන දින ප්රහාරයන් කෙරෙහි ඇති වූ ආපදාකාරී ප්රතිචාරය නැවතත් සහ සගයින්ගේ (2010) අධ්යයනය මගින් පරික්ෂා කරන ලද ඩිජිටල් ඩ්රයිජස් සොයා ගැනීමේ දත්තයන් නිරූපනය කර ඇත. පර්යේෂකයන් සාමාන්යයෙන් මාස හෝ වසර ගණනාවක් පුරා එකතු කරන ලද අතීත දත්ත භාවිතා කිරීමෙන් ඛේදජනක සිදුවීම්වලට ප්රතිචාර දක්වයි. එහෙත්, Back සහ සගයන් විසින් ඩිජිටල් ලුහුඬුකම් මත නිතරම සොයා ගත් අතර, ඇමෙරිකානු පේජර් 85,000 සිට ස්වයංක්රීයව වාර්තා කරන ලද පණිවුඩ, බොහෝ විට වඩා හොඳ කාලානුරූපී චිත්තවේගීය ප්රතිචාරය අධ්යයනය කිරීමට ඔවුන්ට හැකි විය. (1) දුක (නිදසුනක් ලෙස, "අඬන්න" සහ "ශෝකය") යන වචනවල (1) කාංසාව (2) කණස්සල්ල ( නිදසුනක් ලෙස, "කනස්සල්ල" සහ "බියෙන්") සහ (3) කෝපය (නිද. "වෛරය" සහ "විවේචනාත්මක"). දවසේ මුළු දවස පුරාම දුක සහ කනස්සල්ල ශක්තිමත්ව තිබුනේ නැතත්, දවස පුරාම කෝපය තුළ වැඩිවීමක් දක්නට ලැබුණි. සම්පුර්ණ දත්ත මූලාශ්රවල බලය පිළිබඳ විශ්මයජනක නිදසුනක් ලෙස මෙම පර්යේෂණය පෙනෙන්නට තිබේ. සාම්ප්රදායික දත්ත මූලාශ්ර භාවිතා කර තිබේ නම්, අනපේක්ෂිත සිදුවීමක් සම්බන්ධයෙන් ක්ෂණික ප්රතිචාර දැක්වීමක් ලබා ගත නොහැකි විය.
කෙසේවෙතත් වසරකට පසුව, සින්තියා පර්රි (2011) දත්ත වඩාත් ප්රවේශමෙන් දෙස බැලීය. එක් පේජරයක් විසින් කෝපාවිෂ්ට පණිවුඩ විශාල සංඛ්යාවක් විසින් ජනනය කරන ලද අතර, ඒවා සියල්ලම සමාන විය. මෙයින් කෝපයට පත් වූ පණිවිඩ මෙසේ කියනු ලැබේ:
"නැවත ආරම්භ NT යන්ත්රය [නම] කැබිනට් [නම] [ස්ථානයේ] දී: විවේචනාත්මක: [දිනය හා වේලාව]"
මෙම පණිවුඩය කෝපයට පත් වූ නිසා "කෝපයට පත්" යන වචනයට ඇතුළත් වූ නිසා, කෝපය සාමාන්යයෙන් පෙන්වන නමුත් මෙම නඩුවේදී එසේ නොවේ. මෙම තනි ස්වයංක්රීය පේජර් විසින් ජනනය කරන ලද පණිවිඩ ඉවත් කිරීම සම්පූර්ණයෙන්ම දිනෙන් දින ඉහළ යන කෝපය වැඩි කිරීම සම්පූර්ණයෙන්ම ඉවත් කරයි (රූප සටහන 2.4). වෙනත් වචනවලින් කියතොත්, Back, Küfner, and Egloff (2010) හි ප්රධාන ප්රතිඵලය එක් Back, Küfner, and Egloff (2010) කෞතුක වස්තුවකි. මෙම උදාහරණයේ උදාහරණයක් ලෙස, සාපේක්ෂ වශයෙන් සංකීර්ණ හා අපරිනු දත්තවල සාපේක්ෂ සරල විශ්ලේෂණය බරපතල වරදක් කිරීමට හැකියාවක් ඇත.
අනවශ්ය පැහදිලි නිර්මාණය කරන ලද අපිරිසිදු දත්ත - බුද්ධිමත් පර්යේෂකයෙකු විසින් හඳුනා ගත හැකි අතර, හිතාමතා පුබන්වන්නන් ආකර්ෂණය කරන සමහර සබැඳි පද්ධති ද සොයාගත හැකිය. මෙම ස්පමර් ක්රියාකාරීව ව්යාජ දත්ත උත්පාදනය කරන අතර, ඔවුන්ගේ ස්පෑම් ගැන්වීම දිගටම රඳවා ගැනීමට බෙහෙවින් අපහසුය. උදාහරණයක් ලෙස ට්විටර් වෙබ් අඩවියේ දේශපාලන ක්රියාකාරිත්වය අවම වශයෙන් කිසියම් (Ratkiewicz et al. 2011) ඇතුළත් වේ. සමහර දේශපාලන හේතුන් ඇත්ත වශයෙන්ම ඔවුන් ජනප්රිය වීමට වඩා ජනප්රිය වීමට හේතුවක් වී ඇත (Ratkiewicz et al. 2011) . අවාසනාවකට මෙන්, මෙම හිතාමතා ස්පෑම් ඉවත් කිරීම අපහසු විය හැකිය.
ඇත්ත වශයෙන්ම අපිරිසිදු දත්ත සැලකිල්ලට ගත හැකිය, සමහර විට, පර්යේෂණ ප්රශ්නය මත රඳා පවතී. උදාහරණයක් ලෙස, විකිපීඩියාවට බොහෝ සංස්කරණයන් ස්වයංක්රීය බීට් මඟින් නිර්මාණය කරන ලදි (Geiger 2014) . විකිපීඩියාවෙහි පරිසරය ගැන ඔබ උනන්දු වන්නේ නම්, මෙම බොත්තම් සැකසීම් වැදගත් වේ. නමුත් ඔබ විකිපීඩියාවට දායක වන ආකාරය ගැන ඔබ උනන්දු වන්නේ නම්, බොත්තුව නිර්මාණය කරන ලද සංස්කරණයන් ඉවත් කළ යුතුය.
ඔබගේ අපිරිසිදු දත්ත ප්රමාණවත් ලෙස පිරිසිදු කර ඇති බවට වග බලා ගත හැකි තනි සංඛ්යා ලේඛන ක්රමයක් හෝ ප්රවේශයක් නොමැත. අවසානයේ, මම හිතන්නේ අපිරිසිදු දත්ත මගින් රැුඳී සිටීමෙන් වැළකී සිටීම සඳහා හොඳම ක්රමය වන්නේ ඔබගේ දත්ත නිර්මාණය කළ ආකාරය පිළිබඳව හැකි තරම් හැකි බවය.