ದೊಡ್ಡ ದಶಮಾಂಶ ಮೂಲಗಳು ಜಂಕ್ ಮತ್ತು ಸ್ಪ್ಯಾಮ್ ಲೋಡ್ ಮಾಡಬಹುದು.
ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು, ವಿಶೇಷವಾಗಿ ಆನ್ಲೈನ್ ಮೂಲಗಳು, ಮೂಲರೂಪವಾಗಿವೆ ಎಂದು ಕೆಲವು ಸಂಶೋಧಕರು ನಂಬುತ್ತಾರೆ ಏಕೆಂದರೆ ಅವುಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಿದ ಜನರಿಗೆ ಅವರು ಆಗಾಗ್ಗೆ ಕೊಳಕು ಎಂದು ತಿಳಿದಿದ್ದಾರೆ. ಅಂದರೆ, ಅವರು ಸಂಶೋಧಕರ ಆಸಕ್ತಿಗೆ ನಿಜವಾದ ಕ್ರಮಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸದ ದತ್ತಾಂಶವನ್ನು ಆಗಾಗ್ಗೆ ಸೇರಿಸಿಕೊಳ್ಳುತ್ತಾರೆ. ಹೆಚ್ಚಿನ ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಈಗಾಗಲೇ ದೊಡ್ಡ-ಪ್ರಮಾಣದ ಸಾಮಾಜಿಕ ಸಮೀಕ್ಷೆಯ ಡೇಟಾವನ್ನು ಶುಚಿಗೊಳಿಸುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ತಿಳಿದಿದ್ದಾರೆ, ಆದರೆ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಶುಚಿಗೊಳಿಸುವಿಕೆ ಹೆಚ್ಚು ಕಷ್ಟಕರವಾಗಿದೆ. ಈ ಕಷ್ಟದ ಅಂತಿಮ ಮೂಲವೆಂದರೆ ಈ ದೊಡ್ಡ ದತ್ತಾಂಶ ಮೂಲಗಳ ಪೈಕಿ ಅನೇಕವು ಸಂಶೋಧನೆಗೆ ಬಳಸಬೇಕಾದ ಉದ್ದೇಶವನ್ನು ಹೊಂದಿಲ್ಲ, ಆದ್ದರಿಂದ ಅವುಗಳು ಡೇಟಾವನ್ನು ಶುಚಿಗೊಳಿಸುವ ಅನುಕೂಲವನ್ನು ಸಂಗ್ರಹಿಸಿ, ಸಂಗ್ರಹಿಸಲಾಗಿಲ್ಲ ಮತ್ತು ದಾಖಲಾಗಿಲ್ಲ.
ಬ್ಯಾಕ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2010) ಸೆಪ್ಟಂಬರ್ 11, 2001 ರ ದಾಳಿಗೆ ಭಾವಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆಯ ಅಧ್ಯಯನದಿಂದ ಕೊಳಕು ಡಿಜಿಟಲ್ ಜಾಡಿನ ಮಾಹಿತಿಯ ಅಪಾಯಗಳನ್ನು ವಿವರಿಸಲಾಗಿದೆ, ಇದು ನಾನು ಮೊದಲೇ ಅಧ್ಯಾಯದಲ್ಲಿ ಉಲ್ಲೇಖಿಸಿದೆ. ಸಂಶೋಧಕರು ಸಾಮಾನ್ಯವಾಗಿ ತಿಂಗಳುಗಳು ಅಥವಾ ವರ್ಷಗಳವರೆಗೆ ಸಂಗ್ರಹಿಸಿದ ಹಿಂದಿನ ಮಾಹಿತಿಯನ್ನು ಬಳಸಿಕೊಂಡು ದುರಂತ ಘಟನೆಗಳ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತಾರೆ. ಆದರೆ, ಬ್ಯಾಕ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಯಾವಾಗಲೂ ಡಿಜಿಟಲ್ ಜಾಡುಗಳ ಮೂಲವನ್ನು ಕಂಡುಹಿಡಿದಿದ್ದಾರೆ-ಇದು 85,000 ಅಮೇರಿಕನ್ ಪೇಜರ್ಸ್ನಿಂದ ಸಮಯಮುದ್ರಿಸಲ್ಪಟ್ಟ, ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಧ್ವನಿಮುದ್ರಣಗೊಂಡ ಸಂದೇಶಗಳನ್ನು-ಮತ್ತು ಇದು ಹೆಚ್ಚು ಸರಳವಾದ ಸಮಯದ ಮೇಲೆ ಭಾವನಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ನೆರವಾಯಿತು. (1) ದುಃಖ (ಉದಾ., "ಅಳುವುದು" ಮತ್ತು "ದುಃಖ"), (2) ಆತಂಕ (2) ಗೆ ಸಂಬಂಧಿಸಿದ ಪದಗಳ ಶೇಕಡಾವಾರು ಮೂಲಕ ಪೇಜರ್ ಸಂದೇಶಗಳ ಭಾವನಾತ್ಮಕ ವಿಷಯವನ್ನು ಕೋಡಿಂಗ್ ಮಾಡುವ ಮೂಲಕ ಅವರು ಸೆಪ್ಟೆಂಬರ್ 11 ರ ಒಂದು ನಿಮಿಷದ-ನಿಮಿಷದ ಭಾವನಾತ್ಮಕ ಟೈಮ್ಲೈನ್ ಅನ್ನು ರಚಿಸಿದ್ದಾರೆ. ಉದಾ., "ಚಿಂತೆ" ಮತ್ತು "ಭಯ") ಮತ್ತು (3) ಕೋಪ (ಉದಾ, "ದ್ವೇಷ" ಮತ್ತು "ನಿರ್ಣಾಯಕ"). ದುಃಖ ಮತ್ತು ಆತಂಕವು ದಿನವಿಡೀ ಪ್ರಬಲ ಮಾದರಿಯಿಲ್ಲದೆ ಏರಿತು, ಆದರೆ ದಿನವಿಡೀ ಕೋಪದಲ್ಲಿ ಗಮನಾರ್ಹ ಏರಿಕೆ ಕಂಡುಬಂದಿದೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಈ ಸಂಶೋಧನೆಯು ಯಾವಾಗಲೂ ಡಾಟಾ ಮೂಲಗಳ ಶಕ್ತಿಯ ಅದ್ಭುತ ವಿವರಣೆಯಾಗಿದೆ: ಸಾಂಪ್ರದಾಯಿಕ ದತ್ತಾಂಶ ಮೂಲಗಳನ್ನು ಬಳಸಿದ್ದರೆ, ಅನಿರೀಕ್ಷಿತ ಘಟನೆಗೆ ತಕ್ಷಣದ ಪ್ರತಿಕ್ರಿಯೆಯ ಅಂತಹ ಹೆಚ್ಚಿನ-ರೆಸಲ್ಯೂಶನ್ ಟೈಮ್ಲೈನ್ ಪಡೆಯಲು ಅಸಾಧ್ಯವಾಗಿತ್ತು.
ಕೇವಲ ಒಂದು ವರ್ಷದ ನಂತರ, ಸಿಂಥಿಯಾ ಪಾರಿ (2011) ಈ ಡೇಟಾವನ್ನು ಹೆಚ್ಚು ಎಚ್ಚರಿಕೆಯಿಂದ ನೋಡಿದ್ದಾರೆ. ಒಂದು ದೊಡ್ಡ ಸಂಖ್ಯೆಯ ಬಹುಶಃ ಕೋಪಗೊಂಡ ಸಂದೇಶಗಳು ಒಂದೇ ಪೇಜರ್ನಿಂದ ಉತ್ಪತ್ತಿಯಾಗುತ್ತವೆ ಮತ್ತು ಅವುಗಳು ಒಂದೇ ಆಗಿವೆ ಎಂದು ಅವರು ಕಂಡುಹಿಡಿದರು. ಆ ಬಹುಶಃ ಕೋಪಗೊಂಡ ಸಂದೇಶಗಳನ್ನು ಹೇಳಿದರು ಇಲ್ಲಿದೆ:
"ರೀಬೂಟ್ ಎನ್ಟಿ ಯಂತ್ರ [ಹೆಸರು] ಕ್ಯಾಬಿನೆಟ್ [ಹೆಸರು] [ಸ್ಥಳ] ನಲ್ಲಿ: ನಿರ್ಣಾಯಕ: [ದಿನಾಂಕ ಮತ್ತು ಸಮಯ]"
ಈ ಸಂದೇಶಗಳು ಕೋಪಗೊಂಡವು ಏಕೆಂದರೆ ಅವರು "ಕ್ರಿಟಿಕಲ್" ಪದವನ್ನು ಸೇರಿಸಿದ್ದಾರೆ, ಅದು ಸಾಮಾನ್ಯವಾಗಿ ಕೋಪವನ್ನು ಸೂಚಿಸುತ್ತದೆ ಆದರೆ ಈ ಸಂದರ್ಭದಲ್ಲಿ ಮಾಡುವುದಿಲ್ಲ. ಈ ಏಕೈಕ ಸ್ವಯಂಚಾಲಿತ ಪೇಜರ್ನಿಂದ ಉತ್ಪತ್ತಿಯಾದ ಸಂದೇಶಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದರಿಂದ ದಿನದ ಸಮಯದಲ್ಲಿ ಕೋಪದಲ್ಲಿ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚಾಗುತ್ತದೆ (ಚಿತ್ರ 2.4). ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, Back, Küfner, and Egloff (2010) ನಲ್ಲಿನ ಮುಖ್ಯ ಫಲಿತಾಂಶವೆಂದರೆ ಒಂದು Back, Küfner, and Egloff (2010) ಕಲಾಕೃತಿಯಾಗಿದೆ. ಈ ಉದಾಹರಣೆಯು ವಿವರಿಸಿದಂತೆ, ತುಲನಾತ್ಮಕವಾಗಿ ಸಂಕೀರ್ಣ ಮತ್ತು ಗೊಂದಲಮಯ ಮಾಹಿತಿಯ ಸರಳವಾದ ವಿಶ್ಲೇಷಣೆಯು ಗಂಭೀರವಾಗಿ ತಪ್ಪಾಗಿ ಹೋಗಲು ಸಾಧ್ಯವಿದೆ.
ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ರಚಿಸಲ್ಪಟ್ಟಿರುವ ಕೊಳಕು ಡೇಟಾವು ಒಂದು ಶಬ್ಧದ ಪೇಜರ್ನಿಂದ ಸಮಂಜಸವಾಗಿ ಎಚ್ಚರಿಕೆಯ ಸಂಶೋಧಕರಿಂದ ಕಂಡುಹಿಡಿಯಲ್ಪಡಬಹುದು, ಕೆಲವು ಆನ್ಲೈನ್ ವ್ಯವಸ್ಥೆಗಳು ಉದ್ದೇಶಪೂರ್ವಕ ಸ್ಪ್ಯಾಮರ್ಗಳನ್ನು ಆಕರ್ಷಿಸುತ್ತವೆ. ಈ ಸ್ಪ್ಯಾಮರ್ಗಳು ನಕಲಿ ಡೇಟಾವನ್ನು ಸಕ್ರಿಯವಾಗಿ ಸೃಷ್ಟಿಸುತ್ತಾರೆ ಮತ್ತು -ಸಾಮಾನ್ಯವಾಗಿ ಲಾಭ-ಕೆಲಸದಿಂದ ತಮ್ಮ ಸ್ಪ್ಯಾಮಿಂಗ್ ಅನ್ನು ಮರೆಮಾಡಲು ಬಹಳ ಕಷ್ಟದಿಂದ ಪ್ರೇರೇಪಿಸುತ್ತಾರೆ. ಉದಾಹರಣೆಗೆ, ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿನ ರಾಜಕೀಯ ಚಟುವಟಿಕೆಯು ಕನಿಷ್ಠ ಕೆಲವು ಸಮಂಜಸವಾದ ಅತ್ಯಾಧುನಿಕ ಸ್ಪ್ಯಾಮ್ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಅದರ ಮೂಲಕ ಕೆಲವು ರಾಜಕೀಯ ಕಾರಣಗಳು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಅವುಗಳು ಹೆಚ್ಚು ಜನಪ್ರಿಯವಾಗುವುದಕ್ಕಾಗಿ ತಯಾರಿಸಲ್ಪಡುತ್ತವೆ (Ratkiewicz et al. 2011) . ದುರದೃಷ್ಟವಶಾತ್, ಈ ಉದ್ದೇಶಪೂರ್ವಕ ಸ್ಪ್ಯಾಮ್ ಅನ್ನು ತೆಗೆದುಹಾಕುವುದು ತುಂಬಾ ಕಷ್ಟ.
ಖಂಡಿತವಾಗಿಯೂ ಕೊಳಕು ಡೇಟಾ ಎಂದು ಪರಿಗಣಿಸಲ್ಪಡುವ ಅಂಶವು ಸಂಶೋಧನಾ ಪ್ರಶ್ನೆಯಲ್ಲಿ ಭಾಗಶಃ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ವಿಕಿಪೀಡಿಯಾಕ್ಕೆ ಅನೇಕ ಸಂಪಾದನೆಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತ ಬಾಟ್ಗಳು (Geiger 2014) . ವಿಕಿಪೀಡಿಯ ಪರಿಸರ ವಿಜ್ಞಾನದಲ್ಲಿ ನೀವು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ, ನಂತರ ಈ ಬೋಟ್ ರಚಿಸಿದ ಸಂಪಾದನೆಗಳು ಬಹಳ ಮುಖ್ಯ. ಆದರೆ ವಿಕಿಪೀಡಿಯಕ್ಕೆ ಮಾನವರು ಹೇಗೆ ಕೊಡುಗೆ ನೀಡುತ್ತಾರೆ ಎಂಬ ಬಗ್ಗೆ ಆಸಕ್ತಿ ಇದ್ದರೆ, ನಂತರ ಬೋಟ್ ರಚಿಸಿದ ಸಂಪಾದನೆಗಳನ್ನು ಹೊರಗಿಡಬೇಕು.
ನಿಮ್ಮ ಡರ್ಟಿ ಡೇಟಾವನ್ನು ನೀವು ಸಾಕಷ್ಟು ಸ್ವಚ್ಛಗೊಳಿಸಬಹುದೆಂದು ಖಾತ್ರಿಪಡಿಸಿಕೊಳ್ಳುವ ಏಕೈಕ ಸಾಂಖ್ಯಿಕ ತಂತ್ರ ಅಥವಾ ವಿಧಾನವಿಲ್ಲ. ಕೊನೆಯಲ್ಲಿ, ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಎಷ್ಟು ಸಾಧ್ಯವೋ ಅಷ್ಟು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಕೊಳಕು ಡೇಟಾದಿಂದ ಮೂರ್ಖರಾಗುವುದನ್ನು ತಡೆಗಟ್ಟಲು ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.