ದೊಡ್ಡ ದತ್ತಾಂಶ ಮುಕ್ತಾಯ ಎಂಬ ಸಾಧನವಾಗಿರುತ್ತವೆ ಅವರು ತಮ್ಮನ್ನು ಒಂದು ಕೊನೆಯಲ್ಲಿ ಅಲ್ಲ.
ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳ ವ್ಯಾಪಕವಾಗಿ ಚರ್ಚಿಸಲಾದ ವೈಶಿಷ್ಟ್ಯವೆಂದರೆ ಅವರು ದೊಡ್ಡವರಾಗಿದ್ದಾರೆ. ಅನೇಕ ಪೇಪರ್ಗಳು, ಉದಾಹರಣೆಗೆ, ಅವರು ವಿಶ್ಲೇಷಿಸಿದ ಎಷ್ಟು ಡೇಟಾವನ್ನು ಚರ್ಚಿಸುತ್ತಾ ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಬ್ರಾಗ್ಜಿಂಗ್ ಮಾಡುವ ಮೂಲಕ ಪ್ರಾರಂಭಿಸಿ. ಉದಾಹರಣೆಗೆ, ಗೂಗಲ್ ಬುಕ್ಸ್ ಕಾರ್ಪಸ್ನಲ್ಲಿ ಪದ-ಬಳಕೆಯ ಪ್ರವೃತ್ತಿಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತಿರುವ ಸೈನ್ಸ್ನಲ್ಲಿ ಈ ಕೆಳಗಿನವು ಸೇರಿವೆ (Michel et al. 2011) :
"[ನಮ್ಮ] ಕಾರ್ಪಸ್ 500 ಬಿಲಿಯನ್ ಪದಗಳನ್ನು, ಇಂಗ್ಲಿಷ್ (361 ಶತಕೋಟಿ), ಫ್ರೆಂಚ್ (45 ಶತಕೋಟಿ), ಸ್ಪ್ಯಾನಿಷ್ (45 ಬಿಲಿಯನ್), ಜರ್ಮನ್ (37 ಶತಕೋಟಿ), ಚೈನೀಸ್ (13 ಶತಕೋಟಿ), ರಷ್ಯನ್ (35 ಶತಕೋಟಿ) (2 ಶತಕೋಟಿ). ಹಳೆಯ ಕೃತಿಗಳನ್ನು 1500 ರಲ್ಲಿ ಪ್ರಕಟಿಸಲಾಯಿತು. ಆರಂಭಿಕ ದಶಕಗಳಲ್ಲಿ ಹಲವಾರು ನೂರು ಸಾವಿರ ಪದಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ವರ್ಷಕ್ಕೆ ಕೆಲವೇ ಪುಸ್ತಕಗಳು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ. 1800 ರ ಹೊತ್ತಿಗೆ ಕಾರ್ಪಸ್ ವರ್ಷಕ್ಕೆ 98 ದಶಲಕ್ಷ ಪದಗಳನ್ನು ಬೆಳೆಯುತ್ತದೆ; 1900 ರ ವೇಳೆಗೆ, 1.8 ಬಿಲಿಯನ್; ಮತ್ತು 2000 ರ ವೇಳೆಗೆ, 11 ಶತಕೋಟಿ. ಕಾರ್ಪಸ್ ಮಾನವನಿಂದ ಓದಲಾಗುವುದಿಲ್ಲ. ನೀವು 2000 ನೇ ಇಸವಿಯಿಂದ ಕೇವಲ ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ನಮೂದುಗಳನ್ನು ಓದಲು ಪ್ರಯತ್ನಿಸಿದರೆ, 200 ಪದಗಳು / ನಿಮಿಷಗಳ ಸಮಂಜಸವಾದ ವೇಗದಲ್ಲಿ ಆಹಾರ ಅಥವಾ ನಿದ್ರೆಗೆ ಅಡೆತಡೆಗಳಿಲ್ಲದೆ, ಅದು 80 ವರ್ಷಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಮಾನವನ ಜೀನೋಮ್ಗಿಂತಲೂ ಅಕ್ಷರಗಳ ಅನುಕ್ರಮವು 1000 ಪಟ್ಟು ಹೆಚ್ಚು ಉದ್ದವಾಗಿದೆ: ನೀವು ಅದನ್ನು ನೇರ ರೇಖೆಯಲ್ಲಿ ಬರೆದರೆ, ಅದು ಚಂದ್ರನಿಗೆ ತಲುಪುತ್ತದೆ ಮತ್ತು 10 ಬಾರಿ ಹಿಂತಿರುಗುತ್ತದೆ. "
ಈ ಡೇಟಾದ ಪ್ರಮಾಣವು ನಿಸ್ಸಂದೇಹವಾಗಿ ಪ್ರಭಾವಶಾಲಿಯಾಗಿದೆ, ಮತ್ತು Google Books ತಂಡವು ಈ ಡೇಟಾವನ್ನು ಸಾರ್ವಜನಿಕರಿಗೆ ಬಿಡುಗಡೆ ಮಾಡಿದೆ ಎಂದು ನಾವು ಎಲ್ಲಾ ಅದೃಷ್ಟಶಾಲಿಗಳಾಗಿದ್ದೇವೆ (ವಾಸ್ತವವಾಗಿ, ಈ ಅಧ್ಯಾಯದ ಕೊನೆಯಲ್ಲಿ ಕೆಲವು ಚಟುವಟಿಕೆಗಳು ಈ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತವೆ). ಆದರೆ, ನೀವು ಈ ರೀತಿ ಏನನ್ನಾದರೂ ನೋಡಿದಾಗ ನೀವು ಕೇಳಬೇಕು: ಅದು ಎಲ್ಲ ಡೇಟಾವನ್ನು ನಿಜವಾಗಿ ಏನು ಮಾಡುತ್ತದೆ? ಡೇಟಾವು ಚಂದ್ರನಿಗೆ ತಲುಪಲು ಮತ್ತು ಒಮ್ಮೆ ಮಾತ್ರ ಮರಳಿ ಹೋದರೆ ಅವರು ಅದೇ ಸಂಶೋಧನೆಯನ್ನು ಮಾಡಬಹುದೇ? ಎವರೆಸ್ಟ್ ಮೌಂಟ್ನ ಮೇಲ್ಭಾಗಕ್ಕೆ ಅಥವಾ ಐಫೆಲ್ ಗೋಪುರದ ಮೇಲ್ಭಾಗಕ್ಕೆ ಮಾತ್ರ ಡೇಟಾ ತಲುಪಬಹುದೆ?
ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಅವರ ಸಂಶೋಧನೆಯು ವಾಸ್ತವವಾಗಿ, ದೀರ್ಘಕಾಲದವರೆಗೆ ಪದಗಳ ಬೃಹತ್ ಕಾರ್ಪಸ್ ಅಗತ್ಯವಿರುವ ಕೆಲವು ಸಂಶೋಧನೆಗಳನ್ನು ಹೊಂದಿದೆ. ಉದಾಹರಣೆಗೆ, ಅವರು ಪರಿಶೋಧಿಸುವ ಒಂದು ವಿಷಯವು ವ್ಯಾಕರಣದ ವಿಕಾಸವಾಗಿದ್ದು, ನಿರ್ದಿಷ್ಟವಾಗಿ ಅನಿಯಮಿತ ಕ್ರಿಯಾಪದ ಸಂಯೋಜನೆಯ ಪ್ರಮಾಣದಲ್ಲಿ ಬದಲಾವಣೆಗಳು. ಕೆಲವು ಅನಿಯಮಿತ ಕ್ರಿಯಾಪದಗಳು ಬಹಳ ವಿರಳವಾಗಿರುವುದರಿಂದ, ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಕಾಲಾನಂತರದಲ್ಲಿ ಬದಲಾವಣೆಗಳನ್ನು ಕಂಡುಹಿಡಿಯಬೇಕಾಗುತ್ತದೆ. ತುಂಬಾ ಸಾಮಾನ್ಯವಾಗಿ, ಆದಾಗ್ಯೂ, ದೊಡ್ಡ ಡೇಟಾ ಮೂಲದ ಗಾತ್ರವನ್ನು ಸಂಶೋಧಕರು ತೋರುವಂತೆ ತೋರುತ್ತದೆ- "ಎಷ್ಟು ಡೇಟಾವನ್ನು ನಾನು ಅಣಿಗೊಳಿಸಬಹುದು" - ಕೆಲವು ಹೆಚ್ಚು ಮಹತ್ವದ ವೈಜ್ಞಾನಿಕ ಉದ್ದೇಶಗಳಿಗೆ ಬದಲಾಗಿ.
ನನ್ನ ಅನುಭವದಲ್ಲಿ, ಅಪರೂಪದ ಘಟನೆಗಳ ಅಧ್ಯಯನವು ದೊಡ್ಡ ಡೇಟಾಸೆಟ್ಗಳು ಸಕ್ರಿಯಗೊಳ್ಳುವ ಮೂರು ನಿರ್ದಿಷ್ಟ ವೈಜ್ಞಾನಿಕ ತುದಿಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಎರಡನೆಯದು ವೈವಿಧ್ಯತೆಯ ಅಧ್ಯಯನವಾಗಿದೆ, ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ನಲ್ಲಿ ಸಾಮಾಜಿಕ ಚಲನಶೀಲತೆ ಕುರಿತು ರಾಜ್ ಚೆಟ್ಟಿ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2014) ನಡೆಸಿದ ಅಧ್ಯಯನದಿಂದ ಇದನ್ನು ವಿವರಿಸಬಹುದು. ಹಿಂದೆ, ಅನೇಕ ಸಂಶೋಧಕರು ಪೋಷಕರು ಮತ್ತು ಮಕ್ಕಳ ಜೀವನದ ಫಲಿತಾಂಶಗಳನ್ನು ಹೋಲಿಸುವ ಮೂಲಕ ಸಾಮಾಜಿಕ ಚಲನಶೀಲತೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡಿದ್ದಾರೆ. ಪ್ರಯೋಜನ ಪಡೆದ ಪೋಷಕರು ಪ್ರಯೋಜನ ಪಡೆಯುವ ಮಕ್ಕಳನ್ನು ಹೊಂದಿದ್ದಾರೆಂದು ಈ ಸಾಹಿತ್ಯದಿಂದ ಒಂದು ಸ್ಥಿರವಾದ ಅನ್ವೇಷಣೆ ಇದೆ, ಆದರೆ ಈ ಸಂಬಂಧದ ಸಾಮರ್ಥ್ಯವು ಸಮಯ ಮತ್ತು ದೇಶಾದ್ಯಂತ ಬದಲಾಗುತ್ತದೆ (Hout and DiPrete 2006) . ತೀರಾ ಇತ್ತೀಚೆಗೆ, ಚೆಟ್ಟಿಯವರು ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು 40 ಮಿಲಿಯನ್ ಜನರಿಂದ ತೆರಿಗೆ ದಾಖಲೆಗಳನ್ನು ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ನ ಪ್ರದೇಶಗಳಲ್ಲಿ (ಜನಸಂಖ್ಯೆ 2.1) ಉದ್ದಗಲಕ್ಕೂ ಅಂತರಜನಾಂಗೀಯ ಚಲನಶೀಲತೆಗೆ ಅಂದಾಜು ಮಾಡಲು ಬಳಸುತ್ತಿದ್ದರು. ಉದಾಹರಣೆಗೆ, ಒಂದು ಮಗುವಿನ ಕೆಳಭಾಗದ ಕ್ವಿಂಟೈಲ್ನಲ್ಲಿರುವ ಕುಟುಂಬದಿಂದ ಪ್ರಾರಂಭವಾಗುವ ರಾಷ್ಟ್ರೀಯ ಆದಾಯದ ವಿತರಣೆಯ ಉನ್ನತ ಕ್ವಿಂಟೈಲ್ಗೆ ತಲುಪುವ ಸಂಭವನೀಯತೆ ಕ್ಯಾಲಿಫೋರ್ನಿಯಾದ ಸ್ಯಾನ್ ಜೋಸ್ನಲ್ಲಿ ಸುಮಾರು 13% ರಷ್ಟಿದೆ, ಆದರೆ ನಾರ್ತ್ ಕೆರೋಲಿನಾದ ಷಾರ್ಲೆಟ್ನಲ್ಲಿ ಕೇವಲ 4% ನಷ್ಟು ಮಾತ್ರ. ಒಂದು ಕ್ಷಣಕ್ಕೆ ಫಿಗರ್ 2.1 ಅನ್ನು ನೀವು ನೋಡಿದರೆ, ಇತರರಿಗಿಂತ ಕೆಲವು ಸ್ಥಳಗಳಲ್ಲಿ ಅಂತರಜನಕ ಚಲನಶೀಲತೆ ಹೆಚ್ಚಿರುವುದರಿಂದ ನಿಮಗೆ ಆಶ್ಚರ್ಯವಾಗಬಹುದು. ಚೆಟ್ಟಿ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಒಂದೇ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಹೊಂದಿದ್ದರು, ಮತ್ತು ಉನ್ನತ-ಚಲನಶೀಲತೆ ಪ್ರದೇಶಗಳಲ್ಲಿ ಕಡಿಮೆ ವಸತಿ ಪ್ರತ್ಯೇಕತೆ, ಕಡಿಮೆ ಆದಾಯದ ಅಸಮಾನತೆ, ಉತ್ತಮ ಪ್ರಾಥಮಿಕ ಶಾಲೆಗಳು, ಹೆಚ್ಚಿನ ಸಾಮಾಜಿಕ ಬಂಡವಾಳ ಮತ್ತು ಹೆಚ್ಚಿನ ಕುಟುಂಬದ ಸ್ಥಿರತೆಯನ್ನು ಹೊಂದಿವೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಸಹಜವಾಗಿ, ಈ ಅಂಶಗಳು ಕೇವಲ ಈ ಅಂಶಗಳು ಹೆಚ್ಚಿನ ಚಲನಶೀಲತೆಯನ್ನು ಉಂಟುಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ತೋರಿಸುವುದಿಲ್ಲ, ಆದರೆ ಮತ್ತಷ್ಟು ಕೆಲಸದಲ್ಲಿ ಪರಿಶೋಧಿಸಬಹುದಾದ ಸಂಭವನೀಯ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಅವರು ಸೂಚಿಸುತ್ತಾರೆ, ಇದು ಚೆಟ್ಟಿ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ನಂತರದ ಕೆಲಸಗಳಲ್ಲಿ ನಿಖರವಾಗಿ ಏನು ಮಾಡುತ್ತಾರೆ. ಈ ಯೋಜನೆಯಲ್ಲಿ ಡೇಟಾದ ಗಾತ್ರವು ಎಷ್ಟು ಪ್ರಾಮುಖ್ಯವಾಗಿದೆ ಎಂದು ಗಮನಿಸಿ. ಚೆಟ್ಟಿಯವರು ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು 40 ಮಿಲಿಯನ್ ಜನರಿಗೆ 40 ಮಿಲಿಯನ್ ಜನರಿಗೆ ತೆರಿಗೆ ದಾಖಲೆಗಳನ್ನು ಬಳಸಿದ್ದರೆ, ಅವರು ಪ್ರಾದೇಶಿಕ ವಿರೋಧಾಭಾಸವನ್ನು ಅಂದಾಜು ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತಿರಲಿಲ್ಲ ಮತ್ತು ಈ ಮಾರ್ಪಾಡನ್ನು ರಚಿಸುವ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಗುರುತಿಸಲು ಪ್ರಯತ್ನಿಸುವುದಕ್ಕಾಗಿ ಅವರು ನಂತರದ ಸಂಶೋಧನೆಗಳನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತಿರಲಿಲ್ಲ.
ಅಂತಿಮವಾಗಿ, ಅಪರೂಪದ ಘಟನೆಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುವುದು ಮತ್ತು ವೈವಿಧ್ಯತೆ ಅಧ್ಯಯನ ಮಾಡುವುದರ ಜೊತೆಗೆ, ದೊಡ್ಡ ಡೇಟಾಸೆಟ್ಗಳು ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಸಂಶೋಧಕರನ್ನು ಸಹ ಸಕ್ರಿಯಗೊಳಿಸುತ್ತವೆ. ವಾಸ್ತವವಾಗಿ, ಉದ್ಯಮದಲ್ಲಿನ ದೊಡ್ಡ ದತ್ತಾಂಶಗಳ ಮೇಲೆ ಹೆಚ್ಚಿನ ಗಮನವು ಈ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳ ಬಗ್ಗೆ: ಜಾಹೀರಾತಿನ ಮೇಲೆ 1% ಮತ್ತು 1.1% ಕ್ಲಿಕ್-ಮೂಲಕ ದರಗಳ ವ್ಯತ್ಯಾಸವನ್ನು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಪತ್ತೆಹಚ್ಚುವುದು ಮಿಲಿಯನ್ಗಟ್ಟಲೆ ಡಾಲರ್ಗಳಿಗೆ ಹೆಚ್ಚುವರಿ ಆದಾಯದಲ್ಲಿ ಅನುವಾದಿಸುತ್ತದೆ. ಆದಾಗ್ಯೂ, ಕೆಲವು ವೈಜ್ಞಾನಿಕ ಸೆಟ್ಟಿಂಗ್ಗಳಲ್ಲಿ, ಅಂತಹ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು ಅವರು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ಗಮನಾರ್ಹವಾದರೂ ಸಹ (Prentice and Miller 1992) ನಿರ್ದಿಷ್ಟವಾದ ಪ್ರಮುಖವಲ್ಲ. ಆದರೆ, ಕೆಲವು ನೀತಿ ಸೆಟ್ಟಿಂಗ್ಗಳಲ್ಲಿ, ಒಟ್ಟಾರೆಯಾಗಿ ನೋಡಿದಾಗ ಅವರು ಮುಖ್ಯವಾಗಬಹುದು. ಉದಾಹರಣೆಗೆ, ಎರಡು ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಮಧ್ಯಸ್ಥಿಕೆಗಳು ಇದ್ದರೆ ಮತ್ತು ಇನ್ನೊಂದಕ್ಕಿಂತ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ, ನಂತರ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ ಹಸ್ತಕ್ಷೇಪವನ್ನು ತೆಗೆದುಕೊಳ್ಳುವುದರಿಂದ ಸಾವಿರಾರು ಹೆಚ್ಚುವರಿ ಜೀವಗಳನ್ನು ಉಳಿಸಬಹುದು.
ಸರಿಯಾಗಿ ಬಳಸುವಾಗ ಬಿಗ್ನೆಸ್ ಸಾಮಾನ್ಯವಾಗಿ ಉತ್ತಮ ಆಸ್ತಿಯಾಗಿದೆ, ಇದು ಕೆಲವೊಮ್ಮೆ ಪರಿಕಲ್ಪನಾ ದೋಷಕ್ಕೆ ಕಾರಣವಾಗಬಹುದು ಎಂದು ನಾನು ಗಮನಿಸಿದ್ದೇವೆ. ಕೆಲವು ಕಾರಣಗಳಿಂದಾಗಿ, ತಮ್ಮ ಡೇಟಾವನ್ನು ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ನಿರ್ಲಕ್ಷಿಸಲು ಸಂಶೋಧಕರು ಮಾರ್ಗದರ್ಶನ ನೀಡುತ್ತಾರೆ. ಯಾದೃಚ್ಛಿಕ ದೋಷದ ಬಗ್ಗೆ ಚಿಂತಿಸಬೇಕಾದ ಅಗತ್ಯವನ್ನು ಕಡಿಮೆ ಮಾಡುವಾಗ, ಇದು ವಾಸ್ತವವಾಗಿ ವ್ಯವಸ್ಥಿತ ದೋಷಗಳ ಬಗ್ಗೆ ಚಿಂತೆ ಮಾಡುವ ಅಗತ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ , ನಾನು ಹೇಗೆ ವಿವರಿಸುತ್ತೇವೆ ಎಂದು ದೋಷಗಳು ಮತ್ತು ಡೇಟಾವನ್ನು ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಎಂಬುದರಲ್ಲಿ ದ್ವೇಷಗಳಿಂದ ಉದ್ಭವಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಈ ಅಧ್ಯಾಯದಲ್ಲಿ ನಾನು ನಂತರ ವಿವರಿಸುತ್ತೇನೆ, ಸಂಶೋಧಕರು ಭಯೋತ್ಪಾದಕ ದಾಳಿ (Back, Küfner, and Egloff 2010) ಗೆ ಪ್ರತಿಕ್ರಿಯೆಯ ಹೆಚ್ಚಿನ ರೆಸಲ್ಯೂಶನ್ ಭಾವನಾತ್ಮಕ ಟೈಮ್ಲೈನ್ ಅನ್ನು ಉತ್ಪಾದಿಸಲು ಸೆಪ್ಟೆಂಬರ್ 11, 2001 ರಂದು ರಚಿಸಿದ ಸಂದೇಶಗಳನ್ನು ಬಳಸಿದ್ದಾರೆ. ಸಂಶೋಧಕರು ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಸಂದೇಶಗಳನ್ನು ಹೊಂದಿದ್ದರಿಂದ, ಅವುಗಳು ವೀಕ್ಷಿಸಿದ ಮಾದರಿಗಳು-ದಿನದ ಹಾದಿಯಲ್ಲಿ ಕೋಪವನ್ನು ಹೆಚ್ಚಿಸುವುದು-ಯಾದೃಚ್ಛಿಕ ಬದಲಾವಣೆಯಿಂದ ವಿವರಿಸಬಹುದು ಎಂಬುದನ್ನು ಅವರು ನಿಜವಾಗಿಯೂ ಚಿಂತೆ ಮಾಡಬೇಕಾಗಿಲ್ಲ. ತುಂಬಾ ಡಾಟಾ ಮತ್ತು ನಮೂನೆಯು ತುಂಬಾ ಸ್ಪಷ್ಟವಾಗಿದೆ ಮತ್ತು ಎಲ್ಲಾ ಅಂಕಿಅಂಶಗಳ ಅಂಕಿಅಂಶಗಳ ಪರೀಕ್ಷೆಗಳು ಇದು ನಿಜವಾದ ಮಾದರಿ ಎಂದು ಸೂಚಿಸಿವೆ. ಆದರೆ, ಈ ಅಂಕಿ-ಅಂಶದ ಪರೀಕ್ಷೆಗಳು ದತ್ತಾಂಶವನ್ನು ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ತಿಳಿದಿಲ್ಲ. ವಾಸ್ತವವಾಗಿ, ಹಲವು ಮಾದರಿಗಳು ಏಕೈಕ ಬೋಟ್ಗೆ ಕಾರಣವಾಗಿವೆ ಎಂದು ಬದಲಾಯಿತು, ಇದು ದಿನವಿಡೀ ಹೆಚ್ಚು ಅರ್ಥಹೀನ ಸಂದೇಶಗಳನ್ನು ರಚಿಸಿತು. ಈ ಬೋಟ್ ಅನ್ನು ತೆಗೆದುಹಾಕುವುದು ಕಾಗದದ ಕೆಲವು ಪ್ರಮುಖ ಶೋಧನೆಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ನಾಶಮಾಡಿದೆ (Pury 2011; Back, Küfner, and Egloff 2011) . ಸರಳವಾಗಿ, ವ್ಯವಸ್ಥಿತ ದೋಷದ ಬಗ್ಗೆ ಯೋಚಿಸದೆ ಇರುವ ಸಂಶೋಧಕರು ಸ್ವಯಂಚಾಲಿತ ಬೋಟ್ನಿಂದ ಉತ್ಪತ್ತಿಯಾಗದ ಅರ್ಥಹೀನ ಸಂದೇಶಗಳ ಭಾವನಾತ್ಮಕ ವಿಷಯದಂತಹ ಅಸಂಖ್ಯಾತ ಪ್ರಮಾಣದಲ್ಲಿ ಒಂದು ನಿಖರ ಅಂದಾಜು ಪಡೆಯಲು ತಮ್ಮ ದೊಡ್ಡ ದತ್ತಾಂಶಗಳನ್ನು ಬಳಸುವ ಅಪಾಯವನ್ನು ಎದುರಿಸುತ್ತಾರೆ.
ಅಂತ್ಯದಲ್ಲಿ, ದೊಡ್ಡ ಡೇಟಾಸೆಟ್ಗಳು ತಾವು ಅಂತ್ಯಗೊಳ್ಳುವುದಿಲ್ಲ, ಆದರೆ ಅಪರೂಪದ ಘಟನೆಗಳ ಅಧ್ಯಯನ, ಭಿನ್ನಜಾತಿಯ ಅಂದಾಜು ಮತ್ತು ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳ ಪತ್ತೆ ಸೇರಿದಂತೆ ಕೆಲವು ರೀತಿಯ ಸಂಶೋಧನೆಗಳನ್ನು ಅವು ಸಕ್ರಿಯಗೊಳಿಸಬಹುದು. ಬಿಗ್ ಡೇಟಾಸೆಟ್ಗಳು ತಮ್ಮ ಡೇಟಾವನ್ನು ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ನಿರ್ಲಕ್ಷಿಸಲು ಕೆಲವು ಸಂಶೋಧಕರಿಗೆ ದಾರಿ ತೋರುತ್ತದೆ, ಇದು ಪ್ರಮುಖವಾದ ಅಂದಾಜು ಪ್ರಮಾಣವನ್ನು ನಿಖರವಾದ ಅಂದಾಜು ಮಾಡಲು ಕಾರಣವಾಗಬಹುದು.