ದೊಡ್ಡ ದತ್ತಾಂಶ ಮುಕ್ತಾಯ ಎಂಬ ಸಾಧನವಾಗಿರುತ್ತವೆ ಅವರು ತಮ್ಮನ್ನು ಒಂದು ಕೊನೆಯಲ್ಲಿ ಅಲ್ಲ.
ದೊಡ್ಡ ದಶಮಾಂಶ ಮೂರು ಉತ್ತಮ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಮೊದಲ ಅತ್ಯಂತ ಚರ್ಚಿಸಲಾಗಿದೆ: ಈ ದೊಡ್ಡ ದಶಮಾಂಶ ಇವೆ. ಅನೇಕ ಜನರು, ಬಹಳಷ್ಟು ಮಾಹಿತಿಯೊಂದಿಗಿನ ಪ್ರತಿ ವ್ಯಕ್ತಿಗೆ, ಅಥವಾ ಕಾಲಾನಂತರದಲ್ಲಿ ಅನೇಕ ಗಮನಿಸಿದ: ಈ ದತ್ತಾಂಶಗಳನ್ನು ಮೂರು ವಿಭಿನ್ನ ರೀತಿಯಲ್ಲಿ ದೊಡ್ಡ ಮಾಡಬಹುದು. ದೊಡ್ಡ ದತ್ತಾಂಶ ಹೊಂದಿರುವ, ಅಪರೂಪದ ಘಟನೆಗಳು ಅಧ್ಯಯನ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು ಪತ್ತೆ ವೀಕ್ಷಣಾ ಡೇಟಾವನ್ನು ಸಾಂದರ್ಭಿಕ ಅಂದಾಜು ಮಾಡುವ, ಸಂಶೋಧನಾ-ಮಾಪನಾ ವಿವಿಧತೆಗಳ ಕೆಲವು ನಿರ್ದಿಷ್ಟ ರೀತಿಯ ಶಕ್ತಗೊಳಿಸುತ್ತದೆ. ಇದು ಅಚ್ಚುಕಟ್ಟಾಗಿರುವಿಕೆ ಒಂದು ನಿರ್ದಿಷ್ಟ ರೀತಿಯ ದಾರಿ ಕಾಣುತ್ತದೆ.
ಮೊದಲ ವಿಷಯ ಗಾತ್ರ ವಿಶೇಷವಾಗಿ ಉಪಯುಕ್ತ ಇದು ನಿರ್ದಿಷ್ಟ ಉಪಗುಂಪುಗಳನ್ನು ಅಂದಾಜು ಮಾಡಲು ಸರಾಸರಿ ಮೀರಿ ಚಲಿಸುವ ಇದೆ. ಉದಾಹರಣೆಗೆ, ಗ್ಯಾರಿ ಕಿಂಗ್, ಜೆನ್ನಿಫರ್ ಪ್ಯಾನ್, ಮತ್ತು ಮೊಲ್ಲಿ ರಾಬರ್ಟ್ಸ್ (2013) ಚೀನಾ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಪೋಸ್ಟ್ಗಳನ್ನು ಸರ್ಕಾರ ಸೆನ್ಸಾರ್ ಎಂದು ಸಂಭವನೀಯತೆ ಅಳತೆ. ಸ್ವತಃ ಅಳಿಸುವಿಕೆಗೆ ಈ ಸರಾಸರಿ ಸಂಭವನೀಯತೆಯನ್ನು ಸರ್ಕಾರದ ಕೆಲವು ಪೋಸ್ಟ್ಗಳನ್ನು ಆದರೆ ಇತರರು ಪರಿಶೀಲಿಸುವುದು ಏಕೆ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಬಹಳ ಉಪಯುಕ್ತ ಅಲ್ಲ. ಆದರೆ, ಅವರ ದತ್ತಾಂಶ ಒಳಗೊಂಡಿತ್ತು 11 ದಶಲಕ್ಷ ಪೋಸ್ಟ್ಗಳನ್ನು ಏಕೆಂದರೆ ರಾಜ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಸಹ ಸೆನ್ಸಾರ್ಶಿಪ್ ಸಂಭವನೀಯತೆ 85 ಪ್ರತ್ಯೇಕ ವಿಭಾಗಗಳು (ಉದಾ, ಲಂಪಟ ಸಾಹಿತ್ಯ, ಟಿಬೆಟ್, ಮತ್ತು ಬೀಜಿಂಗ್ನಲ್ಲಿ ಸಂಚಾರ) ಪೋಸ್ಟ್ಗಳು ಅಂದಾಜು ನಿರ್ಮಾಣ. ವಿವಿಧ ವಿಭಾಗಗಳಲ್ಲಿ ಪೋಸ್ಟ್ಗಳನ್ನು ಸೆನ್ಸಾರ್ಶಿಪ್ ಸಂಭವನೀಯತೆ ಹೋಲಿಸಿ, ಅವರು ಸರ್ಕಾರ ಪೋಸ್ಟ್ಗಳನ್ನು ಕೆಲವು ರೀತಿಯ ಪರಿಶೀಲಿಸುವುದು ಹೇಗೆ ಮತ್ತು ಏಕೆ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ಸಾಧ್ಯವಾಯಿತು. 11 ಸಾವಿರ ಪೋಸ್ಟ್ಗಳು (ಬದಲಿಗೆ 11 ದಶಲಕ್ಷ ಪೋಸ್ಟ್ಗಳನ್ನು), ಅವರು ಈ ವರ್ಗದಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಅಂದಾಜು ತಯಾರಿಸಲು ಸಾಧ್ಯವಾಯಿತು ಮಾಡಿರಲಿಲ್ಲ.
ಎರಡನೇ, ಗಾತ್ರ ಅಪರೂಪದ ಘಟನೆಗಳ ಅಧ್ಯಯನ ಉಪಯುಕ್ತವಾಗಿರುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಗೋಯಲ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2015) ಟ್ವಿಟ್ಗಳು ವೈರಲ್ ಹೋಗಿ ವಿವಿಧ ರೀತಿಯಲ್ಲಿ ಅಧ್ಯಯನ ಬಯಸಿದರು. ಮರು ಟ್ವಿಟ್ಗಳು ದೊಡ್ಡ ಜಲಪಾತಗಳು ಒಂದು ಅತ್ಯಂತ ಅಪರೂಪದ-ಒಂದು ಏಕೆಂದರೆ 3,000 ತಮ್ಮ ವಿಶ್ಲೇಷಣೆ ಸಾಕಷ್ಟು ದೊಡ್ಡ ಜಲಪಾತಗಳು ಪಡೆಯುವ ಸಲುವಾಗಿ ಹೆಚ್ಚು ಒಂದು ಬಿಲಿಯನ್ ಟ್ವಿಟ್ಗಳು ಅಧ್ಯಯನ ಅಗತ್ಯವಿದೆ.
ಮೂರನೇ, ದೊಡ್ಡ ದತ್ತಾಂಶ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು ಪತ್ತೆ ಸಂಶೋಧಕರು ಶಕ್ತಗೊಳಿಸಿ. ವಾಸ್ತವವಾಗಿ, ಉದ್ಯಮದಲ್ಲಿ ದೊಡ್ಡ ಡೇಟಾವನ್ನು ಗಮನದ ಈ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು ಸುಮಾರು: ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಒಂದು ಜಾಹೀರಾತು ಮೇಲೆ 1% ಮತ್ತು 1.1% ಕ್ಲಿಕ್ ಥ್ರು ದರಗಳನ್ನು ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಪತ್ತೆ ಮಾಡಿ ಆದಾಯ ಮಿಲಿಯನ್ ಡಾಲರ್ ಭಾಷಾಂತರಿಸಲು ಮಾಡಬಹುದು. ಕೆಲವು ವೈಜ್ಞಾನಿಕ ಹಿನ್ನೆಲೆಯಲ್ಲಿ, ಇಂತಹ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು (ಅವರು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ಗಣನೀಯ ಸಹ) ನಿರ್ದಿಷ್ಟ ಪ್ರಮುಖ ಇರಬಹುದು. ಆದರೆ, ಕೆಲವು ನೀತಿಯ ಸೆಟ್ಟಿಂಗ್ಗಳನ್ನು, ಇಂತಹ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು ಪ್ರಮುಖ ಒಟ್ಟಾರೆಯಾಗಿ ನೋಡಿದಾಗ ಆಗಬಹುದು. ಉದಾಹರಣೆಗೆ, ಎರಡು ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಮಧ್ಯಸ್ಥಿಕೆಗಳು ಒಂದು ಇತರ ಹೆಚ್ಚು ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ, ನಂತರ ಮಧ್ಯೆ ಹೆಚ್ಚುವರಿ ಜೀವನದಲ್ಲಿ ಸಾವಿರಾರು ಉಳಿಸುವ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ ಬದಲಿಸುವ ವೇಳೆ.
ಅಂತಿಮವಾಗಿ, ದೊಡ್ಡ ಡೇಟಾ ಸೆಟ್ಗಳನ್ನು ಹೆಚ್ಚು ವೀಕ್ಷಣೆಯ ಅಂಕಿಅಂಶಗಳೊಂದಿಗೆ ರಿಂದ ಸಾಂದರ್ಭಿಕ ಅಂದಾಜು ಮಾಡಲು ನಮ್ಮ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ದೊಡ್ಡ ದತ್ತಾಂಶ ಮೂಲಭೂತವಾಗಿ ಅವಲೋಕನದ ದಶಮಾಂಶ ಸಾಂದರ್ಭಿಕ ನಿರ್ಣಯ ಮಾಡುವ ಹೊಂದಾಣಿಕೆ ಮತ್ತು ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳನ್ನು ಎರಡು ತಂತ್ರಗಳನ್ನು ಸಂಶೋಧಕರು ವೀಕ್ಷಣೆಯ ರಿಂದ ಸಾಂದರ್ಭಿಕ ಸಮರ್ಥನೆಗಳನ್ನು ಮಾಡಲು ಅಭಿವೃದ್ಧಿ ಡೇಟಾ ಎರಡೂ ಹೆಚ್ಚು ದೊಡ್ಡ ದತ್ತಾಂಶ ಪ್ರಯೋಜನವನ್ನು ಸಮಸ್ಯೆಗಳನ್ನು ಬದಲಾವಣೆ ಮಾಡುವುದಿಲ್ಲ ಆದರೂ. ನಾನು ವಿವರಿಸಲು ಮತ್ತು ನಾನು ಸಂಶೋಧನೆ ತಂತ್ರಗಳನ್ನು ವಿವರಿಸಲು ಈ ಮುಂದಿನ ಅಧ್ಯಾಯದಲ್ಲಿ ಹೆಚ್ಚಿನ ವಿವರ ಈ ಹಕ್ಕು ವಿವರಿಸುತ್ತದೆ ಮಾಡುತ್ತೇವೆ.
bigness ಸಾಮಾನ್ಯವಾಗಿ ಸರಿಯಾಗಿ ಬಳಸಿದಾಗ ಉತ್ತಮ ಆಸ್ತಿ ಆದಾಗ್ಯೂ, ನಾನು bigness ಸಾಮಾನ್ಯವಾಗಿ ಕಲ್ಪನಾ ದೋಷ ಕಾರಣವಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು. ಕೆಲವು ಕಾರಣಕ್ಕಾಗಿ, bigness ತಮ್ಮ ಡೇಟಾವನ್ನು ರಚಿಸಿದ್ದಾರೆ ಹೇಗೆ ನಿರ್ಲಕ್ಷಿಸಿ ಸಂಶೋಧಕರು ದಾರಿ ತೋರುತ್ತದೆ. Bigness ಯಾದೃಚ್ಛಿಕ ದೋಷ ಬಗ್ಗೆ ಚಿಂತೆ ಅಗತ್ಯವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ, ಇದು ವಾಸ್ತವವಾಗಿ ವ್ಯವಸ್ಥಿತ ದೋಷಗಳನ್ನು ಬಗ್ಗೆ ಚಿಂತೆ ಅಗತ್ಯವಿಲ್ಲದೇ ಹೆಚ್ಚಿಸುತ್ತದೆ, ನಾನು ಕೆಳಗೆ ಹೆಚ್ಚು ವಿವರಿಸಲು ಮಾಡುತ್ತೇವೆ ದೋಷಗಳನ್ನು ರೀತಿಯ ಡೇಟಾ ದಾಖಲಿಸಿದವರು ಸಂಗ್ರಹವಾಗುತ್ತವೆ ಹೇಗೆ ಪೂರ್ವಗ್ರಹಗಳು ಉದ್ಭವಿಸುತ್ತವೆ. ಸಣ್ಣ ದತ್ತಾಂಶ, ಯಾದೃಚ್ಛಿಕ ದೋಷ ಮತ್ತು ಕ್ರಮಬದ್ಧವಾದ ದೋಷಗಳನ್ನು ಎರಡೂ ಪ್ರಮುಖವಾಗಿದೆ, ಆದರೆ ದೊಡ್ಡ ದತ್ತಾಂಶ ಯಾದೃಚ್ಛಿಕ ದೋಷ ದೂರ ಸರಾಸರಿ ಮಾಡಬಹುದು ಮತ್ತು ಕ್ರಮಬದ್ಧವಾದ ದೋಷಗಳನ್ನು ಪ್ರಧಾನವಾಗಿರುತ್ತದೆ. ಯಾರು ವ್ಯವಸ್ಥಿತ ದೋಷ ತಪ್ಪು ವಿಷಯ ಒಂದು ಕರಾರುವಾಕ್ಕಾದ ಅಂದಾಜು ಪಡೆಯಲು ತಮ್ಮ ದತ್ತಾಂಶವನ್ನು ಬಳಸುವಂತಹ ಕೊನೆಗಾಣಿಸುವ ಬಗ್ಗೆ ಯೋಚಿಸುವುದಿಲ್ಲ ಸಂಶೋಧಕರು; ಅವರು ನಿಖರವಾಗಿ ತಪ್ಪಾದ ಇರುತ್ತದೆ (McFarland and McFarland 2015) .