ಮಾನ್ಯತೆರಹಿತ ಡೇಟಾವು ಔಟ್-ಆಫ್-ಸ್ಯಾಂಪಲ್ ಸಾಮಾನ್ಯೀಕರಣಗಳಿಗೆ ಕೆಟ್ಟದ್ದಾಗಿರುತ್ತದೆ, ಆದರೆ ಒಳ-ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಸಾಕಷ್ಟು ಉಪಯುಕ್ತವಾಗಿದೆ.
ಕೆಲವು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಒಂದು ನಿರ್ದಿಷ್ಟ ದೇಶದಲ್ಲಿನ ಎಲ್ಲಾ ಹಿರಿಯರಂತಹ ಉತ್ತಮವಾದ ಜನಸಂಖ್ಯೆಯ ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿಗಳಿಂದ ಬರುವ ಡೇಟಾದೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಒಗ್ಗಿಕೊಂಡಿರುತ್ತಾರೆ. ಈ ರೀತಿಯ ಡೇಟಾವನ್ನು ಪ್ರತಿನಿಧಿ ಡೇಟಾ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ ಏಕೆಂದರೆ ಮಾದರಿ ದೊಡ್ಡ ಜನಸಂಖ್ಯೆಯನ್ನು "ಪ್ರತಿನಿಧಿಸುತ್ತದೆ". ಅನೇಕ ಸಂಶೋಧಕರು ಪ್ರತಿನಿಧಿಸುವ ಡೇಟಾವನ್ನು ಮತ್ತು ಕೆಲವು, ಪ್ರತಿನಿಧಿ ದತ್ತಾಂಶವು ಕಠಿಣ ವಿಜ್ಞಾನಕ್ಕೆ ಸಮಾನಾರ್ಥಕವಾಗಿದೆ, ಆದರೆ ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ನಿಧಾನತೆಗೆ ಸಮಾನಾರ್ಥಕವಾಗಿದೆ. ಅತ್ಯಂತ ವಿಪರೀತವಾಗಿ, ಕೆಲವು ಸಂದೇಹವಾದಿಗಳು ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶದಿಂದ ಏನೂ ಕಲಿಯಬಾರದು ಎಂದು ನಂಬುತ್ತಾರೆ. ನಿಜವೆನಿಸಿದರೆ, ಇದು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಕಲಿಯಬಹುದಾದ ಏನನ್ನು ತೀವ್ರವಾಗಿ ಮಿತಿಗೊಳಿಸುತ್ತದೆ ಎಂದು ತೋರುತ್ತದೆ ಏಕೆಂದರೆ ಅವುಗಳಲ್ಲಿ ಹಲವು ಪ್ರತಿನಿಧಿಗಳು. ಅದೃಷ್ಟವಶಾತ್, ಈ ಸಂದೇಹವಾದಿಗಳು ಕೇವಲ ಭಾಗಶಃ ಮಾತ್ರ. ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ಸ್ಪಷ್ಟವಾಗಿ ಸೂಕ್ತವಲ್ಲ ಎಂದು ಕೆಲವು ಸಂಶೋಧನಾ ಗುರಿಗಳು ಇವೆ, ಆದರೆ ಇತರವುಗಳು ನಿಜವಾಗಿ ಉಪಯುಕ್ತವಾಗಬಹುದು.
ಈ ವ್ಯತ್ಯಾಸವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ನಾವು ವೈಜ್ಞಾನಿಕ ಶ್ರೇಷ್ಠತೆಯನ್ನು ಪರಿಗಣಿಸೋಣ: ಲಂಡನ್ನಲ್ಲಿ 1853-54ರ ಕಾಲರಾ ಏಕಾಏಕಿ ಕುರಿತು ಜಾನ್ ಸ್ನೋ ಅವರ ಅಧ್ಯಯನ. ಆ ಸಮಯದಲ್ಲಿ, "ಕೆಟ್ಟ ಗಾಳಿಯಿಂದ" ಕಾಲರಾ ಉಂಟಾಗಿದೆಯೆಂದು ಅನೇಕ ವೈದ್ಯರು ನಂಬಿದ್ದರು, ಆದರೆ ಸ್ನೋ ಇದು ಸಾಂಕ್ರಾಮಿಕ ಕಾಯಿಲೆ ಎಂದು ನಂಬಿತು, ಬಹುಶಃ ಚರಂಡಿ-ಲೇಪಿತ ಕುಡಿಯುವ ನೀರು ಹರಡಿತು. ಈ ಪರಿಕಲ್ಪನೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು, ನಾವು ಈಗ ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗವನ್ನು ಕರೆಯುವ ಪ್ರಯೋಜನವನ್ನು ಹಿಮವು ಪಡೆದುಕೊಂಡಿದೆ. ಅವನು ಎರಡು ವಿಭಿನ್ನ ನೀರಿನ ಕಂಪನಿಗಳಿಂದ ಸೇವೆ ಸಲ್ಲಿಸಿದ ಕಾಲರಾ ದರವನ್ನು ಹೋಲಿಸಿದ್ದಾನೆ: ಲ್ಯಾಂಬೆತ್ ಮತ್ತು ಸೌತ್ವಾರ್ಕ್ & ವಾಕ್ಸ್ಹಾಲ್. ಈ ಕಂಪನಿಗಳು ಒಂದೇ ಮನೆಗಳಲ್ಲಿ ಸೇವೆ ಸಲ್ಲಿಸಿದವು, ಆದರೆ ಅವು ಒಂದು ಪ್ರಮುಖ ರೀತಿಯಲ್ಲಿ ಭಿನ್ನವಾಗಿದ್ದವು: 1849 ರಲ್ಲಿ - ಸಾಂಕ್ರಾಮಿಕ ಪ್ರಾರಂಭವಾಗುವ ಕೆಲವು ವರ್ಷಗಳ ಮುಂಚೆ - ಲ್ಯಾಂಬೆತ್ ಲಂಡನ್ನಲ್ಲಿನ ಮುಖ್ಯ ಕೊಳಚೆನೀರಿನ ವಿಸರ್ಜನೆಯಿಂದ ತನ್ನ ಸೇವನೆಯ ಬಿಂದುವನ್ನು ಅಪ್ಸ್ಟ್ರೀಮ್ಗೆ ಸ್ಥಳಾಂತರಿಸಿದೆ, ಆದರೆ ಸೌತ್ವಾರ್ಕ್ ಮತ್ತು ವಾಕ್ಸ್ಹಾಲ್ ತಮ್ಮ ಸೇವನೆಯ ಪೈಪ್ ಕೆಳಗಿಳಿಯುತ್ತವೆ. ಚರಂಡಿ ವಿಸರ್ಜನೆ. ಸ್ನೋ ಕಂಪನಿಯು ಎರಡು ಕಂಪೆನಿಗಳು ಸೇವೆ ಸಲ್ಲಿಸಿದ ಮನೆಗಳಲ್ಲಿನ ಕಾಲರಾದಿಂದ ಸಾವಿನ ಪ್ರಮಾಣವನ್ನು ಹೋಲಿಸಿದಾಗ, ಗ್ರಾಹಕರು ಚರಂಡಿ-ಕೊಳೆತ ನೀರನ್ನು ಒದಗಿಸುವ ಸೌತ್ವಾರ್ಕ್ & ವಾಕ್ಸ್ಹಾಲ್ ಕಂಪೆನಿಯು ಕಾಲರಾದಿಂದ ಸಾಯುವ ಸಾಧ್ಯತೆಯಿದೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಲಂಡನ್ನ ಜನರ ಪ್ರತಿನಿಧಿ ಮಾದರಿಯನ್ನು ಆಧರಿಸದಿದ್ದರೂ, ಈ ಫಲಿತಾಂಶವು ಕಾಲರಾ ಕಾರಣದಿಂದಾಗಿ ಹಿಮದ ವಾದಕ್ಕೆ ಬಲವಾದ ವೈಜ್ಞಾನಿಕ ಪುರಾವೆಗಳನ್ನು ನೀಡುತ್ತದೆ.
ಆದಾಗ್ಯೂ, ಈ ಎರಡು ಕಂಪನಿಗಳ ದತ್ತಾಂಶವು ವಿಭಿನ್ನ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರ ನೀಡಲು ಸೂಕ್ತವಲ್ಲ: ಲಂಡನ್ನಲ್ಲಿ ಸಂಭವಿಸಿದ ಕಾಲರಾದಲ್ಲಿನ ಪ್ರವೃತ್ತಿ ಏನು? ಆ ಎರಡನೇ ಪ್ರಶ್ನೆಗೆ, ಇದು ಮುಖ್ಯವಾದುದು, ಲಂಡನ್ನಿಂದ ಪ್ರತಿನಿಧಿಸುವ ಜನರ ಮಾದರಿ ಹೊಂದಲು ಇದು ಉತ್ತಮವಾಗಿದೆ.
ಸ್ನೋನ ಕೆಲಸವು ವಿವರಿಸಿದಂತೆ, ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ಸಾಕಷ್ಟು ಪರಿಣಾಮಕಾರಿಯಾಗಬಲ್ಲಂತಹ ಕೆಲವೊಂದು ವೈಜ್ಞಾನಿಕ ಪ್ರಶ್ನೆಗಳಿವೆ ಮತ್ತು ಇತರವುಗಳು ಸೂಕ್ತವಾಗಿಲ್ಲ. ಈ ಎರಡು ವಿಧದ ಪ್ರಶ್ನೆಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸಲು ಒಂದು ಕಚ್ಚಾ ಮಾರ್ಗವೆಂದರೆ ಕೆಲವು ಪ್ರಶ್ನೆಗಳು ಒಳ-ಮಾದರಿಯ ಹೋಲಿಕೆಗಳಾಗಿದ್ದು ಕೆಲವು ಮಾದರಿಗಳ ಸಾಮಾನ್ಯ ಸಾಮಾನ್ಯತೆಗಳು. ಎಪಿಡೆಮಿಯೋಲಜಿಯಲ್ಲಿನ ಮತ್ತೊಂದು ಶ್ರೇಷ್ಠ ಅಧ್ಯಯನದಿಂದ ಈ ವ್ಯತ್ಯಾಸವನ್ನು ಮತ್ತಷ್ಟು ವಿವರಿಸಬಹುದು: ಬ್ರಿಟಿಷ್ ಡಾಕ್ಟರ್ಸ್ ಸ್ಟಡಿ, ಇದು ಧೂಮಪಾನ ಕ್ಯಾನ್ಸರ್ಗೆ ಕಾರಣವಾಗುತ್ತದೆ ಎಂದು ನಿರೂಪಿಸುವಲ್ಲಿ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸಿದೆ. ಈ ಅಧ್ಯಯನದಲ್ಲಿ, ರಿಚರ್ಡ್ ಡಾಲ್ ಮತ್ತು A. ಬ್ರಾಡ್ಫೋರ್ಡ್ ಹಿಲ್ ಸುಮಾರು 25,000 ಪುರುಷ ವೈದ್ಯರನ್ನು ಹಲವಾರು ವರ್ಷಗಳಿಂದ ಅನುಸರಿಸಿದರು ಮತ್ತು ಅಧ್ಯಯನದ ಪ್ರಾರಂಭವಾದಾಗ ಅವರು ಧೂಮಪಾನ ಮಾಡಿದ ಪ್ರಮಾಣವನ್ನು ಆಧರಿಸಿ ಅವರ ಸಾವಿನ ಪ್ರಮಾಣವನ್ನು ಹೋಲಿಸಿದರು. ಡಾಲ್ ಅಂಡ್ ಹಿಲ್ (1954) ಬಲವಾದ ಮಾನ್ಯತೆ-ಪ್ರತಿಕ್ರಿಯೆಯ ಸಂಬಂಧವನ್ನು ಕಂಡುಕೊಂಡರು: ಹೆಚ್ಚು ಜನ ಧೂಮಪಾನ ಮಾಡಿದವರು, ಅವರು ಹೆಚ್ಚಾಗಿ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ನಿಂದ ಸಾಯುವರು. ಸಹಜವಾಗಿ, ಪುರುಷ ವೈದ್ಯರ ಈ ಗುಂಪಿನ ಆಧಾರದ ಮೇಲೆ ಎಲ್ಲಾ ಬ್ರಿಟಿಷ್ ಜನರಲ್ಲಿ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ನ ಹರಡುವಿಕೆಯನ್ನು ಅಂದಾಜು ಮಾಡುವುದು ಅವಿವೇಕಿತವಾಗಿರುತ್ತದೆ, ಆದರೆ ಒಳ-ಮಾದರಿ ಹೋಲಿಕೆ ಇನ್ನೂ ಧೂಮಪಾನ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ಗೆ ಕಾರಣವಾಗುತ್ತದೆ ಎಂಬ ಸಾಕ್ಷ್ಯವನ್ನು ನೀಡುತ್ತದೆ.
ಈಗ ಮಾದರಿ ಮಾದರಿ ಹೋಲಿಕೆಗಳು ಮತ್ತು ಔಟ್-ಆಫ್-ಸ್ಯಾಂಪಲ್ ಸಾಮಾನ್ಯೀಕರಣಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ನಾನು ವಿವರಿಸಿದ್ದೇನೆ, ಎರಡು ಕಾಯೇವ್ಗಳು ಕ್ರಮದಲ್ಲಿವೆ. ಮೊದಲನೆಯದಾಗಿ, ಗಂಡು ಬ್ರಿಟಿಷ್ ವೈದ್ಯರ ಮಾದರಿಯಲ್ಲಿರುವ ಸಂಬಂಧವು ಹೆಣ್ಣು, ಬ್ರಿಟಿಷ್ ವೈದ್ಯರು ಅಥವಾ ಪುರುಷ ಬ್ರಿಟಿಷ್ ಫ್ಯಾಕ್ಟರಿ ಕಾರ್ಮಿಕರ ಅಥವಾ ಸ್ತ್ರೀ ಜರ್ಮನ್ ಕಾರ್ಖಾನೆ ಕಾರ್ಮಿಕರ ಅಥವಾ ಹಲವಾರು ಇತರ ಗುಂಪುಗಳ ಮಾದರಿಯೊಳಗೆ ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವ ಮಟ್ಟಿಗೆ ನೈಸರ್ಗಿಕವಾಗಿ ಪ್ರಶ್ನೆಗಳಿವೆ. ಈ ಪ್ರಶ್ನೆಗಳು ಕುತೂಹಲಕಾರಿ ಮತ್ತು ಪ್ರಮುಖವಾಗಿವೆ, ಆದರೆ ಒಂದು ಮಾದರಿಯಿಂದ ಜನಸಂಖ್ಯೆಗೆ ನಾವು ಸಾಮಾನ್ಯೀಕರಿಸಬಹುದಾದ ವ್ಯಾಪ್ತಿಯ ಕುರಿತು ಅವು ಭಿನ್ನವಾಗಿರುತ್ತವೆ. ಉದಾಹರಣೆಗಾಗಿ, ಪುರುಷ ಬ್ರಿಟಿಷ್ ವೈದ್ಯರಲ್ಲಿ ಕಂಡುಬಂದ ಧೂಮಪಾನ ಮತ್ತು ಕ್ಯಾನ್ಸರ್ ನಡುವಿನ ಸಂಬಂಧವು ಬಹುಶಃ ಈ ಇತರ ಗುಂಪುಗಳಲ್ಲಿ ಹೋಲುತ್ತದೆ ಎಂದು ನೀವು ಬಹುಶಃ ಸಂಶಯಿಸುತ್ತಾರೆ. ಪುರುಷ ಬ್ರಿಟಿಷ್ ವೈದ್ಯರು ಯಾವುದೇ ಜನಸಂಖ್ಯೆಯ ಒಂದು ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿ ಎಂದು ಈ ಬಹಿಷ್ಕಾರ ಮಾಡುವ ನಿಮ್ಮ ಸಾಮರ್ಥ್ಯವು ಬರುವುದಿಲ್ಲ; ಬದಲಿಗೆ, ಇದು ಧೂಮಪಾನ ಮತ್ತು ಕ್ಯಾನ್ಸರ್ಗೆ ಸಂಬಂಧಿಸಿರುವ ಯಾಂತ್ರಿಕತೆಯ ಅರ್ಥದಿಂದ ಬರುತ್ತದೆ. ಆದ್ದರಿಂದ, ಮಾದರಿಯಿಂದ ಜನಸಂಖ್ಯೆಗೆ ಎಳೆಯುವ ಜನಸಂಖ್ಯೆಯು ಹೆಚ್ಚಾಗಿ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ವಿಷಯವಾಗಿದೆ, ಆದರೆ ಒಂದು ಗುಂಪಿನಲ್ಲಿ ಇನ್ನೊಂದು ಗುಂಪಿಗೆ ಕಂಡುಬರುವ ಮಾದರಿಯ ಸಾಗಣೆಯ ಬಗೆಗಿನ ಪ್ರಶ್ನೆಗಳು ಹೆಚ್ಚಾಗಿ (Pearl and Bareinboim 2014; Pearl 2015) ವಿವಾದಾಂಶ (Pearl and Bareinboim 2014; Pearl 2015) .
ಈ ಹಂತದಲ್ಲಿ, ಧೂಮಪಾನ ಮತ್ತು ಕ್ಯಾನ್ಸರ್ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಹೊರತುಪಡಿಸಿ ಹೆಚ್ಚಿನ ಸಾಮಾಜಿಕ ಮಾದರಿಗಳು ಗುಂಪುಗಳಾದ್ಯಂತ ಕಡಿಮೆ ಸಾಗಣೆಗೆ ಒಳಗಾಗುವ ಸಾಧ್ಯತೆ ಇದೆ ಎಂದು ಒಬ್ಬ ಸಂಶಯ ವ್ಯಕ್ತಪಡಿಸಬಹುದು. ಮತ್ತು ನಾನು ಒಪ್ಪುತ್ತೇನೆ. ಮಾದರಿಗಳನ್ನು ಸಾಗಣೆಯನ್ನಾಗಿ ನಾವು ನಿರೀಕ್ಷಿಸಬೇಕೆಂಬುದು ಅಂತಿಮವಾಗಿ ಒಂದು ವೈಜ್ಞಾನಿಕ ಪ್ರಶ್ನೆಯಾಗಿದ್ದು ಅದು ಸಿದ್ಧಾಂತ ಮತ್ತು ಸಾಕ್ಷ್ಯದ ಆಧಾರದ ಮೇಲೆ ನಿರ್ಧರಿಸಬೇಕಿದೆ. ಮಾದರಿಗಳನ್ನು ರವಾನಿಸಬಹುದು ಎಂದು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಭಾವಿಸಬಾರದು, ಆದರೆ ಅವು ಸಾಗಿಸಬಾರದು ಎಂದು ಊಹಿಸಬಾರದು. ಪದವಿಪೂರ್ವ ವಿದ್ಯಾರ್ಥಿಗಳನ್ನು (Sears 1986, [@henrich_most_2010] ) ಅಧ್ಯಯನ ಮಾಡುವ ಮೂಲಕ ಮಾನವ ವರ್ತನೆಯನ್ನು ಕುರಿತು ಎಷ್ಟು ಸಂಶೋಧಕರು (Sears 1986, [@henrich_most_2010] ) ಚರ್ಚೆಗಳನ್ನು ನೀವು ಅನುಸರಿಸಿದರೆ ಸಾಗಣೆಯ ಬಗ್ಗೆ ಈ ಅಲ್ಪವಾದ ಅಮೂರ್ತ ಪ್ರಶ್ನೆಗಳನ್ನು ನಿಮಗೆ ತಿಳಿದಿರುತ್ತದೆ. ಈ ಚರ್ಚೆಗಳ ಹೊರತಾಗಿಯೂ, ಪದವಿಪೂರ್ವ ವಿದ್ಯಾರ್ಥಿಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುವ ಮೂಲಕ ಸಂಶೋಧಕರು ಏನನ್ನೂ ಕಲಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ ಎಂದು ಹೇಳುವುದು ಅಸಮಂಜಸವಾಗಿದೆ.
ಎರಡನೆಯ ತಿದ್ದುಪಡಿಯೆಂದರೆ, ಪ್ರತಿನಿಧಿಸದ ಮಾಹಿತಿಯೊಂದಿಗಿನ ಹೆಚ್ಚಿನ ಸಂಶೋಧಕರು ಹಿಮ ಅಥವಾ ಡಾಲ್ ಮತ್ತು ಹಿಲ್ನಂತಹ ಜಾಗರೂಕರಾಗಿರುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ಸಂಶೋಧಕರು ಪ್ರತಿನಿಧಿಸದ ಡೇಟಾದಿಂದ ಹೊರಗಿನ ಮಾದರಿ ಸಾಮಾನ್ಯೀಕರಣವನ್ನು ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿದಾಗ ಏನು ತಪ್ಪಾಗಿರಬಹುದು ಎಂಬುದನ್ನು ವಿವರಿಸಲು, ಆಂಡ್ರನಿಕ್ ತುಮಾಸ್ಜನ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2010) 2009 ರ ಜರ್ಮನ್ ಸಂಸತ್ತಿನ ಚುನಾವಣೆಯ ಅಧ್ಯಯನವನ್ನು ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ. 100,000 ಕ್ಕಿಂತಲೂ ಹೆಚ್ಚು ಟ್ವೀಟ್ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ, ರಾಜಕೀಯ ಪಕ್ಷವನ್ನು ಉಲ್ಲೇಖಿಸಿರುವ ಟ್ವೀಟ್ಗಳ ಪ್ರಮಾಣವು ಸಂಸತ್ತಿನ ಚುನಾವಣೆಯಲ್ಲಿ ಪಕ್ಷವು ಸ್ವೀಕರಿಸಿದ ಮತಗಳ ಪ್ರಮಾಣವನ್ನು (ಫಿಗರ್ 2.3) ಹೊಂದಿಕೆಯಾಗಿದೆ ಎಂದು ಅವರು ಕಂಡುಕೊಂಡರು. ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಮೂಲಭೂತವಾಗಿ ಉಚಿತವಾದ ಟ್ವಿಟರ್ ಡೇಟಾವನ್ನು ಸಾಂಪ್ರದಾಯಿಕ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯ ಸಮೀಕ್ಷೆಗಳನ್ನು ಬದಲಾಯಿಸಬಹುದೆಂದು ಕಾಣಿಸಿಕೊಂಡಿತ್ತು, ಇದು ಪ್ರತಿನಿಧಿ ಮಾಹಿತಿಯ ಮೇಲಿನ ಮಹತ್ವದಿಂದಾಗಿ ದುಬಾರಿಯಾಗಿದೆ.
ನೀವು ಈಗಾಗಲೇ ಟ್ವಿಟ್ಟರ್ ಬಗ್ಗೆ ಈಗಾಗಲೇ ತಿಳಿದಿರುವ ಕಾರಣ, ನೀವು ತಕ್ಷಣ ಈ ಫಲಿತಾಂಶದ ಬಗ್ಗೆ ಸಂಶಯ ಇರಬೇಕು. 2009 ರಲ್ಲಿ ಟ್ವಿಟರ್ನಲ್ಲಿ ಜರ್ಮನ್ನರು ಜರ್ಮನ್ ಮತದಾರರ ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿಯಲ್ಲ, ಮತ್ತು ಕೆಲವು ಪಕ್ಷಗಳ ಬೆಂಬಲಿಗರು ಇತರ ಪಕ್ಷಗಳ ಬೆಂಬಲಿಗರಿಗಿಂತ ಹೆಚ್ಚಾಗಿ ರಾಜಕೀಯದ ಬಗ್ಗೆ ಟ್ವೀಟ್ ಮಾಡಬಹುದಾಗಿದೆ. ಹೀಗಾಗಿ, ನೀವು ಊಹಿಸಲು ಸಾಧ್ಯವಿರುವ ಎಲ್ಲಾ ಸಂಭವನೀಯ ದ್ವೇಷಗಳು ಜರ್ಮನಿಯ ಮತದಾರರ ಈ ಡೇಟಾವನ್ನು ನೇರವಾಗಿ ಪ್ರತಿಫಲಿಸುತ್ತದೆ ಎಂದು ಹೇಗಾದರೂ ರದ್ದುಗೊಳಿಸುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, Tumasjan et al. (2010) ಫಲಿತಾಂಶಗಳು Tumasjan et al. (2010) ತುಂಬಾ ಒಳ್ಳೆಯದು ಎಂದು ತಿರುಗಿತು. ಆಂಡ್ರಿಯಾಸ್ ಜಂಗೇರ್ರ್, ಪ್ಯಾಸ್ಕಲ್ ಜುರ್ಜೆನ್ಸ್, ಮತ್ತು ಹರಾಲ್ಡ್ ಸ್ಕೊಯೆನ್ (2012) ರವರ ಮುಂದಿನ ಲೇಖನವು, ಮೂಲಭೂತ ವಿಶ್ಲೇಷಣೆಯು ರಾಜಕೀಯ ಪಕ್ಷವನ್ನು ನಿಜವಾಗಿ ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿ ಉಲ್ಲೇಖಿಸಿರುವುದನ್ನು ಹೊರತುಪಡಿಸಿದೆ ಎಂದು ತಿಳಿಸಿತು: ಸರ್ಕಾರದ ನಿಯಂತ್ರಣಕ್ಕೆ ಹೋರಾಡುವ ಸಣ್ಣ ಪಕ್ಷವಾದ ಪೈರೇಟ್ ಪಾರ್ಟಿ ಇಂಟರ್ನೆಟ್. ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಪೈರೇಟ್ ಪಾರ್ಟಿಯನ್ನು ಸೇರಿಸಿದಾಗ, ಟ್ವಿಟ್ಟರ್ ಹೇಳಿಕೆಯು ಚುನಾವಣಾ ಫಲಿತಾಂಶಗಳ ಭೀಕರವಾದ ಭವಿಷ್ಯಸೂಚಕ (ಫಿಗರ್ 2.3) ಆಗುತ್ತದೆ. ಈ ಉದಾಹರಣೆಯು ವಿವರಿಸಿರುವಂತೆ, ಔಟ್-ಆಫ್-ಸ್ಯಾಂಪಲ್ ಸಾಮಾನ್ಯೀಕರಣಗಳನ್ನು ಮಾಡಲು ಪ್ರತಿನಿಧಿಸದ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಬಳಸುವುದು ಅತ್ಯಂತ ತಪ್ಪಾಗಿದೆ. ಅಲ್ಲದೆ, 100,000 ಟ್ವಿಟ್ಗಳು ಇದ್ದವು ಎಂಬ ಅಂಶವು ಮೂಲಭೂತವಾಗಿ ಅಪ್ರಸ್ತುತವಾಗಿದೆ ಎಂದು ನೀವು ಗಮನಿಸಬೇಕು: ಸಮೀಕ್ಷೆ ಕುರಿತು ನಾನು ಚರ್ಚಿಸಿದಾಗ ಅಧ್ಯಾಯ 3 ರಲ್ಲಿ ನಾನು ಹಿಂದಿರುಗುವ ಒಂದು ಥೀಮ್ ಇನ್ನೂ ಪ್ರತಿನಿಧಿಯಾಗಿಲ್ಲ.
ತೀರ್ಮಾನಿಸಲು, ಹಲವಾರು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಕೆಲವು ಉತ್ತಮ ಜನಸಂಖ್ಯೆಯ ಪ್ರತಿನಿಧಿ ಮಾದರಿಗಳಾಗಿರುವುದಿಲ್ಲ. ಮಾದರಿಯಿಂದ ಇದು ಎಳೆಯಲ್ಪಟ್ಟ ಜನಸಂಖ್ಯೆಗೆ ಸಾಮಾನ್ಯ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುವ ಪ್ರಶ್ನೆಗಳಿಗೆ, ಇದು ಗಂಭೀರ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಆದರೆ ಮಾದರಿ ಮಾದರಿಯ ಹೋಲಿಕೆಗಳ ಬಗ್ಗೆ ಪ್ರಶ್ನೆಗಳಿಗೆ, ಪ್ರತಿನಿಧಿಗಳು ತಮ್ಮ ಮಾದರಿಯ ಗುಣಲಕ್ಷಣಗಳ ಬಗ್ಗೆ ಮತ್ತು ಸೈದ್ಧಾಂತಿಕ ಅಥವಾ ಪ್ರಾಯೋಗಿಕ ಸಾಕ್ಷ್ಯಗಳೊಂದಿಗೆ ಸಾಗಣೆಯ ಬಗ್ಗೆ ಬೆಂಬಲ ಹಕ್ಕುಗಳ ಬಗ್ಗೆ ಸ್ಪಷ್ಟವಾಗಿ ತಿಳಿದಿಲ್ಲವಾದರೂ, ಪ್ರತಿನಿಧಿಸದ ದತ್ತಾಂಶವು ಶಕ್ತಿಯುತವಾಗಿದೆ. ವಾಸ್ತವವಾಗಿ, ದೊಡ್ಡ ದತ್ತಾಂಶ ಮೂಲಗಳು ಸಂಶೋಧಕರನ್ನು ಅನೇಕ ಪ್ರತಿನಿಧಿಸದ ಗುಂಪುಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ಮಾದರಿಯ ಹೋಲಿಕೆಗಳನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾಗುವುದೆಂದು ನನ್ನ ನಿರೀಕ್ಷೆ ಇದೆ ಮತ್ತು ನನ್ನ ಊಹೆ ಅನೇಕ ಸಂಭವನೀಯ ಗುಂಪುಗಳಿಂದ ಅಂದಾಜುಗಳು ಸಂಭವನೀಯ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿ.