ನಿಮ್ಮ ದೊಡ್ಡ ಡೇಟಾ ಎಷ್ಟು ದೊಡ್ಡದು, ಇದು ನಿಮಗೆ ಬೇಕಾದ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿಲ್ಲ.
ಅತ್ಯಂತ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಅಪೂರ್ಣವಾಗಿದ್ದು , ನಿಮ್ಮ ಸಂಶೋಧನೆಗೆ ನೀವು ಬಯಸುವ ಮಾಹಿತಿಯಿಲ್ಲ ಎಂದು ಅರ್ಥದಲ್ಲಿ. ಸಂಶೋಧನೆಯ ಹೊರತುಪಡಿಸಿ ಉದ್ದೇಶಗಳಿಗಾಗಿ ರಚಿಸಲಾದ ಡೇಟಾದ ಒಂದು ಸಾಮಾನ್ಯ ಲಕ್ಷಣವಾಗಿದೆ. ಅನೇಕ ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಈಗಾಗಲೇ ಅಗತ್ಯವಿರುವ ಪ್ರಶ್ನೆ ಕೇಳದೆ ಇರುವ ಸಮೀಕ್ಷೆ ಮುಂತಾದ ಅಪೂರ್ಣತೆಯೊಂದಿಗೆ ವ್ಯವಹರಿಸುವ ಅನುಭವವನ್ನು ಹೊಂದಿದ್ದಾರೆ. ದುರದೃಷ್ಟವಶಾತ್, ಅಪೂರ್ಣತೆಯ ಸಮಸ್ಯೆಗಳು ದೊಡ್ಡ ಡೇಟಾದಲ್ಲಿ ಹೆಚ್ಚು ತೀವ್ರವಾಗಿರುತ್ತವೆ. ನನ್ನ ಅನುಭವದಲ್ಲಿ, ದೊಡ್ಡ ಮಾಹಿತಿಯು ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಗೆ ಉಪಯುಕ್ತವಾದ ಮೂರು ವಿಧದ ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಂಡಿರುತ್ತದೆ: ಪಾಲ್ಗೊಳ್ಳುವವರ ಬಗ್ಗೆ ಜನಸಂಖ್ಯಾ ಮಾಹಿತಿ, ಇತರ ವೇದಿಕೆಗಳಲ್ಲಿ ವರ್ತನೆಯನ್ನು ಮತ್ತು ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು ಡೇಟಾ.
ಅಪೂರ್ಣತೆಯ ಮೂರು ವಿಧಗಳಲ್ಲಿ, ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳನ್ನು ಕಾರ್ಯರೂಪಕ್ಕೆ ತರಲು ಅಪೂರ್ಣವಾದ ಮಾಹಿತಿಯ ಸಮಸ್ಯೆ ಪರಿಹರಿಸಲು ಕಠಿಣವಾಗಿದೆ. ಮತ್ತು ನನ್ನ ಅನುಭವದಲ್ಲಿ, ಇದು ಆಕಸ್ಮಿಕವಾಗಿ ಕಡೆಗಣಿಸುವುದಿಲ್ಲ. ಸರಿಸುಮಾರು, ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳು ಅಮೂರ್ತ ಕಲ್ಪನೆಗಳಾಗಿದ್ದು, ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಸೈದ್ಧಾಂತಿಕ ರಚನೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತಾರೆ ಮತ್ತು ಕಾರ್ಯರೂಪಕ್ಕೆ ತರುತ್ತಿದ್ದಾರೆ, ಇದರರ್ಥ ವೀಕ್ಷಿಸಬಹುದಾದ ಡೇಟಾದೊಂದಿಗೆ ರಚಿಸುವ ಕೆಲವು ವಿಧಾನಗಳನ್ನು ಪ್ರಸ್ತಾಪಿಸುತ್ತದೆ. ದುರದೃಷ್ಟವಶಾತ್, ಈ ಸರಳ-ಧ್ವನಿಯ ಪ್ರಕ್ರಿಯೆಯು ಸಾಮಾನ್ಯವಾಗಿ ಕಷ್ಟಕರವಾಗಿ ಹೊರಹೊಮ್ಮುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ಜನರು ಹೆಚ್ಚಿನ ಹಣವನ್ನು ಗಳಿಸುವಂತಹ ಸರಳವಾದ ಸಮರ್ಥನೆಯನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಪರೀಕ್ಷಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದಾರೆ. ಈ ಹಕ್ಕನ್ನು ಪರೀಕ್ಷಿಸಲು, ನೀವು "ಬುದ್ಧಿಮತ್ತೆಯನ್ನು" ಅಳತೆ ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಆದರೆ ಬುದ್ಧಿವಂತಿಕೆ ಏನು? Gardner (2011) ಎಂಟು ವಿಭಿನ್ನ ಬುದ್ಧಿವಂತಿಕೆಯ ಪ್ರಕಾರಗಳಿವೆ ಎಂದು ವಾದಿಸಿದರು. ಮತ್ತು ಬುದ್ಧಿಮತ್ತೆಯ ಯಾವುದೇ ರೂಪಗಳನ್ನು ನಿಖರವಾಗಿ ಅಳೆಯುವ ವಿಧಾನಗಳು ಇದೆಯೇ? ಮನೋವಿಜ್ಞಾನಿಗಳು ಅಪಾರ ಪ್ರಮಾಣದ ಕೆಲಸ ಮಾಡಿದ್ದರೂ, ಈ ಪ್ರಶ್ನೆಗಳಿಗೆ ಇನ್ನೂ ಸ್ಪಷ್ಟ ಉತ್ತರಗಳಿಲ್ಲ.
ಆದ್ದರಿಂದ, ಸರಳವಾದ ಹಕ್ಕು-ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ಹೆಚ್ಚು ಹಣವನ್ನು ಗಳಿಸುವ ಜನರು-ಪ್ರಾಯೋಗಿಕವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಕಷ್ಟವಾಗಬಹುದು ಏಕೆಂದರೆ ಇದು ಡೇಟಾದಲ್ಲಿ ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳನ್ನು ಕಾರ್ಯರೂಪಕ್ಕೆ ತರಲು ಕಷ್ಟವಾಗುತ್ತದೆ. "ಮಾನದಂಡಗಳು," "ಸಾಮಾಜಿಕ ರಾಜಧಾನಿ," ಮತ್ತು "ಪ್ರಜಾಪ್ರಭುತ್ವ" ಯನ್ನು ಕಾರ್ಯರೂಪಕ್ಕೆ ತರಲು ಪ್ರಮುಖವಾದ ಆದರೆ ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳ ಇತರ ಉದಾಹರಣೆಗಳೆಂದರೆ ಸಮಾಜ ವಿಜ್ಞಾನಿಗಳು ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳು ಮತ್ತು ಡೇಟಾ ರಚನೆಯ ಸಿಂಧುತ್ವ (Cronbach and Meehl 1955) ನಡುವಿನ ಪಂದ್ಯವನ್ನು ಕರೆಯುತ್ತಾರೆ. ರಚನೆಗಳ ಈ ಕಿರು ಪಟ್ಟಿ ಸೂಚಿಸುವಂತೆ, ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಬಹಳ ಕಾಲದಿಂದ ಹೋರಾಡುತ್ತಿದ್ದಾರೆ ಎಂಬ ಸಮಸ್ಯೆಯನ್ನು ನಿರ್ಮಿಸಲು ಸಿಂಧುತ್ವವಿದೆ. ಆದರೆ ನನ್ನ ಅನುಭವದಲ್ಲಿ, ಸಂಶೋಧನೆಯ ಉದ್ದೇಶಗಳಿಗಾಗಿ ರಚಿಸಲಾಗಿಲ್ಲ ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವಾಗ ರಚನಾತ್ಮಕ ಮಾನ್ಯತೆಯ ಸಮಸ್ಯೆಗಳು ಇನ್ನಷ್ಟು ಹೆಚ್ಚಿವೆ (Lazer 2015) .
ನೀವು ಒಂದು ಸಂಶೋಧನೆಯ ಫಲಿತಾಂಶವನ್ನು ನಿರ್ಣಯಿಸುತ್ತಿರುವಾಗ, ಫಲಿತಾಂಶವನ್ನು ತೆಗೆದುಕೊಳ್ಳುವುದು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಒಂದು ತ್ವರಿತ ಮತ್ತು ಉಪಯುಕ್ತ ಮಾರ್ಗವಾಗಿದೆ, ಇದು ಸಾಮಾನ್ಯವಾಗಿ ರಚನೆಗಳ ಪರಿಭಾಷೆಯಲ್ಲಿ ವ್ಯಕ್ತವಾಗುತ್ತದೆ, ಮತ್ತು ಅದನ್ನು ಬಳಸಿದ ಡೇಟಾದ ಪ್ರಕಾರ ಮರು-ವ್ಯಕ್ತಪಡಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಹೆಚ್ಚು ಬುದ್ಧಿವಂತ ವ್ಯಕ್ತಿಗಳು ಹೆಚ್ಚಿನ ಹಣವನ್ನು ಗಳಿಸುತ್ತಾರೆ ಎಂದು ತೋರಿಸಲು ಹೇಳುವ ಎರಡು ಕಾಲ್ಪನಿಕ ಅಧ್ಯಯನಗಳನ್ನು ಪರಿಗಣಿಸಿ. ರಾವೆನ್ ಪ್ರೋಗ್ರೆಸ್ಸಿವ್ ಮೆಟ್ರಿಸ್ ಟೆಸ್ಟ್ನಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಸ್ಕೋರ್ ಮಾಡಿದ ಜನರು-ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಬುದ್ಧಿಮತ್ತೆಯ (Carpenter, Just, and Shell 1990) ಉತ್ತಮ ಅಧ್ಯಯನ ಮಾಡಿದ ಜನರನ್ನು ತಮ್ಮ ತೆರಿಗೆ ರಿಟರ್ನ್ಸ್ನಲ್ಲಿ ಹೆಚ್ಚಿನ ವರದಿ ಮಾಡಿದವರು ಎಂದು ಮೊದಲ ಅಧ್ಯಯನದಲ್ಲಿ ಸಂಶೋಧಕರು ಕಂಡುಕೊಂಡಿದ್ದಾರೆ. ಎರಡನೇ ಅಧ್ಯಯನದ ಪ್ರಕಾರ, ಮುಂದೆ ಪದಗಳನ್ನು ಬಳಸಿದ ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿ ಜನರು ಐಷಾರಾಮಿ ಬ್ರಾಂಡ್ಗಳನ್ನು ಉಲ್ಲೇಖಿಸುವ ಸಾಧ್ಯತೆಯಿದೆ. ಎರಡೂ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಈ ಸಂಶೋಧಕರು ತಾವು ಬುದ್ಧಿವಂತರಾಗಿರುವ ಜನರು ಹೆಚ್ಚು ಹಣವನ್ನು ಗಳಿಸುತ್ತಾರೆ ಎಂದು ತೋರಿಸಿದ್ದಾರೆ ಎಂದು ಹೇಳಬಹುದು. ಆದಾಗ್ಯೂ, ಮೊದಲ ಅಧ್ಯಯನದಲ್ಲಿ ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳು ದತ್ತಾಂಶದಿಂದ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲ್ಪಡುತ್ತವೆ, ಆದರೆ ಎರಡನೇಯಲ್ಲಿ ಅವು ಇಲ್ಲ. ಇದಲ್ಲದೆ, ಈ ಉದಾಹರಣೆಯು ವಿವರಿಸಿದಂತೆ, ಹೆಚ್ಚಿನ ದತ್ತಾಂಶವು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ರಚನಾತ್ಮಕ ಮಾನ್ಯತೆಯೊಂದಿಗೆ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುವುದಿಲ್ಲ. ಒಂದು ಮಿಲಿಯನ್ ಟ್ವಿಟ್ಗಳು, ಒಂದು ಶತಕೋಟಿ ಟ್ವೀಟ್ಗಳು, ಅಥವಾ ಟ್ರಿಲಿಯನ್ ಟ್ವೀಟ್ಗಳನ್ನು ಒಳಗೊಂಡಿದೆಯೆ ಎಂಬ ಎರಡನೇ ಅಧ್ಯಯನದ ಫಲಿತಾಂಶಗಳನ್ನು ನೀವು ಅನುಮಾನಿಸಬೇಕು. ರಚನಾತ್ಮಕ ಮಾನ್ಯತೆಯ ಪರಿಕಲ್ಪನೆಗೆ ಪರಿಚಿತವಾಗಿರುವ ಸಂಶೋಧಕರಿಗೆ, ಟೇಬಲ್ 2.2 ಡಿಜಿಟಲ್ ಟ್ರೇಸ್ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳನ್ನು ಕಾರ್ಯರೂಪಕ್ಕೆ ತಂದ ಕೆಲವು ಅಧ್ಯಯನಗಳ ಉದಾಹರಣೆಗಳನ್ನು ನೀಡುತ್ತದೆ.
ಡೇಟಾ ಮೂಲ | ಸೈದ್ಧಾಂತಿಕ ರಚನೆ | ಉಲ್ಲೇಖಗಳು |
---|---|---|
ವಿಶ್ವವಿದ್ಯಾನಿಲಯದಿಂದ ಇಮೇಲ್ ದಾಖಲೆಗಳು (ಮೆಟಾ ಡೇಟಾ ಮಾತ್ರ) | ಸಾಮಾಜಿಕ ಸಂಬಂಧಗಳು | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಪೋಸ್ಟ್ಗಳು | ನಾಗರಿಕ ನಿಶ್ಚಿತಾರ್ಥ | Zhang (2016) |
ಸಂಸ್ಥೆಯಿಂದ (ಮೆಟಾ-ಡೇಟಾ ಮತ್ತು ಸಂಪೂರ್ಣ ಪಠ್ಯ) ಇಮೇಲ್ ದಾಖಲೆಗಳು | ಸಂಸ್ಥೆಯ ಸಾಂಸ್ಕೃತಿಕ ಫಿಟ್ | Srivastava et al. (2017) |
ಸೈದ್ಧಾಂತಿಕ ರಚನೆಗಳನ್ನು ಸೆರೆಹಿಡಿಯಲು ಅಪೂರ್ಣವಾದ ಮಾಹಿತಿಯ ಸಮಸ್ಯೆಯು ಪರಿಹರಿಸಲು ಸಾಕಷ್ಟು ಕಷ್ಟವಾಗಿದ್ದರೂ, ಅಪೂರ್ಣವಾದ ಇತರ ಸಾಮಾನ್ಯ ವಿಧಗಳಿಗೆ ಸಾಮಾನ್ಯ ಪರಿಹಾರಗಳಿವೆ: ಅಪೂರ್ಣ ಜನಸಂಖ್ಯಾ ಮಾಹಿತಿ ಮತ್ತು ಇತರ ವೇದಿಕೆಗಳಲ್ಲಿ ನಡವಳಿಕೆಯ ಬಗೆಗಿನ ಅಪೂರ್ಣ ಮಾಹಿತಿ. ನೀವು ಅಗತ್ಯವಿರುವ ಡೇಟಾವನ್ನು ವಾಸ್ತವವಾಗಿ ಸಂಗ್ರಹಿಸುವುದು ಮೊದಲ ಪರಿಹಾರವಾಗಿದೆ; 3 ನೇ ಅಧ್ಯಾಯದಲ್ಲಿ ನಾನು ಸಮೀಕ್ಷೆಗಳ ಬಗ್ಗೆ ಹೇಳಿದಾಗ ನಾನು ನಿಮಗೆ ಹೇಳುತ್ತೇನೆ. ಬಳಕೆದಾರ ವಿಜ್ಞಾನಿಗಳ ನಿರ್ಣಯವನ್ನು ಮತ್ತು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ದೋಷಾರೋಪಣೆಯನ್ನು ಕರೆಯುವುದನ್ನು ಡಾಟಾ ವಿಜ್ಞಾನಿಗಳು ಕರೆಯುವುದನ್ನು ಮಾಡುವುದು ಎರಡನೇ ಪ್ರಮುಖ ಪರಿಹಾರವಾಗಿದೆ. ಈ ವಿಧಾನದಲ್ಲಿ, ಸಂಶೋಧಕರು ಇತರ ಜನರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ನಿರ್ಣಯಿಸಲು ಕೆಲವು ಜನರ ಮೇಲೆ ಹೊಂದಿರುವ ಮಾಹಿತಿಯನ್ನು ಬಳಸುತ್ತಾರೆ. ಅನೇಕ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಸಂಯೋಜಿಸುವುದು ಮೂರನೇ ಸಂಭವನೀಯ ಪರಿಹಾರವಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಕೆಲವೊಮ್ಮೆ ರೆಕಾರ್ಡ್ ಲಿಂಕ್ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ಈ ಪ್ರಕ್ರಿಯೆಗಾಗಿ ನನ್ನ ನೆಚ್ಚಿನ ರೂಪಕವನ್ನು Dunn (1946) ಬರೆದಿದ್ದು, ದಾಖಲೆಯ ಕೊಂಡಿಯಲ್ಲಿ ಬರೆದ ಮೊಟ್ಟಮೊದಲ ಕಾಗದದ ಮೊದಲ ಪ್ಯಾರಾಗ್ರಾಫ್ನಲ್ಲಿ ಬರೆಯಲ್ಪಟ್ಟಿದೆ:
"ಪ್ರಪಂಚದ ಪ್ರತಿಯೊಬ್ಬ ವ್ಯಕ್ತಿಯು ಬುಕ್ ಆಫ್ ಲೈಫ್ ಅನ್ನು ಸೃಷ್ಟಿಸುತ್ತಾನೆ. ಈ ಪುಸ್ತಕ ಜನನದೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ ಮತ್ತು ಸಾವಿನೊಂದಿಗೆ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ. ಇದರ ಪುಟಗಳು ಜೀವನದಲ್ಲಿನ ಪ್ರಮುಖ ಘಟನೆಗಳ ದಾಖಲೆಗಳಾಗಿದ್ದವು. ರೆಕಾರ್ಡ್ ಲಿಂಕೇಜ್ ಎನ್ನುವುದು ಈ ಪುಸ್ತಕದ ಪುಟಗಳನ್ನು ಜೋಡಣೆ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಗೆ ನೀಡಲಾಗಿದೆ. "
ಬುನ್ ಆಫ್ ಲೈಫ್ ಜನ್ಮ, ವಿವಾಹ, ವಿಚ್ಛೇದನ ಮತ್ತು ಸಾವು ಮುಂತಾದ ಪ್ರಮುಖ ಜೀವನ ಘಟನೆಗಳನ್ನು ಒಳಗೊಳ್ಳಬಹುದೆಂದು ಊಹಿಸಿ ಡನ್ ಬರೆದರು. ಆದಾಗ್ಯೂ, ಈಗ ಜನರ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿ ದಾಖಲಿಸಲ್ಪಟ್ಟಿದೆ, ಆ ವಿಭಿನ್ನ ಪುಟಗಳು (ಅಂದರೆ, ನಮ್ಮ ಡಿಜಿಟಲ್ ಕುರುಹುಗಳು) ಒಟ್ಟಿಗೆ ಬಂಧಿಸಲ್ಪಡಬಹುದಾದರೆ, ಬುಕ್ ಆಫ್ ಲೈಫ್ ಅಚ್ಚರಿಗೊಳಿಸುವ ವಿವರವಾದ ಭಾವಚಿತ್ರವಾಗಿರುತ್ತದೆ. ಈ ಪುಸ್ತಕದ ಜೀವನವು ಸಂಶೋಧಕರಿಗೆ ಉತ್ತಮ ಸಂಪನ್ಮೂಲವಾಗಿದೆ. ಆದರೆ, ಇದನ್ನು ಅಧ್ಯಾಯ 6 (ಎಥಿಕ್ಸ್) ನಲ್ಲಿ ವಿವರಿಸುವಂತೆ, ಎಲ್ಲಾ ವಿಧದ ಅನೈತಿಕ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಬಳಸಬಹುದಾದ ಅವಶೇಷದ ಡೇಟಾಬೇಸ್ (Ohm 2010) ಎಂದು ಕರೆಯಬಹುದು.