ಈ ಅಧ್ಯಾಯದಲ್ಲಿ ಸೇರಿಸಲಾಗಿಲ್ಲ ಒಂದು ರೀತಿಯ ಗಮನಿಸುವುದು ಜನಾಂಗಶಾಸ್ತ್ರ. ಎಥ್ನೊಗ್ರಫಿ ಡಿಜಿಟಲ್ ಸ್ಥಳಗಳಲ್ಲಿ ಹೆಚ್ಚು, ನೋಡಿ Boellstorff et al. (2012) , ಮತ್ತು ಮಿಶ್ರ ಡಿಜಿಟಲ್ ಮತ್ತು ಭೌತಿಕ ಸ್ಥಳಗಳಲ್ಲಿ ಜನಾಂಗಶಾಸ್ತ್ರದ ಕುರಿತು ಇನ್ನಷ್ಟು ನೋಡಿ, Lane (2016) .
"ದೊಡ್ಡ ಅಕ್ಷಾಂಶ" ಯ ಏಕೈಕ ಒಮ್ಮತದ ವ್ಯಾಖ್ಯಾನವಿಲ್ಲ, ಆದರೆ ಅನೇಕ ವ್ಯಾಖ್ಯಾನಗಳು "3 Vs": ಪರಿಮಾಣ, ವೈವಿಧ್ಯತೆ ಮತ್ತು ವೇಗವನ್ನು (ಉದಾಹರಣೆಗೆ, Japec et al. (2015) ) ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ. De Mauro et al. (2015) ನೋಡಿ De Mauro et al. (2015) ವ್ಯಾಖ್ಯಾನಗಳ ವಿಮರ್ಶೆಗಾಗಿ.
ದೊಡ್ಡ ಡೇಟಾ ವಿಭಾಗದಲ್ಲಿ ಸರ್ಕಾರಿ ಆಡಳಿತಾತ್ಮಕ ಡೇಟಾವನ್ನು ನನ್ನ ಸೇರ್ಪಡೆ ಮಾಡುವುದು ಸ್ವಲ್ಪ ಅಸಾಮಾನ್ಯವಾಗಿದೆ, ಆದರೂ ಇತರರು Legewie (2015) , Connelly et al. (2016) ಸೇರಿದಂತೆ ಈ ಪ್ರಕರಣವನ್ನು ಮಾಡಿದ್ದಾರೆ Connelly et al. (2016) ಮತ್ತು Einav and Levin (2014) . ಸಂಶೋಧನೆಗೆ ಸರ್ಕಾರಿ ಆಡಳಿತಾತ್ಮಕ ದತ್ತಾಂಶಗಳ ಮೌಲ್ಯದ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು, Card et al. (2010) , Adminstrative Data Taskforce (2012) , ಮತ್ತು Grusky, Smeeding, and Snipp (2015) .
ಸರ್ಕಾರಿ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ವ್ಯವಸ್ಥೆಯಿಂದ ವಿಶೇಷವಾಗಿ ಯುಎಸ್ ಸೆನ್ಸಸ್ ಬ್ಯೂರೊದಿಂದ ಆಡಳಿತಾತ್ಮಕ ಸಂಶೋಧನೆಯ ದೃಷ್ಟಿಯಿಂದ, ಜರ್ಮನ್ Jarmin and O'Hara (2016) . ಸ್ಟ್ಯಾಟಿಸ್ಟಿಕ್ಸ್ ಸ್ವೀಡನ್ನಲ್ಲಿ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳ ಸಂಶೋಧನೆಯ ಪುಸ್ತಕ-ಉದ್ದದ ಚಿಕಿತ್ಸೆಗಾಗಿ, Wallgren and Wallgren (2007) .
ಅಧ್ಯಾಯದಲ್ಲಿ, ಟ್ವಿಟ್ಟರ್ನಂತಹ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಡೇಟಾ ಮೂಲದೊಂದಿಗೆ ಸಾಮಾನ್ಯ ಸಾಮಾಜಿಕ ಸಮೀಕ್ಷೆ (GSS) ನಂತಹ ಸಾಂಪ್ರದಾಯಿಕ ಸಮೀಕ್ಷೆಯನ್ನು ನಾನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಹೋಲಿಸಿದೆ. ಸಾಂಪ್ರದಾಯಿಕ ಸಮೀಕ್ಷೆಗಳು ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ಡೇಟಾಗಳ ನಡುವೆ ಸಂಪೂರ್ಣವಾದ ಮತ್ತು ಎಚ್ಚರಿಕೆಯ ಹೋಲಿಕೆಗಾಗಿ, Schober et al. (2016) .
ದೊಡ್ಡ ಪ್ರಮಾಣದ ಈ 10 ಗುಣಲಕ್ಷಣಗಳನ್ನು ವೈವಿಧ್ಯಮಯ ಲೇಖಕರು ವಿವಿಧ ರೀತಿಗಳಲ್ಲಿ ವಿವರಿಸಿದ್ದಾರೆ. ಈ ವಿಚಾರಗಳ ಬಗ್ಗೆ ನನ್ನ ಚಿಂತನೆಯ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರಿದ ಬರವಣಿಗೆ Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) Lazer (2015) K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) ಮತ್ತು Goldstone and Lupyan (2016) .
ಈ ಅಧ್ಯಾಯದ ಉದ್ದಕ್ಕೂ ನಾನು ಡಿಜಿಟಲ್ ಟ್ರೇಸಸ್ ಪದವನ್ನು ಬಳಸಿದ್ದೇನೆ, ಇದು ನಾನು ತುಲನಾತ್ಮಕವಾಗಿ ತಟಸ್ಥವಾಗಿದೆ ಎಂದು ಭಾವಿಸುತ್ತೇನೆ. ಡಿಜಿಟಲ್ ಟ್ರೇಸಸ್ನ ಮತ್ತೊಂದು ಜನಪ್ರಿಯ ಪದವೆಂದರೆ ಡಿಜಿಟಲ್ ಪಾದದ ಗುರುತುಗಳು (Golder and Macy 2014) , ಆದರೆ ಹಾಲ್ ಅಬೆಲ್ಸನ್, ಕೆನ್ ಲೆಡೆನ್ ಮತ್ತು ಹ್ಯಾರಿ ಲೆವಿಸ್ (2008) , ಹೆಚ್ಚು ಸೂಕ್ತವಾದ ಪದವು ಬಹುಶಃ ಡಿಜಿಟಲ್ ಫಿಂಗರ್ಪ್ರಿಂಟ್ಗಳು . ನೀವು ಹೆಜ್ಜೆಗುರುತುಗಳನ್ನು ರಚಿಸಿದಾಗ, ಏನು ನಡೆಯುತ್ತಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ನಿಮಗೆ ತಿಳಿದಿರುತ್ತದೆ ಮತ್ತು ನಿಮ್ಮ ಪಾದದ ಗುರುತುಗಳನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ವೈಯಕ್ತಿಕವಾಗಿ ನಿಮಗೆ ಕಂಡುಹಿಡಿಯಲಾಗುವುದಿಲ್ಲ. ನಿಮ್ಮ ಡಿಜಿಟಲ್ ಕುರುಹುಗಳಿಗೆ ಇದು ನಿಜವಲ್ಲ. ವಾಸ್ತವವಾಗಿ, ನೀವು ತುಂಬಾ ಕಡಿಮೆ ಜ್ಞಾನವನ್ನು ಹೊಂದಿರುವ ಎಲ್ಲಾ ಸಮಯದಲ್ಲೂ ನೀವು ಹೊರಹೋಗುವಿರಿ. ಮತ್ತು, ಈ ಕುರುಹುಗಳು ನಿಮ್ಮ ಹೆಸರನ್ನು ಹೊಂದಿರದಿದ್ದರೂ, ಅವುಗಳು ನಿಮ್ಮನ್ನು ಮತ್ತೆ ಸಂಪರ್ಕಿಸುತ್ತವೆ. ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಅವರು ಹೆಚ್ಚು ಬೆರಳುಗಳಂತೆ: ಅಗೋಚರ ಮತ್ತು ವೈಯಕ್ತಿಕವಾಗಿ ಗುರುತಿಸುವ.
ದೊಡ್ಡ ಡೇಟಾಸೆಟ್ಗಳು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಪರೀಕ್ಷೆಗಳನ್ನು ಸಮಸ್ಯಾತ್ಮಕವಾಗಿ ಏಕೆ ನೀಡುತ್ತವೆ ಎಂಬುದರ ಕುರಿತು ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, M. Lin, Lucas, and Shmueli (2013) ಮತ್ತು McFarland and McFarland (2015) . ಈ ಸಮಸ್ಯೆಗಳು ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ಪ್ರಾಮುಖ್ಯತೆಗಿಂತ ಹೆಚ್ಚಾಗಿ ಪ್ರಾಯೋಗಿಕ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಕೇಂದ್ರೀಕರಿಸಲು ಸಂಶೋಧಕರನ್ನು ದಾರಿ ಮಾಡಿಕೊಡಬೇಕು.
ರಾಜ್ ಚೆಟ್ಟಿ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ತೆರಿಗೆ ದಾಖಲೆಗಳಿಗೆ ಹೇಗೆ ಪ್ರವೇಶ ಪಡೆದಿದ್ದಾರೆ ಎಂಬುದರ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Mervis (2014) .
ದೊಡ್ಡ ದತ್ತಾಂಶವು ಗಣಕಯಂತ್ರದ ಸಮಸ್ಯೆಗಳನ್ನು ಕೂಡ ರಚಿಸಬಲ್ಲದು, ಅದು ಸಾಮಾನ್ಯವಾಗಿ ಒಂದೇ ಕಂಪ್ಯೂಟರ್ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಮೀರಿರುತ್ತದೆ. ಆದ್ದರಿಂದ, ದೊಡ್ಡ ದತ್ತಾಂಶ ಸಂಗ್ರಹದ ಮೇಲೆ ಗಣನೆಗಳನ್ನು ಮಾಡುತ್ತಿರುವ ಸಂಶೋಧಕರು ಅನೇಕ ಕಂಪ್ಯೂಟರ್ಗಳಲ್ಲಿ ಕೆಲಸವನ್ನು ಹರಡುತ್ತಾರೆ, ಈ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಕೆಲವೊಮ್ಮೆ ಸಮಾನಾಂತರ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ಸಮಾನಾಂತರ ಪ್ರೋಗ್ರಾಮಿಂಗ್ಗೆ ಒಂದು ಪರಿಚಯಕ್ಕಾಗಿ, ನಿರ್ದಿಷ್ಟವಾಗಿ ಹೇಡೋಪ್ ಎಂಬ ಭಾಷೆಗೆ, Vo and Silvia (2016) .
ಯಾವಾಗಲೂ ಡೇಟಾವನ್ನು ಪರಿಗಣಿಸುವಾಗ, ನೀವು ಸಮಯಕ್ಕೆ ತಕ್ಕಂತೆ ಅದೇ ಜನರನ್ನು ಹೋಲಿಸುತ್ತೀರೋ ಅಥವಾ ನೀವು ಕೆಲವು ಬದಲಾಗುವ ಗುಂಪನ್ನು ಹೋಲಿಸುತ್ತೀರೋ ಎಂದು ಪರಿಗಣಿಸಲು ಮುಖ್ಯವಾಗಿರುತ್ತದೆ; ಉದಾಹರಣೆಗೆ ನೋಡಿ, Diaz et al. (2016) .
Nonreactive ಕ್ರಮಗಳ ಬಗ್ಗೆ ಒಂದು ಶ್ರೇಷ್ಠ ಪುಸ್ತಕ Webb et al. (1966) . ಆ ಪುಸ್ತಕದಲ್ಲಿನ ಉದಾಹರಣೆಗಳು ಡಿಜಿಟಲ್ ಯುಗದ ಮುಂಚೆಯೇ ಇವೆ, ಆದರೆ ಅವುಗಳು ಇನ್ನೂ ಬೆಳಕು ಚೆಲ್ಲುತ್ತವೆ. ಸಾಮೂಹಿಕ ಕಣ್ಗಾವಲು ಇರುವ ಕಾರಣದಿಂದಾಗಿ ಅವರ ವರ್ತನೆಯನ್ನು ಬದಲಾಯಿಸುವ ಜನರ ಉದಾಹರಣೆಗಳಿಗಾಗಿ, Penney (2016) ಮತ್ತು Brayne (2014) .
ಯಾವ ಸಂಶೋಧಕರು ಬೇಡಿಕೆಯ ಪರಿಣಾಮಗಳನ್ನು (Orne 1962; Zizzo 2010) ಮತ್ತು ಹಾಥೋರ್ನ್ ಪರಿಣಾಮ (Adair 1984; Levitt and List 2011) ಎಂದು ಕರೆಯುವಲ್ಲಿ ಪ್ರತಿಕ್ರಿಯೆಯು ನಿಕಟ ಸಂಬಂಧ ಹೊಂದಿದೆ.
ರೆಕಾರ್ಡ್ ಲಿಂಕೇಜ್ನಲ್ಲಿ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Dunn (1946) ಮತ್ತು Fellegi and Sunter (1969) (ಐತಿಹಾಸಿಕ) ಮತ್ತು Larsen and Winkler (2014) (ಆಧುನಿಕ) ಗಳನ್ನು ನೋಡಿ. ಡೇಟಾದ ನಕಲು, ಉದಾಹರಣೆಗೆ ಗುರುತಿಸುವಿಕೆ, ಹೆಸರು ಹೊಂದಾಣಿಕೆ, ನಕಲಿ ಪತ್ತೆ ಮತ್ತು ನಕಲು ದಾಖಲೆ ಪತ್ತೆಹಚ್ಚುವಿಕೆ (Elmagarmid, Ipeirotis, and Verykios 2007) ಮುಂತಾದ ಹೆಸರುಗಳ ಅಡಿಯಲ್ಲಿ ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನದಲ್ಲಿ ಇದೇ ರೀತಿಯ ವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ. ವೈಯಕ್ತಿಕವಾಗಿ ಗುರುತಿಸುವ ಮಾಹಿತಿ (Schnell 2013) ರವಾನೆಯ ಅಗತ್ಯವಿರದ ಲಿಂಕ್ಗಳನ್ನು ರೆಕಾರ್ಡ್ ಮಾಡುವ ಗೌಪ್ಯತೆ-ಸಂರಕ್ಷಿಸುವ ವಿಧಾನಗಳು ಸಹ ಇವೆ. ಮತದಾನದ ವರ್ತನೆಗೆ ತಮ್ಮ ದಾಖಲೆಗಳನ್ನು ಲಿಂಕ್ ಮಾಡಲು ಫೇಸ್ಬುಕ್ ಸಹ ಒಂದು ಪ್ರಕ್ರಿಯೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ; ಅಧ್ಯಾಯ 4 (Bond et al. 2012; Jones et al. 2013) ನಾನು ನಿಮಗೆ ಹೇಳುವ ಪ್ರಯೋಗವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಇದನ್ನು ಮಾಡಲಾಯಿತು.
ರಚನಾತ್ಮಕ ಮಾನ್ಯತೆಯ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Shadish, Cook, and Campbell (2001) ಅಧ್ಯಾಯ 3 ನೋಡಿ.
AOL ಸರ್ಚ್ ಲಾಗ್ ಡೆಬಾಕಲ್ ಕುರಿತು ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Ohm (2010) . ನಾನು ಪ್ರಯೋಗಗಳನ್ನು ವಿವರಿಸುವಾಗ ಅಧ್ಯಾಯ 4 ರಲ್ಲಿ ಕಂಪೆನಿಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳೊಂದಿಗೆ ಪಾಲುದಾರಿಕೆಯ ಬಗ್ಗೆ ಸಲಹೆ ನೀಡುತ್ತೇನೆ. ಪ್ರವೇಶಿಸಲಾಗದ ದತ್ತಾಂಶವನ್ನು ಅವಲಂಬಿಸಿರುವ ಸಂಶೋಧನೆಯ ಬಗ್ಗೆ ಹಲವಾರು ಲೇಖಕರು ವ್ಯಕ್ತಪಡಿಸಿದ್ದಾರೆ, Huberman (2012) ಮತ್ತು boyd and Crawford (2012) .
ವಿಶ್ವವಿದ್ಯಾಲಯ ಸಂಶೋಧಕರು ಡೇಟಾ ಪ್ರವೇಶ ಪಡೆಯಲು ಒಂದು ಉತ್ತಮ ರೀತಿಯಲ್ಲಿ ಇಂಟರ್ನ್ ಅಥವಾ ಭೇಟಿ ಸಂಶೋಧಕರಾಗಿ ಒಂದು ಕಂಪನಿಯ ಕೆಲಸ ಮಾಡುವುದು. ಡೇಟಾ ಪ್ರವೇಶ ಅನುವು ಜೊತೆಗೆ, ಈ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸಂಶೋಧಕ ಇದು ವಿಶ್ಲೇಷಣೆಗೆ ಮುಖ್ಯ, ಹೇಗೆ ಡೇಟಾ ಸ್ಥಾಪಿಸಲಾಯಿತು ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ಸರಕಾರದ ಮಾಹಿತಿಗೆ ಪ್ರವೇಶವನ್ನು ಪಡೆಯುವ ದೃಷ್ಟಿಯಿಂದ, Mervis (2014) ರಾಜ್ ಚಟ್ಟಿ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಸಾಮಾಜಿಕ ಚಲನೆ ಬಗ್ಗೆ ತಮ್ಮ ಸಂಶೋಧನೆಯಲ್ಲಿ ಬಳಸಿದ ತೆರಿಗೆ ದಾಖಲೆಗಳನ್ನು ಹೇಗೆ ಪಡೆದರು ಎಂಬುದನ್ನು ಚರ್ಚಿಸುತ್ತಾರೆ.
ಪರಿಕಲ್ಪನೆಯಾಗಿ "ಪ್ರತಿನಿಧಿತ್ವ" ದ ಇತಿಹಾಸದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , ಮತ್ತು Kruskal and Mosteller (1980) .
ಸ್ನೋ ಕೆಲಸದ ನನ್ನ ಸಾರಾಂಶಗಳು ಮತ್ತು ಡಾಲ್ ಮತ್ತು ಹಿಲ್ನ ಕೆಲಸಗಳು ಸಂಕ್ಷಿಪ್ತವಾಗಿವೆ. ಕಾಲರಾದಲ್ಲಿನ ಹಿಮದ ಕೆಲಸದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Freedman (1991) . ಬ್ರಿಟಿಷ್ ಡಾಕ್ಟರ್ಸ್ ಸ್ಟಡಿ ಬಗ್ಗೆ ಹೆಚ್ಚು Doll et al. (2004) ಮತ್ತು Keating (2014) .
ಡಾಲ್ ಮತ್ತು ಹಿಲ್ ಹೆಣ್ಣು ವೈದ್ಯರಿಂದ ಮತ್ತು 35 ವರ್ಷದೊಳಗಿನ ವೈದ್ಯರಿಂದ ದತ್ತಾಂಶವನ್ನು ಸಂಗ್ರಹಿಸಿದ್ದರೂ ಸಹ, ಈ ಮಾಹಿತಿಯು ಅವರ ಮೊದಲ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಬಳಸಲಿಲ್ಲ ಎಂದು ಅನೇಕ ಸಂಶೋಧಕರು ಆಶ್ಚರ್ಯಪಡುತ್ತಾರೆ. ಅವರು ವಾದಿಸಿದಂತೆ: "35 ಮತ್ತು ಕಡಿಮೆ ವಯಸ್ಸಿನ ಮಹಿಳೆಯರಲ್ಲಿ ಶ್ವಾಸಕೋಶದ ಕ್ಯಾನ್ಸರ್ ತುಲನಾತ್ಮಕವಾಗಿ ಅಪರೂಪವಾಗಿದ್ದು, ಮುಂಬರುವ ಕೆಲವು ವರ್ಷಗಳಿಂದ ಈ ಗುಂಪಿನಲ್ಲಿ ಉಪಯುಕ್ತವಾದ ಅಂಕಿಅಂಶಗಳನ್ನು ಪಡೆಯಲಾಗುವುದಿಲ್ಲ. ಈ ಪ್ರಾಥಮಿಕ ವರದಿಯಲ್ಲಿ ನಾವು 35 ಮತ್ತು ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ವಯಸ್ಸಿನ ಪುರುಷರಿಗೆ ನಮ್ಮ ಗಮನವನ್ನು ಸೀಮಿತಗೊಳಿಸಿದ್ದೇವೆ. " Rothman, Gallacher, and Hatch (2013) ಎಂಬ ಪ್ರಚೋದನಕಾರಿ ಶೀರ್ಷಿಕೆಯು" ಏಕೆ ಪ್ರತಿನಿಧಿತ್ವವನ್ನು ತಪ್ಪಿಸಬೇಕು "ಎಂಬ ಮೌಲ್ಯದ ಸಾಮಾನ್ಯ ವಾದವನ್ನು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಪ್ರತಿನಿಧಿಸದ ಡೇಟಾವನ್ನು ರಚಿಸುವುದು.
ಸಂಪೂರ್ಣ ಜನಸಂಖ್ಯೆಯ ಬಗ್ಗೆ ಹೇಳಿಕೆಗಳನ್ನು ನೀಡಲು ಬಯಸುವ ಸಂಶೋಧಕರು ಮತ್ತು ಸರ್ಕಾರಗಳಿಗೆ ಅನರ್ಹತೆರಹಿತತೆ ಒಂದು ಪ್ರಮುಖ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಕಂಪೆನಿಗಳಿಗೆ ಇದು ಕಳವಳ ಕಡಿಮೆಯಾಗಿದೆ, ಅವು ವಿಶಿಷ್ಟವಾಗಿ ತಮ್ಮ ಬಳಕೆದಾರರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ. ಅಂಕಿಅಂಶಗಳು ನೆದರ್ಲ್ಯಾಂಡ್ಸ್ ವ್ಯವಹಾರದ ದೊಡ್ಡ ಮಾಹಿತಿಯ ಪ್ರತಿನಿಧಿತ್ವವನ್ನು ಹೇಗೆ ಪರಿಗಣಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, Buelens et al. (2014) .
ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳ ಪ್ರತಿನಿಧಿಯಲ್ಲದ ಪ್ರಕೃತಿಯ ಬಗ್ಗೆ ಕಳವಳ ವ್ಯಕ್ತಪಡಿಸುವ ಸಂಶೋಧಕರ ಉದಾಹರಣೆಗಳು, boyd and Crawford (2012) , K. Lewis (2015b) Hargittai (2015) K. Lewis (2015b) , ಮತ್ತು Hargittai (2015) .
ಸಾಮಾಜಿಕ ಸಮೀಕ್ಷೆಗಳು ಮತ್ತು ಸಾಂಕ್ರಾಮಿಕ ಸಂಶೋಧನೆಯ ಗುರಿಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ವಿವರವಾದ ಹೋಲಿಕೆಗಾಗಿ, ನೋಡಿ Keiding and Louis (2016) .
ಮತದಾರರ ಬಗೆಗಿನ ಮಾದರಿ ಸಾಮಾನ್ಯೀಕರಣವನ್ನು ಮಾಡಲು ವಿಶೇಷವಾಗಿ ಟ್ವಿಟರ್ ಅನ್ನು ಬಳಸಿಕೊಳ್ಳುವ ಪ್ರಯತ್ನಗಳಿಗಾಗಿ, ವಿಶೇಷವಾಗಿ 2009 ರ ಜರ್ಮನ್ ಚುನಾವಣೆಯ ಸಂದರ್ಭದಲ್ಲಿ, Jungherr (2013) ಮತ್ತು Jungherr (2015) . Tumasjan et al. (2010) ಕೆಲಸದ ನಂತರ Tumasjan et al. (2010) ಪ್ರಪಂಚದಾದ್ಯಂತದ ಸಂಶೋಧಕರು ಅಭಿಮಾನಿಗಳ ಧನಾತ್ಮಕ ಮತ್ತು ಋಣಾತ್ಮಕ ತಿಳುವಳಿಕೆಯ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಲು ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಬಳಸಿಕೊಳ್ಳುವಂತಹ ಫ್ಯಾನ್ಸಿರ್ ವಿಧಾನಗಳನ್ನು ಬಳಸಿದ್ದಾರೆ-ವಿವಿಧ ರೀತಿಯ ಚುನಾವಣೆಗಳಿಗೆ ಊಹಿಸಲು ಟ್ವಿಟ್ಟರ್ ಡೇಟಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಸುಧಾರಿಸಲು (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . ಚುನಾವಣೆಗಳನ್ನು ಊಹಿಸಲು ಈ ಪ್ರಯತ್ನಗಳ ಫಲಿತಾಂಶಗಳನ್ನು Huberty (2015) ಹೇಗೆ ಸಂಕ್ಷಿಪ್ತವಾಗಿ Huberty (2015) :
"ನಿಜವಾದ ಮುಂದಕ್ಕೆ ಕಾಣುವ ಚುನಾವಣಾ ಮುನ್ಸೂಚನೆಯ ಬೇಡಿಕೆಗಳಿಗೆ ಒಳಪಟ್ಟಾಗ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ಆಧಾರದ ಮೇಲೆ ತಿಳಿದಿರುವ ಎಲ್ಲಾ ಮುನ್ಸೂಚನೆ ವಿಧಾನಗಳು ವಿಫಲವಾಗಿವೆ. ಈ ವೈಫಲ್ಯಗಳು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ಮೂಲಭೂತ ಗುಣಲಕ್ಷಣಗಳ ಕಾರಣದಿಂದಾಗಿ ಕಂಡುಬರುತ್ತವೆ, ಇದು ಕ್ರಮಶಾಸ್ತ್ರೀಯ ಅಥವಾ ಕ್ರಮಾವಳಿ ತೊಂದರೆಗಳಿಗೆ ಬದಲಾಗಿ ಕಂಡುಬರುತ್ತದೆ. ಸಂಕ್ಷಿಪ್ತವಾಗಿ, ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಮತದಾರರ ಸ್ಥಿರ, ಪಕ್ಷಪಾತವಿಲ್ಲದ, ಪ್ರತಿನಿಧಿ ಚಿತ್ರಣವನ್ನು ನೀಡುವುದಿಲ್ಲ, ಮತ್ತು ಬಹುಶಃ ಎಂದಿಗೂ ಮಾಡುವುದಿಲ್ಲ; ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ಅನುಕೂಲಕರ ಮಾದರಿಗಳು ಈ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಸಾಕಷ್ಟು ಡೇಟಾವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. "
ಅಧ್ಯಾಯ 3 ರಲ್ಲಿ, ನಾನು ಹೆಚ್ಚು ವಿವರವಾಗಿ ಮಾದರಿ ಮತ್ತು ಅಂದಾಜುಗಳನ್ನು ವಿವರಿಸುತ್ತೇನೆ. ಡೇಟಾವು ಪ್ರತಿನಿಧಿಸದಿದ್ದರೂ ಸಹ, ಕೆಲವು ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ, ಉತ್ತಮ ಅಂದಾಜುಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ಅವುಗಳನ್ನು ತೂಕ ಮಾಡಬಹುದು.
ಸಿಸ್ಟಮ್ ಡ್ರಿಫ್ಟ್ ಹೊರಗಿನಿಂದ ನೋಡಲು ತುಂಬಾ ಕಠಿಣವಾಗಿದೆ. ಆದಾಗ್ಯೂ, ಮೂವಿಲೆನ್ಸ್ ಯೋಜನೆಯು (4 ನೇ ಅಧ್ಯಾಯದಲ್ಲಿ ಹೆಚ್ಚು ಚರ್ಚಿಸಲಾಗಿದೆ) ಶೈಕ್ಷಣಿಕ ಸಂಶೋಧನಾ ಗುಂಪಿನಿಂದ 15 ಕ್ಕಿಂತಲೂ ಹೆಚ್ಚು ವರ್ಷಗಳಿಂದ ನಡೆಸಲ್ಪಟ್ಟಿದೆ. ಹೀಗಾಗಿ, ಸಿಸ್ಟಮ್ ಕಾಲಾನಂತರದಲ್ಲಿ ವಿಕಸನಗೊಂಡಿದೆ ಮತ್ತು ಇದು ಹೇಗೆ ವಿಶ್ಲೇಷಣೆ (Harper and Konstan 2015) ಪರಿಣಾಮ ಬೀರಬಹುದು ಎಂಬುದರ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ದಾಖಲಿಸಲು ಮತ್ತು ಹಂಚಿಕೊಳ್ಳಲು ಅವರು ಸಮರ್ಥರಾಗಿದ್ದಾರೆ.
ಹಲವಾರು ವಿದ್ವಾಂಸರು ಟ್ವಿಟರ್ನಲ್ಲಿ Liu, Kliman-Silver, and Mislove (2014) ಗಮನಹರಿಸಿದ್ದಾರೆ: Liu, Kliman-Silver, and Mislove (2014) ಮತ್ತು Tufekci (2014) .
ಜನಸಂಖ್ಯೆಯ ಡ್ರಿಫ್ಟ್ ವ್ಯವಹರಿಸುವಾಗ ಒಂದು ವಿಧಾನವು ಬಳಕೆದಾರರ ಫಲಕವನ್ನು ರಚಿಸುವುದು, ಇದು ಸಂಶೋಧಕರು ಕಾಲಕಾಲಕ್ಕೆ ಒಂದೇ ಜನರನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ, ನೋಡಿ Diaz et al. (2016) .
ನಾನು ಜಾನ್ ಕ್ಲೈನ್ಬರ್ಗ್ರಿಂದ ಮಾತನಾಡುತ್ತಿದ್ದ "ಕ್ರಮಾವಳಿಗಳು ಗೊಂದಲಕ್ಕೊಳಗಾದ" ಪದವನ್ನು ಮೊದಲು ಕೇಳಿದೆ, ಆದರೆ ದುರದೃಷ್ಟವಶಾತ್ ಚರ್ಚೆ ನೀಡಿದಾಗ ಅಥವಾ ಅಲ್ಲಿ ನಾನು ನೆನಪಿರುವುದಿಲ್ಲ. ನಾನು ಮುದ್ರಣದಲ್ಲಿ ಪದವನ್ನು ನೋಡಿದ ಮೊದಲ ಬಾರಿಗೆ Anderson et al. (2015) , ಡೇಟಿಂಗ್ ಸೈಟ್ಗಳು ಬಳಸುವ ಕ್ರಮಾವಳಿಗಳು ಸಾಮಾಜಿಕ ಪ್ರಾಶಸ್ತ್ಯಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಈ ವೆಬ್ಸೈಟ್ಗಳಿಂದ ಡೇಟಾವನ್ನು ಬಳಸುವ ಸಂಶೋಧಕರ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೇಗೆ ಸಂಕೀರ್ಣಗೊಳಿಸಬಹುದು ಎಂಬುದರ ಕುತೂಹಲಕಾರಿ ಚರ್ಚೆಯಾಗಿದೆ. Anderson et al. (2014) K. Lewis (2015a) ಪ್ರತಿಕ್ರಿಯೆಯಾಗಿ ಈ ಕಳವಳವನ್ನು K. Lewis (2015a) ಬೆಳೆಸಿದರು Anderson et al. (2014) .
ಫೇಸ್ಬುಕ್ ಜೊತೆಗೆ, ಟ್ರೈಡಿಕ್ ಮುಚ್ಚುವಿಕೆಯ ಕಲ್ಪನೆಯನ್ನು ಆಧರಿಸಿ ಬಳಕೆದಾರರು ಅನುಸರಿಸಲು ಜನರನ್ನು ಟ್ವಿಟರ್ ಶಿಫಾರಸು ಮಾಡುತ್ತದೆ; Su, Sharma, and Goel (2016) . ಆದ್ದರಿಂದ ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿ ಟ್ರೈಡಿಕ್ ಮುಚ್ಚುವಿಕೆಯ ಮಟ್ಟವು ಕೆಲವು ಮಾನವನ ಪ್ರವೃತ್ತಿ ಮತ್ತು ಟ್ರೈಯಾಡಿಕ್ ಮುಚ್ಚುವಿಕೆಯನ್ನು ಉತ್ತೇಜಿಸುವ ಕೆಲವು ಅಲ್ಗೊರಿದಮ್ ಪ್ರವೃತ್ತಿಗೆ ಸಂಯೋಜನೆಯಾಗಿದೆ.
ಕೆಲವು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನ ಸಿದ್ಧಾಂತಗಳು "ಎಂಜಿನ್ಗಳು ಕ್ಯಾಮೆರಾಗಳು" (ಅಂದರೆ, ಅವರು ಅದನ್ನು ವಿವರಿಸುವ ಬದಲು ಪ್ರಪಂಚವನ್ನು ಆಕಾರಗೊಳಿಸುತ್ತವೆ) ಎಂದು ನಿರ್ದಿಷ್ಟವಾಗಿ ಹೇಳುವುದಾದರೆ- -ಮೆಕೆಂಜಿ Mackenzie (2008) .
ಸರ್ಕಾರಿ ಅಂಕಿಅಂಶಗಳ ಏಜೆನ್ಸಿಗಳು ದತ್ತಾಂಶ ಸ್ವಚ್ಛಗೊಳಿಸುವ ಅಂಕಿಅಂಶಗಳ ದತ್ತಾಂಶ ಸಂಕಲನವನ್ನು ಕರೆಯುತ್ತವೆ . De Waal, Puts, and Daas (2014) ಸಮೀಕ್ಷೆಯ ಡೇಟಾಗಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ಡೇಟಾ ಸಂಕಲನ ತಂತ್ರಗಳನ್ನು ವಿವರಿಸುತ್ತಾರೆ ಮತ್ತು ಅವರು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಗೆ ಅನ್ವಯವಾಗುವ ಮಟ್ಟಿಗೆ ಪರಿಶೀಲನೆ ನಡೆಸುತ್ತಾರೆ, ಮತ್ತು Puts, Daas, and Waal (2015) ಹೆಚ್ಚು ಸಾಮಾನ್ಯ ಪ್ರೇಕ್ಷಕರು.
ಸಾಮಾಜಿಕ ಬಾಟ್ಗಳನ್ನು ಒಂದು ಅವಲೋಕನಕ್ಕಾಗಿ, Ferrara et al. (2016) . ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿ ಸ್ಪ್ಯಾಮ್ ಹುಡುಕುವ ಬಗ್ಗೆ ಕೆಲವು ಅಧ್ಯಯನಗಳ ಉದಾಹರಣೆಗಳಿಗಾಗಿ, Clark et al. (2016) ಮತ್ತು Chu et al. (2012) . ಅಂತಿಮವಾಗಿ, Subrahmanian et al. (2016) DARPA ಟ್ವಿಟರ್ ಬಾಟ್ ಚಾಲೆಂಜ್ ನ ಫಲಿತಾಂಶಗಳನ್ನು ವಿವರಿಸಿ, ಟ್ವಿಟ್ಟರ್ನಲ್ಲಿ ಬಾಟ್ಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವ ವಿಧಾನಗಳನ್ನು ಹೋಲಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಸಮೂಹ ಸಹಯೋಗ.
Ohm (2015) ಹಿಂದಿನ ಸೂಕ್ಷ್ಮ ಮಾಹಿತಿಗಳ ಪರಿಕಲ್ಪನೆಯ ಬಗ್ಗೆ ವಿಮರ್ಶೆಗಳನ್ನು ಮತ್ತು ಬಹು-ಅಂಶ ಪರೀಕ್ಷೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ. ಅವರು ಪ್ರಸ್ತಾಪಿಸುವ ನಾಲ್ಕು ಅಂಶಗಳು ಹಾನಿಗಳ ಪ್ರಮಾಣ, ಹಾನಿ ಸಂಭವನೀಯತೆ, ಗೌಪ್ಯ ಸಂಬಂಧದ ಉಪಸ್ಥಿತಿ ಮತ್ತು ಅಪಾಯವು ಬಹುಪಾಲು ಕಾಳಜಿಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆಯೇ ಎಂಬುದು.
ನ್ಯೂಯಾರ್ಕ್ನಲ್ಲಿರುವ ಟ್ಯಾಕ್ಸಿಗಳ ಕುರಿತು ಫಾರ್ಬರ್ ಅವರ ಅಧ್ಯಯನವು Camerer et al. (1997) ಹಿಂದಿನ ಅಧ್ಯಯನವನ್ನು ಆಧರಿಸಿತ್ತು Camerer et al. (1997) ಕಾಗದದ ಟ್ರಿಪ್ ಶೀಟ್ಗಳ ಮೂರು ವಿವಿಧ ಅನುಕೂಲ ಮಾದರಿಗಳನ್ನು ಬಳಸಿತು. ಈ ಹಿಂದಿನ ಅಧ್ಯಯನವು ಚಾಲಕರು ಗುರಿಯನ್ನು ಗಳಿಸುವವರು ಎಂದು ತೋರುತ್ತಿತ್ತು: ತಮ್ಮ ವೇತನ ಹೆಚ್ಚಿರುವ ದಿನಗಳಲ್ಲಿ ಅವರು ಕಡಿಮೆ ಕೆಲಸ ಮಾಡಿದರು.
ನಂತರದ ಕೆಲಸಗಳಲ್ಲಿ, ಕಿಂಗ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಚೀನಾದಲ್ಲಿ (King, Pan, and Roberts 2014, [@king_how_2016] ) ಆನ್ಲೈನ್ ಸೆನ್ಸಾರ್ಶಿಪ್ ಅನ್ನು ಮತ್ತಷ್ಟು ಅನ್ವೇಷಿಸಿದ್ದಾರೆ. ಚೀನಾದಲ್ಲಿ ಆನ್ಲೈನ್ ಸೆನ್ಸಾರ್ಶಿಪ್ ಅನ್ನು ಅಳತೆ ಮಾಡಲು ಸಂಬಂಧಿಸಿದ ವಿಧಾನಕ್ಕಾಗಿ, Bamman, O'Connor, and Smith (2012) . 11 ಮಿಲಿಯನ್ ಪೋಸ್ಟ್ಗಳ ಭಾವನೆಗಳನ್ನು ಅಂದಾಜು ಮಾಡಲು King, Pan, and Roberts (2013) ನಲ್ಲಿ King, Pan, and Roberts (2013) ಅಂಕಿಅಂಶಗಳ ವಿಧಾನಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ Hopkins and King (2010) . ಮೇಲ್ವಿಚಾರಣಾ ಕಲಿಕೆಯ ಕುರಿತು ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, ನೋಡಿ James et al. (2013) (ಕಡಿಮೆ ತಾಂತ್ರಿಕ) ಮತ್ತು Hastie, Tibshirani, and Friedman (2009) (ಹೆಚ್ಚು ತಾಂತ್ರಿಕ).
ಮುನ್ಸೂಚನೆಯು ಕೈಗಾರಿಕಾ ದತ್ತಾಂಶ ವಿಜ್ಞಾನದ ಒಂದು ದೊಡ್ಡ ಭಾಗವಾಗಿದೆ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ಸಾಮಾಜಿಕ ಸಂಶೋಧಕರಿಂದ ಸಾಮಾನ್ಯವಾಗಿ ಮುನ್ಸೂಚನೆಯ ಒಂದು ವಿಧವು ಜನಸಂಖ್ಯಾ ಮುನ್ಸೂಚನೆಯಾಗಿದೆ; ನೋಡಿ, ಉದಾಹರಣೆಗೆ, Raftery et al. (2012) .
ಗೂಗಲ್ ಫ್ಲೂ ಟ್ರೆಂಡ್ಸ್ ಇಫ್ಲ್ಯಾಕ್ಜೆಝಾ ಪ್ರಭುತ್ವಕ್ಕೆ ಈಗಲೂ ಹುಡುಕಾಟದ ಡೇಟಾವನ್ನು ಬಳಸುವ ಮೊದಲ ಯೋಜನೆಯಾಗಿಲ್ಲ. ವಾಸ್ತವವಾಗಿ, ಕೆಲವು ಸರ್ಚ್ ಪದಗಳು (ಉದಾಹರಣೆಗೆ, "ಫ್ಲೂ") ರಾಷ್ಟ್ರೀಯ ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಕಣ್ಗಾವಲು ಎಂದು ಅಮೆರಿಕದ ಸಂಶೋಧಕರು (Polgreen et al. 2008; Ginsberg et al. 2009) ಮತ್ತು ಸ್ವೀಡನ್ (Hulth, Rydevik, and Linde 2009) ಡೇಟಾ ಬಿಡುಗಡೆಯಾಗುವ ಮೊದಲು. ತರುವಾಯ ಅನೇಕ, ಅನೇಕ ಇತರ ಯೋಜನೆಗಳು ರೋಗ ಕಣ್ಗಾವಲು ಪತ್ತೆಹಚ್ಚುವಿಕೆಯ ಡಿಜಿಟಲ್ ಟ್ರೇಸ್ ಡೇಟಾವನ್ನು ಬಳಸಲು ಪ್ರಯತ್ನಿಸಿದೆ; Althouse et al. (2015) ವಿಮರ್ಶೆಗಾಗಿ.
ಆರೋಗ್ಯದ ಪರಿಣಾಮಗಳನ್ನು ಊಹಿಸಲು ಡಿಜಿಟಲ್ ಜಾಡಿನ ದತ್ತಾಂಶವನ್ನು ಬಳಸುವುದರ ಜೊತೆಗೆ, ಚುನಾವಣಾ ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಟ್ವಿಟ್ಟರ್ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಕೆಲಸಗಳಿವೆ; ವಿಮರ್ಶೆಗಳು ನೋಡಿ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ಅಧ್ಯಾಯ 7), ಮತ್ತು Huberty (2015) . ಕೇಂದ್ರೀಯ ಬ್ಯಾಂಕುಗಳಲ್ಲಿ ಸಮಗ್ರ ದೇಶೀಯ ಉತ್ಪನ್ನ (ಜಿಡಿಪಿ) ನಂತಹ ಆರ್ಥಿಕ ಸೂಚಕಗಳನ್ನು ಬಹಿಷ್ಕರಿಸುವುದು ಸಹ ಸಾಮಾನ್ಯವಾಗಿದೆ, ನೋಡಿ Bańbura et al. (2013) . ಟೇಬಲ್ 2.8 ರಲ್ಲಿ ಕೆಲವು ರೀತಿಯ ಉದಾಹರಣೆಗಳಿವೆ, ಅದು ಕೆಲವು ವಿಧದ ಡಿಜಿಟಲ್ ಟ್ರೇಸ್ ಅನ್ನು ಜಗತ್ತಿನಲ್ಲಿ ಕೆಲವು ರೀತಿಯ ಘಟನೆಯನ್ನು ಊಹಿಸಲು ಬಳಸುತ್ತದೆ.
ಡಿಜಿಟಲ್ ಜಾಡಿನ | ಫಲಿತಾಂಶ | ಉಲ್ಲೇಖಗಳು |
---|---|---|
ಟ್ವಿಟರ್ | US ನಲ್ಲಿ ಚಲನಚಿತ್ರಗಳ ಬಾಕ್ಸ್ ಆಫೀಸ್ ಆದಾಯ | Asur and Huberman (2010) |
ಹುಡುಕಾಟ ದಾಖಲೆಗಳು | US ನಲ್ಲಿ ಸಿನೆಮಾ, ಸಂಗೀತ, ಪುಸ್ತಕಗಳು ಮತ್ತು ವೀಡಿಯೊ ಆಟಗಳ ಮಾರಾಟ | Goel et al. (2010) |
ಟ್ವಿಟರ್ | ಡೌ ಜೋನ್ಸ್ ಕೈಗಾರಿಕಾ ಸರಾಸರಿ (ಯುಎಸ್ ಸ್ಟಾಕ್ ಮಾರುಕಟ್ಟೆ) | Bollen, Mao, and Zeng (2011) |
ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಮತ್ತು ಹುಡುಕಾಟ ದಾಖಲೆಗಳು | ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್, ಯುನೈಟೆಡ್ ಕಿಂಗ್ಡಮ್, ಕೆನಡಾ ಮತ್ತು ಚೀನಾದಲ್ಲಿ ಹೂಡಿಕೆದಾರರ ಭಾವನೆ ಮತ್ತು ಷೇರು ಮಾರುಕಟ್ಟೆಗಳ ಸಮೀಕ್ಷೆಗಳು | Mao et al. (2015) |
ಹುಡುಕಾಟ ದಾಖಲೆಗಳು | ಸಿಂಗಾಪುರ್ ಮತ್ತು ಬ್ಯಾಂಕಾಕ್ನಲ್ಲಿ ಡೆಂಗ್ಯೂ ಜ್ವರ ಹರಡಿರುವುದು | Althouse, Ng, and Cummings (2011) |
ಅಂತಿಮವಾಗಿ, ಜಾನ್ ಕ್ಲೈನ್ಬರ್ಗ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು (2015) ಮುನ್ಸೂಚನೆಯ ಸಮಸ್ಯೆಗಳು ಎರಡು, ಸೂಕ್ಷ್ಮವಾಗಿ ವಿಭಿನ್ನ ವರ್ಗಗಳಾಗಿ ಬರುತ್ತವೆ ಮತ್ತು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಿಗಳು ಒಂದು ಕಡೆ ಕೇಂದ್ರೀಕರಿಸಲು ಮತ್ತು ಇನ್ನೊಂದನ್ನು ನಿರ್ಲಕ್ಷಿಸುವಂತೆ ಮಾಡಿದ್ದಾರೆ ಎಂದು ಸೂಚಿಸಿದ್ದಾರೆ. ಒಂದು ನೀತಿ ತಯಾರಕನನ್ನು ಊಹಿಸಿಕೊಳ್ಳಿ, ನಾನು ಬರಗಾಲವನ್ನು ಎದುರಿಸುತ್ತಿರುವ ಅವಳ ಅಣ್ಣಾ ಎಂದು ಕರೆಯುತ್ತೇನೆ ಮತ್ತು ಮಳೆಯ ಅವಕಾಶವನ್ನು ಹೆಚ್ಚಿಸಲು ಮಳೆಯ ನೃತ್ಯಗಾರನನ್ನು ನೇಮಿಸಬೇಕೆ ಎಂದು ನಾನು ನಿರ್ಧರಿಸಬೇಕು. ಮತ್ತೊಂದು ನೀತಿ ತಯಾರಕ, ನಾನು ಅವಳ ಬೆಟ್ಟಿ ಎಂದು ಕರೆ ಮಾಡುತ್ತೇನೆ, ದಾರಿ ಮನೆಗೆ ತೆಳುವಾಗದಂತೆ ತಡೆಯಲು ಕೆಲಸ ಮಾಡಲು ಒಂದು ಛತ್ರಿ ತೆಗೆದುಕೊಳ್ಳಬೇಕೆ ಎಂದು ನಿರ್ಧರಿಸಬೇಕು. ಹವಾಮಾನವನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡರೆ ಅಣ್ಣಾ ಮತ್ತು ಬೆಟ್ಟಿ ಇಬ್ಬರೂ ಉತ್ತಮ ನಿರ್ಧಾರವನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು, ಆದರೆ ಅವರು ವಿಭಿನ್ನ ವಿಷಯಗಳನ್ನು ತಿಳಿಯಬೇಕು. ಮಳೆ ನೃತ್ಯವು ಮಳೆಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಅಣ್ಣ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು. ಬೆಟ್ಟಿ, ಮತ್ತೊಂದೆಡೆ, ಕಾರಣದ ಬಗ್ಗೆ ಏನಾದರೂ ಅರ್ಥ ಮಾಡಿಕೊಳ್ಳಬೇಕಾಗಿಲ್ಲ; ಅವಳು ನಿಖರವಾದ ಮುನ್ಸೂಚನೆ ಅಗತ್ಯವಿದೆ. ಅಣ್ಣಾ ಎದುರಿಸುತ್ತಿರುವಂತಹ ಸಮಸ್ಯೆಗಳ ಮೇಲೆ ಸಾಮಾಜಿಕ ಸಂಶೋಧಕರು ಹೆಚ್ಚಾಗಿ ಕೇಂದ್ರೀಕರಿಸುತ್ತಾರೆ-ಇದು ಕ್ಲೈನ್ಬರ್ಗ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು "ಮಳೆ ನೃತ್ಯ-ತರಹದ" ನೀತಿಯ ಸಮಸ್ಯೆಗಳನ್ನು ಕರೆಯುತ್ತಾರೆ-ಏಕೆಂದರೆ ಅವುಗಳು ಕಾರಣಗಳ ಬಗ್ಗೆ ಪ್ರಶ್ನೆಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ. ಕ್ಲೆನ್ಬರ್ಗ್ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು "ಛತ್ರಿ-ತರಹದ" ನೀತಿ ಸಮಸ್ಯೆಗಳನ್ನು ಕರೆಯುವಂತಹ ಬೆಟ್ಟಿ ಎದುರಿಸಿದಂತಹ ಪ್ರಶ್ನೆಗಳು ತುಂಬಾ ಪ್ರಾಮುಖ್ಯವಾಗಬಹುದು, ಆದರೆ ಸಾಮಾಜಿಕ ಸಂಶೋಧಕರಿಂದ ಬಹಳ ಕಡಿಮೆ ಗಮನ ಸೆಳೆದಿವೆ.
ಪಿಎಸ್ ಪೊಲಿಟಿಕಲ್ ಸೈನ್ಸ್ನಲ್ಲಿ ದೊಡ್ಡ ದತ್ತಾಂಶ, ಕಾರಣವಾದ ನಿರ್ಣಯ ಮತ್ತು ಔಪಚಾರಿಕ ಸಿದ್ಧಾಂತದ ಬಗ್ಗೆ ಸಿಂಪೋಸಿಯಮ್ ಎಂಬ ನಿಯತಕಾಲಿಕವು ಹೊಂದಿತ್ತು, ಮತ್ತು Clark and Golder (2015) ಪ್ರತಿ ಕೊಡುಗೆಯನ್ನು ಸಾರಾಂಶ ಮಾಡುತ್ತಾರೆ. ಅಮೇರಿಕಾ ಸಂಯುಕ್ತ ಸಂಸ್ಥಾನದ ನ್ಯಾಷನಲ್ ಅಕಾಡೆಮಿ ಆಫ್ ಸೈನ್ಸಸ್ ನ ಪ್ರೊಸೀಡಿಂಗ್ಸ್ ಜರ್ನಲ್ Shiffrin (2016) ಮತ್ತು ದೊಡ್ಡ ದತ್ತಾಂಶಗಳ ಬಗ್ಗೆ ಸಿಂಪೋಸಿಯಮ್ ಅನ್ನು ಹೊಂದಿದ್ದವು, ಮತ್ತು Shiffrin (2016) ಪ್ರತಿ ಕೊಡುಗೆಯನ್ನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಹೇಳಿದ್ದಾರೆ. ದೊಡ್ಡ ದತ್ತಾಂಶ ಮೂಲಗಳೊಳಗೆ ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಕಂಡುಹಿಡಿಯಲು ಪ್ರಯತ್ನಿಸುವ ಯಂತ್ರ ಕಲಿಕೆ ವಿಧಾನಗಳಿಗಾಗಿ, Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , ಮತ್ತು Sharma, Hofman, and Watts (2016) .
ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳ ವಿಷಯದಲ್ಲಿ, Dunning (2012) ಹಲವು ಉದಾಹರಣೆಗಳೊಂದಿಗೆ ಪರಿಚಯಾತ್ಮಕ, ಪುಸ್ತಕ-ಉದ್ದದ ಚಿಕಿತ್ಸೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ. ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳ Rosenzweig and Wolpin (2000) , Rosenzweig and Wolpin (2000) (ಅರ್ಥಶಾಸ್ತ್ರ) ಅಥವಾ Sekhon and Titiunik (2012) (ರಾಜಕೀಯ ವಿಜ್ಞಾನ) ಅನ್ನು ನೋಡಿ. Deaton (2010) ಮತ್ತು Heckman and Urzúa (2010) ವಾದಿಸುತ್ತಾರೆ ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳ ಮೇಲೆ ಗಮನ ಕೇಂದ್ರೀಕರಿಸುವುದರಿಂದ ಸಂಶೋಧಕರು ಪ್ರಮುಖವಾದ ಪರಿಣಾಮಗಳನ್ನು ಅಂದಾಜು ಮಾಡಲು ಕೇಂದ್ರೀಕರಿಸುತ್ತಾರೆ; Imbens (2010) ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳ ಮೌಲ್ಯದ ಬಗ್ಗೆ ಹೆಚ್ಚು ಆಶಾವಾದಿ ದೃಷ್ಟಿಕೋನದಿಂದ ಈ ವಾದಗಳನ್ನು ಕೌಂಟರ್ ಮಾಡುತ್ತದೆ.
ಸೇವೆ ಸಲ್ಲಿಸುವ ಪರಿಣಾಮಕ್ಕೆ ಕರಗಿದ ಪರಿಣಾಮವನ್ನು ಅಂದಾಜು ಮಾಡಲು ಸಂಶೋಧಕರು ಹೇಗೆ ಹೋಗುತ್ತಾರೆ ಎಂಬುದನ್ನು ವಿವರಿಸುವಾಗ, ನಾನು ವಾದ್ಯಗಳ ಅಸ್ಥಿರ ಎಂಬ ತಂತ್ರವನ್ನು ವಿವರಿಸುತ್ತಿದ್ದೆ. Imbens and Rubin (2015) , ತಮ್ಮ ಅಧ್ಯಾಯಗಳಲ್ಲಿ 23 ಮತ್ತು 24 ರಲ್ಲಿ, ಒಂದು ಪರಿಚಯವನ್ನು Imbens and Rubin (2015) ಡ್ರಾಫ್ಟ್ ಲಾಟರಿ ಅನ್ನು ಉದಾಹರಣೆಯಾಗಿ ಬಳಸಿ. ಅನುಸರಣೆದಾರರ ಮಿಲಿಟರಿ ಸೇವೆಯ ಪರಿಣಾಮವನ್ನು ಕೆಲವೊಮ್ಮೆ ಪೂರಕವಾದ ಸರಾಸರಿ ಸಾಂದರ್ಭಿಕ ಪರಿಣಾಮ (CAcE) ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಸ್ಥಳೀಯ ಸರಾಸರಿ ಚಿಕಿತ್ಸೆಯ ಪರಿಣಾಮ (ಲೇಟ್) ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ರಾಜಕೀಯ ವಿಜ್ಞಾನ, ಅರ್ಥಶಾಸ್ತ್ರ ಮತ್ತು ಸಮಾಜಶಾಸ್ತ್ರದಲ್ಲಿನ ವಾದ್ಯಗಳ ಅಸ್ಥಿರಗಳ ಬಳಕೆಯ ಕುರಿತಾದ ವಿಮರ್ಶೆಗಳು ಮತ್ತು Sovey and Green (2011) "ಓದುಗರ ಚೆಕ್ಲಿಸ್ಟ್" ಅನ್ನು ಒದಗಿಸುತ್ತದೆ. " Angrist and Krueger (2001) Sovey and Green (2011) , Angrist and Krueger (2001) ಮತ್ತು Bollen (2012) ವಾದ್ಯಗಳ ಅಸ್ಥಿರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಅಧ್ಯಯನಗಳು.
1970 ಡ್ರಾಫ್ಟ್ ಲಾಟರಿ ವಾಸ್ತವವಾಗಿ ಸರಿಯಾಗಿ ಯಾದೃಚ್ಛಿಕವಲ್ಲ ಎಂದು ಅದು ತಿರುಗುತ್ತದೆ; ಶುದ್ಧ ಯಾದೃಚ್ಛಿಕ (Fienberg 1971) ಯಿಂದ ಸಣ್ಣ ವ್ಯತ್ಯಾಸಗಳು ಇದ್ದವು. Berinsky and Chatfield (2015) ಈ ಸಣ್ಣ ವಿಚಲನವು ಪ್ರಾಮುಖ್ಯವಾಗಿ ಮುಖ್ಯವಲ್ಲ ಮತ್ತು ಸರಿಯಾಗಿ ನಡೆಸಿದ ಯಾದೃಚ್ಛಿಕತೆಯ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಚರ್ಚಿಸುತ್ತದೆ.
ಹೊಂದಾಣಿಕೆಯ ವಿಷಯದಲ್ಲಿ, ಆಶಾವಾದಿ ವಿಮರ್ಶೆಗಾಗಿ Stuart (2010) , ಮತ್ತು ನಿರಾಶಾವಾದ ವಿಮರ್ಶೆಗಾಗಿ Sekhon (2009) . ಒಂದು ರೀತಿಯ ಸಮರುವಿಕೆಯನ್ನು ಹೊಂದುವುದರ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, ನೋಡಿ Ho et al. (2007) . ಪ್ರತಿಯೊಂದು ವ್ಯಕ್ತಿಯೂ ಒಂದೇ ಪರಿಪೂರ್ಣ ಪಂದ್ಯವನ್ನು ಹುಡುಕುವುದು ಕಷ್ಟ, ಮತ್ತು ಇದು ಅನೇಕ ಸಂಕೀರ್ಣತೆಗಳನ್ನು ಪರಿಚಯಿಸುತ್ತದೆ. ಮೊದಲನೆಯದು, ಸರಿಯಾದ ಪಂದ್ಯಗಳು ಲಭ್ಯವಿಲ್ಲದಿದ್ದಾಗ, ಎರಡು ಘಟಕಗಳ ನಡುವಿನ ಅಂತರವನ್ನು ಹೇಗೆ ನಿರ್ಣಯಿಸಬೇಕು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಸಂಶೋಧಕರು ನಿರ್ಧರಿಸಬೇಕು ಮತ್ತು ನಿರ್ದಿಷ್ಟ ಅಂತರವು ಹತ್ತಿರವಾಗಿದ್ದರೆ. ಚಿಕಿತ್ಸಕ ಗುಂಪಿನಲ್ಲಿ ಪ್ರತಿ ಪ್ರಕರಣಕ್ಕೆ ಸಂಬಂಧಿಸಿದಂತೆ ಸಂಶೋಧಕರು ಬಹು ಹೊಂದಾಣಿಕೆಗಳನ್ನು ಬಳಸಲು ಬಯಸಿದರೆ ಎರಡನೇ ಸಂಕೀರ್ಣತೆ ಉಂಟಾಗುತ್ತದೆ, ಏಕೆಂದರೆ ಇದು ಹೆಚ್ಚು ನಿಖರವಾದ ಅಂದಾಜುಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು. ಈ ಎರಡೂ ವಿಷಯಗಳು, ಮತ್ತು ಇತರವುಗಳನ್ನು Imbens and Rubin (2015) ಅಧ್ಯಾಯ 18 ರಲ್ಲಿ ವಿವರವಾಗಿ ವಿವರಿಸಲಾಗಿದೆ. ಪಾರ್ಟ್ II ನ ( ??? ) ಸಹ ನೋಡಿ.
ಒಂದು ರೀತಿಯ ಯಾದೃಚ್ಛಿಕ ನಿಯಂತ್ರಿತ ಪ್ರಯೋಗದಿಂದ ಹೋಲುತ್ತಿರುವ ಹೊಂದಾಣಿಕೆಯ ವಿಧಾನಗಳು ಅಂದಾಜು ಮಾಡಲು ಸಾಧ್ಯವಾದ ಉದಾಹರಣೆಗಾಗಿ Dehejia and Wahba (1999) ನೋಡಿ. ಆದರೆ, Arceneaux, Gerber, and Green (2006) ಮತ್ತು Arceneaux, Gerber, and Green (2010) ಅನ್ನು ನೋಡಿ ಪ್ರಾಯೋಗಿಕ ಮಾನದಂಡವನ್ನು ಪುನರಾವರ್ತಿಸಲು ಹೊಂದಾಣಿಕೆ ವಿಧಾನಗಳು ವಿಫಲವಾದವು.
Rosenbaum (2015) ಮತ್ತು Hernán and Robins (2016) ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಲ್ಲಿ ಉಪಯುಕ್ತ ಹೋಲಿಕೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಇತರ ಸಲಹೆಗಳನ್ನು ನೀಡುತ್ತವೆ.