ಮತ್ತಷ್ಟು ವ್ಯಾಖ್ಯಾನ

ಈ ವಿಭಾಗವು ನಿರೂಪಣೆಗಳ ಹಾಗೆ ಓದಬಹುದು ಬದಲಿಗೆ ಒಂದು ಆಕರ ಭಾಗವಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ.

  • ಪರಿಚಯ (ವಿಭಾಗ 2.1)

ಈ ಅಧ್ಯಾಯದಲ್ಲಿ ಒಳಗೊಂಡಿದೆ ಎಂದು ಇದೆ ಗಮನಿಸುವುದರ ಒಂದು ರೀತಿಯ ಜನಾಂಗ ಆಗಿದೆ. ಡಿಜಿಟಲ್ ಸ್ಥಳಗಳಲ್ಲಿ ಜನಾಂಗ ಹೆಚ್ಚಿನ ನೋಡಿ Boellstorff et al. (2012) , ಮತ್ತು ಮಿಶ್ರ ಡಿಜಿಟಲ್ ಮತ್ತು ಭೌತಿಕ ಸ್ಥಳಗಳಲ್ಲಿ ಜನಾಂಗ ಹೆಚ್ಚಿನ ನೋಡಿ Lane (2016) .

  • ದೊಡ್ಡ ದಶಮಾಂಶ (ವಿಭಾಗ 2.2)

ನೀವು ಡೇಟಾವನ್ನು repurposing, ನೀವು ನೀವು ಎದುರಿಸಬೇಕಾಗುತ್ತದೆ ಎಂದು ಸಂಭಾವ್ಯ ಸಮಸ್ಯೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡಬಹುದು ಎರಡು ಮಾನಸಿಕ ತಂತ್ರಗಳನ್ನು ಇವೆ. ಮೊದಲ, ನಿಮ್ಮ ಸಮಸ್ಯೆ ಮಾದರಿಯಾಗಿದೆ ದತ್ತಾಂಶ ಕಲ್ಪಿಸುವುದು ಪ್ರಯತ್ನಿಸಿ ಮತ್ತು ನೀವು ಬಳಸುತ್ತಿರುವ ದತ್ತಾಂಶ ಎಂದು ಹೋಲಿಕೆ ಮಾಡಬಹುದು. ಹೇಗೆ ಅವರು ಇದೇ ಮತ್ತು ಹೇಗೆ ಬೇರೆಯೆ? ನೀವು ನಿಮ್ಮ ದಶಮಾಂಶ ನಿಮ್ಮನ್ನು ಸಂಗ್ರಹಿಸಲು ವೇಳೆ, ನೀವು ಬಯಸುವ ಮತ್ತು ನೀವು ಏನು ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಎಂದು ಸಾಧ್ಯತೆ ಇವೆ. ಆದರೆ, ನೀವು ಈ ವ್ಯತ್ಯಾಸಗಳು ಸಣ್ಣ ಅಥವಾ ಪ್ರಮುಖ ವೇಳೆ ನಿರ್ಧರಿಸಲು ಹೊಂದಿರುತ್ತವೆ.

ಎರಡನೇ, ಯಾರಾದರೂ ದಾಖಲಿಸಿದವರು ಮತ್ತು ಕೆಲವು ಕಾರಣಕ್ಕಾಗಿ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಿದ ನೆನಪು. ನೀವು ತಮ್ಮ ತಾರ್ಕಿಕ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಯತ್ನಿಸಬೇಕು. ಮೂಲತತ್ವದ ಆವಿಷ್ಕಾರದ ಈ ರೀತಿಯ ನಿಮ್ಮ repurposed ಡೇಟಾ ಸಾಧ್ಯ ಸಮಸ್ಯೆಗಳು ಮತ್ತು ಪೂರ್ವಗ್ರಹಗಳು ಗುರುತಿಸುತ್ತದೆ.

ಇಲ್ಲ "ದೊಡ್ಡ ದಶಮಾಂಶ" ಯಾವುದೇ ಏಕ ಒಮ್ಮತದ ವ್ಯಾಖ್ಯಾನ, ಆದರೆ ಅನೇಕ ವ್ಯಾಖ್ಯಾನಗಳು 3 ವರ್ಸಸ್ ಗಮನ ತೋರುತ್ತದೆ: (ಉದಾ, ಪರಿಮಾಣ, ವಿವಿಧ ಮತ್ತು ವೇಗ Japec et al. (2015) ). ಬದಲಿಗೆ ದತ್ತಾಂಶಗಳ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಕೇಂದ್ರೀಕರಿಸಿದ ಹೆಚ್ಚು, ನನ್ನ ವ್ಯಾಖ್ಯಾನ ಏಕೆ ಡೇಟಾ ಸ್ಥಾಪಿಸಲಾಯಿತು ಮೂಲಕ ಗಮನ.

ದೊಡ್ಡ ದಶಮಾಂಶ ವರ್ಗದಲ್ಲಿ ಒಳಗೆ ಸರ್ಕಾರದ ಆಡಳಿತಾತ್ಮಕ ದತ್ತಾಂಶದ ನನ್ನ ಸೇರಿಕೆ ಸ್ವಲ್ಪ ಅಸಾಧಾರಣ ಆಗಿದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ ಸಲ್ಲಿಸಿರುವ ಇತರರ ಸೇರಿವೆ Legewie (2015) , Connelly et al. (2016) , ಮತ್ತು Einav and Levin (2014) . ಸರ್ಕಾರದ ಆಡಳಿತಾತ್ಮಕ ಡೇಟಾ ಮೌಲ್ಯವನ್ನು ಸಂಶೋಧನೆ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ, ನೋಡಿ Card et al. (2010) , Taskforce (2012) , ಮತ್ತು Grusky, Smeeding, and Snipp (2015) .

ಸರ್ಕಾರದ ಅಂಕಿಅಂಶಗಳ ವ್ಯವಸ್ಥೆ, ವಿಶೇಷವಾಗಿ ಅಮೇರಿಕಾದ ಜನಗಣತಿ ಒಳಗಿನಿಂದ ಆಡಳಿತಾತ್ಮಕ ಸಂಶೋಧನೆಯ ದೃಷ್ಟಿಯಿಂದ, ನೋಡಿ Jarmin and O'Hara (2016) . ಅಂಕಿಅಂಶ ಸ್ವೀಡನ್ ನಲ್ಲಿ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳನ್ನು ಸಂಶೋಧನೆಯ ಪುಸ್ತಕ ಉದ್ದ ಚಿಕಿತ್ಸೆ, ನೋಡಿ Wallgren and Wallgren (2007) .

ಅಧ್ಯಾಯದಲ್ಲಿ, ನಾನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಇಂತಹ ಜನರಲ್ ಸೋಷಿಯಲ್ ಸರ್ವೇಕ್ಷಣೆಯಲ್ಲಿ (GSS) ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಡೇಟಾ ಮೂಲ Twitter ನಂತಹ ಸಾಂಪ್ರದಾಯಿಕ ಸಮೀಕ್ಷೆ ಹೋಲಿಸಿದರೆ. ಸಾಂಪ್ರದಾಯಿಕ ಸಮೀಕ್ಷೆಗಳು ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ದಶಮಾಂಶ ನಡುವೆ ಸಂಪೂರ್ಣ ಮತ್ತು ಎಚ್ಚರಿಕೆಯಿಂದ ಹೋಲಿಕೆಯಲ್ಲಿ, ನೋಡಿ Schober et al. (2016) .

  • ದೊಡ್ಡ ದಶಮಾಂಶ ಸಾಮಾನ್ಯ ಗುಣಲಕ್ಷಣಗಳು (ವಿಭಾಗ 2.3)

ದೊಡ್ಡ ದತ್ತಾಂಶದ ಈ 10 ಗುಣಲಕ್ಷಣಗಳನ್ನು ವಿವಿಧ ಲೇಖಕರು ವಿವಿಧ ರೀತಿಯಲ್ಲಿ ವಿವಿಧ ವಿವರಿಸಲಾಗಿದೆ. ಈ ಕುರಿತು ನನ್ನ ಚಿಂತನೆ ಪ್ರಭಾವ ಬರವಣಿಗೆ ಸೇರಿವೆ: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ಮತ್ತು Goldstone and Lupyan (2016) .

ಈ ಅಧ್ಯಾಯದಲ್ಲಿ ಪೂರ್ತಿ, ನಾನು ಭಾವಿಸುತ್ತೇನೆ ಇದು ತುಲನಾತ್ಮಕವಾಗಿ ತಟಸ್ಥವಾಗಿದೆ ಪದವನ್ನು ಡಿಜಿಟಲ್ ಕುರುಹುಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ ಬಂದಿದೆ. ಡಿಜಿಟಲ್ ಕುರುಹುಗಳು ಮತ್ತೊಂದು ಜನಪ್ರಿಯ ಪದ ಡಿಜಿಟಲ್ ಹೆಜ್ಜೆಗುರುತುಗಳನ್ನು ಆಗಿದೆ (Golder and Macy 2014) , ಆದರೆ ಹಾಲ್ ಅಬೆಲ್ಸನ್, ಕೆನ್ Ledeen, ಮತ್ತು ಹ್ಯಾರಿ ಲೆವಿಸ್ (2008) ಎತ್ತಿ, ಹೆಚ್ಚು ಸೂಕ್ತ ಪದ ಬಹುಶಃ ಡಿಜಿಟಲ್ ಬೆರಳ ಆಗಿದೆ. ನೀವು ಹೆಜ್ಜೆ ಗುರುತು ರಚಿಸಲು, ನೀವು ಏನು ನಡೆಯುತ್ತಿದೆ ಮತ್ತು ನಿಮ್ಮ ಹೆಜ್ಜೆಗುರುತುಗಳನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ವೈಯಕ್ತಿಕವಾಗಿ ನಿಮಗೆ ಪತ್ತೆ ಸಾಧ್ಯವಿಲ್ಲ ಅರಿತಿದೆ. ಅದೇ ನಿಮ್ಮ ಡಿಜಿಟಲ್ ಕುರುಹುಗಳು ನಿಜವಲ್ಲ. ವಾಸ್ತವವಾಗಿ, ನೀವು ಕುರುಹುಗಳು ನೀವು ಬಹಳ ಕಡಿಮೆ ಜ್ಞಾನವಿಲ್ಲದ ಬಗ್ಗೆ ಎಲ್ಲಾ ಸಮಯ ತೊರೆಯುತ್ತಿದ್ದಾರೆ. ಮತ್ತು, ಆದಾಗ್ಯೂ ಈ ಕುರುಹುಗಳು ಅವುಗಳನ್ನು ನಿಮ್ಮ ಹೆಸರನ್ನು ಹೊಂದಿಲ್ಲ, ಅವು ನೀವು ಮರಳಿ ಲಿಂಕ್ ಮಾಡಬಹುದು. ಅಗೋಚರ ಮತ್ತು ವೈಯಕ್ತಿಕವಾಗಿ ಗುರುತಿಸುವ: ಅಂದರೆ, ಅವರು ಹೆಚ್ಚು ಬೆರಳ ಹಾಗೆ.

ಬಿಗ್

ಏಕೆ ದೊಡ್ಡ ದತ್ತಾಂಶ ಸಮಸ್ಯಾತ್ಮಕ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ಪರೀಕ್ಷೆಗಳು ನಿರೂಪಿಸಲು ಹೆಚ್ಚು, ನೋಡಿ Lin, Lucas, and Shmueli (2013) ಮತ್ತು McFarland and McFarland (2015) . ಈ ಸಮಸ್ಯೆಗಳನ್ನು ಬದಲಿಗೆ ಅಂಕಿಅಂಶಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಪ್ರಾಯೋಗಿಕ ಪ್ರಾಮುಖ್ಯತೆ ಗಮನ ಸಂಶೋಧಕರು ದಾರಿ ಬೇಕು.

ಯಾವಾಗಲೂ

ಪರಿಗಣಿಸುವಾಗ ಯಾವಾಗಲೂ ಆನ್ ದಶಮಾಂಶ, ಪ್ರಮುಖ ನೀವು ಕಾಲಾನಂತರದಲ್ಲಿ ಅದೇ ಜನರು ಹೋಲಿಸಿದಾಗ ಅಥವಾ ಎಂಬುದನ್ನು ಜನ ಬದಲಾಗುವ ಸಮೂಹ ಹೋಲಿಸಿದಾಗ ಎಂದು ಪರಿಗಣಿಸಲು ಹೊಂದಿದೆ; ಉದಾಹರಣೆಗೆ ನೋಡಿ, Diaz et al. (2016) .

ಪ್ರತಿಕ್ರಿಯೆ

ಪ್ರತಿಕ್ರಿಯೆ ಕ್ರಮಗಳನ್ನು ಒಂದು ಶ್ರೇಷ್ಠ ಪುಸ್ತಕ Webb et al. (1966) . ಪುಸ್ತಕ ದಿನದವರೆಗೆ ಉದಾಹರಣೆಗಳು ಡಿಜಿಟಲ್ ವಯಸ್ಸು, ಆದರೆ ಇನ್ನೂ ಪ್ರಕಾಶಿಸುವ ಇವೆ. ಏಕೆಂದರೆ ಸಾಮೂಹಿಕ ನಿಗಾವಣೆ ಸಮ್ಮುಖದಲ್ಲಿ ತಮ್ಮ ವರ್ತನೆಯನ್ನು ಬದಲಾಯಿಸುವ ಜನರ ಉದಾಹರಣೆಗಳು, ನೋಡಿ Penney (2016) ಮತ್ತು Brayne (2014) .

ಅಪೂರ್ಣ

ದಾಖಲೆ ಸಂಪರ್ಕ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ, ನೋಡಿ Dunn (1946) ಮತ್ತು Fellegi and Sunter (1969) (ಐತಿಹಾಸಿಕ) ಮತ್ತು Larsen and Winkler (2014) (ಆಧುನಿಕ). ಡೇಟಾ ನಕಲೀಕರಣವು ಉದಾಹರಣೆಗೆ ಗುರುತಿಸುವಿಕೆ, ಹೆಸರು ಹೊಂದಾಣಿಕೆ ಇದೇ ಹತ್ತಿರ ಸಹ ಹೆಸರಿನಡಿಯಲ್ಲಿ ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನದಲ್ಲಿ ಅಭಿವೃದ್ಧಿ, ಪತ್ತೆ ನಕಲು, ಮತ್ತು ದಾಖಲೆ ಪತ್ತೆ ನಕಲು (Elmagarmid, Ipeirotis, and Verykios 2007) . ವೈಯಕ್ತಿಕವಾಗಿ ಗುರುತಿಸುವ ಮಾಹಿತಿಯನ್ನು ಪ್ರಸರಣ ಅಗತ್ಯವಿಲ್ಲ ಸಂಪರ್ಕ ರೆಕಾರ್ಡ್ ವಿಧಾನಗಳು ಸಂರಕ್ಷಿಸುವ ಗೌಪ್ಯತೆ ಇವೆ (Schnell 2013) . ಫೇಸ್ಬುಕ್ ಒಂದು ಮತದಾನ ವರ್ತನೆಗೆ ತಮ್ಮ ದಾಖಲೆಗಳನ್ನು ಸಂಪರ್ಕ ಮುಂದುವರೆಯಲು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ; ಈ ನಾನು ಅಧ್ಯಾಯ 4 ಬಗ್ಗೆ ಹೇಳುತ್ತೇನೆ ಒಂದು ಪ್ರಯೋಗವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಯಿತು (Bond et al. 2012; Jones et al. 2013) .

ರಚನೆ ಕ್ರಮಬದ್ಧತೆ ಬಗ್ಗೆ ಹೆಚ್ಚು, ನೋಡಿ Shadish, Cook, and Campbell (2001) , ಅಧ್ಯಾಯ 3.

ತಲುಪಲಾಗದ

AOL ಶೋಧಕ ಲಾಗ್ ನೂಕುನುಗ್ಗಲು ಬಗ್ಗೆ ಹೆಚ್ಚಿನ, ನೋಡಿ Ohm (2010) . ನಾನು ವಿವರಿಸುವ ನಾನು ಕಂಪನಿಗಳು ಮತ್ತು ಅಧ್ಯಾಯ 4 ಸರ್ಕಾರಗಳು ಜೊತೆಗಾತಿಯಾಗಿ ಬಗ್ಗೆ ಸಲಹೆ ನೀಡುತ್ತವೆ. ಲೇಖಕರು ಪ್ರವೇಶಿಸಲಾಗುವುದಿಲ್ಲ ಡೇಟಾ ಅವಲಂಬಿಸಿದೆ ಸಂಶೋಧನೆ ಬಗ್ಗೆ ಕಾಳಜಿಯನ್ನು ವ್ಯಕ್ತಪಡಿಸಿದ್ದಾರೆ, ನೋಡಿ Huberman (2012) ಮತ್ತು boyd and Crawford (2012) .

ವಿಶ್ವವಿದ್ಯಾಲಯ ಸಂಶೋಧಕರು ಡೇಟಾ ಪ್ರವೇಶ ಪಡೆಯಲು ಒಂದು ಉತ್ತಮ ರೀತಿಯಲ್ಲಿ ಇಂಟರ್ನ್ ಅಥವಾ ಭೇಟಿ ಸಂಶೋಧಕರಾಗಿ ಒಂದು ಕಂಪನಿಯ ಕೆಲಸ ಮಾಡುವುದು. ಡೇಟಾ ಪ್ರವೇಶ ಅನುವು ಜೊತೆಗೆ, ಈ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸಂಶೋಧಕ ಇದು ವಿಶ್ಲೇಷಣೆಗೆ ಮುಖ್ಯ, ಹೇಗೆ ಡೇಟಾ ಸ್ಥಾಪಿಸಲಾಯಿತು ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಪ್ರತಿನಿಧಿಯಲ್ಲದ

ಅಲ್ಲದ ಪ್ರಾತಿನಿಧಿಕತೆ ಸಂಶೋಧಕರು ಮತ್ತು ಸರ್ಕಾರಗಳು ಸಂಪೂರ್ಣ ಜನಸಂಖ್ಯೆಯ ಬಗ್ಗೆ ಹೇಳಿಕೆಗಳನ್ನು ಮಾಡಲು ಬಯಸುವ ಒಂದು ಪ್ರಮುಖ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಈ ಸಾಮಾನ್ಯವಾಗಿ ತಮ್ಮ ಬಳಕೆದಾರರು ಒತ್ತು ಕಂಪನಿಗಳು ಕಾಳಜಿಗೆ ಕಡಿಮೆ. ಅಂಕಿಅಂಶ ನೆದರ್ಲ್ಯಾಂಡ್ಸ್ ವ್ಯಾಪಾರ ದೊಡ್ಡ ದತ್ತಾಂಶದ ಪ್ರಾತಿನಿಧಿಕತೆ ಬಗ್ಗೆ ಪರಿಗಣಿಸುತ್ತದೆ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ, ನೋಡಿ Buelens et al. (2014) .

ಅಧ್ಯಾಯ 3, ನಾನು ಹೆಚ್ಚು ವಿವರ ಮಾದರಿ ಮತ್ತು ಅಂದಾಜು ವಿವರಿಸಲು ಮಾಡುತ್ತೇವೆ. ಡೇಟಾ ಪ್ರತಿನಿಧಿ ಅಲ್ಲದ, ಕೆಲವು ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ ಸಹ, ಅವರು ಉತ್ತಮ ಅಂದಾಜು ತಯಾರಿಸಲು ತೂಕದ ಮಾಡಬಹುದು.

ಡ್ರಿಫ್ಟಿಂಗ್

ವ್ಯವಸ್ಥೆ ಡ್ರಿಫ್ಟ್ ಹೊರಗಿನಿಂದ ನೋಡಲು ತುಂಬಾ ಕಷ್ಟ. ಆದಾಗ್ಯೂ, MovieLens ಯೋಜನೆಯ (ಅಧ್ಯಾಯ 4 ಹೆಚ್ಚು ಚರ್ಚಿಸಲಾಗಿದೆ) ಒಂದು ಶೈಕ್ಷಣಿಕ ಸಂಶೋಧನಾ ಗುಂಪು ಹೆಚ್ಚು 15 ವರ್ಷಗಳ ಕಾಲ ನಡೆಯುತ್ತದೆ ಮಾಡಲಾಗಿದೆ. ಆದ್ದರಿಂದ, ಅವರು ದಾಖಲಿಸಲಾಗಿದೆ ಮತ್ತು ಹಂಚಿಕೊಂಡು ವ್ಯವಸ್ಥ್ಯಾ ಕಾಲಾನಂತರದಲ್ಲಿ ಆವೃತವಾಗಿರುವ ರೀತಿಯಲ್ಲಿ ಬಗ್ಗೆ ಮಾಹಿತಿ ಈ ಪರಿಣಾಮ ವಿಶ್ಲೇಷಣೆ (Harper and Konstan 2015) .

ಟ್ವಿಟರ್ ಡ್ರಿಫ್ಟ್ ಮೇಲೆ ಹಲವಾರು ಪಂಡಿತರು ಗಮನ ಕೇಂದ್ರೀಕರಿಸಿದ್ದಾರೆ: Liu, Kliman-Silver, and Mislove (2014) ಮತ್ತು Tufekci (2014) .

ಗಣನ ಪದ್ಧತಿಯ ಗೊಂದಲ

ನಾನು ಮೊದಲ ಪದವನ್ನು ಮಾತಿನಲ್ಲಿ ಜಾನ್ ಕ್ಲೆನ್ಬರ್ಗ್ ಅವರು ಬಳಸಲಾಗುತ್ತದೆ "ಗಣನ ಪದ್ಧತಿಯ ಗೊಂದಲ" ಕೇಳಿದ. Performativity ಹಿಂದಿನ ಮುಖ್ಯ ಉದ್ದೇಶ ಕೆಲವು ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನ ಸಿದ್ಧಾಂತಗಳು "ಎಂಜಿನ್ ಕ್ಯಾಮೆರಾಸ್" ಎಂಬುದು (Mackenzie 2008) . ಅಂದರೆ, ಅವು ವಾಸ್ತವವಾಗಿ ವಿಶ್ವದ ಆಕಾರ ಬದಲಿಗೆ ಕೇವಲ ಅದನ್ನು ಹಿಡಿಯಲು.

ಡರ್ಟಿ

ಸರ್ಕಾರಿ ಸಂಖ್ಯಾಶಾಸ್ತ್ರ ಸಂಸ್ಥೆಗಳು ಮಾಹಿತಿ ಸಂಸ್ಕರಣೆಯ, ಅಂಕಿ ಸಂಪಾದನೆ ಕರೆ. De Waal, Puts, and Daas (2014) ಸಮೀಕ್ಷೆ ಅಕ್ಷಾಂಶ ಅಭಿವೃದ್ಧಿ ಅಂಕಿ ಸಂಕಲನ ತಂತ್ರಗಳನ್ನು ವಿವರಿಸಲು ಮತ್ತು ಗಳಿಗೆ ದೊಡ್ಡ ದಶಮಾಂಶ ಮೂಲಗಳು ಅನ್ವಯಿಸುವ, ಮತ್ತು ಪರೀಕ್ಷಿಸಲು Puts, Daas, and Waal (2015) ಹೆಚ್ಚು ಪ್ರೇಕ್ಷಕರಿಗೆ ಅದೇ ಕೆಲವು ಯೋಜನೆಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಟ್ವಿಟರ್, ಸ್ಪ್ಯಾಮ್ ಒತ್ತು ಅಧ್ಯಯನಗಳು ಕೆಲವು ಉದಾಹರಣೆಗಳಿಗಾಗಿ Clark et al. (2016) ಮತ್ತು Chu et al. (2012) . ಅಂತಿಮವಾಗಿ, Subrahmanian et al. (2016) ದಿ DARPA ಟ್ವಿಟರ್ ಬಾಟ್ ಚಾಲೆಂಜ್ ಫಲಿತಾಂಶಗಳು ವಿವರಿಸುತ್ತದೆ.

ಸೆನ್ಸಿಟಿವ್

Ohm (2015) ಸೂಕ್ಷ್ಮ ಮಾಹಿತಿ ಉದ್ದೇಶದಿಂದ ಮುಂಚಿನ ಸಂಶೋಧನೆಯ ವಿಮರ್ಶೆಗಳು ಮತ್ತು ಬಹು ಅಂಶದ ಪರೀಕ್ಷೆ ನೀಡುತ್ತದೆ. ಅವರು ಪ್ರಸ್ತಾಪಿಸಿದ ನಾಲ್ಕು ಅಂಶಗಳು: ಹಾನಿಯ ಸಂಭವನೀಯತೆ; ಹಾನಿಯ ಸಂಭವನೀಯತೆ; ಒಂದು ರಹಸ್ಯ ಸಂಬಂಧ ಉಪಸ್ಥಿತಿ; ಮತ್ತು ಅಪಾಯ ಎಂಬುದನ್ನು ಬಹುಸಂಖ್ಯಾತ ಆತಂಕ ಬಿಂಬಿಸುತ್ತವೆ.

  • ವಸ್ತುಗಳನ್ನು ಎಣಿಸುವುದು (ವಿಭಾಗ 2.4.1)

ನ್ಯೂಯಾರ್ಕ್ ಟ್ಯಾಕ್ಸಿಗಳು Farber ನ ಅಧ್ಯಯನ ಹಿಂದಿನ ಅಧ್ಯಯನ ಆಧರಿಸಿತ್ತು Camerer et al. (1997) ಕೊನೆಯ ಬಾರಿ ಟ್ರಿಪ್ ಪ್ರಾರಂಭಿಸಿ ಸಮಯ ದಾಖಲಿಸಲು ಚಾಲಕರು ಬಳಸುವ ಕಾಗದದ ಟ್ರಿಪ್ ಹಾಳೆಗಳನ್ನು ಕಾಗದ ರೂಪಗಳು, ಮತ್ತು ದರದ ಮೂರು ವಿವಿಧ ಅನುಕೂಲಕ್ಕಾಗಿ ಮಾದರಿಗಳನ್ನು ಬಳಸಿದ. ಅವರು ತಮ್ಮ ವೇತನಗಳನ್ನು ಹೆಚ್ಚಿನ ಅಲ್ಲಿ ದಿನಗಳ ಕಡಿಮೆ ಕೆಲಸ: ಈ ಹಿಂದಿನ ಅಧ್ಯಯನ ಚಾಲಕರು ಗುರಿ ಗಳಿಸುವ ಎಂದು ಕಾಣುತ್ತದೆ ಕಂಡುಕೊಂಡರು.

Kossinets and Watts (2009) ಮೂಲ homophily ಸಾಮಾಜಿಕ ನೆಟ್ವರ್ಕ್ಗಳಲ್ಲಿ ಕೇಂದ್ರೀಕರಿಸಿತ್ತು. ನೋಡಿ Wimmer and Lewis (2010) ಫೇಸ್ಬುಕ್ ಮಾಹಿತಿಯನ್ನು ಬಳಸುವ ಅದೇ ಸಮಸ್ಯೆ ಬೇರೆ ವಿಧಾನ.

ನಂತರದ ಕೆಲಸ ರಲ್ಲಿ ರಾಜ ಮತ್ತು ಸಹೋದ್ಯೋಗಿಗಳು ಮತ್ತಷ್ಟು ಚೀನಾ ಆನ್ಲೈನ್ ಸೆನ್ಸಾರ್ಶಿಪ್ ಪರಿಶೋಧಿಸಿದರು (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . ಚೀನಾ ಆನ್ಲೈನ್ ಸೆನ್ಸಾರ್ಶಿಪ್ ಅಳೆಯಲು ಸಂಬಂಧಿತ ವಿಧಾನ, ನೋಡಿ Bamman, O'Connor, and Smith (2012) . ಬಳಸಲಾಗುತ್ತದೆ ರೀತಿಯಲ್ಲಿ ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ವಿಧಾನಗಳು ಹೆಚ್ಚು King, Pan, and Roberts (2013) , 11 ದಶಲಕ್ಷ ಪೋಸ್ಟ್ಗಳನ್ನು ಭಾವನೆ ಅಂದಾಜು ನೋಡಿ Hopkins and King (2010) . ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುವ ಕಲಿಕೆಯಲ್ಲಿ ಹೆಚ್ಚಿನ, ನೋಡಿ James et al. (2013) (ಕಡಿಮೆ ತಾಂತ್ರಿಕ) ಮತ್ತು Hastie, Tibshirani, and Friedman (2009) (ಹೆಚ್ಚು ತಾಂತ್ರಿಕ).

  • ಮುನ್ಸೂಚನಾ (ವಿಭಾಗ 2.4.2)

ಮುಂದಾಲೋಚನೆ ಕೈಗಾರಿಕಾ ಡೇಟಾ ವಿಜ್ಞಾನದ ಒಂದು ದೊಡ್ಡ ಭಾಗವಾಗಿದೆ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ಮುಂದಾಲೋಚನೆ ಒಂದು ರೀತಿಯ ಸಾಮಾನ್ಯವಾಗಿ ಸಾಮಾಜಿಕ ಸಂಶೋಧಕರು ಮಾಡಲಾಗುತ್ತದೆ ಎಂದು ಉದಾಹರಣೆಗೆ, ಜನಸಂಖ್ಯಾ ಮುಂದಾಲೋಚನೆ ಇವೆ Raftery et al. (2012) .

ಗೂಗಲ್ ಫ್ಲೂ ಟ್ರೆಂಡ್ಸ್ ಇನ್ಫ್ಲುಯೆನ್ಸ ಪ್ರಭುತ್ವ nowcast ಹುಡುಕಾಟ ಡೇಟಾವನ್ನು ಬಳಸಲು ಮೊದಲ ಪ್ರಾಜೆಕ್ಟ್ ಅಲ್ಲ. ವಾಸ್ತವವಾಗಿ, ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ ಸಂಶೋಧಕರು (Polgreen et al. 2008; Ginsberg et al. 2009) ಮತ್ತು ಸ್ವೀಡನ್ (Hulth, Rydevik, and Linde 2009) ಕೆಲವು ಹುಡುಕಾಟ ಪದಗಳನ್ನು (ಉದಾ, "ಜ್ವರ") ರಾಷ್ಟ್ರೀಯ ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಕಣ್ಗಾವಲು ಭವಿಷ್ಯ ಕಂಡು ಇದು ಮೊದಲು ಡೇಟಾ ಬಿಡುಗಡೆಯಾಯಿತು. ಆನಂತರ ಅನೇಕ, ಅನೇಕ ಇತರ ಯೋಜನೆಗಳು, ರೋಗ ಕಣ್ಗಾವಲು ಪತ್ತೆಗೆ ಡಿಜಿಟಲ್ ಟ್ರೇಸ್ ಡೇಟಾ ಬಳಸಲು ನೋಡಿ ಪ್ರಯತ್ನಿಸಿದ್ದಾರೆ Althouse et al. (2015) ವಿಮರ್ಶೆ.

ಆರೋಗ್ಯ ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಡಿಜಿಟಲ್ ಜಾಡಿನ ಮಾಹಿತಿಯನ್ನು ಬಳಸುವುದರ ಜೊತೆಗೆ, ಸಹ ಚುನಾವಣೆ ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಟ್ವಿಟರ್ ದಶಮಾಂಶ ಬಳಸಿಕೊಂಡು ಕೆಲಸ ಒಂದು ಬೃಹತ್ ಪ್ರಮಾಣವನ್ನು ಬಂದಿದೆ; ವಿಮರ್ಶೆಗಳು ನೋಡಿ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ಚ. 7), ಮತ್ತು Huberty (2015) .

ಇನ್ಫ್ಲುಯೆನ್ಸ ಪ್ರಭುತ್ವ ಮುನ್ಸೂಚನೆ ಮತ್ತು ಊಹಿಸಲು ಚುನಾವಣೆಯಲ್ಲಿ ವಿಶ್ವದ ಘಟನೆಯ ಕೆಲವು ರೀತಿಯ ಊಹಿಸಲು ಡಿಜಿಟಲ್ ಜಾಡಿನ ರೀತಿಯ ಬಳಸಿಕೊಂಡು ಎರಡೂ ಉದಾಹರಣೆಗಳು ಟ್ವಿಟರ್ ಮಾಹಿತಿಯನ್ನು ಬಳಸುವುದರ ಹುಡುಕಾಟ ದಶಮಾಂಶ ಬಳಸಿ. ಈ ಸಾಮಾನ್ಯ ರಚನೆ ಎಂದು ಅಧ್ಯಯನಗಳು ಅಪಾರ ಸಂಖ್ಯೆಯ. ಟೇಬಲ್ 2.5 ಕೆಲವು ಉದಾಹರಣೆಗಳು ಒಳಗೊಂಡಿದೆ.

ಟೇಬಲ್ 2.5: ಅಧ್ಯಯನಗಳು ಭಾಗಶಃ ಪಟ್ಟಿ ಕೆಲವು ಕ್ರಿಯೆಯನ್ನು ಊಹಿಸಲು ಕೆಲವು ಡಿಜಿಟಲ್ ಜಾಡಿನ ಬಳಸಿ.
ಡಿಜಿಟಲ್ ಜಾಡಿನ ಫಲಿತಾಂಶ ಉಲ್ಲೇಖದ
ಟ್ವಿಟರ್ ಅಮೇರಿಕಾದ ಚಿತ್ರಗಳಲ್ಲಿ ಗಲ್ಲಾ ಪೆಟ್ಟಿಗೆ ಆದಾಯ Asur and Huberman (2010)
ಹುಡುಕಾಟ ಲಾಗ್ ಅಮೇರಿಕಾದ ಸಿನೆಮಾ, ಸಂಗೀತ, ಪುಸ್ತಕಗಳು, ಮತ್ತು ವಿಡಿಯೋ ಆಟಗಳು ಮಾರಾಟ Goel et al. (2010)
ಟ್ವಿಟರ್ ಡೌ ಜೋನ್ಸ್ ಕೈಗಾರಿಕಾ ಸರಾಸರಿ (ಅಮೇರಿಕಾದ ಸ್ಟಾಕ್ ಮಾರುಕಟ್ಟೆ) Bollen, Mao, and Zeng (2011)
  • ಅಂದಾಜಿಸುವ ಪ್ರಯೋಗಗಳನ್ನು (ವಿಭಾಗ 2.4.3)

ಜರ್ನಲ್ ಪಿಎಸ್ ರಾಜ್ಯಶಾಸ್ತ್ರ ದೊಡ್ಡ ದಶಮಾಂಶ, ಸಾಂದರ್ಭಿಕ ನಿರ್ಣಯ, ಮತ್ತು ಫಾರ್ಮಲ್ ಸಿದ್ಧಾಂತಗಳ ಮೇಲೆ ವಿಚಾರ ಹೊಂದಿತ್ತು, ಮತ್ತು Clark and Golder (2015) ಪ್ರತಿ ಕೊಡುಗೆ ಸಂಕ್ಷಿಪ್ತವಾಗಿ. ನ್ಯಾಷನಲ್ ಅಕಾಡೆಮಿ ಆಫ್ ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ ವಿಜ್ಞಾನ ಜರ್ನಲ್ ಪ್ರೊಸೀಡಿಂಗ್ಸ್ ಸಾಂದರ್ಭಿಕ ತರ್ಕಗಳು ಮತ್ತು ದೊಡ್ಡ ದಶಮಾಂಶ ಮೇಲೆ ವಿಚಾರ ಹೊಂದಿತ್ತು, ಮತ್ತು Shiffrin (2016) ಪ್ರತಿ ಕೊಡುಗೆ ಸಂಕ್ಷಿಪ್ತವಾಗಿ.

ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳನ್ನು ಪರಿಭಾಷೆಯಲ್ಲಿ, Dunning (2012) ಒಂದು ಉತ್ತಮ ಪುಸ್ತಕ ಉದ್ದ ಚಿಕಿತ್ಸೆ ಒದಗಿಸುತ್ತದೆ. ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗ ವಿಯೆಟ್ನಾಂ ಡ್ರಾಫ್ಟ್ ಲಾಟರಿ ಬಳಸಿಕೊಂಡು ಹೆಚ್ಚು, ನೋಡಿ Berinsky and Chatfield (2015) . ಸ್ವಯಂಚಾಲಿತವಾಗಿ ದೊಡ್ಡ ದಶಮಾಂಶ ಮೂಲಗಳ ಒಳಗೆ ನೈಸರ್ಗಿಕ ಪ್ರಯೋಗಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಪ್ರಯತ್ನ ಯಂತ್ರ ಕಲಿಕೆ ವಿಧಾನಗಳು, ನೋಡಿ Jensen et al. (2008) ಮತ್ತು Sharma, Hofman, and Watts (2015) .

ಹೊಂದಾಣಿಕೆಯ ವಿಚಾರದಲ್ಲಿ, ಒಂದು ಆಶಾವಾದಿ ಪರಿಶೀಲನೆಗಾಗಿ, ನೋಡಿ Stuart (2010) , ಮತ್ತು ನಿರಾಶಾವಾದಿ ಪರಾಮರ್ಶೆ Sekhon (2009) . ಸಮರುವಿಕೆಯನ್ನು ಒಂದು ರೀತಿಯ ಹೊಂದಾಣಿಕೆ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ, ನೋಡಿ Ho et al. (2007) . ಸರಿಗಟ್ಟುವ ಅತ್ಯುತ್ತಮ ಚಿಕಿತ್ಸೆಗಳು ಒದಗಿಸುವ ಪುಸ್ತಕಗಳು, ನೋಡಿ Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ಮತ್ತು Imbens and Rubin (2015) .