ಮಾಹಿತಿ ಉದ್ದಿಮೆಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳು ಹೊಂದಿರುವ ಕೆಲವು ಸೂಕ್ಷ್ಮ.
ಆರೋಗ್ಯ ವಿಮೆ ಕಂಪನಿಗಳು ತಮ್ಮ ಗ್ರಾಹಕರಿಂದ ಪಡೆದ ವೈದ್ಯಕೀಯ ಕಾಳಜಿ ಬಗ್ಗೆ ವಿವರವಾದ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿವೆ. ಈ ಮಾಹಿತಿಯನ್ನು ಆರೋಗ್ಯದ ಬಗ್ಗೆ ಪ್ರಮುಖ ಸಂಶೋಧನೆಗಾಗಿ ಬಳಸಬಹುದು, ಆದರೆ ಇದು ಸಾರ್ವಜನಿಕವಾಗಿದ್ದರೆ, ಅದು ಸಂಭಾವ್ಯವಾಗಿ ಭಾವನಾತ್ಮಕ ಹಾನಿಯನ್ನುಂಟುಮಾಡುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, ಕಿರಿಕಿರಿಗೊಳಿಸುವಿಕೆ) ಅಥವಾ ಆರ್ಥಿಕ ಹಾನಿ (ಉದಾ., ಉದ್ಯೋಗದ ನಷ್ಟ). ಇತರ ಹಲವು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಸಹ ಸೂಕ್ಷ್ಮವಾದ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿವೆ, ಅವುಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಪ್ರವೇಶಿಸಲಾಗುವುದಿಲ್ಲ ಏಕೆ ಕಾರಣವಾಗಿದೆ.
ದುರದೃಷ್ಟವಶಾತ್, ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಪ್ರೈಜ್ ವಿವರಿಸಿದಂತೆ ಯಾವ ಮಾಹಿತಿಯು (Ohm 2015) ವಾಸ್ತವವಾಗಿ ಸೂಕ್ಷ್ಮವಾದುದು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಸಾಕಷ್ಟು ಟ್ರಿಕಿ (Ohm 2015) . ನಾನು 5 ನೇ ಅಧ್ಯಾಯದಲ್ಲಿ ವಿವರಿಸುವುದರಿಂದ, 2006 ರಲ್ಲಿ ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಸುಮಾರು 500,000 ಸದಸ್ಯರು ಒದಗಿಸಿದ 100 ದಶಲಕ್ಷ ಚಲನಚಿತ್ರದ ರೇಟಿಂಗ್ಗಳನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು ಮತ್ತು ಪ್ರಪಂಚದಾದ್ಯಂತ ಜನರು ಚಲನಚಿತ್ರಗಳನ್ನು ಶಿಫಾರಸು ಮಾಡಲು ನೆಟ್ಫ್ಲಿಕ್ಸ್ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಸುಧಾರಿಸುವಂತಹ ಅಲ್ಗಾರಿದಮ್ಗಳನ್ನು ಸಲ್ಲಿಸಿದ ಮುಕ್ತ ಕರೆಗಳನ್ನು ಹೊಂದಿದ್ದರು. ಡೇಟಾವನ್ನು ಬಿಡುಗಡೆ ಮಾಡುವ ಮೊದಲು, ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಹೆಸರುಗಳಂತಹ ಯಾವುದೇ ವೈಯಕ್ತಿಕವಾಗಿ ಗುರುತಿಸುವ ಮಾಹಿತಿಯನ್ನು ತೆಗೆದುಹಾಕಿದೆ. ಡೇಟಾವನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದ ಕೇವಲ ಎರಡು ವಾರಗಳ ನಂತರ, ಅರವಿಂದ ನಾರಾಯಣನ್ ಮತ್ತು ವಿಟಲಿ ಶಮತಿಕೊವ್ (2008) ನಿರ್ದಿಷ್ಟ ಜನರ ಚಲನಚಿತ್ರದ ರೇಟಿಂಗ್ಗಳ ಬಗ್ಗೆ ಕಲಿತುಕೊಳ್ಳುವ ಸಾಧ್ಯತೆಯಿದೆ ಎಂದು ನಾನು ಅಧ್ಯಾಯ 6 ರಲ್ಲಿ ತೋರಿಸುತ್ತೇನೆ ಎಂದು ತೋರಿಸಿದೆ. ವ್ಯಕ್ತಿಯ ಚಲನಚಿತ್ರದ ರೇಟಿಂಗ್ಗಳು, ಇಲ್ಲಿ ಇನ್ನೂ ಸೂಕ್ಷ್ಮವಾದ ಏನೂ ಕಾಣುತ್ತಿಲ್ಲ. ಅದು ಸಾಮಾನ್ಯವಾಗಿ ನಿಜವಾಗಿದ್ದರೂ, ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಕನಿಷ್ಠ 500,000 ಜನರಿಗಾಗಿ, ಚಲನಚಿತ್ರದ ರೇಟಿಂಗ್ಗಳು ಸಂವೇದನಾಶೀಲವಾಗಿವೆ. ವಾಸ್ತವವಾಗಿ, ಮಾಹಿತಿಯ ಬಿಡುಗಡೆಯ ಮತ್ತು ಮರು-ಗುರುತಿಸುವಿಕೆಗೆ ಪ್ರತಿಕ್ರಿಯೆಯಾಗಿ, ಮುಚ್ಚಿಹೋದ ಸಲಿಂಗಕಾಮಿ ಮಹಿಳೆ ನೆಟ್ಫ್ಲಿಕ್ಸ್ ವಿರುದ್ಧ ಕ್ಲಾಸ್ ಆಕ್ಷನ್ ಮೊಕದ್ದಮೆಗೆ ಸೇರಿದರು. ಈ ಮೊಕದ್ದಮೆಯಲ್ಲಿ ಸಮಸ್ಯೆಯನ್ನು ಹೇಗೆ ವ್ಯಕ್ತಪಡಿಸಲಾಗಿದೆ (Singel 2009) :
"[M] ಒವಿ ಮತ್ತು ರೇಟಿಂಗ್ ಡೇಟಾವು ಒಂದು ವೈಯಕ್ತಿಕ ಮತ್ತು ಸೂಕ್ಷ್ಮ ಸ್ವಭಾವದ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಸದಸ್ಯರ ಚಲನಚಿತ್ರ ಮಾಹಿತಿಯು ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಸದಸ್ಯರ ವೈಯಕ್ತಿಕ ಆಸಕ್ತಿಯನ್ನು ಮತ್ತು / ಅಥವಾ ಲೈಂಗಿಕತೆ, ಮಾನಸಿಕ ಅಸ್ವಸ್ಥತೆ, ಮದ್ಯಪಾನದಿಂದ ಹಿಂಪಡೆಯುವಿಕೆ, ಮತ್ತು ಸಂಭೋಗದಿಂದ ಹಿಂಸೆಯನ್ನು, ದೈಹಿಕ ದುರುಪಯೋಗ, ಗೃಹ ಹಿಂಸೆ, ವ್ಯಭಿಚಾರ ಮತ್ತು ಅತ್ಯಾಚಾರ ಸೇರಿದಂತೆ ಹಲವು ವೈಯಕ್ತಿಕ ಸಮಸ್ಯೆಗಳೊಂದಿಗೆ ಹೋರಾಡುತ್ತಿದೆ. "
ಕೆಲವು ಜನರು ಸೂಕ್ಷ್ಮವಾದ ಡೇಟಾಬೇಸ್ನಂತೆ ಕಂಡುಬರುವಂತಹ ಒಳನೋಟವನ್ನು ಪರಿಗಣಿಸುತ್ತಾರೆ ಎಂದು ಈ ಮಾಹಿತಿಯು ತಿಳಿಯಬಹುದು. ಇದಲ್ಲದೆ, ಸೂಕ್ಷ್ಮ ಡೇಟಾ-ಡಿ-ಐಡೆಂಟಿಫಿಕೇಶನ್ನನ್ನು ರಕ್ಷಿಸಲು ಸಂಶೋಧಕರು ಬಳಸಿಕೊಳ್ಳುವ ಒಂದು ಮುಖ್ಯವಾದ ರಕ್ಷಣಾ ಕಾರ್ಯವು ಆಶ್ಚರ್ಯಕರ ರೀತಿಯಲ್ಲಿ ವಿಫಲಗೊಳ್ಳುತ್ತದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ. ಅಧ್ಯಾಯ 6 ರಲ್ಲಿ ಈ ಎರಡು ಕಲ್ಪನೆಗಳನ್ನು ಹೆಚ್ಚಿನ ವಿವರವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.
ಸೂಕ್ಷ್ಮ ಮಾಹಿತಿಗಳ ಬಗ್ಗೆ ನೆನಪಿನಲ್ಲಿಟ್ಟುಕೊಳ್ಳಲು ಅಂತಿಮ ವಿಷಯವೆಂದರೆ ಜನರ ಒಪ್ಪಿಗೆಯಿಲ್ಲದೆ ಅದನ್ನು ಸಂಗ್ರಹಿಸುವುದು ನೈತಿಕ ಪ್ರಶ್ನೆಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ, ಯಾವುದೇ ನಿರ್ದಿಷ್ಟ ಹಾನಿ ಉಂಟಾಗದಿದ್ದರೂ ಸಹ. ಯಾರಾದರೂ ಅವರ ಒಪ್ಪಿಗೆಯಿಲ್ಲದೆ ಶವರ್ ತೆಗೆದುಕೊಳ್ಳುವದನ್ನು ಆ ವ್ಯಕ್ತಿಯ ಗೌಪ್ಯತೆ ಉಲ್ಲಂಘನೆ ಎಂದು ಪರಿಗಣಿಸಬಹುದು, ಸೂಕ್ಷ್ಮ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸುವುದು-ಮತ್ತು ಸೂಕ್ಷ್ಮತೆ ಏನು ಎಂಬುದನ್ನು ನಿರ್ಣಯಿಸುವುದು ಎಷ್ಟು ಕಷ್ಟ ಎಂಬುದನ್ನು ನೆನಪಿನಲ್ಲಿಡಿ-ಸಂಭಾವ್ಯ ಗೌಪ್ಯತೆ ಕಾಳಜಿಗಳನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. ಅಧ್ಯಾಯ 6 ರಲ್ಲಿ ಗೌಪ್ಯತೆ ಕುರಿತು ನಾನು ಪ್ರಶ್ನೆಗಳಿಗೆ ಹಿಂತಿರುಗುತ್ತೇನೆ.
ಅಂತಿಮವಾಗಿ, ಸರ್ಕಾರಿ ಮತ್ತು ವ್ಯಾಪಾರ ಆಡಳಿತ ದಾಖಲೆಗಳಂತಹ ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಸಾಮಾಜಿಕ ಸಂಶೋಧನೆಯ ಉದ್ದೇಶಕ್ಕಾಗಿ ರಚಿಸಲ್ಪಟ್ಟಿಲ್ಲ. ಇಂದು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳು, ಮತ್ತು ನಾಳೆ ನಾಳೆ, 10 ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿವೆ. ಸಂಶೋಧನಾ-ದೊಡ್ಡ, ಯಾವಾಗಲೂ ಆನ್, ಮತ್ತು nonreactive- ಡಿಜಿಟಲ್ ವಯಸ್ಸು ಕಂಪನಿಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳು ವಾಸ್ತವವಾಗಿ ಬರುತ್ತದೆ ಎಂದು ಸಾಮಾನ್ಯವಾಗಿ ಗುಣಿಸಲಾಗಿದೆ ಎಂದು ಅನೇಕ ಗುಣಗಳನ್ನು ಹಿಂದೆ ಸಾಧ್ಯವಿರದ ಪ್ರಮಾಣದಲ್ಲಿ ಅಕ್ಷಾಂಶ ಸಂಗ್ರಹಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ. ಮತ್ತು ಸಂಶೋಧನೆಯ ಅಪೂರ್ಣ, ಪ್ರವೇಶಿಸಲಾಗದ, ಪ್ರತಿನಿಧಿಸದ, ತೇಲುವ, ಕ್ರಮಾನುಗುಣವಾಗಿ ಗೊಂದಲಕ್ಕೊಳಗಾದ, ಪ್ರವೇಶಿಸಲಾಗದ, ಕೊಳಕು, ಮತ್ತು ಸೂಕ್ಷ್ಮತೆಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ಸಾಮಾನ್ಯವಾಗಿ ಪರಿಗಣಿಸಲ್ಪಡುವ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಸಂಶೋಧಕರು ಸಂಶೋಧಕರಿಂದ ಸಂಗ್ರಹಿಸಲಾಗಿಲ್ಲ ಎಂಬ ಸತ್ಯದಿಂದ ಬರುತ್ತವೆ. ಇಲ್ಲಿಯವರೆಗೆ ನಾನು ಸರ್ಕಾರಿ ಮತ್ತು ವ್ಯವಹಾರದ ಡೇಟಾವನ್ನು ಒಟ್ಟಾಗಿ ಮಾತನಾಡಿದ್ದೇನೆ, ಆದರೆ ಇಬ್ಬರ ನಡುವೆ ಕೆಲವು ವ್ಯತ್ಯಾಸಗಳಿವೆ. ನನ್ನ ಅನುಭವದಲ್ಲಿ, ಸರ್ಕಾರಿ ಮಾಹಿತಿಯು ಕಡಿಮೆ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಹೊಂದಿಲ್ಲ, ಕಡಿಮೆ ಕ್ರಮಾವಳಿಗಳು ಗೊಂದಲಕ್ಕೊಳಗಾಗುತ್ತದೆ ಮತ್ತು ಕಡಿಮೆ ತೇಲುತ್ತದೆ. ಇನ್ನೊಂದೆಡೆ, ವ್ಯವಹಾರ ಆಡಳಿತಾತ್ಮಕ ದಾಖಲೆಗಳು ಹೆಚ್ಚು ಯಾವಾಗಲೂ ಇರುತ್ತವೆ. ಈ 10 ಸಾಮಾನ್ಯ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ದೊಡ್ಡ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಕಲಿಯುವ ಕಡೆಗೆ ಒಂದು ಸಹಾಯಕವಾದ ಮೊದಲ ಹಂತವಾಗಿದೆ. ಮತ್ತು ಈಗ ನಾವು ಈ ಮಾಹಿತಿಯೊಂದಿಗೆ ಬಳಸಬಹುದಾದ ಸಂಶೋಧನಾ ತಂತ್ರಗಳಿಗೆ ತಿರುಗುತ್ತೇವೆ.