సమాచారం కంపెనీలు మరియు ప్రభుత్వాలు కలిగి కొన్ని సెన్సిటివ్.
ఆరోగ్య భీమా సంస్థలు వారి వినియోగదారులచే అందుకున్న వైద్య సంరక్షణ గురించి వివరంగా ఉన్నాయి. ఆరోగ్యం గురించి ముఖ్యమైన పరిశోధన కోసం ఈ సమాచారం ఉపయోగించబడుతుంది, అయితే అది ప్రజలకు మారినట్లయితే, ఇది హానికరమైన హానికి దారితీస్తుంది (ఉదా., ఇబ్బంది) లేదా ఆర్థిక హాని (ఉదా. ఉద్యోగం కోల్పోవడం). అనేక ఇతర పెద్ద డేటా మూలాలకి కూడా సున్నితమైన సమాచారాన్ని కలిగి ఉంటాయి, ఇవి తరచుగా అందుబాటులో లేని కారణాల్లో భాగం.
దురదృష్టవశాత్తు, నెట్ఫ్లిక్స్ ప్రైజ్ చిత్రీకరించినట్లుగా, వాస్తవానికి సెన్సిటివ్ (Ohm 2015) సమాచారం నిర్ణయించడానికి చాలా గమ్మత్తైనది అవుతుంది. 2006 లో నేను 5 వ అధ్యాయంలో వివరించాను, 2006 లో నెట్ఫ్లిక్స్ దాదాపు 500,000 మంది సభ్యులు అందించిన 100 మిలియన్ చిత్ర రేటింగ్లను విడుదల చేసింది మరియు ప్రపంచవ్యాప్తంగా ఉన్న ప్రజలు చలన చిత్రాలని సిఫార్సు చేసే నెట్ఫ్లిక్స్ సామర్థ్యాన్ని మెరుగుపర్చగల అల్గోరిథంలను సమర్పించిన బహిరంగ కాల్. డేటాను విడుదల చేయడానికి ముందు, నెట్ఫ్లిక్స్ పేర్లు వంటి స్పష్టమైన వ్యక్తిగతంగా గుర్తించే సమాచారాన్ని తొలగించింది. అయితే, అరవింద్ నారాయణన్ మరియు విటాలీ షమాటికోవ్ (2008) విడుదల అయిన రెండు వారాల తరువాత, నిర్దిష్ట వ్యక్తుల చిత్ర రేటింగ్స్ గురించి తెలుసుకునేందుకు సాధ్యమయింది, నేను మిమ్మల్ని 6 వ అధ్యాయంలో చూపిస్తాను. వ్యక్తి యొక్క చిత్ర రేటింగ్స్, ఇప్పటికీ ఇక్కడ సున్నితమైన ఏదైనా అనిపించడం లేదు. సాధారణంగా ఇది నిజం కావచ్చు, కనీసం దత్తాంశంలో 500,000 మందిలో కొంత మందికి, సినిమా రేటింగ్స్ సున్నితమైనవి. నిజానికి, డేటా యొక్క విడుదల మరియు తిరిగి గుర్తింపుకు ప్రతిస్పందనగా, ఒక గదిలో ఉన్న లెస్బియన్ స్త్రీ నెట్ఫ్లిక్స్కు వ్యతిరేకంగా క్లాస్-యాక్షన్ దావాలో చేరింది. ఈ దావాలో సమస్య ఎలా వ్యక్తమైంది (Singel 2009) :
"[M] ఓవి మరియు రేటింగు డేటా ఒక ... అత్యంత వ్యక్తిగత మరియు సున్నితమైన స్వభావం యొక్క సమాచారాన్ని కలిగి ఉంది. లైంగికత, మానసిక అనారోగ్యం, మద్య వ్యసనం నుండి రికవరీ, మరియు వాగ్దానం, శారీరక దుర్వినియోగం, గృహ హింస, వ్యభిచారం మరియు అత్యాచారం వంటి అనేక వ్యక్తిగత సమస్యలతో నెట్ఫ్లిక్స్ సభ్యుని యొక్క వ్యక్తిగత ఆసక్తి మరియు / లేదా పోరాటాలు సభ్యుని యొక్క చిత్రం డేటా బహిర్గతం చేస్తుంది. "
కొంతమంది ఒక సున్నితమైన డేటాబేస్గా కనిపించే వాటిలో సున్నితమైన అంశాలను కొంత మంది పరిశీలిస్తారని ఈ ఉదాహరణ చూపిస్తుంది. ఇంకా, పరిశోధకులు సున్నితమైన డేటా-డి-గుర్తింపును రక్షించడానికి ఉపయోగించే ఒక ప్రధాన రక్షణ ఆశ్చర్యకరమైన మార్గాల్లో విఫలం కావచ్చు. ఈ రెండు ఆలోచనలు 6 వ అధ్యాయంలో మరింత వివరంగా అభివృద్ధి చేయబడ్డాయి.
సున్నితమైన సమాచారం గురించి గుర్తుంచుకోండి చివరి విషయం ప్రజల సమ్మతి లేకుండా దానిని సేకరించడం నైతిక ప్రశ్నలను లేవనెత్తుతుంది, ప్రత్యేక హాని సంభవించినప్పటికీ. వారి అనుమతి లేకుండా ఒక షవర్ తీసుకొని ఉన్నవారిని ఆ వ్యక్తి గోప్యత ఉల్లంఘిస్తోందని, సున్నితమైన సమాచారాన్ని సేకరించి, సెన్సిటివ్గా ఏది నిర్ణయించుకోవచ్చో నిర్ణయించుకోవచ్చని గుర్తుంచుకోండి. నేను గోప్యత గురించి ప్రశ్నలు 6 వ అధ్యాయంలో తిరిగి వస్తాను.
ముగింపులో, ప్రభుత్వం మరియు వ్యాపార నిర్వాహక రికార్డులు వంటి పెద్ద సమాచార వనరులు సాధారణంగా సామాజిక పరిశోధన కోసం రూపొందించబడవు. నేటి పెద్ద డేటా మూలాలు మరియు అవకాశం రేపు, 10 లక్షణాలను కలిగి ఉంటాయి. సాధారణంగా పరిశోధనల కోసం మంచిగా పరిగణిస్తున్న పలు లక్షణాలను డిజిటల్-యుగం కంపెనీలు మరియు ప్రభుత్వాలు వాస్తవానికి గతంలో సాధ్యం కానటువంటి డేటాను సేకరించగలిగాయి. పరిశోధకుల కోసం ఈ పరిశోధకులు పరిశోధకులు సేకరించిన వాస్తవం నుంచి సాధారణంగా అనేక పరిశోధనల లక్షణాలను విశ్లేషించలేరు, అసంపూర్తిగా, చేరుకోలేనివిగా, నాన్ప్రొఫెషినేటివ్, డ్రిఫ్టింగ్, ఆల్గోరిథమిక్ తికమక, అసాధ్యమైన, మురికి మరియు సున్నితమైనవి. ఇంతవరకు, నేను కలిసి ప్రభుత్వం మరియు వ్యాపార డేటా గురించి మాట్లాడాను, కానీ రెండు మధ్య కొన్ని తేడాలు ఉన్నాయి. నా అనుభవం లో, ప్రభుత్వ డేటా తక్కువగా ప్రాతినిధ్యం లేనిదిగా ఉంటుంది, తక్కువ అల్గారిథమిక్ గందరగోళంగా, తక్కువ డ్రిఫ్టింగ్. మరోవైపు, వ్యాపార పరిపాలనా రికార్డులు ఎక్కువగా ఉంటాయి. ఈ 10 సాధారణ లక్షణాలు గ్రహించుట పెద్ద డేటా మూలాల నుండి నేర్చుకోవడం వైపు ఉపయోగపడిందా మొదటి అడుగు. మరియు ఇప్పుడు మనం ఈ డేటాతో ఉపయోగించగల పరిశోధన వ్యూహాలకు తిరుగుతున్నాము.