సంస్థలు మరియు ప్రభుత్వాలు నిర్వహించిన సమాచారం పరిశోధకులకి చాలా కష్టం.
మే 2014 లో, US నేషనల్ సెక్యూరిటీ ఏజెన్సీ గ్రామీణ ఉటాలో డేటా సెంటర్ను ఒక ఇబ్బందికరమైన పేరుతో, ఇంటెలిజెన్స్ కమ్యూనిటీ సమగ్ర నేషనల్ సైబర్ సెక్యూరిటీ ఇన్షియేటివ్ డేటా సెంటర్తో ప్రారంభించింది. అయితే, ఈ డేటా కేంద్రం, ఉతా డేటా సెంటర్గా పిలవబడింది, ఇది నమ్మశక్యంకాని సామర్ధ్యాలను కలిగి ఉన్నట్లు నివేదించబడింది. "ప్రైవేట్ ఇమెయిల్స్, సెల్ ఫోన్ కాల్స్, గూగుల్ సెర్చ్లు, అలాగే అన్ని రకాల వ్యక్తిగత డేటా ట్రైల్స్-పార్కింగ్ రసీదులు, ప్రయాణ మార్గం, బుక్స్టోర్ కొనుగోళ్లు వంటి అన్ని రకాల సంభాషణలతో సహా అన్ని రకాల కమ్యూనికేషన్లను నిల్వ చేయడానికి మరియు ప్రాసెస్ చేయగలదని ఒక నివేదిక ఆరోపించింది. , మరియు ఇతర డిజిటల్ 'పాకెట్ లిట్టర్' " (Bamford 2012) . పెద్ద డేటా లో స్వాధీనం సమాచారం యొక్క సున్నితమైన స్వభావం గురించి ఆందోళన పెంచడం పాటు, క్రింద మరింత వర్ణించవచ్చు, ఉతా డేటా సెంటర్ పరిశోధకులు చేరుకోలేని ఇది ఒక గొప్ప డేటా మూలం యొక్క ఒక తీవ్రమైన ఉదాహరణ. మరింత సాధారణంగా, ఉపయోగపడే పెద్ద డేటా యొక్క అనేక వనరులు ప్రభుత్వాలు (ఉదాహరణకు, పన్ను డేటా మరియు విద్యా డేటా) లేదా కంపెనీలు (ఉదా., శోధన ఇంజిన్లు మరియు ఫోన్ కాల్ మెటా-డాటాకు సంబంధించిన ప్రశ్నలు) నియంత్రించబడతాయి మరియు నియంత్రించబడతాయి. అందువల్ల, ఈ సమాచార వనరులు ఉనికిలో ఉన్నప్పటికీ, వారు అసాధ్యమైనందున వారు సాంఘిక పరిశోధన యొక్క ప్రయోజనాల కోసం నిష్ఫలంగా ఉంటారు.
నా అనుభవం లో, విశ్వవిద్యాలయాలపై ఆధారపడిన అనేకమంది పరిశోధకులు ఈ సాధన లోపాల మూలాలను తప్పుగా అర్థం చేసుకున్నారు. కంపెనీలు మరియు ప్రభుత్వాల్లోని ప్రజలు స్టుపిడ్, సోమరితనం లేదా కలహరని ఎందుకంటే ఈ డేటా అందుబాటులో ఉండదు. కాకుండా, డేటా యాక్సెస్ నిరోధించే తీవ్రమైన చట్టపరమైన, వ్యాపార, మరియు నైతిక అడ్డంకులు ఉన్నాయి. ఉదాహరణకు, వెబ్సైట్లకు కొన్ని సేవా-సేవల-సేవా ఒప్పందాలు ఉద్యోగుల ద్వారా డేటాను ఉపయోగించడానికి లేదా సేవను మెరుగుపరచడానికి మాత్రమే అనుమతిస్తాయి. అందువల్ల డేటా భాగస్వామ్యాన్ని కొన్ని రూపాలు వినియోగదారుల నుండి చట్టబద్ధమైన వ్యాజ్యాలకు కంపెనీలను బహిర్గతం చేయగలవు. డేటాను పంచుకునే కంపెనీలకు గణనీయమైన వ్యాపార నష్టాలు కూడా ఉన్నాయి. విశ్వవిద్యాలయ పరిశోధనా ప్రాజెక్ట్లో భాగంగా వ్యక్తిగత శోధన డేటా అనుకోకుండా Google నుండి బయటికి బయటికి వెళ్లినట్లయితే ప్రజలు ఎలా స్పందిస్తారో ఊహించుకోండి. అటువంటి డేటా ఉల్లంఘన, తీవ్రమైన ఉంటే, సంస్థ కోసం కూడా అస్తిత్వ ప్రమాదం కావచ్చు. కాబట్టి గూగుల్ మరియు చాలా పెద్ద కంపెనీలు పరిశోధకులతో సమాచారాన్ని పంచుకోవడం చాలా ప్రమాదకరమైనవి.
వాస్తవానికి, అబ్దుర్ చౌదరి కథకు పెద్ద మొత్తంలో సమాచారాన్ని అందజేయగల స్థితిలో ఉన్న అందరికీ తెలుసు. 2006 లో, అతను AOL వద్ద పరిశోధనా అధిపతిగా ఉన్నప్పుడు, అతను ఉద్దేశపూర్వకంగా పరిశోధన సంఘానికి విడుదల చేసాడు, అతను 650,000 AOL వినియోగదారుల నుండి అనామక శోధన ప్రశ్నలు అయ్యారు. నేను చెప్పినంతవరకు, చౌదరి మరియు AOL లోని పరిశోధకులు మంచి ఉద్దేశాలు కలిగి ఉన్నారు మరియు వారు డేటాను అనామకంగా ఉందని వారు అనుకున్నారు. కానీ వారు తప్పు. పరిశోధకులు భావించినట్లుగా డేటా అనామకంగా లేదని, మరియు న్యూయార్క్ టైమ్స్ నుండి విలేఖరులు సులభంగా డేటాసెట్లో ఎవరైనా (Barbaro and Zeller 2006) ను గుర్తించగలిగారు. ఈ సమస్యలను కనుగొన్న తర్వాత, చౌదరి AOL వెబ్సైట్ నుండి డేటాను తొలగించారు, కానీ ఇది చాలా ఆలస్యం. ఈ డేటా ఇతర వెబ్ సైట్ లలో పునఃస్థాపించబడింది మరియు మీరు ఈ పుస్తకాన్ని చదివేటప్పుడు అది ఇప్పటికీ అందుబాటులో ఉంటుంది. చౌదరిని తొలగించారు మరియు AOL యొక్క ప్రధాన సాంకేతిక అధికారి రాజీనామా చేశారు (Hafner 2006) . ఈ ఉదాహరణ చూపిస్తుంది, డేటా యాక్సెస్ సులభతరం కంపెనీలు లోపల నిర్దిష్ట వ్యక్తుల ప్రయోజనాలు అందంగా చిన్న మరియు చెత్త దృష్టాంతంలో భయంకరమైన ఉంది.
అయితే పరిశోధకులు కొన్నిసార్లు సాధారణ ప్రజలకు అందుబాటులో లేని డేటాను పొందవచ్చు. పరిశోధకులకు యాక్సెస్ కోసం దరఖాస్తు చేసుకోవచ్చని కొన్ని ప్రభుత్వాలు ఉన్నాయి, మరియు ఈ అధ్యాయం ప్రదర్శనలో ఉదాహరణలుగా, పరిశోధకులు అప్పుడప్పుడూ కార్పొరేట్ డేటాను పొందగలరు. ఉదాహరణకు, Einav et al. (2015) ఆన్లైన్ వేలం అధ్యయనం eBay ఒక పరిశోధకుడితో భాగస్వామ్యం. నేను అధ్యాయంలో ఈ సహకారం తరువాత వచ్చిన పరిశోధన గురించి మరింత మాట్లాడతాను, కానీ విజయవంతమైన భాగస్వామ్యాలలో నేను చూసే అన్ని పదార్ధాలను నాలుగు కలిగి ఉన్నందువల్ల నేను ఇప్పుడే దీనిని ప్రస్తావిస్తున్నాను: పరిశోధకుడి ఆసక్తి, పరిశోధకుడి సామర్థ్యం, కంపెనీ ఆసక్తి మరియు సంస్థ సామర్ధ్యం . పరిశోధకుడిగా లేక పార్టనర్-అది ఒక సంస్థ లేదా ప్రభుత్వం-ఈ పదార్ధాలలో ఒకదానిని కలిగి ఉన్నందున నేను అనేక సంభావ్య సహకారాలను విఫలం చేశాను.
మీరు వ్యాపారంతో భాగస్వామ్యాన్ని అభివృద్ధి చేయగలిగారు లేదా పరిమితం చేయబడిన ప్రభుత్వ డేటాను పొందగలిగినప్పటికీ, మీ కోసం కొన్ని దుష్ప్రభావాలు ఉన్నాయి. మొదట, మీ డేటాను ఇతర పరిశోధకులతో మీరు బహుశా పంచుకోలేరు, అంటే ఇతర పరిశోధకులు మీ ఫలితాలను ధృవీకరించలేరు మరియు విస్తరించలేరు. రెండవది, మీరు అడగగలిగిన ప్రశ్నలను పరిమితం చేయవచ్చు; సంస్థలు చెడుగా కనిపించేలా చేసే పరిశోధనను అనుమతించలేదు. చివరగా, ఈ భాగస్వామ్యాలు ఆసక్తికరంగా జరిగే విఘాతం యొక్క కనీసం రూపాన్ని సృష్టించగలవు, ఇక్కడ మీ ఫలితాలు మీ భాగస్వాములచే ప్రభావితమయ్యాయని ప్రజలు భావిస్తారు. ఈ downsides అన్ని ప్రసంగించారు చేయవచ్చు, కానీ ప్రతి ఒక్కరికీ అందుబాటులో లేని డేటా తో పని పైకి మరియు downsides రెండు కలిగి స్పష్టంగా ముఖ్యం.
సారాంశంలో, పెద్ద డేటా చాలా పరిశోధకులకు అందుబాటులో లేదు. డేటా యాక్సెస్ను నివారించే తీవ్రమైన చట్టపరమైన, వ్యాపార, మరియు నైతిక అడ్డంకులు ఉన్నాయి, సాంకేతిక పరిమితులు కానందున సాంకేతిక పరిజ్ఞానాన్ని మెరుగుపరుచుకుంటూ ఈ అడ్డంకులు దూరంగా ఉండవు. కొందరు జాతీయ ప్రభుత్వాలు కొన్ని డేటాసెట్ల కోసం డేటా ప్రాప్తిని ప్రారంభించటానికి విధానాలను స్థాపించాయి, కానీ ఈ విధానం ప్రత్యేకించి రాష్ట్ర మరియు స్థానిక స్థాయిలలో ప్రత్యేకంగా ఉంది. అంతేకాకుండా, కొన్ని సందర్భాల్లో, పరిశోధకులు డేటా యాక్సెస్ను పొందడానికి కంపెనీలతో భాగస్వామిగా ఉండవచ్చు, అయితే ఇది పరిశోధకులకు మరియు సంస్థలకు పలు రకాల సమస్యలను సృష్టిస్తుంది.