బిగ్ డేటా మూలాల వ్యర్థ మరియు స్పామ్ లోడ్ చేయవచ్చు.
కొంతమంది పరిశోధకులు పెద్ద సమాచార వనరులు, ముఖ్యంగా ఆన్లైన్ వనరులు, సహజంగా ఉంటాయి ఎందుకంటే వారు స్వయంచాలకంగా సేకరిస్తారు. నిజానికి, పెద్ద డేటా వనరులతో పని చేసిన వారు తరచుగా మురికివాడని తెలుసు. అంటే, పరిశోధకులకు ఆసక్తినిచ్చే నిజ చర్యలను ప్రతిబింబించే డేటాను అవి తరచూ కలిగి ఉంటాయి. చాలామంది సాంఘిక శాస్త్రవేత్తలు పెద్ద ఎత్తున సామాజిక సర్వే డేటాను శుభ్రపరిచే ప్రక్రియతో ఇప్పటికే సుపరిచితులుగా ఉన్నారు, కానీ పెద్ద సమాచార వనరులను శుభ్రం చేయడం మరింత క్లిష్టంగా ఉంది. నేను ఈ సమస్య యొక్క అంతిమ మూలం ఈ పెద్ద డేటా మూలాల యొక్క అనేక పరిశోధనల కోసం ఉద్దేశించబడలేదు, అందువలన అవి సేకరించబడవు, నిల్వ చేయబడతాయి మరియు డేటా శుభ్రపరిచే సదుపాయం కల్పించబడలేదు.
మురికి డిజిటల్ ట్రేస్ డేటా ప్రమాదాల సెప్టెంబర్ 11, 2001 దాడులకు భావోద్వేగ ప్రతిస్పందన వెనుక మరియు సహచరులు ' (2010) అధ్యయనం ద్వారా ఉదహరించారు, నేను సంక్షిప్తంగా అధ్యాయంలో పేర్కొన్న ఇది. పరిశోధకులు సాధారణంగా నెలల లేదా సంవత్సరాల్లో సేకరించిన పునరావృత్త డేటాను ఉపయోగించి విషాద సంఘటనలకు ప్రతిస్పందనను అధ్యయనం చేస్తారు. కానీ తిరిగి మరియు సహచరులు 85000 అమెరికన్ పేజర్స్ నుండి డిజిటల్ ట్రేస్ల యొక్క టైమ్స్టాంపెడ్, స్వయంచాలకంగా నమోదు చేయబడిన సందేశాల మూలాన్ని కనుగొన్నారు-మరియు ఇది వారికి మరింత మెరుగైన సమయ వ్యవధిలో భావోద్వేగ ప్రతిస్పందనను అధ్యయనం చేసేందుకు వీలు కల్పించింది. (1) బాధపడటం (ఉదా., "ఏడుపు" మరియు "దుఃఖం"), (2) ఆందోళన (2) ఆందోళన (2) ఆందోళన (పేజి సందేశాల భావోద్వేగ విషయాలు కోడింగ్ ద్వారా సెప్టెంబర్ 11 యొక్క ఒక నిమిషం- ఉదా., "భయపడి" మరియు "భయంకరమైన") మరియు (3) కోపం (ఉదా., "ద్వేషం" మరియు "క్లిష్టమైన"). వారు ధృడమైన మరియు ఆతురత ఒక బలమైన నమూనా లేకుండా రోజంతా హెచ్చుతగ్గులకు గురయ్యారు, కానీ రోజంతా కోపంతో పెరుగుతున్నది. ఈ పరిశోధన ఎల్లప్పుడూ డేటా వనరుల శక్తి యొక్క అద్భుతమైన దృష్టాంతంగా ఉంది: సాంప్రదాయిక సమాచార మూలాలను ఉపయోగించినట్లయితే, ఊహించని సంఘటనకు తక్షణ ప్రతిస్పందన యొక్క అధిక-రిజల్యూషన్ కాలపట్టిక పొందడానికి ఇది అసాధ్యంగా ఉండేది.
అయితే ఒక సంవత్సరం తరువాత, సింథియా పియర్ (2011) మరింత జాగ్రత్తగా సమాచారాన్ని చూశారు. దయ్యం కోపంతో ఉన్న సందేశాలు పెద్ద సంఖ్యలో ఒకే పేజర్ ద్వారా ఉత్పత్తి చేయబడ్డాయి మరియు అవి ఒకేలా ఉన్నాయి. ఆ దయ్యం కోపం సందేశాలు ఇలా ఉన్నాయి:
"రీబూట్ NT యంత్రం [పేరు] క్యాబినెట్కు [పేరు] [స్థానాన్ని] వద్ద: విమర్శనాత్మక: [తేదీ మరియు సమయం]"
ఈ సందేశాలు కోపంతో లేబుల్ చేయబడ్డాయి ఎందుకంటే అవి "CRITICAL" అనే పదాన్ని కలిగి ఉన్నాయి, ఇది సాధారణంగా కోపంను సూచిస్తుంది కానీ ఈ సందర్భంలో లేదు. ఈ సింగిల్ ఆటోమేటెడ్ పేజర్ ద్వారా సృష్టించబడిన సందేశాలను తీసివేయడం, రోజు మొత్తం మీద కోపంతో స్పష్టంగా పెరుగుతుంది (Figure 2.4). మరో మాటలో చెప్పాలంటే, Back, Küfner, and Egloff (2010) లలో ప్రధాన ఫలితం ఒక పేజర్ యొక్క కళాకృతి. ఈ ఉదాహరణ వివరిస్తుంది, సాపేక్షంగా సంక్లిష్టమైన మరియు దారుణమైన సమాచారం యొక్క సాపేక్షంగా సరళమైన విశ్లేషణ తీవ్రంగా తప్పు చేయగల సామర్థ్యాన్ని కలిగి ఉంటుంది.
అనుకోకుండా సృష్టించబడిన మురికి సమాచారం, ఒక ధ్వని పేజర్ నుండి-ఒక సహేతుక జాగ్రత్తగా పరిశోధకుడు గుర్తించవచ్చు, కావాలనే స్పామర్లు ఆకర్షించే కొన్ని ఆన్లైన్ వ్యవస్థలు కూడా ఉన్నాయి. ఈ స్పామర్లు నకిలీ డేటాను చురుకుగా ఉత్పత్తి చేస్తారు, మరియు తరచుగా వారి స్పామింగ్ను రహస్యంగా ఉంచడానికి లాభం-పని చాలా కష్టపడతారు. ఉదాహరణకు, ట్విట్టర్లో రాజకీయ కార్యకలాపాలు కనీసం కొంత సహేతుక అధునాతన స్పామ్ను కలిగి ఉంటాయి, అందుచేత కొన్ని రాజకీయ కారణాలు ఉద్దేశపూర్వకంగా వీటిని పోలిస్తే మరింత జనాదరణ పొందాయి (Ratkiewicz et al. 2011) . దురదృష్టవశాత్తూ, ఈ కావాలనే స్పామ్ తీసివేయడం చాలా కష్టం.
వాస్తవానికి, డర్టీ డేటా ఏమనగా, పరిశోధన ప్రశ్నపై ఆధారపడి ఉంటుంది. ఉదాహరణకు, వికీపీడియాకు అనేక సవరణలు స్వయంచాలక బాట్లను (Geiger 2014) . మీరు వికీపీడియా యొక్క ఆవరణశాస్త్రంలో ఆసక్తి కలిగి ఉంటే, ఈ బోట్ సృష్టించిన సవరణలు ముఖ్యమైనవి. కానీ మానవులు వికీపీడియాకు ఎలా దోహదపడుతున్నారో మీకు ఆసక్తి ఉంటే, బోట్ సృష్టించిన సవరణలు మినహాయించాలి.
మీరు మీ డర్ట్ డేటాను సరిగ్గా శుభ్రం చేసారని నిర్ధారించడానికి ఏ ఒక్క గణాంక పద్ధతి లేదా పద్ధతి లేదు. చివరికి, మురికి సమాచారాన్ని మోసగించడం నివారించడానికి ఉత్తమ మార్గం మీ డేటా ఎలా సృష్టించబడింది అనే దాని గురించి సాధ్యమైనంత అర్థం చేసుకోవడానికి నేను భావిస్తున్నాను.