2.3.2.6 డర్టీ

బిగ్ డేటా మూలాల వ్యర్థ మరియు స్పామ్ లోడ్ చేయవచ్చు.

కొంతమంది పరిశోధకులు వారు స్వయంచాలకంగా సేకరిస్తారు ఎందుకంటే పెద్ద సమాచార వనరులను ముఖ్యంగా ఆన్లైన్ మూలాల నుండి ఆ సహజమైన నమ్మకం. నిజానికి, పెద్ద డేటా మూలాల పనిచేసిన వ్యక్తులు వారు తరచుగా మురికి తెలుసు. వారు తరచూ పరిశోధకులు ఆసక్తి యొక్క నిజమైన చర్యలను ప్రతిబింబిస్తాయి లేదు ఆ డేటా ఉన్నాయి, ఉంది. ఎన్నో సోషల్ శాస్త్రవేత్తలు ఇప్పటికే పెద్ద ఎత్తున సామాజిక సర్వే డేటా రెండు కారణాల కోసం మరింత కష్టం శుభ్రం, కానీ పెద్ద డేటా మూలాల శుభ్రం ప్రక్రియ తెలిసిన: 1) వారు పరిశోధకులకు పరిశోధకులు మరియు 2) పరిశోధకులు రూపొందించినవారు కాలేదు సాధారణంగా తక్కువ అవగాహన కలిగి వారు సృష్టించబడ్డారు.

మురికి డిజిటల్ ట్రేస్ డేటా ప్రమాదాల ద్వారా వెనుకకు మరియు సహచరులు 'ఉదహరించారు (2010) సెప్టెంబర్ 11, దాడులకు భావోద్వేగ స్పందన 2001 పరిశోధకులు విలక్షణంగా నెలలు లేదా సంవత్సరాలుగా సేకరించిన పునరావృత్త డేటా ఉపయోగించి విషాద సంఘటనలకు స్పందనగా అధ్యయనం అధ్యయనం. కానీ, తిరిగి మరియు సహచరులు 85,000 అమెరికన్ నుండి ఒక ఎప్పుడూ సంఖ్యల జాడలు-timestamped మూలం, స్వయంచాలకంగా నమోదు సందేశాలను కనుగొన్నారు పేజర్ల మరియు ఈ చాలా సూక్ష్మ కాల భావోద్వేగ స్పందన అధ్యయనం పరిశోధకులు ఎనేబుల్. వెనుకకు మరియు సహచరులు (1) బాధపడటం సంబంధించిన పదాల శాతం పేజర్ సందేశాలను భావోద్రేకాలను చూపించటంలో కోడింగ్ చేసి సెప్టెంబర్ 11 వ నిమిషం ద్వారా నిమిషాల భావోద్వేగ కాలక్రమం రూపొందించినవారు (ఉదా, ఏడుపు, శోకం), (2) ఆందోళన (ఉదా, భయపడి, భయాన్ని), మరియు (3) కోపం (ఉదా, ద్వేషం, క్లిష్టమైన). వారు బాధపడటం మరియు ఆతురత ఒక బలమైన నమూనా లేకుండా రోజంతా హెచ్చుతగ్గులు కనుగొన్నారు, కానీ రోజంతా కోపం లో అసాధారణమైన పెరిగిపోయిందని. అది ఒక ఊహించని సంఘటన వెంటనే స్పందన అటువంటి అధిక రిజల్యూషన్ కాలపట్టిక కలిగి అసాధ్యం ప్రామాణిక పద్ధతులను ఉపయోగించి: ఈ పరిశోధన ఎప్పుడూ డేటా మూలాల యొక్క శక్తి యొక్క ఒక అద్భుతమైన ఉదాహరణ ఉండకూడదు తెలుస్తోంది.

కేవలం ఒక సంవత్సరం తరువాత, అయితే, సింథియా Pury (2011) డేటా మరింత జాగ్రత్తగా చూస్తూ. ఆమె దయ్యం కోపంతో సందేశాలను పెద్ద సంఖ్యలో ఒకే పేజర్ ద్వారా ఉత్పత్తి చెయ్యబడతాయి మరియు వారు అన్ని సారూప్యత అని కనుగొన్నారు. ఇక్కడ ఆ దయ్యం కోపంతో సందేశాలు చెప్పారు ఏమిటి:

"రీబూట్ NT యంత్రం [పేరు] క్యాబినెట్కు [పేరు] [స్థానాన్ని] వద్ద: విమర్శనాత్మక: [తేదీ మరియు సమయం]"

వారు సాధారణంగా కోపం సూచిస్తుంది కానీ ఈ విషయంలో కాదు ఉండవచ్చు పదం "క్రిటికల్", ఉండడం వలన ఈ సందేశాలు కోపంతో పెట్టబడ్డాయి. ఈ సింగిల్ ఆటోమేటెడ్ పేజర్ ద్వారా ఉత్పత్తి సందేశాలను తొలగించడం పూర్తిగా రోజు (మూర్తి 2.2) కోర్సు మీద కోపం స్పష్టమైన పెరుగుదల తొలగిస్తుంది. ఇతర మాటలలో, ప్రధాన ఫలితంగా Back, Küfner, and Egloff (2010) ఒక పేజర్ ఒక వస్తువుగా ఉంది. ఈ ఉదాహరణ వివరిస్తుంది వంటి సాపేక్షంగా క్లిష్టమైన మరియు గందరగోళంగా ఉందని డేటా సాపేక్షంగా సులభం విశ్లేషణ తీవ్రంగా తప్పు సామర్ధ్యం ఉంది.

Figure 2.2: న 85,000 అమెరికన్ పేజర్ల ఆధారంగా సెప్టెంబర్ 11, 2001 కాలంలో కోపం అంచనా పోకడలు (తిరిగి, Küfner, మరియు Egloff 2010; Pury 2011; తిరిగి, Küfner, మరియు Egloff 2011). నిజానికి, తిరిగి, Küfner, మరియు Egloff (2010) రోజంతా కోపం పెంచుకోవటం నమూనా నివేదించారు. క్రిటికల్: [తేదీ మరియు సమయం] [స్థానాన్ని] వద్ద మంత్రివర్గంలో రీబూట్ NT యంత్రం [పేరు] [పేరు] అయితే, ఈ స్పష్టమైన కోపంతో సందేశాలను అత్యంత పదే పదే క్రింది సందేశం పంపిన ఒకే పేజర్ ద్వారా ఉత్పత్తి చెయ్యబడతాయి. ఈ సందేశం తొలగించవచ్చు తో, కోపం స్పష్టమైన పెరుగుదల అదృశ్యమవుతుంది (Pury 2011; తిరిగి, Küfner, మరియు Egloff 2011). ఈ చిత్రంలో Pury (2011) అత్తి 1B ఒక పునరుత్పత్తి ఉంది.

Figure 2.2: న 85,000 అమెరికన్ పేజర్ల ఆధారంగా సెప్టెంబర్ 11, 2001 కాలంలో కోపం అంచనా పోకడలు (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . నిజానికి, Back, Küfner, and Egloff (2010) రోజంతా కోపం పెంచుకోవటం నమూనా నివేదించారు. "రీబూట్ NT యంత్రం [పేరు] క్యాబినెట్కు [పేరు] [స్థానాన్ని] వద్ద: క్రిటికల్: [తేదీ మరియు సమయం]" అయితే, ఈ స్పష్టమైన కోపంతో సందేశాలను అత్యంత పదేపదే క్రింది సందేశం పంపింది ఒకే పేజర్ ద్వారా ఉత్పత్తి చెయ్యబడతాయి. ఈ సందేశం తొలగించవచ్చు తో, కోపం స్పష్టమైన పెరుగుదల అదృశ్యమవుతుంది (Pury 2011; Back, Küfner, and Egloff 2011) . ఈ చిత్రంలో అంజీర్ 1B ఒక పునరుత్పత్తి ఉంది Pury (2011) .

ఒక సహేతుక జాగ్రత్తగా పరిశోధకుడి ఒక ధ్వనించే నుండి అనుకోకుండా అటువంటి సృష్టించబడిన వ్యర్ధ సమాచారం పేజర్-చేయవచ్చు కనుగొనబడతాయి, అయితే ఉద్దేశ్యపూర్వకంగా స్పామర్లు ఆకర్షించే కొన్ని ఆన్లైన్ వ్యవస్థలు. ఈ స్పామర్లు చురుకుగా నకిలీ డేటా ఉత్పత్తి, మరియు తరచుగా వారి స్పామింగ్ దాగి ఉంచడానికి చాలా కష్టంగా లాభాల పని చేస్తున్నారని అనుకున్నాయి. ఉదాహరణకు, Twitter రాజకీయ కార్యకలాపాలకు కనీసం కొన్ని రాజకీయ కారణాలు కావాలని అవి వాస్తవ ఉన్నాయి కన్నా ఎక్కువ జనాదరణ చూడండి చేస్తారు అనగా కొన్ని సహేతుక అధునాతన స్పామ్ చేర్చేందుకు తెలుస్తోంది (Ratkiewicz et al. 2011) . సమాచారంతో పనిచేసే పరిశోధకులు ఉద్దేశ్యపూర్వకంగా స్పామ్ ఉండవచ్చునని అవి గుర్తించబడిన మరియు సంబంధిత స్పామ్ తొలగించగలిగాను.కానీ వారి ప్రేక్షకుల ఒప్పించి సవాలు ఎదుర్కోవాల్సి.

చివరగా, భావించిన వ్యర్ధ సమాచారం మీ పరిశోధన ప్రశ్నలపై సూక్ష్మమైన మార్గాలలో ఆధారపడాలి. ఉదాహరణకు, వికీపీడియా అనేక సవరణలు స్వయంచాలక బాట్లను సృష్టించబడతాయి (Geiger 2014) . మీరు వికీపీడియా యొక్క ఆవరణశాస్త్రం ఆసక్తి ఉంటే, అప్పుడు ఈ బాట్లను ముఖ్యమైనవి. కానీ, మీరు మానవులు వికీపీడియా దోహదం ఎలా ఆసక్తి ఉంటే, ఈ బాట్లను చేసిన ఈ సవరణలు మినహాయించాలి.

ఉత్తమ మార్గాలను డర్టీ డేటా మీ డేటా వంటి సాధారణ వ్యాప్తి తంత్రాలు దీనితో సాధారణ అన్వేషణా విశ్లేషణ సృష్టించబడ్డాయి ఎలా అర్థం ఉన్నాయి మోసంచేయబడింది తప్పించుకోలేక.