బిగ్ డేటా మూలాల వ్యర్థ మరియు స్పామ్ లోడ్ చేయవచ్చు.
కొంతమంది పరిశోధకులు వారు స్వయంచాలకంగా సేకరిస్తారు ఎందుకంటే పెద్ద సమాచార వనరులను ముఖ్యంగా ఆన్లైన్ మూలాల నుండి ఆ సహజమైన నమ్మకం. నిజానికి, పెద్ద డేటా మూలాల పనిచేసిన వ్యక్తులు వారు తరచుగా మురికి తెలుసు. వారు తరచూ పరిశోధకులు ఆసక్తి యొక్క నిజమైన చర్యలను ప్రతిబింబిస్తాయి లేదు ఆ డేటా ఉన్నాయి, ఉంది. ఎన్నో సోషల్ శాస్త్రవేత్తలు ఇప్పటికే పెద్ద ఎత్తున సామాజిక సర్వే డేటా రెండు కారణాల కోసం మరింత కష్టం శుభ్రం, కానీ పెద్ద డేటా మూలాల శుభ్రం ప్రక్రియ తెలిసిన: 1) వారు పరిశోధకులకు పరిశోధకులు మరియు 2) పరిశోధకులు రూపొందించినవారు కాలేదు సాధారణంగా తక్కువ అవగాహన కలిగి వారు సృష్టించబడ్డారు.
మురికి డిజిటల్ ట్రేస్ డేటా ప్రమాదాల ద్వారా వెనుకకు మరియు సహచరులు 'ఉదహరించారు (2010) సెప్టెంబర్ 11, దాడులకు భావోద్వేగ స్పందన 2001 పరిశోధకులు విలక్షణంగా నెలలు లేదా సంవత్సరాలుగా సేకరించిన పునరావృత్త డేటా ఉపయోగించి విషాద సంఘటనలకు స్పందనగా అధ్యయనం అధ్యయనం. కానీ, తిరిగి మరియు సహచరులు 85,000 అమెరికన్ నుండి ఒక ఎప్పుడూ సంఖ్యల జాడలు-timestamped మూలం, స్వయంచాలకంగా నమోదు సందేశాలను కనుగొన్నారు పేజర్ల మరియు ఈ చాలా సూక్ష్మ కాల భావోద్వేగ స్పందన అధ్యయనం పరిశోధకులు ఎనేబుల్. వెనుకకు మరియు సహచరులు (1) బాధపడటం సంబంధించిన పదాల శాతం పేజర్ సందేశాలను భావోద్రేకాలను చూపించటంలో కోడింగ్ చేసి సెప్టెంబర్ 11 వ నిమిషం ద్వారా నిమిషాల భావోద్వేగ కాలక్రమం రూపొందించినవారు (ఉదా, ఏడుపు, శోకం), (2) ఆందోళన (ఉదా, భయపడి, భయాన్ని), మరియు (3) కోపం (ఉదా, ద్వేషం, క్లిష్టమైన). వారు బాధపడటం మరియు ఆతురత ఒక బలమైన నమూనా లేకుండా రోజంతా హెచ్చుతగ్గులు కనుగొన్నారు, కానీ రోజంతా కోపం లో అసాధారణమైన పెరిగిపోయిందని. అది ఒక ఊహించని సంఘటన వెంటనే స్పందన అటువంటి అధిక రిజల్యూషన్ కాలపట్టిక కలిగి అసాధ్యం ప్రామాణిక పద్ధతులను ఉపయోగించి: ఈ పరిశోధన ఎప్పుడూ డేటా మూలాల యొక్క శక్తి యొక్క ఒక అద్భుతమైన ఉదాహరణ ఉండకూడదు తెలుస్తోంది.
కేవలం ఒక సంవత్సరం తరువాత, అయితే, సింథియా Pury (2011) డేటా మరింత జాగ్రత్తగా చూస్తూ. ఆమె దయ్యం కోపంతో సందేశాలను పెద్ద సంఖ్యలో ఒకే పేజర్ ద్వారా ఉత్పత్తి చెయ్యబడతాయి మరియు వారు అన్ని సారూప్యత అని కనుగొన్నారు. ఇక్కడ ఆ దయ్యం కోపంతో సందేశాలు చెప్పారు ఏమిటి:
"రీబూట్ NT యంత్రం [పేరు] క్యాబినెట్కు [పేరు] [స్థానాన్ని] వద్ద: విమర్శనాత్మక: [తేదీ మరియు సమయం]"
వారు సాధారణంగా కోపం సూచిస్తుంది కానీ ఈ విషయంలో కాదు ఉండవచ్చు పదం "క్రిటికల్", ఉండడం వలన ఈ సందేశాలు కోపంతో పెట్టబడ్డాయి. ఈ సింగిల్ ఆటోమేటెడ్ పేజర్ ద్వారా ఉత్పత్తి సందేశాలను తొలగించడం పూర్తిగా రోజు (మూర్తి 2.2) కోర్సు మీద కోపం స్పష్టమైన పెరుగుదల తొలగిస్తుంది. ఇతర మాటలలో, ప్రధాన ఫలితంగా Back, Küfner, and Egloff (2010) ఒక పేజర్ ఒక వస్తువుగా ఉంది. ఈ ఉదాహరణ వివరిస్తుంది వంటి సాపేక్షంగా క్లిష్టమైన మరియు గందరగోళంగా ఉందని డేటా సాపేక్షంగా సులభం విశ్లేషణ తీవ్రంగా తప్పు సామర్ధ్యం ఉంది.
ఒక సహేతుక జాగ్రత్తగా పరిశోధకుడి ఒక ధ్వనించే నుండి అనుకోకుండా అటువంటి సృష్టించబడిన వ్యర్ధ సమాచారం పేజర్-చేయవచ్చు కనుగొనబడతాయి, అయితే ఉద్దేశ్యపూర్వకంగా స్పామర్లు ఆకర్షించే కొన్ని ఆన్లైన్ వ్యవస్థలు. ఈ స్పామర్లు చురుకుగా నకిలీ డేటా ఉత్పత్తి, మరియు తరచుగా వారి స్పామింగ్ దాగి ఉంచడానికి చాలా కష్టంగా లాభాల పని చేస్తున్నారని అనుకున్నాయి. ఉదాహరణకు, Twitter రాజకీయ కార్యకలాపాలకు కనీసం కొన్ని రాజకీయ కారణాలు కావాలని అవి వాస్తవ ఉన్నాయి కన్నా ఎక్కువ జనాదరణ చూడండి చేస్తారు అనగా కొన్ని సహేతుక అధునాతన స్పామ్ చేర్చేందుకు తెలుస్తోంది (Ratkiewicz et al. 2011) . సమాచారంతో పనిచేసే పరిశోధకులు ఉద్దేశ్యపూర్వకంగా స్పామ్ ఉండవచ్చునని అవి గుర్తించబడిన మరియు సంబంధిత స్పామ్ తొలగించగలిగాను.కానీ వారి ప్రేక్షకుల ఒప్పించి సవాలు ఎదుర్కోవాల్సి.
చివరగా, భావించిన వ్యర్ధ సమాచారం మీ పరిశోధన ప్రశ్నలపై సూక్ష్మమైన మార్గాలలో ఆధారపడాలి. ఉదాహరణకు, వికీపీడియా అనేక సవరణలు స్వయంచాలక బాట్లను సృష్టించబడతాయి (Geiger 2014) . మీరు వికీపీడియా యొక్క ఆవరణశాస్త్రం ఆసక్తి ఉంటే, అప్పుడు ఈ బాట్లను ముఖ్యమైనవి. కానీ, మీరు మానవులు వికీపీడియా దోహదం ఎలా ఆసక్తి ఉంటే, ఈ బాట్లను చేసిన ఈ సవరణలు మినహాయించాలి.
ఉత్తమ మార్గాలను డర్టీ డేటా మీ డేటా వంటి సాధారణ వ్యాప్తి తంత్రాలు దీనితో సాధారణ అన్వేషణా విశ్లేషణ సృష్టించబడ్డాయి ఎలా అర్థం ఉన్నాయి మోసంచేయబడింది తప్పించుకోలేక.