ትልቅ ውሂብ ምንጮች አሰስ ገሰስ እና አይፈለጌ መልዕክት ጋር ሊጫን ይችላል.
አንዳንድ ተመራማሪዎች ትላልቅ የውሂብ ምንጮች, በተለይም በመስመር ላይ ምንጮች, ጥሩዎች ናቸው ምክንያቱም እነሱ የሚሰበሰቡት በቀጥታ ነው. በመሠረቱ ትላልቅ የመረጃ ምንጮችን የሰሩ ሰዎች በአብዛኛው ጊዜ ቆሻሻ መሆናቸውን ያውቃሉ. ያም ማለት, ለተመራማሪዎች እውነተኛ ፍላጎቶችን የሚያንጸባርቁ መረጃዎችን ያካትታሉ. አብዛኛዎቹ የማኅበራዊ ሳይንቲስቶች መጠነ ሰፊ የማህበራዊ ጥናት መረጃዎችን የማጽዳት ሂደታቸውን አውቀውታል, ነገር ግን ትልቅ የውሂብ ምንጮችን ማጽዳት የበለጠ ከባድ ይመስላል. ለዚህ ችግር ዋነኛው መንስኤ እነዚህ አብዛኛዎቹ ትላልቅ የመረጃ ምንጮች ለምርምር ጥቅም ላይ እንዲውሉ አይፈልጉም ብዬ አሰብኩ, ስለዚህ የውሂብ ማጽዳት በሚያስችል መልኩ እንዲሰበሰቡ, እንዲከማቹ እና የተመዘገቡ አይደሉም.
በምዕራፉ ውስጥ ቀደም ብዬ የጠቀስኩትን በመስከረም 11, 2001 (2010) ለተሰነዘፉት ጥቃቶች ስሜታዊ ምላሽ የሰጡትን የቆሸሹ ዲጂታል የመረጃ ዱካዎች አደጋዎች (2010) . ተመራማሪዎች በአብዛኛው ለወራት ወይም ለዓመታት የተሰበሰቡትን መረጃዎች በመጠቀም አሰቃቂ ክስተቶችን ለመመርመር ይሞክራሉ. ነገር ግን ጀርባው እና የሥራ ባልደረቦቹ ከ 85,000 የአሜሪካ ኪራዮች በጊዜ የተቀመጡ እና በራስ-ሰር የተመዘገቡ መልዕክቶች በዲጂታል ዱካዎች ውስጥ ተገኝተዋል - ይህም በተሻለ ጊዜ ስሜታዊ ምላሽ እንዲማሩ አስችሏቸዋል. (1) ሀዘን (ለምሳሌ "ማልቀስ" እና "ሐዘን") በሚለው ቃል (2) ጭንቀት (2) ጭንቀት (1) ለምሳሌ "ጭንቀቅ" እና "አስፈሪ"), እና (3) ቁጣ (ለምሳሌ "ጥላቻ" እና "ወሳኝ"). ሐዘን እና ጭንቀት ቀኑን ሙሉ ያለ ጥንካሬ ተለዋወጡ, ነገር ግን ቀኑን ሙሉ አስደንጋጭ ቁጣ መጨመሩን ተረድተዋል. ይህ ጥናት ሁልጊዜ ስለ ምንጮች ኃይል ምንጮች አስደናቂ መግለጫ ይመስላል-የተለመዱት የውሂብ ምንጮች ጥቅም ላይ ከዋሉ ያልተጠበቀ ክስተት ፈጣን ምላሽ በመስጠት የጊዜ ሂደቱን ለማግኘት የማይቻል ነበር.
ከአንድ አመት በኋላ ግን ሲንቲያ ፒሪ (2011) መረጃውን በጥንቃቄ ተመለከተ. በቁጣ የተሞሉ አስነዋሪ መልዕክቶች ከፍተኛ ቁጥር የነበራቸው በአንድ ነጠላ ፔጀር ብቻ እንደሆነና ሁሉም ተመሳሳይ እንደሆኑ ተገነዘበች. እነዚህ የተቆጡ መልዕክቶች እንዲህ ብለው ነበር:
"[አካባቢ] ላይ ካቢኔ [ስም] ውስጥ ዳግም ኪዳን ማሽን [ስም]: ወሳኝ: [ቀን እና ሰዓት]"
እነዚህ መልዕክቶች ቁጣ "በአከባቢው" (አከባቢን) የሚያመለክቱትን "ትክክለኛ" የሚለውን ቃል ስለሚያካትቱ በቁጣ ተሞሉ. በዚህ ነጠላ አውቶሜትር የተፈለገው መልእክት ማስወገድ የቀኑን እውነተኝነት ሙሉ ለሙሉ ማስወገድ (ቁጥር 2.4). በሌላ አነጋገር, Back, Küfner, and Egloff (2010) ዋናው ውጤት የአንድ ፔጀር እትም ነው. ይህ ምሳሌ እንደሚያሳየው ግን በአንጻራዊነት የተወሳሰበ እና ውስብስብ ውሂብ በቀላሉ ቀላል ትንታኔ እጅግ በጣም ከባድ ነው.
ከተቆራረጠ ፔጀር እንደነጥብጥ የተከሰተ ቆሻሻ ውሂብ በጥብቅ የምርምር ተመራማሪ ሊገኝ ይችላል ሆኖም ግን ሆን ተብሎ ኢሚግረሮች የሚስቡ አንዳንድ የመስመር ላይ ስርዓቶች አሉ. እነዚህ አይፈለጌን / ማጭበርበሪያ (ስፓምግ) አጭበርባሪ መረጃዎችን ያመነጫሉ, እና ብዙውን ጊዜ አይፈለጌ መልዕክት እንዳይሰረቅ ለማድረግ በትርፍ-ተነሳሽነት ይሠራሉ. ለምሳሌ, በትዊተር ላይ የፖለቲካ እንቅስቃሴ ቢያንስ ጥቂት የተራቀቁ አይፈለጌ መልዕክትን ያካትታል, ይህም አንዳንድ ፖለቲካዊ ምክንያቶች ሆን ተብሎ በተሻለ መልኩ እንዲታዩ ለማድረግ (Ratkiewicz et al. 2011) . የአጋጣሚ ነገር ሆኖ ይህንን ሆን ብሎ አይፈለጌ መልዕክት ማስወገድ በጣም አስቸጋሪ ሊሆን ይችላል.
በእርግጥ እንደ ቆሻሻ መረጃ እንደ አግባብ ያለው መረጃ በከፊል በጥያቄው ላይ ይመረኮዛል. ለምሳሌ, ለ Wikipedia (Geiger 2014) ብዙ ማስተካከያዎች በራስ-ሰር በሚሰሩ ቦቶች (Geiger 2014) የተፈጠሩ ናቸው. የ Wikipedia ን ስነ-ህዋ (ecology) የሚፈልጉ ከሆነ, እነዚህ ቦዮ-የተፈጠሩ አርትዖቶች አስፈላጊ ናቸው. ነገር ግን ሰዎች ለሰ Wikipedia (ፉክክር) እንዴት እንደሚዋደዱ ማወቅ ከፈለጉ, ቡኔ-የተፈጠሩ አርትዖቶችን ማስወገድ አለባቸው.
የቆሸሸውን ውሂብዎን በደንብ አጽድተው ማረጋገጥ የሚችል አንድም እስታቲስቲክ ቴክኒክ ወይም አቀራረብ የለም. በመጨረሻም, በቆሻሻ ውሂቡ እንዳይታለሉ የሚረዱበት ምርጥ መንገድ የውሂብዎ እንዴት እንደተፈጠረ በተቻለ መጠን መረዳት ነው.