ትልቅ ውሂብ ምንጮች አሰስ ገሰስ እና አይፈለጌ መልዕክት ጋር ሊጫን ይችላል.
አንዳንድ ተመራማሪዎች በራስ የተሰበሰቡ ናቸው; ምክንያቱም ትልቅ የመረጃ ምንጮች, የመስመር ላይ ምንጮች በተለይ: ወደ ነበረችበት እንደሆኑ ያምናሉ. እንዲያውም ትልቅ የመረጃ ምንጮች ጋር ይሠራ የነበሩ ሰዎች በተደጋጋሚ ቆሻሻ እንደ ሆናችሁ በዚህ ያውቃሉ. ይህ ደግሞ ብዙ ተመራማሪዎች ፍላጎት እውነተኛ እርምጃ የሚያንጸባርቅ አይደለም ውሂብ ማካተት ነው. ብዙ ማህበራዊ ሳይንቲስቶች ቀደም በሁለት ምክንያቶች የተነሳ ይበልጥ አስቸጋሪ ነው መጠነ ሰፊ ማህበራዊ ጥናት ውሂብ ማጽዳት, ነገር ግን ትልቅ የመረጃ ምንጮች የማጽዳት ሂደት ጋር ትውውቅ: 1) እነዚህ ተመራማሪዎች ስለ ተመራማሪዎች እና 2) ተመራማሪዎች አልተፈጠረም ነበር በአጠቃላይ እንዴት ያነሰ ግንዛቤ እንዲኖራቸው እነርሱ የተፈጠሩ ናቸው.
ቆሻሻ ዲጂታል መከታተያ ውሂብ አደጋ ተመለስን እና ባልደረቦቻቸው 'የምን ምሳሌ ነው (2010) በ 2001 ተመራማሪዎች በተለምዶ ወራት አልፎ ተርፎም ዓመታት በላይ የተሰበሰበ ኋላ ተመልሶ ውሂብ በመጠቀም አሳዛኝ ክስተቶች ምላሽ ለማጥናት መስከረም 11, ጥቃት ወደ ስሜታዊ ምላሽ ጥናት. ነገር ግን, ተመለስን እና ባልደረቦቻቸው 85,000 የአሜሪካ ከ ሁልጊዜ-ላይ ዲጂታል መከታተያዎች-ወደ timestamped ምንጭ, በራስ-ሰር ተመዝግቦ መልዕክቶች አልተገኙም pagers-ይህ እጅግ በማሳየት ካላመለከቱ ላይ ስሜታዊ ምላሽ ለማጥናት ተመራማሪዎች ነቅቷል. ተመለስ እና ባልደረባዎች (1) በሐዘን ጋር የተያያዙ ቃላት መቶኛ በ ማድረጊያ መልዕክቶች ስሜታዊ ይዘት ኮድ በማድረግ የመስከረም 11 አንድ ደቂቃ-በ-ደቂቃ ስሜታዊ የጊዜ ፈጠረ (ለምሳሌ, ሐዘን የሚያለቅስ) ለምሳሌ (, (2) ጭንቀት, የተጨነቀ, የሚያስፈራ), እና (3) ቁጣ (ለምሳሌ, ጥላቻን, ወሳኝ). እነዚህ የሐዘን እና ጭንቀት ጠንካራ ምሳሌ ያለ ቀኑን ሙሉ ስለሚለዋወጥ እንደሆነ አገኘ; ነገር ግን ቀኑን ሙሉ ቁጣ ውስጥ አንድ አስገራሚ ጭማሪ ነበር. ይህ አንድ ያልተጠበቀ ክስተት ወደ ፈጣን ምላሽ እንዲህ ያለ ከፍተኛ-ጥራት የጊዜ ዘንድ የማይቻል ነገር መደበኛ ዘዴዎች በመጠቀም: ይህ ጥናት ሁልጊዜ-ላይ የመረጃ ምንጮች ኃይል ግሩም ምሳሌ ይመስላል.
ልክ ከአንድ ዓመት በኋላ, ይሁን እንጂ, ሲንቲያ Pury (2011) ይበልጥ በጥንቃቄ ውሂብ ተመልክተናል. እሷም ወደ ነበረበት በቁጣ መልዕክቶችን ብዙ ቁጥር አንድ ነጠላ ማድረጊያ የመነጨ ነበር; ሁሉም ተመሳሳይ መሆናቸውን ደርሰውበታል. እዚህ መሆን ነበረበት በቁጣ መልዕክቶች አሉ ይኸውና:
"[አካባቢ] ላይ ካቢኔ [ስም] ውስጥ ዳግም ኪዳን ማሽን [ስም]: ወሳኝ: [ቀን እና ሰዓት]"
እነርሱም በአጠቃላይ ቁጣ ያመለክታሉ ነገር ግን በዚህ ጉዳይ ላይ አይደለም ይችላል ቃል "ወሳኝ" ጨምሮ; ምክንያቱም እነዚህ መልዕክቶች ቁጡ ተሰይመዋል ነበር. ይህ ነጠላ ሰር ማድረጊያ የመነጨ መልእክቶች ማስወገድ ሙሉ ቀን (ምስል 2.2) ጎዳና ላይ ቁጣ ከጊዜ ወደ ጊዜ እንዲበዙ አያስቀርም. በሌላ አነጋገር, ውስጥ ዋና ውጤት Back, Küfner, and Egloff (2010) አንድ ተቀባይ የሆነ ቅርስ ነው. ይህ ምሳሌ እንደሚያሳየው, በአንጻራዊ ሁኔታ ውስብስብ እና የተመሳቀለ ውሂብ በአንጻራዊነት ቀላል ትንታኔ ከባድ ስህተት ለመሄድ የሚያስችል አቅም አለው.
አንድ ጫጫታ ከ እንደ ባለማወቅ-ያሉ ተፈጥሯል ነው ቆሻሻ ውሂብ ማድረጊያ-ይችላል ምክንያታዊ ጥንቃቄ ተመራማሪ ተገኝቷል ይሆናል ቢሆንም ደግሞ ሆን ተብሎ ላኪዎች ለመሳብ አንዳንድ የመስመር ላይ ስርዓቶች አሉ. እነዚህ ላኪዎች በንቃት የውሸት መረጃ ለማመንጨት, እና-ብዙውን ጊዜ አይፈለጌ የተሰወረ ለመጠበቅ በጣም አስቸጋሪ ትርፍ-ሥራ በመነሳሳት. ለምሳሌ ያህል, በ Twitter ላይ የፖለቲካ እንቅስቃሴ አንዳንድ የፖለቲካ ምክንያቶች ሆን እነርሱ ትክክለኛ ናቸው ይልቅ ይበልጥ ተወዳጅ መልክ የተሠራ ቅዱሱን ቢያንስ አንዳንድ ምክንያታዊ የተራቀቀ አይፈለጌ መልዕክት, ማካተት ይመስላል (Ratkiewicz et al. 2011) . ሆን አይፈለጌ መልዕክት የያዙ ይችላል ውሂብ ጋር አብሮ ተመራማሪዎች ተገኝቷል እና ተዛማጅነት አይፈለጌ አስወግደነዋል ዘንድ ያላቸውን ታዳሚ አሳማኝ ተፈታታኝ ሁኔታ ያጋጥማቸዋል.
በመጨረሻም, ምን ማለት እንደሆነ ቆሻሻ ውሂብ ምርምር ጥያቄዎች ላይ ስውር በሆኑ መንገዶች ላይ እምነት ሊጣልበት ይችላል. ለምሳሌ ያህል, ውክፔዲያ ብዙ አርትዖቶች ሰር ቦቶች የተፈጠሩ ናቸው (Geiger 2014) . አንተ ውክፔዲያ ላይ ምህዳር ውስጥ ፍላጎት ከሆነ, በነዚህ ቦቶች አስፈላጊ ናቸው. እናንተ ሰዎች ውክፔዲያ አስተዋጽኦ እንዴት ፍላጎት ከሆነ ግን, እነዚህ ቦቶች የተሰራ እነዚህ ማስተካከያዎች አይካተቱም ይገባል.
ቆሻሻ ውሂብ ውሂብ እንዲህ ቀላል መበተን ሴራ በማድረግ እንደ ቀላል ለመመርመር ትንተና ለማከናወን የተፈጠሩት እንዴት እንደሆነ ለመረዳት ናቸው በማድረግ ምርጥ መንገዶች እየተታለሉ መቆጠብ.