મોટા માહિતી સ્ત્રોત જંક અને સ્પામ સાથે લોડ કરી શકાય છે.
કેટલાક સંશોધકો એવું માને છે કે મોટા માહિતી સ્ત્રોત, ખાસ કરીને ઓનલાઇન સ્ત્રોતોમાંથી તે ફેલાતા હોય છે, કારણ કે તેઓ આપોઆપ ભેગા કરવામાં આવે છે. હકીકતમાં, જે લોકો મોટા માહિતી સ્રોતો સાથે કામ કર્યું છે ખબર છે કે તેઓ વારંવાર ગંદા હોય છે. એટલે કે, તેઓ વારંવાર માહિતી છે કે સંશોધકો રસ વાસ્તવિક ક્રિયાઓ પર અસર કરતા નથી સમાવેશ થાય છે. ઘણાં સામાજિક વિજ્ઞાનીઓ પહેલેથી જ મોટા પાયે સામાજિક મોજણી માહિતી સફાઈ, પરંતુ મોટા માહિતી સ્ત્રોત સફાઈ બે કારણો માટે વધુ મુશ્કેલ પ્રક્રિયા સાથે પરિચિત હોય છે: 1) તેઓ 2) સંશોધકો સંશોધકો માટે સંશોધકો અને દ્વારા બનાવવામાં આવી ન હતી સામાન્ય રીતે કેવી રીતે ઓછી સમજ છે તેઓ બનાવવામાં આવી હતી.
ડર્ટી ડિજિટલ ટ્રેસ માહિતી જોખમો અને પાછળ 'સાથીદારો દ્વારા સમજાવી શકાય છે (2010) 11 સપ્ટેમ્બર, ના હુમલા માટે ભાવનાત્મક પ્રતિભાવ 2001 સંશોધકોએ ખાસ કરીને મહિનાઓ કે વર્ષો સુધી એકત્રિત પાછલી માહિતી મદદથી દુ: ખદ ઘટનાઓ જવાબ અભ્યાસ અભ્યાસ. પરંતુ, પાછા અને સહકર્મીઓ 85,000 અમેરિકન હંમેશા પર ડિજિટલ નિશાનો-timestamped સ્ત્રોત, આપમેળે રેકોર્ડ સંદેશાઓ મળી પેજર અને આ સંશોધકો એક ખૂબ સુંદર સમયગાળા પર ભાવનાત્મક પ્રતિભાવ અભ્યાસ માટે સક્રિય કરો. પાછળ અને સહકર્મીઓને (1) ઉદાસી સંબંધિત શબ્દો ટકાવારી દ્વારા પેજર સંદેશાઓ ભાવનાત્મક સામગ્રી કોડિંગ દ્વારા એક મિનિટ દ્વારા મિનિટ 11 સપ્ટેમ્બર ભાવનાત્મક સમયરેખા બનાવવામાં (દા.ત., રડતી, દુઃખ), (2) ચિંતા (દા.ત., ચિંતા, ડર), અને (3) ગુસ્સો (દા.ત., ધિક્કાર, જટિલ). તેમણે જાણ્યુ કે દુ: ખ અને ચિંતા એક મજબૂત પેટર્ન વિના સમગ્ર દિવસ દરમિયાન બદલાતો, પરંતુ સમગ્ર દિવસ દરમિયાન ગુસ્સો એક આંખે વધારો થયો હતો. પ્રમાણભૂત પદ્ધતિઓ ઉપયોગ કરીને તેને એક અણધારી ઘટના માટે તાત્કાલિક પ્રતિભાવ આવા ઉચ્ચ રીઝોલ્યુશન સમયરેખા હોય અશક્ય હશે: આ સંશોધન હંમેશા માહિતી સ્ત્રોત શક્તિ એક અદ્ભુત ઉદાહરણ હોય તેમ લાગે છે.
માત્ર એક વર્ષ બાદ, જો કે, સિન્થિયા Pury (2011) માહિતી પર વધુ કાળજીપૂર્વક જોવામાં. તેમણે શોધ્યું હતું કે માનવામાં ક્રોધિત સંદેશાઓ મોટી સંખ્યામાં એક પેજર દ્વારા પેદા કરવામાં આવ્યા હતા અને તેઓ બધા સમાન હતા. અહીં તે માનવામાં ક્રોધિત સંદેશાઓ જણાવ્યું હતું કે છે:
"રીબુટ એનટી મશીન કેબિનેટ [name] ને [name] ને [સ્થાન] જટિલ: [તારીખ અને સમય]"
આ સંદેશાઓ ક્રોધિત લેબલ કરવામાં આવ્યા હતા, કારણ કે તેઓ આ શબ્દ "જટિલ", કે જે સામાન્ય રીતે ગુસ્સો સૂચવે પરંતુ આ કિસ્સામાં નથી શકે સમાવેશ થાય છે. આ એક સ્વયંચાલિત પેજર દ્વારા પેદા સંદેશ દૂર સંપૂર્ણપણે દિવસ (આકૃતિ 2.2) દરમિયાન ગુસ્સો માં સ્પષ્ટ વધારો દૂર કરે છે. અન્ય શબ્દોમાં, મુખ્ય પરિણામ Back, Küfner, and Egloff (2010) એક પેજર એક આર્ટિફેક્ટ હતી. આ ઉદાહરણ સમજાવે છે કે, પ્રમાણમાં જટિલ અને અવ્યવસ્થિત માહિતી પ્રમાણમાં સરળ વિશ્લેષણ ગંભીરતાપૂર્વક ખોટું જાઓ ક્ષમતા ધરાવે છે.
એક વ્યાજબી સાવચેત સંશોધક દ્વારા ગંદા માહિતી કે એક અવાજ તરીકે અજાણતા જેમ બનાવવામાં આવેલ છે પેજર કરી શકે શોધી શકાય છે, ત્યાં પણ કેટલાક ઓનલાઇન સિસ્ટમો કે જે હેતુસર સ્પામર્સ આકર્ષે છે. આ સ્પામર્સ સક્રિય નકલી માહિતી પેદા, અને ઘણી વખત નફો કામ ખૂબ જ મુશ્કેલ દ્વારા પ્રેરિત તેમના સ્પામિંગ ગુપ્ત રાખવા. ઉદાહરણ તરીકે, ટ્વિટર પર રાજકીય પ્રવૃત્તિ ઓછામાં ઓછા કેટલાક વ્યાજબી આધુનિક સ્પામ, જેમાં કેટલાક રાજકીય કારણો ઈરાદાપૂર્વક વધુ લોકપ્રિય કરતાં તેઓ વાસ્તવિક છે જોવા કરવામાં આવે છે સમાવેશ થાય છે તેમ લાગે છે (Ratkiewicz et al. 2011) . માહિતી સાથે કામ સંશોધકોએ કે ઇરાદાપૂર્વક સ્પામ સમાવી શકે છે તેમના પ્રેક્ષકોને કે તેઓ શોધી અને સંબંધિત સ્પામ દૂર કરી છે શ્રદ્ધેય ના પડકાર સામનો કરે છે.
છેલ્લે, શું માનવામાં આવે છે ડર્ટી માહિતી તમારા સંશોધન પ્રશ્નો પર ગૂઢ રીતે આધાર રાખે છે શકે છે. ઉદાહરણ તરીકે, વિકિપીડિયા ઘણા સંપાદનો ઓટોમેટેડ બૉટો દ્વારા બનાવવામાં આવે છે (Geiger 2014) . તમે વિકિપીડિયા ઇકોલોજી રસ છે, તો પછી આ બૉટો મહત્વપૂર્ણ છે. પરંતુ, જો તમે કેવી રીતે મનુષ્યો વિકિપીડિયા માટે ફાળો રસ છે, આ આ બૉટો દ્વારા કરવામાં સંપાદનો બાકાત કરવો જોઇએ.
fooled કરવામાં આવી રહી ટાળવા માટે શ્રેષ્ઠ રીતે દ્વારા ગંદા માહિતી સમજવા માટે કેવી રીતે તમારા ડેટા, જેમ કે સરળ છૂટાછવાયા પ્લોટ બનાવવા, સરળ તપાસ વિશ્લેષણ કરવા માટે બનાવવામાં આવી હતી છે.