મોટા માહિતી સ્ત્રોત જંક અને સ્પામ સાથે લોડ કરી શકાય છે.
કેટલાક સંશોધકો માને છે કે મોટું ડેટા સ્રોત, ખાસ કરીને ઓનલાઈન સ્ત્રોતો, નૈસર્ગિક છે કારણ કે તે આપોઆપ એકત્રિત કરવામાં આવે છે. હકીકતમાં, મોટા ડેટા સ્ત્રોતો સાથે કામ કરતા લોકો જાણે છે કે તેઓ વારંવાર ગંદા છે . એટલે કે, તેઓ વારંવાર એવા ડેટાને શામેલ કરે છે જે સંશોધકોને રુચિના પ્રત્યક્ષ ક્રિયાઓ દર્શાવતા નથી. મોટાભાગના સામાજિક વૈજ્ઞાનિકો મોટા પાયે સોશિયલ સર્વેક્ષણ ડેટા સફાઈ કરવાની પ્રક્રિયાથી પહેલાથી જ પરિચિત છે, પરંતુ મોટું ડેટા સ્ત્રોતો સફાઈ વધુ મુશ્કેલ લાગે છે. મને લાગે છે કે આ મુશ્કેલીનો અંતિમ સ્રોત એ છે કે મોટાભાગનાં મોટાભાગનાં ડેટા સ્રોતો સંશોધન માટે ઉપયોગમાં લેવાના હેતુથી નથી, અને તેથી તે એકત્રિત કરવામાં, સંગ્રહિત કરવામાં અને દસ્તાવેજમાં નોંધાયેલી નથી કે જે ડેટા સફાઈની સુવિધા આપે છે.
ગંદા ડિજિટલ ટ્રેસ ડેટાના જોખમો બેક એન્ડ સાથીઓ (2010) 11 સપ્ટેમ્બર, 2001 ના હુમલાના ભાવનાત્મક પ્રતિભાવનો અભ્યાસ કરવામાં આવ્યો છે, જેનો મેં થોડા સમય પહેલા પ્રકરણમાં ઉલ્લેખ કર્યો હતો. સંશોધકો ખાસ કરીને મહિના અથવા વર્ષ સુધી એકત્રિત પૂર્વવર્તી માહિતીનો ઉપયોગ કરીને દુ: ખદ ઘટનાઓના પ્રતિભાવનો અભ્યાસ કરે છે. પરંતુ, બેક અને સહકાર્યકરોએ ડિજિટલ ટ્રેસનો હંમેશા સ્રોત મેળવ્યો છે- ટાઇમસ્ટેમ્પડ, 85,000 અમેરિકન પેજર્સથી સ્વયંચાલિત રેકોર્ડ કરેલા સંદેશા-અને આને કારણે તેમને વધુ સારી સમયના સમયક્રમ પર ભાવનાત્મક પ્રતિભાવનો અભ્યાસ કરવા સક્ષમ બનાવ્યું હતું. તેઓ (1) ઉદાસી (દા.ત., "રડતા" અને "દુઃખ"), (2) અસ્વસ્થતાથી સંબંધિત શબ્દોની ટકાવારી દ્વારા પેજર સંદેશાની લાગણીશીલ સામગ્રીને કોડિંગ દ્વારા સપ્ટેમ્બર 11 ની એક મિનીટિક પ્રતિ મિનિટ લાગણીશીલ સમયરેખા બનાવી છે ( દા.ત., "ચિંતિત" અને "ભયભીત"), અને (3) ગુસ્સો (દા.ત., "નફરત" અને "જટિલ"). તેઓ જાણતા હતા કે સમગ્ર દિવસ દરમિયાન ઉદાસી અને ચિંતામાં બદલાવ આવે છે, પરંતુ સમગ્ર દિવસ દરમિયાન ગુસ્સામાં નોંધપાત્ર વધારો થયો છે. આ સંશોધન હંમેશાંના ડેટા સ્રોતોની શક્તિનો એક અદ્ભુત ઉદાહરણ છે: જો પરંપરાગત ડેટા સ્રોતોનો ઉપયોગ કરવામાં આવ્યો હોય તો, અણધારી ઇવેન્ટના તાત્કાલિક પ્રતિસાદની આટલી ઉચ્ચ રીઝોલ્યુશન સમયરેખા મેળવવાનું અશક્ય હતું.
માત્ર એક વર્ષ પછી, જોકે, સિન્થિયા પ્યુરી (2011) ડેટાને વધુ કાળજીપૂર્વક જોતા હતા તેણીએ શોધ્યું કે મોટાભાગના ગુસ્સો સંદેશાઓ એક જ પેજર દ્વારા જનરેટ કરવામાં આવ્યા હતા અને તે બધા સમાન હતા. અહીં તે માનવામાં ગુસ્સો સંદેશાઓ શું કહ્યું છે:
"રીબુટ એનટી મશીન કેબિનેટ [name] ને [name] ને [સ્થાન] જટિલ: [તારીખ અને સમય]"
આ સંદેશાને ગુસ્સામાં લેબલ આપવામાં આવ્યું હતું કારણ કે તેમાં "સકારાત્મક" શબ્દનો સમાવેશ થતો હતો જે સામાન્ય રીતે ગુસ્સાને સૂચવી શકે છે પરંતુ આ કિસ્સામાં નથી. આ સિંગલ સ્વયંચાલિત પેજર દ્વારા જનરેટ કરેલા સંદેશાઓને સંપૂર્ણપણે દૂર કરવાથી દિવસ દરમિયાન (2 આકૃતિ 2.4) ગુસ્સામાં સ્પષ્ટ વધારો દૂર કરવામાં આવે છે. બીજા શબ્દોમાં, Back, Küfner, and Egloff (2010) મુખ્ય પરિણામ એક Back, Küfner, and Egloff (2010) આર્ટિફેક્ટ હતો. જેમ જેમ આ ઉદાહરણ સમજાવે છે, પ્રમાણમાં જટિલ અને અવ્યવસ્થિત ડેટાના પ્રમાણમાં સરળ વિશ્લેષણમાં ગંભીરતાપૂર્વક ખોટી જવાની ક્ષમતા છે.
અશ્લીલ ડેટા કે જે અજાણતા રીતે બનાવવામાં આવે છે- જેમ કે એક ઘોંઘાટ પેજરથી - એક નોંધપાત્ર સાવચેત સંશોધક દ્વારા શોધી શકાય છે, ત્યાં કેટલીક ઓનલાઈન સિસ્ટમ્સ પણ છે જે ઇરાદાપૂર્વકના સ્પામર્સને આકર્ષિત કરે છે. આ સ્પામર્સ નકલી માહિતી સક્રિય રીતે બનાવતા હોય છે, અને ઘણી વાર તેમના સ્પામિંગને છુપાવી રાખવા માટે ખૂબ જ મુશ્કેલ હોય છે. ઉદાહરણ તરીકે, ટ્વિટર પર રાજકીય પ્રવૃત્તિમાં ઓછામાં ઓછા કેટલાક વ્યાજબી સ્પામ શામેલ હોવાનું જણાય છે, જેમાં કેટલાક રાજકીય કારણો ઈરાદાપૂર્વક કરવામાં આવે છે જે વાસ્તવમાં તેઓ કરતા વધુ લોકપ્રિય જોવા માટે છે (Ratkiewicz et al. 2011) . કમનસીબે, આ હેતુસરનું સ્પામ દૂર કરવું ખૂબ મુશ્કેલ હોઈ શકે છે.
અલબત્ત, જે ગંદા માહિતી ગણવામાં આવે છે તે, સંશોધન પ્રશ્ન પર, ભાગમાં, આધાર આપી શકે છે. ઉદાહરણ તરીકે, વિકિપિડિયામાં ઘણા સંપાદનો આપોઆપ બૉટ્સ (Geiger 2014) દ્વારા બનાવવામાં આવે છે. જો તમે વિકિપીડિયાના ઇકોલોજીમાં રસ ધરાવો છો, તો પછી આ બોટ-બનાવતા સંપાદનો મહત્વપૂર્ણ છે. પરંતુ જો તમે કેવી રીતે લોકો વિકિપીડિયા પર યોગદાન આપે છે તેમાં રસ છે, તો પછી બોટ-બનાવતા સંપાદનો બાકાત રાખવો જોઈએ.
ત્યાં કોઈ એક આંકડાકીય તકનીક અથવા અભિગમ નથી કે જે ખાતરી કરી શકે કે તમે તમારી ગંદા માહિતીને પૂરતા પ્રમાણમાં સાફ કર્યું છે. અંતે, મને લાગે છે કે ગંદા માહિતી દ્વારા fooled રહી ટાળવા માટે શ્રેષ્ઠ માર્ગ એ છે કે તમારા ડેટા કેવી રીતે બનાવવામાં આવ્યા હતા તેટલું શક્ય સમજવું.