2.3.2.6 ડર્ટી

મોટા માહિતી સ્ત્રોત જંક અને સ્પામ સાથે લોડ કરી શકાય છે.

કેટલાક સંશોધકો એવું માને છે કે મોટા માહિતી સ્ત્રોત, ખાસ કરીને ઓનલાઇન સ્ત્રોતોમાંથી તે ફેલાતા હોય છે, કારણ કે તેઓ આપોઆપ ભેગા કરવામાં આવે છે. હકીકતમાં, જે લોકો મોટા માહિતી સ્રોતો સાથે કામ કર્યું છે ખબર છે કે તેઓ વારંવાર ગંદા હોય છે. એટલે કે, તેઓ વારંવાર માહિતી છે કે સંશોધકો રસ વાસ્તવિક ક્રિયાઓ પર અસર કરતા નથી સમાવેશ થાય છે. ઘણાં સામાજિક વિજ્ઞાનીઓ પહેલેથી જ મોટા પાયે સામાજિક મોજણી માહિતી સફાઈ, પરંતુ મોટા માહિતી સ્ત્રોત સફાઈ બે કારણો માટે વધુ મુશ્કેલ પ્રક્રિયા સાથે પરિચિત હોય છે: 1) તેઓ 2) સંશોધકો સંશોધકો માટે સંશોધકો અને દ્વારા બનાવવામાં આવી ન હતી સામાન્ય રીતે કેવી રીતે ઓછી સમજ છે તેઓ બનાવવામાં આવી હતી.

ડર્ટી ડિજિટલ ટ્રેસ માહિતી જોખમો અને પાછળ 'સાથીદારો દ્વારા સમજાવી શકાય છે (2010) 11 સપ્ટેમ્બર, ના હુમલા માટે ભાવનાત્મક પ્રતિભાવ 2001 સંશોધકોએ ખાસ કરીને મહિનાઓ કે વર્ષો સુધી એકત્રિત પાછલી માહિતી મદદથી દુ: ખદ ઘટનાઓ જવાબ અભ્યાસ અભ્યાસ. પરંતુ, પાછા અને સહકર્મીઓ 85,000 અમેરિકન હંમેશા પર ડિજિટલ નિશાનો-timestamped સ્ત્રોત, આપમેળે રેકોર્ડ સંદેશાઓ મળી પેજર અને આ સંશોધકો એક ખૂબ સુંદર સમયગાળા પર ભાવનાત્મક પ્રતિભાવ અભ્યાસ માટે સક્રિય કરો. પાછળ અને સહકર્મીઓને (1) ઉદાસી સંબંધિત શબ્દો ટકાવારી દ્વારા પેજર સંદેશાઓ ભાવનાત્મક સામગ્રી કોડિંગ દ્વારા એક મિનિટ દ્વારા મિનિટ 11 સપ્ટેમ્બર ભાવનાત્મક સમયરેખા બનાવવામાં (દા.ત., રડતી, દુઃખ), (2) ચિંતા (દા.ત., ચિંતા, ડર), અને (3) ગુસ્સો (દા.ત., ધિક્કાર, જટિલ). તેમણે જાણ્યુ કે દુ: ખ અને ચિંતા એક મજબૂત પેટર્ન વિના સમગ્ર દિવસ દરમિયાન બદલાતો, પરંતુ સમગ્ર દિવસ દરમિયાન ગુસ્સો એક આંખે વધારો થયો હતો. પ્રમાણભૂત પદ્ધતિઓ ઉપયોગ કરીને તેને એક અણધારી ઘટના માટે તાત્કાલિક પ્રતિભાવ આવા ઉચ્ચ રીઝોલ્યુશન સમયરેખા હોય અશક્ય હશે: આ સંશોધન હંમેશા માહિતી સ્ત્રોત શક્તિ એક અદ્ભુત ઉદાહરણ હોય તેમ લાગે છે.

માત્ર એક વર્ષ બાદ, જો કે, સિન્થિયા Pury (2011) માહિતી પર વધુ કાળજીપૂર્વક જોવામાં. તેમણે શોધ્યું હતું કે માનવામાં ક્રોધિત સંદેશાઓ મોટી સંખ્યામાં એક પેજર દ્વારા પેદા કરવામાં આવ્યા હતા અને તેઓ બધા સમાન હતા. અહીં તે માનવામાં ક્રોધિત સંદેશાઓ જણાવ્યું હતું કે છે:

"રીબુટ એનટી મશીન કેબિનેટ [name] ને [name] ને [સ્થાન] જટિલ: [તારીખ અને સમય]"

આ સંદેશાઓ ક્રોધિત લેબલ કરવામાં આવ્યા હતા, કારણ કે તેઓ આ શબ્દ "જટિલ", કે જે સામાન્ય રીતે ગુસ્સો સૂચવે પરંતુ આ કિસ્સામાં નથી શકે સમાવેશ થાય છે. આ એક સ્વયંચાલિત પેજર દ્વારા પેદા સંદેશ દૂર સંપૂર્ણપણે દિવસ (આકૃતિ 2.2) દરમિયાન ગુસ્સો માં સ્પષ્ટ વધારો દૂર કરે છે. અન્ય શબ્દોમાં, મુખ્ય પરિણામ Back, Küfner, and Egloff (2010) એક પેજર એક આર્ટિફેક્ટ હતી. આ ઉદાહરણ સમજાવે છે કે, પ્રમાણમાં જટિલ અને અવ્યવસ્થિત માહિતી પ્રમાણમાં સરળ વિશ્લેષણ ગંભીરતાપૂર્વક ખોટું જાઓ ક્ષમતા ધરાવે છે.

આકૃતિ 2.2: 11 સપ્ટેમ્બર, 2001 ના અભ્યાસક્રમ 85,000 અમેરિકન પેજર પર આધારિત પર ગુસ્સો માં અંદાજિત પ્રવાહો (પાછા, Küfner, અને Egloff 2010; Pury 2011; પાછા, Küfner, અને Egloff 2011). મૂળભૂત રીતે, પાછળ, Küfner, અને Egloff (2010) સમગ્ર દિવસ દરમિયાન ગુસ્સો વધી એક પેટર્ન અહેવાલ. CRITICAL: [તારીખ અને સમય] [સ્થાન] પર કેબિનેટમાં રીબુટ એનટી મશીન [name] ને [Name]: જો કે, આ દેખીતા ક્રોધિત સંદેશાઓ મોટા ભાગના એક પેજર કે વારંવાર નીચેનો સંદેશો બહાર મોકલવામાં દ્વારા પેદા કરવામાં આવ્યા હતા. આ સંદેશ સાથે દૂર, ગુસ્સો માં સ્પષ્ટ વધારો અદૃશ્ય થઈ જાય છે (Pury 2011; પાછા, Küfner, અને Egloff 2011). આ આંકડો Pury (2011) માં ફિગ 1B એક પ્રજનન છે.

આકૃતિ 2.2: 11 સપ્ટેમ્બર, 2001 ના અભ્યાસક્રમ 85,000 અમેરિકન પેજર પર આધારિત પર ગુસ્સો માં અંદાજિત વલણો (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . મૂળભૂત રીતે, Back, Küfner, and Egloff (2010) સમગ્ર દિવસ દરમિયાન ગુસ્સો વધી એક પેટર્ન અહેવાલ. "રીબુટ એનટી મશીન [name] કેબિનેટ [name] ને [સ્થાન] પર: CRITICAL: [તારીખ અને સમય]" જો કે, આ દેખીતા ક્રોધિત સંદેશાઓ મોટા ભાગના એક પેજર કે વારંવાર નીચેનો સંદેશો બહાર મોકલવામાં દ્વારા પેદા કરવામાં આવ્યા હતા. આ સંદેશ સાથે દૂર, ગુસ્સો માં સ્પષ્ટ વધારો અદૃશ્ય થઈ જાય છે (Pury 2011; Back, Küfner, and Egloff 2011) . આ આંકડો ફિગ 1B એક પ્રજનન છે Pury (2011) .

એક વ્યાજબી સાવચેત સંશોધક દ્વારા ગંદા માહિતી કે એક અવાજ તરીકે અજાણતા જેમ બનાવવામાં આવેલ છે પેજર કરી શકે શોધી શકાય છે, ત્યાં પણ કેટલાક ઓનલાઇન સિસ્ટમો કે જે હેતુસર સ્પામર્સ આકર્ષે છે. આ સ્પામર્સ સક્રિય નકલી માહિતી પેદા, અને ઘણી વખત નફો કામ ખૂબ જ મુશ્કેલ દ્વારા પ્રેરિત તેમના સ્પામિંગ ગુપ્ત રાખવા. ઉદાહરણ તરીકે, ટ્વિટર પર રાજકીય પ્રવૃત્તિ ઓછામાં ઓછા કેટલાક વ્યાજબી આધુનિક સ્પામ, જેમાં કેટલાક રાજકીય કારણો ઈરાદાપૂર્વક વધુ લોકપ્રિય કરતાં તેઓ વાસ્તવિક છે જોવા કરવામાં આવે છે સમાવેશ થાય છે તેમ લાગે છે (Ratkiewicz et al. 2011) . માહિતી સાથે કામ સંશોધકોએ કે ઇરાદાપૂર્વક સ્પામ સમાવી શકે છે તેમના પ્રેક્ષકોને કે તેઓ શોધી અને સંબંધિત સ્પામ દૂર કરી છે શ્રદ્ધેય ના પડકાર સામનો કરે છે.

છેલ્લે, શું માનવામાં આવે છે ડર્ટી માહિતી તમારા સંશોધન પ્રશ્નો પર ગૂઢ રીતે આધાર રાખે છે શકે છે. ઉદાહરણ તરીકે, વિકિપીડિયા ઘણા સંપાદનો ઓટોમેટેડ બૉટો દ્વારા બનાવવામાં આવે છે (Geiger 2014) . તમે વિકિપીડિયા ઇકોલોજી રસ છે, તો પછી આ બૉટો મહત્વપૂર્ણ છે. પરંતુ, જો તમે કેવી રીતે મનુષ્યો વિકિપીડિયા માટે ફાળો રસ છે, આ આ બૉટો દ્વારા કરવામાં સંપાદનો બાકાત કરવો જોઇએ.

fooled કરવામાં આવી રહી ટાળવા માટે શ્રેષ્ઠ રીતે દ્વારા ગંદા માહિતી સમજવા માટે કેવી રીતે તમારા ડેટા, જેમ કે સરળ છૂટાછવાયા પ્લોટ બનાવવા, સરળ તપાસ વિશ્લેષણ કરવા માટે બનાવવામાં આવી હતી છે.