ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਜੰਕ ਅਤੇ ਸਪੈਮ ਨਾਲ ਲੋਡ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.
ਕੁਝ ਵਿਗਿਆਨੀ ਮੰਨਦੇ ਹਨ ਕਿ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ, ਖਾਸ ਕਰਕੇ ਆਨਲਾਈਨ ਸਰੋਤ ਤੱਕ ਜਿਹੜੇ, ਮੁੱਢਲਾ ਹਨ, ਕਿਉਕਿ ਉਹ ਖੁਦ ਹੀ ਇਕੱਠੇ ਕੀਤੇ ਹਨ. ਅਸਲ ਵਿਚ, ਉਹ ਲੋਕ ਜੋ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਦੇ ਨਾਲ ਕੰਮ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਪਤਾ ਉਹ ਅਕਸਰ ਗੰਦੇ ਹਨ. ਜੋ ਕਿ ਹੈ, ਉਹ ਅਕਸਰ ਡਾਟਾ ਖੋਜਕਾਰ ਨੂੰ ਵਿਆਜ ਦੀ ਅਸਲੀ ਕਾਰਵਾਈ ਪ੍ਰਗਟ ਨਾ ਕਰਦੇ ਸ਼ਾਮਲ ਹਨ. ਕਈ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਹੀ ਵੱਡੇ ਪੈਮਾਨੇ ਸਮਾਜਿਕ ਸਰਵੇਖਣ ਡਾਟਾ ਦੀ ਸਫਾਈ, ਪਰ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਦੀ ਸਫਾਈ ਹੈ ਦੋ ਕਾਰਨ ਲਈ ਹੋਰ ਵੀ ਮੁਸ਼ਕਲ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੇ ਨਾਲ ਜਾਣੂ ਹਨ: 1) ਉਹ 2) ਖੋਜਕਾਰ ਖੋਜਕਾਰ ਲਈ ਖੋਜਕਾਰ ਅਤੇ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਨਾ ਆਮ ਤੌਰ 'ਤੇ ਨੂੰ ਘੱਟ ਸਮਝ ਹੈ ਉਹ ਨੂੰ ਬਣਾਇਆ ਗਿਆ ਸੀ.
ਗੰਦੇ ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਡਾਟਾ ਦੇ ਖ਼ਤਰੇ ਵਾਪਸ ਅਤੇ 'ਸਾਥੀ ਦੁਆਰਾ ਦਰਸਾਇਆ ਰਹੇ ਹਨ (2010) 11 ਸਤੰਬਰ, ਦੇ ਹਮਲੇ ਨੂੰ ਜਜ਼ਬਾਤੀ ਜਵਾਬ 2001 ਖੋਜਕਾਰ ਆਮ ਤੌਰ ਮਹੀਨੇ ਜ ਵੀ ਸਾਲ ਵੱਧ ਇਕੱਠੇ ਕੀਤੇ ਵਿਆਪੀ ਡਾਟਾ ਵਰਤ ਦੁਖਦਾਈ ਘਟਨਾ ਦਾ ਜਵਾਬ ਦਾ ਅਧਿਐਨ ਦਾ ਅਧਿਐਨ. ਪਰ, ਵਾਪਸ ਅਤੇ ਸਾਥੀ 85,000 ਅਮਰੀਕੀ ਇੱਕ ਹਮੇਸ਼ਾ-'ਤੇ ਡਿਜ਼ੀਟਲ ਟਰੇਸ-ਮੋਹਰ ਦੇ ਸਰੋਤ, ਆਪ ਹੀ ਦਰਜ ਸੁਨੇਹੇ ਨੂੰ ਮਿਲਿਆ ਪੇਜ਼ਰ-ਅਤੇ ਇਸ ਖੋਜਕਾਰ ਇੱਕ ਬਹੁਤ ਫਾਈਨਰ ਅਤੇਲਾਗਤ ਤੇ ਜਜ਼ਬਾਤੀ ਜਵਾਬ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਯੋਗ ਹੈ. ਵਾਪਸ ਅਤੇ ਸਾਥੀ ਨੂੰ (1) ਦੁੱਖ ਸਬੰਧਤ ਸ਼ਬਦ ਦੀ ਪ੍ਰਤੀਸ਼ਤਤਾ ਦੇ ਕੇ ਪੇਜ਼ਰ ਸੁਨੇਹੇ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮੱਗਰੀ ਨੂੰ ਕੋਡਿੰਗ ਦੇ ਕੇ ਇੱਕ ਮਿੰਟ-ਕੇ-ਮਿੰਟ ਸਤੰਬਰ 11 ਦੇ ਭਾਵਨਾਤਮਕ ਟਾਈਮਲਾਈਨ ਬਣਾਇਆ (ਉਦਾਹਰਨ ਲਈ, ਰੋਣਾ, ਸੋਗ), (2) ਚਿੰਤਾ (ਉਦਾਹਰਨ ਲਈ, ਚਿੰਤਾ, ਡਰ), ਅਤੇ (3) ਕ੍ਰੋਧ (ਉਦਾਹਰਨ ਲਈ, ਨਫ਼ਰਤ, ਨਾਜ਼ੁਕ). ਉਹ ਪਤਾ ਲੱਗਿਆ ਹੈ ਕਿ ਉਦਾਸੀ ਅਤੇ ਚਿੰਤਾ ਮਜ਼ਬੂਤ ਪੈਟਰਨ ਬਿਨਾ ਦਿਨ ਭਰ ਵਿਚ ਉਤਰਾਅ, ਪਰ ਦਿਨ ਭਰ ਕ੍ਰੋਧ ਵਿੱਚ ਇੱਕ ਖਟਕਣ ਵਾਧਾ ਸੀ. ਮਿਆਰੀ ਢੰਗ ਵਰਤ ਕੇ ਇਸ ਨੂੰ ਅਚਾਨਕ ਘਟਨਾ ਨੂੰ ਤੁਰੰਤ ਜਵਾਬ ਦੇ ਅਜਿਹੇ ਇੱਕ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਟਾਈਮਲਾਈਨ ਕੋਲ ਕਰਨ ਲਈ ਅਸੰਭਵ ਹੋ ਜਾਵੇਗਾ: ਇਹ ਖੋਜ ਹਮੇਸ਼ਾ-'ਤੇ ਡਾਟਾ ਸਰੋਤ ਦੀ ਸ਼ਕਤੀ ਦਾ ਇੱਕ ਸ਼ਾਨਦਾਰ ਮਿਸਾਲ ਹੋਣ ਦੀ ਲਗਦੀ ਹੈ.
ਬਸ ਇੱਕ ਸਾਲ ਬਾਅਦ ਵਿੱਚ, ਪਰ, Cynthia Pury (2011) ਡਾਟਾ ਤੇ ਹੋਰ ਧਿਆਨ ਨਾਲ ਦੇਖਿਆ. ਉਸ ਨੇ ਦੇਖਿਆ ਕਿ ਸ਼ਾਇਦ ਗੁੱਸੇ ਸੁਨੇਹੇ ਦੀ ਇੱਕ ਵੱਡੀ ਗਿਣਤੀ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਪੇਜ਼ਰ ਕੇ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ ਅਤੇ ਉਹ ਸਾਰੇ ਇੱਕੋ ਸਨ. ਇੱਥੇ ਕੀ ਹੈ ਜਿਹੜੇ ਸ਼ਾਇਦ ਗੁੱਸੇ ਸੁਨੇਹੇ ਨੇ ਕਿਹਾ ਹੈ:
"ਚਾਲੂ NT ਮਸ਼ੀਨ ਵਿਚ ਕੈਬਨਿਟ [name] ਨੂੰ [name] ਨੂੰ [ਸਥਿਤੀ ਦੇ]: ਨਾਜ਼ੁਕ: [ਮਿਤੀ ਅਤੇ ਟਾਈਮ]"
ਇਹ ਸੁਨੇਹੇ ਗੁੱਸੇ ਦਾ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਸੀ, ਕਿਉਕਿ ਉਹ ਸ਼ਬਦ "ਨਾਜ਼ੁਕ", ਜੋ ਕਿ ਆਮ ਤੌਰ 'ਤੇ ਗੁੱਸੇ ਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਸ ਮਾਮਲੇ' ਚ ਨਾ ਕਰਦਾ ਹੈ ਕਰ ਸਕਦਾ ਹੈ ਵੀ ਸ਼ਾਮਲ ਸੀ. ਇਸ ਸਿੰਗਲ ਆਟੋਮੈਟਿਕ ਪੇਜ਼ਰ ਕੇ ਤਿਆਰ ਸੁਨੇਹੇ ਨੂੰ ਹਟਾਉਣ ਨੂੰ ਪੂਰੀ ਦਿਨ (ਚਿੱਤਰ 2.2) ਦੇ ਕੋਰਸ 'ਤੇ ਗੁੱਸੇ ਵਿੱਚ ਜ਼ਾਹਰ ਵਾਧਾ ਖਤਮ ਕਰਦਾ ਹੈ. ਹੋਰ ਸ਼ਬਦ ਵਿੱਚ, ਵਿੱਚ ਮੁੱਖ ਨਤੀਜੇ ਦੇ Back, Küfner, and Egloff (2010) ਇਕ ਪੇਜ਼ਰ ਦਾ ਇੱਕ ਲੱਭਤ ਸੀ. ਇਸ ਉਦਾਹਰਨ ਲੱਗਦਾ ਹੈ ਦੇ ਰੂਪ ਵਿੱਚ, ਮੁਕਾਬਲਤਨ ਗੁੰਝਲਦਾਰ ਹੈ ਅਤੇ ਘੜਮੱਸ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਗੰਭੀਰਤਾ ਨਾਲ ਗਲਤ ਹੋ ਜਾਣ ਦਾ ਸਮਰੱਥਾ ਹੈ.
ਨੂੰ ਇੱਕ ਮੁਨਾਸਬ ਧਿਆਨ ਖੋਜਕਾਰ ਕੇ ਗੰਦੇ ਡਾਟਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਰੌਲੇ ਤੱਕ ਦੇ ਤੌਰ ਤੇ ਅਣਜਾਣੇ-ਅਜਿਹੇ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਪੇਜ਼ਰ-ਕਰ ਸਕਦਾ ਹੈ ਖੋਜਿਆ ਜਾ ਰਿਹਾ ਹੈ, ਉਥੇ ਇਹ ਵੀ ਕੁਝ ਆਨਲਾਈਨ ਸਿਸਟਮ ਹੈ, ਜੋ ਕਿ ਬੁਝ spammers ਆਕਰਸ਼ਿਤ ਹੁੰਦੇ ਹਨ. ਇਹ spammers ਸਰਗਰਮੀ ਜਾਅਲੀ ਡਾਟਾ ਪੈਦਾ ਹੈ, ਅਤੇ-ਅਕਸਰ ਲਾਭ-ਕੰਮ ਦਾ ਬਹੁਤ ਹੀ ਸਖ਼ਤ ਕੇ ਆਪਣੇ ਕੂੜੇ ਨੂੰ ਗੁਪਤ ਰੱਖਣ ਲਈ. ਮਿਸਾਲ ਲਈ, ਟਵਿੱਟਰ 'ਤੇ ਸਿਆਸੀ ਸਰਗਰਮੀ ਨੂੰ ਘੱਟੋ-ਘੱਟ ਕੁਝ ਵਾਜਬ ਵਧੀਆ ਸਪੈਮ, ਜਿਸ ਨੂੰ ਕੁਝ ਸਿਆਸੀ ਕਾਰਨ ਬੁੱਝ ਹੋਰ ਪ੍ਰਸਿੱਧ ਵੱਧ ਉਹ ਅਸਲ ਹਨ ਵੇਖਣ ਲਈ ਕੀਤੇ ਗਏ ਹਨ, ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਲੱਗਦਾ ਹੈ (Ratkiewicz et al. 2011) . ਡਾਟਾ ਦੇ ਨਾਲ ਕੰਮ ਕਰ ਖੋਜਕਾਰ, ਜੋ ਕਿ ਬੁਝ ਸਪੈਮ ਸ਼ਾਮਿਲ ਹੋ ਸਕਦੇ ਹਨ ਨੂੰ ਆਪਣੇ ਹਾਜ਼ਰੀਨ ਨੂੰ ਹੈ, ਜੋ ਕਿ ਉਹ ਖੋਜਿਆ ਗਿਆ ਹੈ ਅਤੇ ਸੰਬੰਧਤ ਸਪੈਮ ਨੂੰ ਹਟਾ ਦਿੱਤਾ ਹੈ ਮਨਾਉਣ ਦੀ ਚੁਣੌਤੀ ਦਾ ਸਾਹਮਣਾ.
ਅੰਤ ਵਿੱਚ, ਕੀ ਮੰਨਿਆ ਗਿਆ ਹੈ ਗੰਦੇ ਡਾਟਾ ਆਪਣੇ ਖੋਜ ਸਵਾਲ 'ਤੇ ਸੂਖਮ ਢੰਗ ਨਿਰਭਰ ਕਰ ਸਕਦਾ ਹੈ. ਮਿਸਾਲ ਲਈ, ਇਕ ਅਜ਼ਾਦ ਕਰਨ ਲਈ ਬਹੁਤ ਸਾਰੇ ਸੰਪਾਦਨ ਆਟੋਮੈਟਿਕ ਬੋਟ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਹਨ (Geiger 2014) . ਤੁਹਾਨੂੰ ਵਿਕੀਪੀਡੀਆ ਦੀ ਵਾਤਾਵਰਣ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਨ, ਜੇ, ਫਿਰ ਇਹ ਬੋਟ ਮਹੱਤਵਪੂਰਨ ਹਨ. ਪਰ, ਜੇ ਤੁਹਾਡੇ ਵਿੱਚ ਹੈ ਇਨਸਾਨ ਵਿਕੀਪੀਡੀਆ ਲਈ ਯੋਗਦਾਨ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਨ, ਇਹ ਇਹ ਬੋਟ ਦੁਆਰਾ ਕੀਤੀ ਵਖਾਓ ਬਾਹਰ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ.
ਧੋਖਾ ਕੀਤਾ ਜਾ ਰਿਹਾ ਬਚਣ ਲਈ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਗੰਦੇ ਡਾਟਾ ਨੂੰ ਸਮਝਣ ਲਈ ਆਪਣੇ ਡਾਟੇ ਨੂੰ ਅਜਿਹੇ ਹੀ ਸਧਾਰਨ ਸਕੈਟਰ ਪਲੌਟ ਬਣਾਉਣ ਦੇ ਤੌਰ ਤੇ, ਸਧਾਰਨ ਇਹੋਕਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ ਹਨ.