ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਜੰਕ ਅਤੇ ਸਪੈਮ ਨਾਲ ਲੋਡ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.
ਕੁਝ ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ, ਖਾਸ ਕਰਕੇ ਔਨਲਾਈਨ ਸਰੋਤ, ਮੂਲ ਹਨ ਕਿਉਂਕਿ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ-ਆਪ ਇਕੱਠਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ. ਅਸਲ ਵਿੱਚ, ਜਿਨ੍ਹਾਂ ਲੋਕਾਂ ਨੇ ਵੱਡੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਨਾਲ ਕੰਮ ਕੀਤਾ ਹੈ ਉਹ ਜਾਣਦੇ ਹਨ ਕਿ ਉਹ ਅਕਸਰ ਗੰਦੇ ਹੁੰਦੇ ਹਨ. ਭਾਵ, ਉਹ ਅਕਸਰ ਉਹ ਅਜਿਹੇ ਡੇਟਾ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ਜੋ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਦਿਲਚਸਪੀ ਦੀ ਅਸਲੀ ਕਿਰਿਆ ਨੂੰ ਪ੍ਰਭਾਵਤ ਨਹੀਂ ਕਰਦੇ. ਜ਼ਿਆਦਾਤਰ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਸੋਸ਼ਲ ਸਰਵੇਖਣ ਡਾਟਾ ਨੂੰ ਸਾਫ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਜਾਣਦੇ ਹਨ, ਪਰ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਸਫਾਈ ਵਧੇਰੇ ਔਖੀ ਲਗਦੀ ਹੈ. ਮੈਨੂੰ ਲਗਦਾ ਹੈ ਕਿ ਇਸ ਮੁਸ਼ਕਲ ਦਾ ਅੰਤਮ ਸਰੋਤ ਇਹ ਹੈ ਕਿ ਇਹਨਾਂ ਵਿੱਚੋਂ ਬਹੁਤ ਸਾਰੇ ਵੱਡੇ ਪੱਧਰ ਦੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਖੋਜ ਦੇ ਲਈ ਨਹੀਂ ਕੀਤੀ ਜਾਣੀ ਚਾਹੀਦੀ ਸੀ, ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਉਹ ਇਕੱਤਰ ਕੀਤੇ, ਸਟੋਰ ਕੀਤੇ ਅਤੇ ਦਸਤਾਵੇਜ਼ ਦੇ ਰੂਪ ਵਿੱਚ ਨਹੀਂ ਜਾਂਦੇ ਜਿਸ ਨਾਲ ਡਾਟਾ ਸਫਾਈ ਦੀ ਸੁਵਿਧਾ ਹੁੰਦੀ ਹੈ.
ਗੰਦੇ ਡਿਜੀਟਲ ਟਰੇਸ ਡੇਟਾ ਦੇ ਖ਼ਤਰਿਆਂ ਨੂੰ ਬੈਕ ਅਤੇ ਸਾਥੀ ' (2010) ਦੁਆਰਾ ਦਰਸਾਇਆ ਗਿਆ ਹੈ 11 ਸਤੰਬਰ 2001 ਦੇ ਹਮਲੇ ਦੇ ਭਾਵਨਾਤਮਕ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦਾ ਅਧਿਐਨ, ਜਿਸ ਬਾਰੇ ਮੈਂ ਥੋੜੇ ਸਮੇਂ ਵਿੱਚ ਇਸ ਅਧਿਆਇ ਵਿੱਚ ਜ਼ਿਕਰ ਕੀਤਾ ਸੀ. ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਖਾਸ ਤੌਰ 'ਤੇ ਮਹੀਨਿਆਂ ਜਾਂ ਸਾਲਾਂ ਤੋਂ ਇਕੱਤਰ ਕੀਤੇ ਪਿਛੋਕੜ ਵਾਲੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦੁਖਦਾਈ ਘਟਨਾਵਾਂ ਦੇ ਜਵਾਬ ਦਾ ਅਧਿਐਨ ਕੀਤਾ. ਪਰ, ਵਾਪਸ ਅਤੇ ਸਹਿਯੋਗੀਆਂ ਨੂੰ ਡਿਜੀਟਲ ਟਰੇਸ ਦਾ ਇੱਕ ਹਮੇਸ਼ਾ-ਸਦਾ ਲਈ ਸ੍ਰੋਤ ਮਿਲ ਗਿਆ- ਟਾਈਮਸਟੈਪਡ, 85,000 ਅਮਰੀਕੀ ਪੇਜ਼ਰਾਂ ਦੇ ਆਪਣੇ ਆਪ ਰਿਕਾਰਡ ਕੀਤੇ ਗਏ ਸੁਨੇਹੇ- ਅਤੇ ਇਸ ਨੇ ਉਹਨਾਂ ਨੂੰ ਬਹੁਤ ਵਧੀਆ ਸਮਾਂ-ਸੀਮਾ ਤੇ ਭਾਵਨਾਤਮਕ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦਾ ਅਧਿਐਨ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਇਆ. ਉਨ੍ਹਾਂ ਨੇ (1) ਉਦਾਸੀ (ਉਦਾਹਰਨ ਲਈ "ਰੋਣ" ਅਤੇ "ਦੁੱਖ"), (2) ਚਿੰਤਾ ਨਾਲ ਸੰਬੰਧਿਤ ਸ਼ਬਦਾਂ ਦੀ ਪ੍ਰਤੀਸ਼ਤ ਦੁਆਰਾ ਪੇਜਰ ਸੁਨੇਹਿਆਂ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮਗਰੀ ਨੂੰ ਕੋਡਿੰਗ ਕਰਕੇ 11 ਸਤੰਬਰ ਦੀ ਇਕ ਮਿੰਟ ਪ੍ਰਤੀ ਮਿੰਟ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮੇਂ ਦੀ ਰਚਨਾ ਕੀਤੀ ਹੈ ( ਉਦਾਹਰਨ ਲਈ, "ਚਿੰਤਤ" ਅਤੇ "ਡਰਾਉਣਾ"), ਅਤੇ (3) ਗੁੱਸਾ (ਜਿਵੇਂ "ਨਫ਼ਰਤ" ਅਤੇ "ਨਾਜ਼ੁਕ"). ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ ਪੂਰੇ ਦਿਨ ਦੌਰਾਨ ਦੁਖ ਅਤੇ ਚਿੰਤਾ ਦਿਨੋ-ਦਿਨ ਵਧਦੀ ਰਹਿੰਦੀ ਹੈ, ਪਰ ਇਹ ਸਾਰਾ ਦਿਨ ਗੁੱਸੇ ਵਿੱਚ ਲਗਾਤਾਰ ਵਾਧਾ ਹੋਇਆ ਹੈ. ਇਹ ਖੋਜ ਹਮੇਸ਼ਾ-ਹਮੇਸ਼ਾ ਲਈ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਸ਼ਕਤੀ ਦਾ ਇਕ ਸ਼ਾਨਦਾਰ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਲੱਗਦਾ ਹੈ: ਜੇ ਰਵਾਇਤੀ ਡਾਟਾ ਸਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਇਹ ਅਚਾਨਕ ਹੋਣ ਵਾਲੀ ਘਟਨਾ ਦੇ ਤੁਰੰਤ ਜਵਾਬ ਦੀ ਅਜਿਹੀ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਟਾਈਮਲਾਈਨ ਹਾਸਲ ਕਰਨਾ ਅਸੰਭਵ ਸੀ.
ਕੇਵਲ ਇਕ ਸਾਲ ਬਾਅਦ, ਹਾਲਾਂਕਿ, ਸਿੰਥੀਆ ਪੁਰੀ (2011) ਨੇ ਅੰਕੜੇ ਨੂੰ ਧਿਆਨ ਨਾਲ ਵੇਖਿਆ ਉਸ ਨੇ ਦੇਖਿਆ ਕਿ ਇਕ ਪੇਜਰ ਦੁਆਰਾ ਬਹੁਤ ਸਾਰੇ ਗੁੱਸੇ ਨਾਲ ਭਰੇ ਸੁਨੇਹੇ ਪੈਦਾ ਹੋਏ ਸਨ ਅਤੇ ਉਹ ਸਾਰੇ ਇਕੋ ਜਿਹੇ ਸਨ. ਇੱਥੇ ਉਹ ਕਮਾਲ ਦੇ ਗੁੱਸੇ ਹੋਏ ਸੰਦੇਸ਼ਾਂ ਨੇ ਕਿਹਾ ਹੈ:
"ਚਾਲੂ NT ਮਸ਼ੀਨ ਵਿਚ ਕੈਬਨਿਟ [name] ਨੂੰ [name] ਨੂੰ [ਸਥਿਤੀ ਦੇ]: ਨਾਜ਼ੁਕ: [ਮਿਤੀ ਅਤੇ ਟਾਈਮ]"
ਇਹ ਸੁਨੇਹੇ ਗੁੱਸੇ ਨਾਲ ਲਿੱਟੇ ਗਏ ਸਨ ਕਿਉਂਕਿ ਉਹਨਾਂ ਨੇ "ਸਿਵਿਧਾਲ" ਸ਼ਬਦ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ ਜੋ ਆਮਤੌਰ ਤੇ ਗੁੱਸੇ ਦਾ ਸੰਕੇਤ ਕਰ ਸਕਦਾ ਹੈ ਪਰੰਤੂ ਇਸ ਕੇਸ ਵਿੱਚ ਨਹੀਂ ਹੈ. ਇਸ ਸਿੰਗਲ ਆਟੋਮੈਟਿਕ ਪੇਜਰ ਤੋਂ ਪੈਦਾ ਹੋਏ ਸੁਨੇਹਿਆਂ ਨੂੰ ਹਟਾਉਣ ਨਾਲ ਪੂਰੀ ਤਰ੍ਹਾਂ ਗੁੱਸੇ ਵਿੱਚ ਦਿਨ ਦੇ (ਐਪੀਟੀ 2.4) ਤੇ ਸਪੱਸ਼ਟ ਵਾਧਾ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, Back, Küfner, and Egloff (2010) ਵਿੱਚ ਮੁੱਖ ਨਤੀਜਾ ਇੱਕ ਪੇਜਰ ਦਾ ਇੱਕ ਅਸਲਾ ਸੀ. ਜਿਵੇਂ ਕਿ ਇਹ ਉਦਾਹਰਨ ਦਰਸਾਉਂਦਾ ਹੈ, ਮੁਕਾਬਲਤਨ ਗੁੰਝਲਦਾਰ ਅਤੇ ਗੁੰਝਲਦਾਰ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲਤਨ ਸਧਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਗੰਭੀਰਤਾ ਨਾਲ ਗਲਤ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਹੁੰਦੀ ਹੈ.
ਗੰਦੇ ਡਾਟੇ, ਜੋ ਅਣਜਾਣੇ ਤੌਰ ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ- ਜਿਵੇਂ ਕਿ ਇਕ ਰੌਲੇ ਪੇਜਰ ਤੋਂ - ਇੱਕ ਬਹੁਤ ਧਿਆਨ ਨਾਲ ਖੋਜਕਰਤਾ ਦੁਆਰਾ ਖੋਜਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਕੁਝ ਔਨਲਾਈਨ ਸਿਸਟਮ ਵੀ ਹਨ ਜੋ ਇਰਾਦਤਨ ਸਪੈਮਰਾਂ ਨੂੰ ਆਕਰਸ਼ਤ ਕਰਦੇ ਹਨ ਇਹ ਸਪੈਮਰ ਸਰਗਰਮੀ ਨਾਲ ਜਾਅਲੀ ਡਾਟਾ ਬਣਾਉਂਦੇ ਹਨ ਅਤੇ ਆਮ ਤੌਰ ਤੇ ਮੁਨਾਫ਼ੇ ਦੇ ਕੰਮ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੁੰਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਦੇ ਸਪੈਮਿੰਗ ਨੂੰ ਗੁਪਤ ਰੱਖਣ ਲਈ ਬਹੁਤ ਮਿਹਨਤ ਕਰਦੇ ਹਨ. ਉਦਾਹਰਨ ਲਈ, ਟਵਿੱਟਰ 'ਤੇ ਸਿਆਸੀ ਗਤੀਵਿਧੀਆਂ ਵਿੱਚ ਘੱਟੋ-ਘੱਟ ਕੁਝ ਗੁੰਝਲਦਾਰ ਆਧੁਨਿਕ ਸਪੈਮ ਸ਼ਾਮਿਲ ਹੈ, ਜਿਸਦੇ ਨਾਲ ਕੁਝ ਸਿਆਸੀ ਕਾਰਨਾਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਉਹ (Ratkiewicz et al. 2011) ਨਾਲੋਂ ਵਧੇਰੇ ਪ੍ਰਸਿੱਧ ਦੇਖਣ ਲਈ ਜਾਣਬੁੱਝ ਕੇ ਬਣਾਇਆ ਗਿਆ ਹੈ. ਬਦਕਿਸਮਤੀ ਨਾਲ, ਇਸ ਇਰਾਦਤਨ ਸਪੈਮ ਨੂੰ ਹਟਾਉਣ ਤੋਂ ਕਾਫੀ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ.
ਬੇਸ਼ੱਕ, ਜਿਸ ਨੂੰ ਗੰਦੇ ਡਾਟੇ ਨੂੰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਉਹ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਖੋਜ ਪ੍ਰਸ਼ਨ ਤੇ. ਉਦਾਹਰਣ ਵਜੋਂ, ਵਿਕੀਪੀਡੀਆ ਨੂੰ ਬਹੁਤ ਸਾਰੇ ਸੰਪਾਦਨ ਆਟੋਮੇਟਿਡ ਬੋਟਸ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਹਨ (Geiger 2014) . ਜੇ ਤੁਸੀਂ ਵਿਕੀਪੀਡੀਆ ਦੇ ਵਾਤਾਵਰਣ ਵਿਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹੋ, ਤਾਂ ਇਹ ਬੌਟ ਬਣਾਏ ਗਏ ਸੰਪਾਦਨਾਂ ਮਹੱਤਵਪੂਰਨ ਹਨ. ਪਰ ਜੇ ਤੁਸੀਂ ਵਿਕਿਪੀਡਿਆ ਵਿੱਚ ਮਨੁੱਖਾਂ ਦਾ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹੋ ਤਾਂ ਇਸ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹੋ, ਫਿਰ ਬੌਟ ਬਣਾਏ ਗਏ ਸੰਪਾਦਨਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ.
ਕੋਈ ਇਕੋ ਅੰਕੜਾ ਤਕਨੀਕ ਜਾਂ ਪਹੁੰਚ ਨਹੀਂ ਹੈ ਜੋ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰ ਸਕੇ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਗੰਦੇ ਡਾਟਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਾਫ਼ ਕਰ ਲਿਆ ਹੈ. ਅੰਤ ਵਿੱਚ, ਮੈਂ ਸੋਚਦਾ ਹਾਂ ਕਿ ਗੰਦਾ ਡਾਟੇ ਨਾਲ ਧੋਖਾਧੜੀ ਹੋਣ ਤੋਂ ਬਚਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਬਣਾਇਆ ਗਿਆ ਸੀ ਇਸ ਬਾਰੇ ਜਿੰਨਾ ਹੋ ਸਕੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਝਣਾ.