ਵੱਡੇ ਡੇਟਾਸੇਟ ਦਾ ਅੰਤ ਕਰਨ ਲਈ ਇੱਕ ਢੰਗ ਹਨ; ਉਹ ਆਪਣੇ ਆਪ ਨੂੰ ਵਿੱਚ ਇੱਕ ਅੰਤ ਨਹੀ ਹਨ.
ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਸਭ ਤੋਂ ਵਿਆਪਕ ਚਰਚਾ ਵਾਲੀ ਵਿਸ਼ੇਸ਼ਤਾ ਇਹ ਹੈ ਕਿ ਉਹ ਵੱਡੇ ਹਨ. ਮਿਸਾਲ ਲਈ, ਬਹੁਤ ਸਾਰੇ ਕਾਗਜ਼-ਪੱਤਰ ਤੇ ਚਰਚਾ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਨ-ਅਤੇ ਕਦੇ-ਕਦੇ ਸ਼ੇਖ਼ੀ ਮਾਰਨੀ-ਉਹ ਕਿੰਨੀ ਜਾਣਕਾਰੀ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੇ ਹਨ ਉਦਾਹਰਣ ਵਜੋਂ, ਗੂਗਲ ਬੁੱਕ ਕਾਰਪਸ ਵਿਚ ਸ਼ਬਦ-ਵਰਤੋਂ ਦੇ ਰੁਝਾਨਾਂ ਦਾ ਅਧਿਐਨ ਕਰਨ ਵਾਲੇ ਸਾਇੰਸ ਵਿਚ ਇਕ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਹੋਇਆ ਜਿਸ ਵਿਚ ਹੇਠ ਲਿਖੇ (Michel et al. 2011) :
"ਸਾਡੇ [corpus] 500 ਅਰਬ ਸ਼ਬਦ ਹਨ, ਅੰਗਰੇਜ਼ੀ ਵਿਚ (361 ਅਰਬ), ਫਰਾਂਸੀਸੀ (45 ਅਰਬ), ਸਪੈਨਿਸ਼ (45 ਅਰਬ), ਜਰਮਨ (37 ਅਰਬ), ਚੀਨੀ (13 ਅਰਬ), ਰੂਸੀ (35 ਅਰਬ), ਅਤੇ ਇਬਰਾਨੀ (2 ਅਰਬ) ਸਭ ਤੋਂ ਪੁਰਾਣੀ ਰਚਨਾਵਾਂ 1500 ਦੇ ਦਹਾਕੇ ਵਿਚ ਛਾਪੀਆਂ ਗਈਆਂ ਸਨ. ਸ਼ੁਰੂਆਤੀ ਦਹਾਕਿਆਂ ਦੀ ਪ੍ਰਤੀ ਸਾਲ ਸਿਰਫ ਕੁਝ ਕੁ ਕਿਤਾਬਾਂ ਹੀ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਜਿਸ ਵਿਚ ਕਈ ਸੌ ਸ਼ਬਦ ਹਨ. 1800 ਤਕ, ਕੁਲੂਸ ਹਰ ਸਾਲ 98 ਮਿਲੀਅਨ ਸ਼ਬਦਾਂ ਤੱਕ ਵਧਦਾ ਹੈ; 1 9 00 ਤਕ, 1.8 ਬਿਲੀਅਨ; ਅਤੇ 2000 ਤੱਕ, 11 ਬਿਲੀਅਨ ਕਾਰਪਸ ਇਨਸਾਨ ਦੁਆਰਾ ਪੜ੍ਹਿਆ ਨਹੀਂ ਜਾ ਸਕਦਾ. ਜੇ ਤੁਸੀਂ ਸਾਲ 2000 ਤੋਂ ਸਿਰਫ ਇੰਗਲਿਸ਼-ਭਾਸ਼ਾ ਦੀਆਂ ਐਂਟਰੀਆਂ ਪੜ੍ਹਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ, ਤਾਂ 200 ਸ਼ਬਦ / ਮਿੰਟ ਦੀ ਢੁਕਵੀਂ ਰਫਤਾਰ ਤੇ ਖਾਣੇ ਜਾਂ ਨੀਂਦ ਲਈ ਰੁਕਾਵਟ ਦੇ ਬਿਨਾਂ 80 ਸਾਲ ਲੱਗ ਜਾਣਗੇ. ਅੱਖਰਾਂ ਦਾ ਕ੍ਰਮ ਮਨੁੱਖੀ ਜੀਨਾਂ ਨਾਲੋਂ 1000 ਗੁਣਾ ਜ਼ਿਆਦਾ ਲੰਬਾ ਹੈ: ਜੇ ਤੁਸੀਂ ਇਸ ਨੂੰ ਸਿੱਧੀ ਲਾਈਨ ਵਿਚ ਲਿਖਿਆ ਹੈ, ਤਾਂ ਇਹ ਚੰਦਰਮਾ ਤਕ ਪਹੁੰਚ ਜਾਵੇਗਾ ਅਤੇ 10 ਗੁਣਾ ਜ਼ਿਆਦਾ ਪਿੱਛੇ ਆਵੇਗਾ. "
ਇਸ ਡੇਟਾ ਦਾ ਪੈਮਾਨਾ ਨਿਸ਼ਚਿਤ ਰੂਪ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ, ਅਤੇ ਅਸੀਂ ਸਾਰੇ ਭਾਗਸ਼ਾਲੀ ਹਾਂ ਕਿ Google ਬੁਕਸ ਟੀਮ ਨੇ ਇਹ ਡਾਟਾ ਜਨਤਾ ਨੂੰ ਜਾਰੀ ਕੀਤਾ ਹੈ (ਵਾਸਤਵ ਵਿੱਚ, ਇਸ ਅਧਿਆਇ ਦੇ ਅੰਤ ਵਿੱਚ ਕੁਝ ਗਤੀਵਿਧੀਆਂ ਇਸ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ) ਪਰ ਜਦੋਂ ਵੀ ਤੁਸੀਂ ਇਸ ਤਰ੍ਹਾਂ ਦੀ ਕੋਈ ਚੀਜ਼ ਦੇਖਦੇ ਹੋ ਤਾਂ ਤੁਹਾਨੂੰ ਇਹ ਪੁੱਛਣਾ ਚਾਹੀਦਾ ਹੈ: ਕੀ ਇਹ ਸਭ ਕੁਝ ਅਸਲ ਵਿੱਚ ਕੁਝ ਕਰ ਰਿਹਾ ਹੈ? ਕੀ ਉਹ ਇਕੋ ਰੀਸਰਚ ਕਰ ਸਕਦਾ ਸੀ ਜੇਕਰ ਡਾਟਾ ਚੰਦਰਮਾ ਤਕ ਪਹੁੰਚ ਸਕਦਾ ਹੈ ਅਤੇ ਸਿਰਫ ਇਕ ਵਾਰੀ ਵਾਪਸ ਆ ਸਕਦਾ ਹੈ? ਜੇਕਰ ਡਾਟਾ ਸਿਰਫ ਐਵਰੇਸਟ ਦੇ ਉੱਪਰਲੇ ਹਿੱਸੇ ਜਾਂ ਐਫ਼ਿਲ ਟਾਵਰ ਦੇ ਸਿਖਰ ਤਕ ਪਹੁੰਚ ਸਕਦਾ ਹੈ?
ਇਸ ਕੇਸ ਵਿਚ, ਉਨ੍ਹਾਂ ਦੀ ਖੋਜ ਵਿਚ ਅਸਲ ਵਿਚ ਕੁਝ ਲੱਭਤਾਂ ਹਨ ਜਿਹਨਾਂ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੇ ਅਰਸੇ ਵਿਚ ਵੱਡੇ ਸ਼ਬਦਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਉਦਾਹਰਣ ਵਜੋਂ, ਇਕ ਚੀਜ਼ ਜੋ ਉਹ ਖੋਜਦੀ ਹੈ ਉਹ ਹੈ ਵਿਆਕਰਣ ਦਾ ਵਿਕਾਸ, ਖਾਸ ਕਰਕੇ ਅਨਿਯਮਿਤ ਕ੍ਰਿਆ ਪਰਿਵਰਤਨ ਦੀ ਦਰ ਵਿੱਚ ਬਦਲਾਵ. ਕਿਉਂਕਿ ਕੁਝ ਅਣਅਧਿਕਾਰਤ ਕ੍ਰਿਆਵਾਂ ਬਹੁਤ ਦੁਰਲੱਭ ਹੁੰਦੀਆਂ ਹਨ, ਸਮੇਂ ਦੇ ਨਾਲ ਬਦਲਾਅ ਨੂੰ ਖੋਜਣ ਲਈ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਦੀ ਵੱਡੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਹਾਲਾਂਕਿ ਬਹੁਤ ਵਾਰ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵੱਡੇ ਡਾਟੇ ਦੇ ਸਰੋਤ ਦੇ ਆਕਾਰ ਨੂੰ ਇੱਕ ਅੰਤ ਦੇ ਤੌਰ ਤੇ ਇਲਾਜ ਕਰਨ ਲਈ ਜਾਪਦੇ ਹੋਏ- "ਵੇਖੋ ਕਿ ਮੈਂ ਕਿੰਨੀ ਸੰਭਾਵੀ ਡਾਟਾ ਦੇਖ ਸਕਦਾ ਹਾਂ" - ਕਿਸੇ ਹੋਰ ਮਹੱਤਵਪੂਰਣ ਵਿਗਿਆਨਕ ਉਦੇਸ਼ ਲਈ ਇੱਕ ਸਾਧਨ ਤੋਂ ਵੱਧ
ਮੇਰੇ ਤਜ਼ਰਬੇ ਵਿੱਚ, ਦੁਰਲੱਭ ਘਟਨਾਵਾਂ ਦਾ ਅਧਿਐਨ ਤਿੰਨ ਖਾਸ ਵਿਗਿਆਨਕ ਅੰਤਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਵੱਡੇ ਡਾਟਾਸੈਟਸ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੇ ਹਨ. ਦੂਜਾ, ਵਿਭਿੰਨਤਾ ਦਾ ਅਧਿਐਨ ਹੈ, ਜਿਵੇਂ ਕਿ ਰਾਜ ਚੇਤੀ ਅਤੇ ਸਹਿਕਰਮੀਆਂ (2014) ਦੁਆਰਾ ਸੰਯੁਕਤ ਰਾਜ ਵਿਚ ਸਮਾਜਿਕ ਗਤੀਸ਼ੀਲਤਾ 'ਤੇ ਇਕ ਅਧਿਐਨ ਦੁਆਰਾ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ. ਅਤੀਤ ਵਿੱਚ, ਬਹੁਤ ਸਾਰੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਪਿਆਂ ਅਤੇ ਬੱਚਿਆਂ ਦੇ ਜੀਵਨ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਕਰਕੇ ਸਮਾਜਿਕ ਗਤੀਸ਼ੀਲਤਾ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਹੈ. ਇਸ ਸਾਹਿਤ ਤੋਂ ਇੱਕ ਲਗਾਤਾਰ ਖੋਜ ਇਹ ਹੈ ਕਿ ਫਾਇਦੇਮੰਦ ਮਾਪਿਆਂ ਦਾ ਬੱਚਿਆਂ ਦਾ ਫਾਇਦਾ ਹੁੰਦਾ ਹੈ, ਪਰ ਇਸ ਰਿਸ਼ਤੇ ਦੀ ਤਾਕਤ ਸਮੇਂ ਅਤੇ ਦੇਸ਼ ਭਰ ਵਿੱਚ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ (Hout and DiPrete 2006) . ਹਾਲ ਹੀ ਵਿੱਚ, ਹਾਲਾਂਕਿ, ਚਟਟੀ ਅਤੇ ਸਹਿਕਰਮੀਆਂ 40 ਮਿਲੀਅਨ ਲੋਕਾਂ ਦੇ ਟੈਕਸ ਰਿਕਾਰਡਾਂ ਦੀ ਵਰਤੋਂ ਅਮਰੀਕਾ ਦੇ ਸਾਰੇ ਖੇਤਰਾਂ ਵਿੱਚ ਅੰਤਰ-ਜਨਤਕ ਗਤੀਸ਼ੀਲਤਾ ਵਿੱਚ ਵਿਭਿੰਨਤਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਦੇ ਯੋਗ ਸਨ (ਅੰਕੜਾ 2.1). ਮਿਸਾਲ ਲਈ, ਉਨ੍ਹਾਂ ਨੇ ਦੇਖਿਆ ਕਿ ਕੈਲੀਫੋਰਨੀਆ ਦੇ ਸੈਨ ਜੋਸ ਵਿਚ 13 ਫ਼ੀਸਦੀ ਤੋਂ ਹੇਠਾਂ ਬੱਚਿਆਂ ਦੀ ਕੌਮੀ ਆਮਦਨ ਵੰਡ ਦੇ ਸਿਖਰ 'ਤੇ ਪਹੁੰਚਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ ਪਰ ਸ਼ਾਰਲੈਟ, ਉੱਤਰੀ ਕੈਰੋਲੀਨਾ ਵਿਚ ਸਿਰਫ 4% ਹੈ. ਜੇ ਤੁਸੀਂ ਇਕ ਪਲ ਲਈ ਚਿੱਤਰ 2.1 ਵੇਖਦੇ ਹੋ, ਤਾਂ ਸ਼ਾਇਦ ਤੁਸੀਂ ਹੈਰਾਨ ਹੋਵੋਗੇ ਕਿ ਕੁਝ ਥਾਂਵਾਂ ਵਿੱਚ ਇੰਟਰਜੀਨੇਰਨੈਨੀਟੇਬਲ ਗਤੀਸ਼ੀਲਤਾ ਜ਼ਿਆਦਾ ਦੂਜਿਆਂ ਤੋਂ ਵੱਧ ਕਿਉਂ ਹੈ. ਚੀਥੀ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਦਾ ਇਹੀ ਸਵਾਲ ਸੀ, ਅਤੇ ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ ਉੱਚ-ਗਤੀਸ਼ੀਲਤਾ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਘੱਟ ਰਿਹਾਇਸ਼ੀ ਅਲੱਗ-ਥਲੱਗਣ, ਘੱਟ ਆਮਦਨ ਵਿੱਚ ਅਸਮਾਨਤਾ, ਬਿਹਤਰ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲਾਂ, ਵਧੇਰੇ ਸਮਾਜਿਕ ਪੂੰਜੀ ਅਤੇ ਵਧੇਰੇ ਪਰਿਵਾਰਕ ਸਥਿਰਤਾ ਹੈ. ਬੇਸ਼ਕ, ਇਹ ਸਬੰਧ ਕੇਵਲ ਇਹ ਨਹੀਂ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਇਹ ਕਾਰਕ ਵਧੇਰੇ ਗਤੀਸ਼ੀਲਤਾ ਕਾਰਨ ਬਣਦੇ ਹਨ, ਲੇਕਿਨ ਉਹ ਸੰਭਾਵਿਤ ਢੰਗਾਂ ਦਾ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਜੋ ਹੋਰ ਕੰਮ ਵਿੱਚ ਖੋਜਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਕਿ ਉਹੀ ਹੈ ਜੋ ਸ਼ੈਟੀ ਅਤੇ ਸਹਿਯੋਗੀਆਂ ਨੇ ਅਗਲੇ ਕੰਮ ਵਿੱਚ ਕੀਤਾ ਹੈ. ਧਿਆਨ ਦਿਓ ਕਿ ਇਸ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਡੇਟਾ ਦਾ ਆਕਾਰ ਅਸਲ ਵਿੱਚ ਮਹੱਤਵਪੂਰਣ ਕਿਉਂ ਸੀ. ਜੇ ਸ਼ੈਟੀ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੇ 40 ਮਿਲੀਅਨ ਦੀ ਬਜਾਏ 40 ਹਜ਼ਾਰ ਲੋਕਾਂ ਦੇ ਟੈਕਸ ਰਿਕਾਰਡਾਂ ਦਾ ਇਸਤੇਮਾਲ ਕੀਤਾ ਹੁੰਦਾ ਤਾਂ ਉਹ ਖੇਤਰੀ ਵਿਉਤਪੰਨਤਾ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੇ ਯੋਗ ਨਹੀਂ ਹੁੰਦੇ ਅਤੇ ਉਹ ਇਸ ਪਰਿਵਰਤਨ ਨੂੰ ਬਣਾਉਣ ਵਾਲੇ ਕਾਰਜਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਤੋਂ ਬਾਅਦ ਖੋਜ ਕਰਨ ਦੇ ਯੋਗ ਨਹੀਂ ਹੁੰਦੇ.
ਅੰਤ ਵਿੱਚ, ਦੁਰਲੱਭ ਘਟਨਾਵਾਂ ਦਾ ਅਧਿਐਨ ਕਰਨ ਅਤੇ ਭਿੰਨਤਾ ਦਾ ਅਧਿਐਨ ਕਰਨ ਦੇ ਨਾਲ-ਨਾਲ, ਵੱਡੇ ਡੈਟਾ ਸੈੱਟ ਵੀ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਛੋਟੇ ਅੰਤਰਾਂ ਨੂੰ ਖੋਜਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ. ਵਾਸਤਵ ਵਿੱਚ, ਉਦਯੋਗ ਵਿੱਚ ਵੱਡੇ ਅੰਕਾਂ ਬਾਰੇ ਜਿਆਦਾਤਰ ਧਿਆਨ ਇਹਨਾਂ ਛੋਟੇ ਅੰਤਰਾਂ ਬਾਰੇ ਹੈ: ਇੱਕ ਵਿਗਿਆਪਨ 'ਤੇ 1% ਅਤੇ 1.1% ਕਲਿਕ-ਥਰੂ ਦਰਾਂ ਦੇ ਵਿੱਚ ਅੰਤਰ ਨੂੰ ਭਰੋਸੇ ਨਾਲ ਖੋਜਣ ਨਾਲ ਵਾਧੂ ਮਾਲੀਆ ਵਿੱਚ ਲੱਖਾਂ ਡਾਲਰਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਹੋ ਸਕਦਾ ਹੈ. ਕੁਝ ਵਿਗਿਆਨਕ ਸੈਟਿੰਗਾਂ ਵਿੱਚ, ਹਾਲਾਂਕਿ, ਅਜਿਹੇ ਛੋਟੇ ਅੰਤਰ ਖਾਸ ਨਹੀਂ ਹੋ ਸਕਦੇ, ਭਾਵੇਂ ਕਿ ਉਹ ਅੰਕੜਾ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੋਣ (Prentice and Miller 1992) . ਪਰ, ਕੁੱਝ ਨੀਤੀ ਸੈਟਿੰਗਾਂ ਵਿੱਚ, ਉਹ ਮਹੱਤਵਪੂਰਨ ਹੋ ਸਕਦੇ ਹਨ ਜਦੋਂ ਇੱਕਠੀਆਂ ਵਿੱਚ ਦੇਖਿਆ ਜਾਂਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਜੇ ਦੋ ਪਬਲਿਕ ਹੈਲਥ ਇੰਟਰਵੈਂਸ਼ਨ ਹਨ ਅਤੇ ਇਕ ਦੂਜੇ ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਵਧੇਰੇ ਪ੍ਰਭਾਵੀ ਹੈ, ਤਾਂ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਦਖਲਅੰਦਾਜ਼ੀ ਕਰਨ ਨਾਲ ਹਜ਼ਾਰਾਂ ਹੋਰ ਵਾਧੂ ਜਾਨਾਂ ਬਚਾਈਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ.
ਹਾਲਾਂਕਿ ਸੰਜਮ ਆਮ ਤੌਰ 'ਤੇ ਇਕ ਚੰਗੀ ਜਾਇਦਾਦ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਸਹੀ ਢੰਗ ਨਾਲ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਪਰ ਮੈਂ ਦੇਖਿਆ ਹੈ ਕਿ ਇਹ ਕਈ ਵਾਰੀ ਸੰਕਲਪ ਦੀ ਗਲਤੀ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦੀ ਹੈ. ਕਿਸੇ ਕਾਰਨ ਕਰਕੇ, ਬਾਇਗੈਸੈਸ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਉਤਪੰਨ ਕਰਦਾ ਹੈ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਜਾਪਦਾ ਹੈ. ਬੇਗੌਂਸ ਬੇਤਰਤੀਬੇ ਗਲਤੀ ਬਾਰੇ ਚਿੰਤਾ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ, ਪਰ ਅਸਲ ਵਿੱਚ ਇਹ ਤਰਤੀਬਵਾਰ ਗਲਤੀਆਂ ਬਾਰੇ ਚਿੰਤਾ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਹੜੀਆਂ ਗਲਤੀ ਉਹ ਤਰਤੀਬ ਜੋ ਮੈਨੂੰ ਡਾਟਾ ਦਰਸਾਇਆ ਗਿਆ ਹੈ ਦੇ ਰੂਪ ਵਿੱਚ ਅਨੁਪਾਤ ਤੋਂ ਪੈਦਾ ਹੁੰਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਮੈਂ ਇਸ ਅਧਿਆਇ ਵਿੱਚ ਬਾਅਦ ਵਿੱਚ ਵਰਣਨ ਕਰਾਂਗਾ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ 11 ਸਤੰਬਰ, 2001 ਨੂੰ ਪੈਦਾ ਹੋਏ ਸੁਨੇਹਿਆਂ ਨੂੰ ਅੱਤਵਾਦੀ ਹਮਲੇ (Back, Küfner, and Egloff 2010) ਦੀ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦੀ ਇੱਕ ਉੱਚ-ਸੰਵੇਦਨਸ਼ੀਲ ਭਾਵਨਾਤਮਕ ਸਮੇਂ ਦੀ (Back, Küfner, and Egloff 2010) . ਕਿਉਂਕਿ ਖੋਜਕਰਤਾਵਾਂ ਕੋਲ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਸੰਦੇਸ਼ ਸਨ, ਉਹਨਾਂ ਨੂੰ ਇਸ ਗੱਲ ਦੀ ਚਿੰਤਾ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ ਸੀ ਕਿ ਉਨ੍ਹਾਂ ਨੇ ਜੋ ਤਜਵੀਜ਼ ਦੇਖੇ- ਦਿਨ ਦੇ ਸਮੇਂ ਵਿੱਚ ਗੁੱਸੇ ਨੂੰ ਵਧਾਉਣਾ-ਰਲਵੇਂ ਭਿੰਨਤਾ ਦੁਆਰਾ ਵਿਆਖਿਆ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ. ਬਹੁਤ ਸਾਰਾ ਡਾਟਾ ਅਤੇ ਪੈਟਰਨ ਇੰਨਾ ਸਪੱਸ਼ਟ ਸੀ ਕਿ ਸਾਰੇ ਅੰਕੜਾ ਸੰਖੇਪਕ ਟੈਸਟਾਂ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਕਿ ਇਹ ਅਸਲ ਪੈਟਰਨ ਸੀ ਪਰ, ਇਹ ਅੰਕੜਾ ਟੈਸਟ ਇਸ ਗੱਲ ਤੋਂ ਅਣਜਾਣ ਸਨ ਕਿ ਕਿਵੇਂ ਡਾਟਾ ਬਣਾਇਆ ਗਿਆ ਸੀ. ਵਾਸਤਵ ਵਿੱਚ, ਇਹ ਸਾਹਮਣੇ ਆਇਆ ਹੈ ਕਿ ਬਹੁਤ ਸਾਰੇ ਪੈਟਰਨ ਇੱਕ ਬੋਟ ਦੇ ਕਾਰਨ ਸਨ ਜੋ ਪੂਰੇ ਦਿਨ ਵਿੱਚ ਵੱਧ ਤੋਂ ਵੱਧ ਬੇਅਸਰ ਸੁਨੇਹੇ ਪੈਦਾ ਕਰਦੇ ਸਨ. ਇਸ ਇੱਕ ਬੋਟ ਨੂੰ ਹਟਾਉਣ ਨਾਲ ਕਾਗਜ਼ ਵਿੱਚ ਕੁੱਝ ਮਹੱਤਵਪੂਰਨ ਤਾਰਾਂ ਨੂੰ ਪੂਰੀ ਤਰਾਂ ਤਬਾਹ ਕਰ ਦਿੱਤਾ ਗਿਆ (Pury 2011; Back, Küfner, and Egloff 2011) . ਸਧਾਰਣ ਰੂਪ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ, ਜੋ ਯੋਜਨਾਬੱਧ ਗਲਤੀ ਬਾਰੇ ਨਹੀਂ ਸੋਚਦੇ, ਉਹਨਾਂ ਦੇ ਵੱਡੇ ਡਾਟਾਸੈਟਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ ਖਤਰਨਾਕ ਮਾਤਰਾ ਦਾ ਸਹੀ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਦੇ ਖ਼ਤਰਿਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਆਟੋਮੈਟਿਕ ਬੋਟ ਦੁਆਰਾ ਪੈਦਾ ਬੇਅੰਤ ਸੁਨੇਹਿਆਂ ਦੀ ਭਾਵਨਾਤਮਕ ਸਮਗਰੀ.
ਸਿੱਟਾ ਵਿੱਚ, ਵੱਡੇ ਡੈਟਾਸੈਟਸ ਖੁਦ ਦਾ ਅੰਤ ਨਹੀਂ ਹੁੰਦੇ, ਪਰ ਉਹ ਦੁਰਲੱਭ ਘਟਨਾਵਾਂ ਦੇ ਅਧਿਐਨ, ਭਿੰਨਤਾ ਦਾ ਅੰਦਾਜ਼ਾ, ਅਤੇ ਛੋਟੇ ਅੰਤਰਾਂ ਦੀ ਖੋਜ ਸਮੇਤ ਕੁਝ ਤਰ੍ਹਾਂ ਦੇ ਖੋਜਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾ ਸਕਦੇ ਹਨ. ਵੱਡੇ ਡੈਟਾਸੇਟਸ ਵੀ ਕੁਝ ਖੋਜਕਰਤਾਵਾਂ ਦੀ ਅਗਵਾਈ ਕਰਨਾ ਜਾਪਦੇ ਹਨ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਡਾਟਾ ਕਿਸ ਤਰ੍ਹਾਂ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਜਿਸ ਕਾਰਨ ਉਹਨਾਂ ਨੂੰ ਅਣਮੁੱਲ ਮਾਤਰਾ ਦਾ ਸਹੀ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈ ਸਕਦਾ ਹੈ.