ਗੈਰ-ਪ੍ਰਤੀਨਿਧ ਡੇਟਾ ਨਮੂਨਾ ਦੇ ਬਾਹਰਲੇ ਨਮੂਨੇ ਦੇ ਲਈ ਮਾੜੇ ਹੁੰਦੇ ਹਨ, ਪਰ ਅੰਦਰੂਨੀ ਨਮੂਨੇ ਦੀ ਤੁਲਨਾ ਲਈ ਕਾਫੀ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦੇ ਹਨ.
ਕੁਝ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਇੱਕ ਚੰਗੀ ਪ੍ਰਭਾਸ਼ਿਤ ਆਬਾਦੀ, ਜਿਵੇਂ ਕਿ ਕਿਸੇ ਖਾਸ ਦੇਸ਼ ਦੇ ਸਾਰੇ ਬਾਲਗਾਂ ਤੋਂ ਸੰਭਾਵਿਤ ਤੌਰ ਤੇ ਇੱਕ ਨਮੂਨੇ ਦੇ ਨਮੂਨੇ ਤੋਂ ਆਉਂਦੇ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੀ ਆਦਤ ਹੈ. ਇਸ ਕਿਸਮ ਦੇ ਡੇਟਾ ਨੂੰ ਪ੍ਰਤਿਨਿਧੀ ਡੇਟਾ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਕਿਉਂਕਿ ਨਮੂਨ ਵੱਡੀ ਆਬਾਦੀ ਦੀ "ਪ੍ਰਤੀਨਿਧਤਾ ਕਰਦਾ ਹੈ". ਬਹੁਤ ਸਾਰੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਪ੍ਰਤੀਨਿਧੀ ਨੰਬਰਾਂ ਦਾ ਇਨਾਮ ਦਿੱਤਾ ਹੈ, ਅਤੇ ਕੁੱਝ ਪ੍ਰਤੀਨਿਧ ਡੇਟਾ ਸਖ਼ਤ ਵਿਗਿਆਨ ਦਾ ਸਮਾਨਾਰਥੀ ਹੈ ਜਦਕਿ ਗੈਰ-ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ sloppiness ਦਾ ਸਮਾਨਾਰਥੀ ਹੈ. ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਅਤਿਅੰਤ 'ਤੇ, ਕੁਝ ਸ਼ੱਕ ਜਾਪਦੇ ਹਨ ਕਿ ਗੈਰ-ਪ੍ਰਤੀਨਿਧੀ ਡਾਟੇ ਤੋਂ ਕੁਝ ਵੀ ਨਹੀਂ ਸਿੱਖਿਆ ਜਾ ਸਕਦਾ. ਜੇ ਸਹੀ ਹੈ, ਤਾਂ ਇਹ ਵੱਡੇ ਡਾਟੇ ਦੇ ਸਰੋਤਾਂ ਤੋਂ ਸਿੱਖੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ, ਕਿਉਂਕਿ ਇਹ ਬਹੁਤ ਜ਼ਿਆਦਾ ਗੈਰ-ਪ੍ਰਤੀਸ਼ਤਿਅਕ ਹਨ. ਖੁਸ਼ਕਿਸਮਤੀ ਨਾਲ, ਇਹ ਸੰਦੇਹਵਾਦੀ ਸਿਰਫ ਅਧੂਰਾ ਹੀ ਸਹੀ ਹਨ. ਕੁਝ ਖਾਸ ਖੋਜ ਟੀਚਿਆਂ ਹਨ ਜਿਹਨਾਂ ਦੇ ਲਈ ਗੈਰ-ਪ੍ਰਤੀਨਿਧ ਡੇਟਾ ਸਪੱਸ਼ਟ ਤੌਰ ਤੇ ਸਹੀ ਨਹੀਂ ਹਨ, ਪਰ ਉੱਥੇ ਹੋਰ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਇਹ ਅਸਲ ਵਿੱਚ ਕਾਫ਼ੀ ਉਪਯੋਗੀ ਹੋ ਸਕਦਾ ਹੈ.
ਇਸ ਭਿੰਨਤਾ ਨੂੰ ਸਮਝਣ ਲਈ, ਆਓ ਇਕ ਵਿਗਿਆਨਿਕ ਕਲਾਸਿਕ ਨੂੰ ਵਿਚਾਰ ਕਰੀਏ: ਲੰਡਨ ਵਿਚ 1853-54 ਦੇ ਹੈਜ਼ੇ ਦੇ ਫੈਲੀਏਪ ਵਿਚ ਜੌਹਨ ਸਕੋਇਜ਼ ਦਾ ਅਧਿਐਨ. ਉਸ ਵੇਲੇ, ਬਹੁਤ ਸਾਰੇ ਡਾਕਟਰ ਮੰਨਦੇ ਸਨ ਕਿ ਹੈਜ਼ਾ "ਬੁਰੀ ਹਵਾ" ਕਾਰਨ ਹੋਇਆ ਸੀ, ਪਰ ਬਰਫ ਦਾ ਮੰਨਣਾ ਸੀ ਕਿ ਇਹ ਇੱਕ ਛੂਤ ਵਾਲੀ ਬੀਮਾਰੀ ਸੀ ਜੋ ਸ਼ਾਇਦ ਸੀਵਰੇਜ-ਲੈਕਸ ਪੀਣ ਵਾਲੇ ਪਾਣੀ ਦੁਆਰਾ ਫੈਲਿਆ ਹੋਇਆ ਸੀ. ਇਸ ਵਿਚਾਰ ਨੂੰ ਪਰਖਣ ਲਈ, ਬਰਫ ਨੇ ਜੋ ਕੁੱਝ ਵੀ ਕੁਦਰਤੀ ਤਜਰਬਾ ਬੁਲਾਇਆ ਉਸ ਦਾ ਫਾਇਦਾ ਉਠਾਇਆ. ਉਸ ਨੇ ਦੋ ਵੱਖ-ਵੱਖ ਜਲ ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਵਰਤੇ ਗਏ ਘਰਾਂ ਦੇ ਹੈਜ਼ੇ ਦੀ ਤੁਲਨਾ ਕੀਤੀ: ਲੇਮਬੇਥ ਅਤੇ ਸਾਊਥਵਾਰਕ ਅਤੇ ਵੌਕਸਹਾਲ ਇਹਨਾਂ ਕੰਪਨੀਆਂ ਨੇ ਇਸੇ ਤਰ੍ਹਾਂ ਦੇ ਪਰਿਵਾਰਾਂ ਦੀ ਸੇਵਾ ਕੀਤੀ, ਪਰ ਉਹ ਇਕ ਮਹੱਤਵਪੂਰਣ ਢੰਗ ਨਾਲ ਭਿੰਨ ਹੋ ਗਏ: 1849 ਵਿਚ- ਮਹਾਂਮਾਰੀ ਸ਼ੁਰੂ ਹੋਣ ਤੋਂ ਕੁਝ ਸਾਲ ਪਹਿਲਾਂ- ਲਾਂਬੈਥ ਲੰਡਨ ਵਿਚ ਮੁੱਖ ਸੀਵੇਜ਼ ਡਿਸਚਾਰਜ ਤੋਂ ਆਪਣੇ ਦਾਖਲੇ ਪੁਆਇੰਟ ਅੱਪੜ ਰਹੇ ਸਨ, ਜਦਕਿ ਸਾਊਥਵਾਰਕ ਐਂਡ ਵੌਕਸਹਾਲ ਨੇ ਆਪਣੇ ਇਨਟੇਕ ਪਾਈਪ ਨੂੰ ਡਾਊਨਿਸਟਰ ਤੋਂ ਛੱਡ ਦਿੱਤਾ ਸੀਵਰੇਜ ਡਿਸਚਾਰਜ ਜਦੋਂ ਬਰਫ ਦੀ ਹੈਲੇ ਕਾਰਨ ਹੈਰਾਈ ਦੀ ਮੌਤ ਦੀ ਤੁਲਨਾ ਦੋ ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਵਰਤੀ ਗਈ ਘਰਾਂ ਵਿੱਚ ਕੀਤੀ ਗਈ ਸੀ, ਉਸ ਨੇ ਦੇਖਿਆ ਕਿ ਸਾਊਥਵਾਰਕ ਅਤੇ ਵੋਕਸਹਾਲ ਦੇ ਗਾਹਕ- ਜੋ ਗਾਹਕਾਂ ਨੂੰ ਸੀਵਰੇਜ਼-ਗੰਦਾ ਪਾਣੀ ਦੇ ਰਿਹਾ ਸੀ - ਹੈਜ਼ਾ ਤੋਂ ਮਰਨ ਦੀ 10 ਗੁਣਾ ਜ਼ਿਆਦਾ ਸੰਭਾਵਨਾ ਸੀ. ਇਹ ਨਤੀਜਾ ਹੈਜ਼ਾ ਦੇ ਕਾਰਨ ਬਾਰੇ ਬਰਫ ਦੀ ਝਗੜੇ ਲਈ ਮਜ਼ਬੂਤ ਵਿਗਿਆਨਕ ਸਬੂਤ ਮੁਹੱਈਆ ਕਰਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਇਹ ਲੰਦਨ ਦੇ ਲੋਕਾਂ ਦੇ ਨੁਮਾਇੰਦੇ ਨਮੂਨੇ ਦੇ ਆਧਾਰ ਤੇ ਨਹੀਂ ਹੈ.
ਇਨ੍ਹਾਂ ਦੋਵਾਂ ਕੰਪਨੀਆਂ ਦੇ ਅੰਕੜੇ ਵੱਖਰੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਲਈ ਆਦਰਸ਼ ਨਹੀਂ ਹੋਣਗੇ: ਫੈਲਣ ਦੇ ਦੌਰਾਨ ਲੰਡਨ ਵਿਚ ਹੈਜ਼ਾ ਦਾ ਕੀ ਪ੍ਰਭਾਵ ਸੀ? ਉਸ ਦੂਜੇ ਸਵਾਲ ਲਈ, ਜੋ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਲੰਡਨ ਦੇ ਲੋਕਾਂ ਦਾ ਇੱਕ ਨੁਮਾਇੰਦਾ ਨਮੂਨਾ ਹੋਣਾ ਵਧੇਰੇ ਬਿਹਤਰ ਹੋਵੇਗਾ.
ਜਿਵੇਂ ਬਰਫ਼ ਦਾ ਕੰਮ ਸਪੱਸ਼ਟ ਹੁੰਦਾ ਹੈ, ਇੱਥੇ ਕੁਝ ਵਿਗਿਆਨਕ ਸਵਾਲ ਹਨ, ਜਿਸ ਲਈ ਗੈਰ-ਪ੍ਰਤੀਨਿਧ ਡੇਟਾ ਕਾਫ਼ੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਹੋਰ ਵੀ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਇਹ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਹੀ ਨਹੀਂ ਹੈ. ਇਹਨਾਂ ਦੋ ਪ੍ਰਕਾਰ ਦੇ ਸਵਾਲਾਂ ਨੂੰ ਸਮਝਣ ਦਾ ਇੱਕ ਕੱਚੇ ਢੰਗ ਇਹ ਹੈ ਕਿ ਕੁਝ ਪ੍ਰਸ਼ਨਾਂ ਅੰਦਰ-ਨਮੂਨਾ ਤੁਲਨਾਵਾਂ ਦੇ ਬਾਰੇ ਹਨ ਅਤੇ ਕੁਝ ਨਮੂਨੇ ਦੇ ਆਮ ਸਧਾਰਨਕਰਨ ਬਾਰੇ ਹਨ. ਇਸ ਫਰਕ ਨੂੰ ਅੱਗੇ ਮਹਾਂਮਾਰੀ ਵਿਗਿਆਨ ਵਿਚ ਇਕ ਹੋਰ ਕਲਾਸਿਕ ਅਧਿਐਨ ਦੁਆਰਾ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ: ਬ੍ਰਿਟਿਸ਼ ਡਾਕਟ੍ਰਸ ਸਟੱਡੀ, ਜਿਸ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਸਿਗਰਟਨੋਸ਼ੀ ਕੈਂਸਰ ਦਾ ਕਾਰਨ ਬਣਦੀ ਹੈ. ਇਸ ਅਧਿਐਨ ਵਿੱਚ, ਰਿਚਰਡ ਡਾਲ ਅਤੇ ਏ. ਬ੍ਰੈਡਫੋਰਡ ਹਿਲ ਨੇ ਲਗਭਗ 25,000 ਪੁਰਸ਼ ਡਾਕਟਰਾਂ ਨੇ ਕਈ ਸਾਲਾਂ ਤੱਕ ਪਿੱਛਾ ਕੀਤਾ ਅਤੇ ਉਹਨਾਂ ਦੀ ਮੌਤ ਦੀ ਦਰ ਦੀ ਤੁਲਨਾ ਅਧਿਐਨ ਦੁਆਰਾ ਸ਼ੁਰੂ ਕੀਤੇ ਗਏ ਮਾਤਰਾ ਦੇ ਆਧਾਰ ਤੇ ਕੀਤੀ. ਡਬਲ ਐਂਡ ਹਿਲ (1954) ਇਕ ਮਜ਼ਬੂਤ ਸੰਪਰਕ ਪ੍ਰਤੀਕਿਰਿਆ ਮਿਲਦੀ ਹੈ: ਜਿੰਨੇ ਲੋਕ ਜ਼ਿਆਦਾ ਪੀੜਦੇ ਹਨ, ਉਹਨਾਂ ਨੂੰ ਫੇਫੜਿਆਂ ਦੇ ਕੈਂਸਰ ਤੋਂ ਮਰਨ ਦੀ ਜ਼ਿਆਦਾ ਸੰਭਾਵਨਾ ਹੈ. ਬੇਸ਼ਕ, ਮਰਦ ਡਾਕਟਰਾਂ ਦੇ ਇਸ ਸਮੂਹ ਦੇ ਆਧਾਰ 'ਤੇ ਸਾਰੇ ਬ੍ਰਿਟਿਸ਼ ਲੋਕਾਂ ਦੇ ਫੇਫੜੇ ਦੇ ਕੈਂਸਰ ਦੇ ਪ੍ਰਭਾਵਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਅਕਲਮੰਦ ਨਹੀਂ ਹੋਵੇਗਾ, ਪਰ ਅੰਦਰੂਨੀ ਸੰਦਰਭ ਦੀ ਤੁਲਨਾ ਅਜੇ ਵੀ ਇਸ ਗੱਲ ਦਾ ਸਬੂਤ ਦਿੰਦੀ ਹੈ ਕਿ ਸਿਗਰਟਨੋਸ਼ੀ ਕਾਰਨ ਫੇਫੜਿਆਂ ਦੇ ਕੈਂਸਰ ਦਾ ਕਾਰਨ ਬਣਦਾ ਹੈ.
ਹੁਣ ਜਦੋਂ ਮੈਂ ਸਪੱਸ਼ਟ ਕੀਤਾ ਹੈ ਕਿ ਨਮੂਨਾ ਤੁਲਨਾ ਅਤੇ ਨਮੂਨੇ ਦੇ ਆਮ ਨਮੂਨੇ ਵਿਚਾਲੇ ਫਰਕ ਹੈ, ਤਾਂ ਦੋ ਸ਼ਰਾਰਤੀ ਕ੍ਰਮ ਹਨ. ਪਹਿਲੀ ਗੱਲ ਇਹ ਹੈ ਕਿ ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ ਇਸ ਗੱਲ ਦਾ ਸੁਆਲ ਹੈ ਕਿ ਨਰ ਬ੍ਰੈਸ਼ਟ੍ਰਿਕ ਡਾਕਟਰਾਂ ਦੇ ਨਮੂਨੇ ਦੇ ਅੰਦਰ ਜੋ ਰਿਸ਼ਤਾ ਹੈ, ਉਹ ਵੀ ਔਰਤਾਂ, ਬ੍ਰਿਟਿਸ਼ ਡਾਕਟਰਾਂ ਜਾਂ ਨਰ ਬ੍ਰਿਟਿਸ਼ ਫੈਕਟਰੀ ਵਰਕਰ ਜਾਂ ਮਹਿਲਾ ਜਰਮਨ ਫੈਕਟਰੀ ਵਰਕਰਾਂ ਜਾਂ ਕਈ ਹੋਰ ਸਮੂਹਾਂ ਦੇ ਨਮੂਨੇ ਦੇ ਅੰਦਰ ਰੱਖੇਗਾ. ਇਹ ਸਵਾਲ ਦਿਲਚਸਪ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਹਨ, ਪਰ ਇਹ ਉਹਨਾਂ ਪ੍ਰਸ਼ਨਾਂ ਤੋਂ ਵੱਖਰੇ ਹਨ ਜੋ ਅਸੀਂ ਇੱਕ ਨਮੂਨੇ ਤੋਂ ਆਬਾਦੀ ਤੱਕ ਆਮ ਬਣਾ ਸਕਦੇ ਹਾਂ. ਮਿਸਾਲ ਲਈ, ਨੋਟ ਕਰੋ, ਕਿ ਤੁਹਾਨੂੰ ਸੰਭਾਵੀ ਤੌਰ ਤੇ ਸ਼ੱਕ ਹੈ ਕਿ ਤੰਬਾਕੂਨੋਸ਼ੀ ਅਤੇ ਕੈਂਸਰ ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧ ਜੋ ਬ੍ਰਿਟਿਸ਼ ਡਾਕਟਰਾਂ ਵਿਚ ਪਾਇਆ ਗਿਆ ਹੈ ਉਹ ਸ਼ਾਇਦ ਇਨ੍ਹਾਂ ਦੂਜੇ ਸਮੂਹਾਂ ਵਿਚ ਮਿਲਦੇ-ਜੁਲਦੇ ਹੋਣਗੇ. ਇਸ ਐਕਸਪ੍ਰੇਪਲੇਸ਼ਨ ਨੂੰ ਕਰਨ ਦੀ ਤੁਹਾਡੀ ਯੋਗਤਾ ਇਸ ਤੱਥ ਤੋਂ ਨਹੀਂ ਆਉਂਦੀ ਕਿ ਨਰ ਬਰਤਾਨਵੀ ਡਾਕਟਰ ਕਿਸੇ ਵੀ ਆਬਾਦੀ ਵਿਚੋਂ ਇਕ ਸੰਭਾਵੀ ਰੇਮੂਨੀ ਨਮੂਨਾ ਹਨ; ਨਾ ਕਿ, ਇਹ ਮਕੈਨਿਟੀ ਦੀ ਸਮਝ ਤੋਂ ਆਉਂਦੀ ਹੈ ਜੋ ਸਿਗਰਟਨੋਸ਼ੀ ਅਤੇ ਕੈਂਸਰ ਨਾਲ ਜੁੜਦਾ ਹੈ. ਇਸ ਪ੍ਰਕਾਰ, ਇਕ ਨਮੂਨੇ ਤੋਂ ਜਿਸ ਜਨਸੰਖਿਆ ਦਾ ਖਿੱਚਿਆ ਗਿਆ ਹੈ ਉਸ ਵਿਚ ਆਮ ਤੌਰ 'ਤੇ ਇਕ ਅੰਕੜਾ ਮੁੱਦਾ ਹੁੰਦਾ ਹੈ, ਪਰ ਇਕ ਸਮੂਹ ਵਿਚ ਦੂਜੇ ਸਮੂਹ ਵਿਚ ਲੱਭੇ ਗਏ ਪੈਟਰਨ ਦੀ ਟਰਾਂਸਪੋਰਟੇਬਿਲਿਟੀ ਬਾਰੇ ਸਵਾਲ ਬਹੁਤੇ (Pearl and Bareinboim 2014; Pearl 2015) ਮਸਲੇ ਹਨ (Pearl and Bareinboim 2014; Pearl 2015) .
ਇਸ ਸਮੇਂ, ਇਕ ਸੰਦੇਹਵਾਦੀ ਸ਼ਾਇਦ ਇਹ ਸੰਕੇਤ ਦੇ ਸਕਦਾ ਹੈ ਕਿ ਸਿਗਰਟਨੋਸ਼ੀ ਅਤੇ ਕੈਂਸਰ ਦੇ ਸਬੰਧਾਂ ਦੇ ਮੁਕਾਬਲੇ ਸਭ ਤੋਂ ਵੱਧ ਸਮਾਜਿਕ ਪੈਟਰਨ ਸਮੂਹਾਂ ਵਿੱਚ ਸੰਭਾਵੀ ਤੌਰ ਤੇ ਘੱਟ ਆਵਾਜਾਈ ਹਨ. ਅਤੇ ਮੈਂ ਸਹਿਮਤ ਹਾਂ. ਜਿਸ ਹੱਦ ਤਕ ਸਾਨੂੰ ਪੈਟਰਨ ਨੂੰ ਟਰਾਂਸਪੋਰਟ ਕਰਨ ਦੀ ਉਮੀਦ ਰੱਖਣੀ ਚਾਹੀਦੀ ਹੈ ਆਖਿਰਕਾਰ ਵਿਗਿਆਨਕ ਪ੍ਰਸ਼ਨ ਹੈ ਜੋ ਸਿਧਾਂਤ ਅਤੇ ਪ੍ਰਮਾਣਾਂ ਦੇ ਆਧਾਰ ਤੇ ਫ਼ੈਸਲਾ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ. ਇਸ ਨੂੰ ਆਪਣੇ ਆਪ ਇਹ ਨਹੀਂ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਕਿ ਪੈਟਰਨ ਟਰਾਂਸਪੋਰਟ ਯੋਗ ਹੋਣਗੇ, ਪਰ ਇਸ ਨੂੰ ਇਹ ਨਹੀਂ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਕਿ ਉਹ ਟਰਾਂਸਪੋਰਟਯੋਗ ਨਹੀਂ ਹੋਣਗੇ. ਟਰਾਂਸਪੋਰਟਯੋਗਤਾ ਬਾਰੇ ਇਹ ਥੋੜ੍ਹਾ ਸਾਰ ਸਵਾਲ ਤੁਹਾਡੇ ਨਾਲ ਜਾਣੂ ਹੋਣਗੀਆਂ ਜੇ ਤੁਸੀਂ ਅੰਡਰ-ਗ੍ਰੈਜੂਏਟ ਵਿਦਿਆਰਥੀਆਂ (Sears 1986, [@henrich_most_2010] ) ਪੜ੍ਹਾਈ ਕਰ ਕੇ ਮਨੁੱਖੀ ਵਤੀਰੇ ਬਾਰੇ ਬਹੁਤ ਕੁਝ ਸਿੱਖ ਸਕਦੇ ਹੋ ਬਾਰੇ ਬਹਿਸਾਂ ਦੀ ਪਾਲਣਾ ਕੀਤੀ ਹੈ. ਹਾਲਾਂਕਿ ਇਨ੍ਹਾਂ ਬਹਿਸਾਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਕਹਿਣ ਵਿੱਚ ਅੜਚਣਾ ਹੋਵੇਗੀ ਕਿ ਖੋਜਕਰਤਾ ਅੰਡਰ-ਗ੍ਰੈਜੂਏਟ ਵਿਦਿਆਰਥੀਆਂ ਦੇ ਅਧਿਐਨ ਤੋਂ ਕੁਝ ਨਹੀਂ ਸਿੱਖ ਸਕਦੇ.
ਦੂਜਾ ਸ਼ਰਤ ਇਹ ਹੈ ਕਿ ਜ਼ਿਆਦਾਤਰ ਖੋਜਕਰਤਾ ਬਰਤਾਨਵੀ ਜਾਂ ਡਬਲ ਅਤੇ ਪਹਾੜੀ ਦੇ ਤੌਰ ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸਾਵਧਾਨੀ ਨਹੀਂ ਹਨ. ਇਸ ਲਈ, ਇਹ ਦਰਸਾਉਣ ਲਈ ਕਿ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਗੈਰ-ਪ੍ਰਤੀਨਿਧੀ ਡਾਟੇ ਤੋਂ ਨਮੂਨਾ ਦੇ ਆਮਕਰਨ ਨੂੰ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਸਮੇਂ ਕੀ ਗਲਤ ਹੋ ਸਕਦਾ ਹੈ, ਮੈਂ ਤੁਹਾਨੂੰ ਅੰਡਰਿਕ ਟੁਮਾਸਨ ਅਤੇ ਸਹਿਕਰਮੀਆਂ (2010) ਦੁਆਰਾ 2009 ਦੀ ਜਰਮਨ ਸੰਸਦੀ ਚੋਣ ਬਾਰੇ ਇੱਕ ਅਧਿਐਨ ਬਾਰੇ ਦੱਸਣਾ ਚਾਹਾਂਗਾ. 100,000 ਤੋਂ ਵੱਧ ਟਵੀਟਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਕੇ, ਉਹਨਾਂ ਨੇ ਦੇਖਿਆ ਕਿ ਟਵੀਟਰਾਂ ਦਾ ਅਨੁਪਾਤ ਇੱਕ ਸਿਆਸੀ ਪਾਰਟੀ ਦਾ ਜ਼ਿਕਰ ਕਰਦੇ ਹੋਏ ਪਾਰਟੀ ਦੇ ਸੰਸਦੀ ਚੋਣ (ਅੰਕ 2.3) ਵਿੱਚ ਪ੍ਰਾਪਤ ਹੋਈਆਂ ਵੋਟਾਂ ਦੇ ਅਨੁਪਾਤ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਇਹ ਦਰਸਾਇਆ ਗਿਆ ਹੈ ਕਿ ਟਵਿੱਟਰ ਡਾਟੇ, ਜੋ ਕਿ ਮੁਢਲੀ ਅਜ਼ਾਦੀ ਸੀ, ਪ੍ਰੰਪਰਾਗਤ ਜਨਤਾ ਦੇ ਸਰਵੇਖਣਾਂ ਨੂੰ ਹਟਾ ਸਕਦੀ ਹੈ, ਜੋ ਕਿ ਪ੍ਰਤਿਨਿਧੀ ਡਾਟਾ ਤੇ ਉਨ੍ਹਾਂ ਦੇ ਜ਼ੋਰ ਦੇ ਕਾਰਨ ਮਹਿੰਗੇ ਹਨ.
ਤੁਹਾਡੇ ਦੁਆਰਾ ਸ਼ਾਇਦ ਟਵਿੱਟਰ ਬਾਰੇ ਪਹਿਲਾਂ ਹੀ ਕੀ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਤੁਹਾਨੂੰ ਤੁਰੰਤ ਇਸ ਨਤੀਜੇ ਦੇ ਲਈ ਸ਼ੱਕੀ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ. 2009 ਵਿਚ ਟਵਿੱਟਰ 'ਤੇ ਜਰਮਨਜ਼ ਜਰਮਨ ਵੋਟਰਾਂ ਦੇ ਇਕ ਸੰਭਾਵੀ ਰਲਵੇਂ ਨਮੂਨੇ ਨਹੀਂ ਸਨ ਅਤੇ ਕੁਝ ਪਾਰਟੀਆਂ ਦੇ ਸਮਰਥਕ ਹੋਰ ਸਿਆਸੀ ਪਾਰਟੀਆਂ ਦੇ ਸਮਰਥਕਾਂ ਨਾਲੋਂ ਜ਼ਿਆਦਾ ਅਕਸਰ ਸਿਆਸਤ ਬਾਰੇ ਟਵੀਟ ਕਰ ਸਕਦੇ ਸਨ. ਇਸ ਤਰ੍ਹਾਂ, ਇਹ ਹੈਰਾਨੀਜਨਕ ਲੱਗਦੀ ਹੈ ਕਿ ਤੁਸੀਂ ਜੋ ਵੀ ਸੰਭਵ ਪੱਖਪਾਤੀ ਸੋਚ ਸਕਦੇ ਹੋ, ਉਹ ਕਿਸੇ ਤਰ੍ਹਾਂ ਰੱਦ ਹੋ ਜਾਣਗੀਆਂ ਤਾਂ ਕਿ ਇਹ ਅੰਕੜਾ ਜਰਮਨ ਵੋਟਰਾਂ ਦੇ ਪ੍ਰਤੱਖ ਤੌਰ ਤੇ ਦਰਸ਼ਕ ਬਣ ਸਕੇ. ਅਸਲ ਵਿਚ, Tumasjan et al. (2010) ਵਿਚ ਨਤੀਜੇ Tumasjan et al. (2010) ਸੱਚੇ ਬਣਨ ਲਈ ਬਹੁਤ ਵਧੀਆ ਸਾਬਤ ਹੋਏ. ਆਂਡ੍ਰੈਅਸ ਜੁਨਗਰ, ਪਾਕਾਲ ਜੁਰਗੇਨ ਅਤੇ ਹਾਰਲਡ ਸਕੋਨ (2012) ਦੁਆਰਾ ਫਾਲੋਅਪ ਪੇਪਰ ਨੇ ਕਿਹਾ ਕਿ ਅਸਲੀ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਸਿਆਸੀ ਪਾਰਟੀ ਨੂੰ ਬਾਹਰ ਕੱਢਿਆ ਸੀ ਜਿਸ ਨੇ ਅਸਲ ਵਿੱਚ ਟਵਿੱਟਰ 'ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਜ਼ਿਕਰ ਕੀਤਾ ਹੈ: ਪੈਰੀਟ ਪਾਰਟੀ, ਇਕ ਛੋਟੀ ਜਿਹੀ ਪਾਰਟੀ ਜੋ ਸਰਕਾਰੀ ਨਿਯਮਾਂ ਦੇ ਵਿਰੁੱਧ ਹੈ ਇੰਟਰਨੈਟ ਦਾ ਜਦੋਂ ਸਮੁੰਦਰੀ ਪਾਰਟੀਆਂ ਨੂੰ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਸੀ, ਤਾਂ ਟਵਿੱਟਰ ਦਾ ਜ਼ਿਕਰ ਚੋਣਾਂ ਦੇ ਨਤੀਜਿਆਂ (ਅੰਕੜਾ 2.3) ਦਾ ਭਿਆਨਕ ਤਾਨਾਸ਼ਾਹੀ ਬਣ ਗਿਆ. ਜਿਵੇਂ ਕਿ ਇਹ ਉਦਾਹਰਨ ਸਪੱਸ਼ਟ ਕਰਦਾ ਹੈ, ਨਾਰਮਲ ਨੁਮਾਇੰਦਗੀ ਕਰਨ ਲਈ ਗੈਰ-ਪ੍ਰਭਾਸ਼ਿਤ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਬਹੁਤ ਗਲਤ ਹੋ ਸਕਦੇ ਹਨ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਤੁਹਾਨੂੰ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ 100,000 ਟਵੀਟ ਹੋਣ ਦੇ ਅਸਲ ਤੱਥ ਮੂਲ ਰੂਪ ਵਿੱਚ ਅਨਉਚਿਤ ਸਨ: ਬਹੁਤ ਸਾਰੇ ਗੈਰ-ਪ੍ਰਤੀਨਿਧੀਆਂ ਦਾ ਡੇਟਾ ਅਜੇ ਵੀ ਗੈਰ-ਪ੍ਰਤਿਨਿਧੀ ਹੈ, ਜਦੋਂ ਮੈਂ ਸਰਵੇਖਣਾਂ 'ਤੇ ਚਰਚਾ ਕਰਾਂਗੇ ਤਾਂ ਮੈਂ ਅਧਿਆਇ 3 ਵਿੱਚ ਵਾਪਸ ਆਵਾਂਗਾ.
ਸਿੱਟਾ ਕਰਨ ਲਈ, ਬਹੁਤ ਸਾਰੇ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤ ਕੁਝ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪ੍ਰਭਾਸ਼ਿਤ ਆਬਾਦੀ ਦੇ ਨੁਮਾਇੰਦੇ ਨਹੀਂ ਹਨ. ਉਹਨਾਂ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਜਿਨ੍ਹਾਂ ਨਮੂਨੇ ਤੋਂ ਨਤੀਜਿਆਂ ਨੂੰ ਆਮ ਜਨਤਾ ਦੇ ਵੱਲ ਖਿੱਚਿਆ ਗਿਆ ਹੈ, ਇਹ ਇੱਕ ਗੰਭੀਰ ਸਮੱਸਿਆ ਹੈ. ਪਰ ਅੰਦਰੂਨੀ ਜਾਂਚਾਂ ਦੇ ਬਾਰੇ ਵਿੱਚ ਪ੍ਰਸ਼ਨਾਂ ਲਈ, ਗੈਰ-ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੋ ਸਕਦੇ ਹਨ, ਜਦੋਂ ਤੱਕ ਖੋਜਕਰਤਾ ਆਪਣੇ ਨਮੂਨੇ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਸਿਧਾਂਤਕ ਜਾਂ ਅਨੁਭਵੀ ਸਬੂਤ ਦੇ ਨਾਲ ਟਰਾਂਸਪੋਰਟ ਯੋਗਤਾ ਬਾਰੇ ਸਮਰਥਨ ਦਾਅਵਿਆਂ ਬਾਰੇ ਸਪਸ਼ਟ ਹੁੰਦੇ ਹਨ. ਵਾਸਤਵ ਵਿੱਚ, ਮੇਰੀ ਆਸ ਹੈ ਕਿ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਖੋਜਾਰਥੀਆਂ ਨੂੰ ਬਹੁਤ ਸਾਰੇ ਗੈਰ-ਪ੍ਰਤੀਨਿਧ ਜਥੇਬੰਦੀਆਂ ਵਿੱਚ ਨਮੂਨਾ ਦੀ ਤੁਲਨਾ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ, ਅਤੇ ਮੇਰਾ ਅੰਦਾਜ਼ਾ ਹੈ ਕਿ ਬਹੁਤ ਸਾਰੇ ਵੱਖੋ ਵੱਖਰੇ ਸਮੂਹਾਂ ਦੇ ਅੰਦਾਜ਼ੇ ਇੱਕ ਖੋਜੀ ਰੈਂਡਮ ਦੇ ਇੱਕ ਅੰਦਾਜ਼ੇ ਤੋਂ ਸਮਾਜਿਕ ਖੋਜ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਲਈ ਹੋਰ ਕੰਮ ਕਰਨਗੇ ਨਮੂਨਾ