ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਦੇ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ ਵਾਲੇ ਕੁਝ ਲੋਕਾਂ ਦੇ ਸਰਵੇਖਣ ਡੇਟਾ ਨੂੰ ਇਕੱਤਰ ਕਰਨ ਲਈ ਪੂਰਵ ਅਨੁਮਾਨਣ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਨ ਤੋਂ ਪ੍ਰੇਰਿਤ.
ਸਰਵੇਖਣ ਅਤੇ ਵੱਡੇ ਡਾਟਾ ਸ੍ਰੋਤਾਂ ਨੂੰ ਜੋੜਨ ਦਾ ਇੱਕ ਵੱਖਰਾ ਤਰੀਕਾ ਇੱਕ ਪ੍ਰਕਿਰਿਆ ਹੈ ਜਿਸ ਨੂੰ ਮੈਂ ਸਪੱਸ਼ਟ ਤੌਰ ਤੇ ਪੁੱਛੇਗੀ . ਵਿਸਤ੍ਰਿਤ ਪੁੱਛੇ ਜਾਣ 'ਤੇ, ਇਕ ਖੋਜਕਰਤਾ ਇਕ ਅਨੁਮਾਨਤ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜੋ ਇੱਕ ਵੱਡੇ ਪੈਮਾਨੇ' ਤੇ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵੱਡੇ ਸਟਾਕ ਨਾਲ ਸਰਵੇਖਣ ਡੇਟਾ ਦੀ ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਮਾਤਰਾ ਨੂੰ ਜੋੜਦਾ ਹੈ, ਜੋ ਕਿ ਕਿਸੇ ਵੀ ਡਾਟਾ ਸੋਰਸ ਨਾਲ ਵੱਖਰੇ ਤੌਰ 'ਤੇ ਸੰਭਵ ਨਹੀਂ ਹੋਵੇਗਾ. ਜੋਰਜੂਆ ਬਲੂਮੇਨਸਟੌਕ ਦੇ ਕੰਮ ਤੋਂ ਪ੍ਰਚੱਲਿਤ ਪੁੱਛ-ਗਿੱਛ ਦੀ ਇਕ ਮਹੱਤਵਪੂਰਨ ਉਦਾਹਰਨ ਹੈ, ਜੋ ਗਰੀਬ ਮੁਲਕਾਂ ਵਿਚ ਵਿਕਾਸ ਦੀ ਅਗਵਾਈ ਕਰਨ ਲਈ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ. ਅਤੀਤ ਵਿੱਚ, ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਡੈਟਾ ਇਕੱਠਾ ਕਰਨ ਵਾਲੇ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਦੋ ਵਿਚੋਂ ਇਕ ਤਰੀਕੇ ਨਾਲ ਲੈਣਾ ਪੈਂਦਾ ਸੀ: ਨਮੂਨਾ ਸਰਵੇਖਣ ਜਾਂ ਅੰਕੜਿਆਂ ਨਮੂਨੇ ਸਰਵੇਖਣ, ਜਿੱਥੇ ਖੋਜਕਰਤਾਵਾਂ ਵੱਲੋਂ ਥੋੜ੍ਹੇ ਜਿਹੇ ਲੋਕਾਂ ਦੀ ਇੰਟਰਵਿਊ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਉਹ ਲਚਕਦਾਰ, ਸਮੇਂ ਤੇ ਅਤੇ ਮੁਕਾਬਲਤਨ ਸਸਤੇ ਹੋ ਸਕਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਇਹ ਸਰਵੇਖਣ, ਕਿਉਂਕਿ ਉਹ ਇੱਕ ਨਮੂਨੇ 'ਤੇ ਅਧਾਰਤ ਹਨ, ਅਕਸਰ ਉਨ੍ਹਾਂ ਦੇ ਮਤਾ ਵਿਚ ਹੀ ਸੀਮਿਤ ਹੁੰਦੇ ਹਨ. ਇੱਕ ਨਮੂਨਾ ਸਰਵੇਖਣ ਦੇ ਨਾਲ, ਖਾਸ ਭੂਗੋਲਿਕ ਖੇਤਰਾਂ ਜਾਂ ਖਾਸ ਜਨਸੰਖਿਆਂ ਦੇ ਸਮੂਹਾਂ ਬਾਰੇ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਅਕਸਰ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਹੈ. ਦੂਜੇ ਪਾਸੇ, ਹਰੇਕ ਵਿਅਕਤੀ ਨੂੰ ਇੰਟਰਵਿਊ ਕਰਨ ਦਾ ਯਤਨ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਸ ਲਈ ਉਹ ਛੋਟੇ ਭੂਗੋਲਿਕ ਖੇਤਰਾਂ ਜਾਂ ਜਨ-ਅੰਕਣ ਸਮੂਹਾਂ ਦੇ ਅੰਦਾਜ਼ੇ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ. ਪਰ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਸੰਕੇਤ ਹੁੰਦੇ ਹਨ, ਫੋਕਸ ਵਿਚ ਸੰਕੁਚਿਤ (ਉਹ ਸਿਰਫ਼ ਥੋੜ੍ਹੇ ਜਿਹੇ ਸਵਾਲ ਹੀ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ), ਸਮੇਂ ਸਿਰ ਨਹੀਂ ਹੁੰਦੇ (ਉਹ ਇਕ ਨਿਸ਼ਚਿਤ ਅਨੁਸੂਚੀ ਵਿਚ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਹਰ 10 ਸਾਲ) (Kish 1979) . ਨਮੂਨੇ ਦੇ ਸਰਵੇਖਣਾਂ ਜਾਂ ਅੰਕੜਿਆਂ ਨਾਲ ਫਸਣ ਦੀ ਬਜਾਏ, ਕਲਪਨਾ ਕਰੋ ਕਿ ਜੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੋਨਾਂ ਦੀ ਬਿਹਤਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਜੋੜਿਆ ਹੈ. ਕਲਪਨਾ ਕਰੋ ਕਿ ਜੇ ਖੋਜਕਰਤਾ ਹਰੇਕ ਵਿਅਕਤੀ ਨੂੰ ਹਰ ਸੁਆਲ ਤੇ ਹਰ ਰੋਜ਼ ਸਵਾਲ ਪੁੱਛ ਸਕਦੇ ਹਨ. ਸਪੱਸ਼ਟ ਹੈ ਕਿ, ਇਹ ਸਰਵ ਵਿਆਪਕ, ਹਮੇਸ਼ਾਂ ਸਰਵੇਖਣ ਇੱਕ ਕਿਸਮ ਦੀ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਫੈਂਸਟੀ ਹੈ. ਪਰ ਇਹ ਜਾਪਦਾ ਹੈ ਕਿ ਅਸੀਂ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਤੋਂ ਡਿਜੀਟਲ ਟਰੇਸ ਵਾਲੇ ਛੋਟੇ ਜਿਹੇ ਲੋਕਾਂ ਦੇ ਸਰਵੇਖਣ ਸਵਾਲਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਕੇ ਇਹ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹਾਂ.
ਬਲੂਮੇਨਸਟੌਕ ਦੀ ਖੋਜ ਉਦੋਂ ਸ਼ੁਰੂ ਹੋਈ, ਜਦੋਂ ਉਸਨੇ ਰਵਾਂਡਾ ਵਿਚ ਸਭ ਤੋਂ ਵੱਡਾ ਮੋਬਾਈਲ ਫੋਨ ਪ੍ਰਦਾਤਾ ਨਾਲ ਭਾਗ ਲਿਆ ਅਤੇ ਕੰਪਨੀ ਨੇ 2005 ਤੋਂ 2009 ਦੇ ਵਿਚਕਾਰ ਤਕਰੀਬਨ 1.5 ਮਿਲੀਅਨ ਗਾਹਕਾਂ ਤੋਂ ਅਗਿਆਤ ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਰਿਕਾਰਡ ਮੁਹੱਈਆ ਕਰਵਾਏ. ਇਹਨਾਂ ਰਿਕਾਰਡਾਂ ਵਿੱਚ ਹਰ ਕਾਲ ਅਤੇ ਟੈਕਸਟ ਸੁਨੇਹੇ ਜਿਵੇਂ ਕਿ ਸ਼ੁਰੂਆਤੀ ਸਮੇਂ, ਮਿਆਦ , ਅਤੇ ਕਾਲਰ ਅਤੇ ਪ੍ਰਾਪਤ ਕਰਨ ਵਾਲੇ ਦੇ ਲੱਗਭੱਗ ਭੂਗੋਲਿਕ ਸਥਾਨ. ਅੰਕੜਿਆਂ ਦੇ ਮੁੱਦਿਆਂ ਬਾਰੇ ਗੱਲ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਇਹ ਦੱਸਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਇਹ ਪਹਿਲਾ ਕਦਮ ਬਹੁਤ ਸਾਰੇ ਖੋਜਕਰਤਾਵਾਂ ਲਈ ਬਹੁਤ ਮੁਸ਼ਕਿਲ ਹੋ ਸਕਦਾ ਹੈ. ਜਿਵੇਂ ਕਿ ਮੈਂ ਅਧਿਆਇ 2 ਵਿਚ ਦੱਸਿਆ ਹੈ, ਸਭ ਤੋਂ ਵੱਡੇ ਡੇਟਾ ਸ੍ਰੋਤਾਂ ਖੋਜਕਰਤਾਵਾਂ ਲਈ ਪਹੁੰਚ ਤੋਂ ਬਾਹਰ ਹਨ. ਟੈਲੀਫੋਨ ਮੈਟਾ-ਡੇਟਾ, ਖਾਸ ਤੌਰ 'ਤੇ, ਖਾਸ ਤੌਰ' ਤੇ ਅਪਹੁੰਚਯੋਗ ਹੈ ਕਿਉਂਕਿ ਇਹ ਮੁਨਾਸਿਬ ਹੋਣਾ ਮੁਢਲਾ ਅਸੰਭਵ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ ਲਗਭਗ ਉਹ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੈ ਜੋ ਭਾਗੀਦਾਰ ਸੰਵੇਦਨਸ਼ੀਲ (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . ਇਸ ਖਾਸ ਕੇਸ ਵਿੱਚ, ਖੋਜਕਰਤਾ ਡੈਟਾ ਦੀ ਸੁਰੱਖਿਆ ਲਈ ਸਾਵਧਾਨ ਸਨ ਅਤੇ ਉਹਨਾਂ ਦੇ ਕੰਮ ਦੀ ਕਿਸੇ ਤੀਜੀ ਧਿਰ (ਭਾਵ ਉਹਨਾਂ ਦੇ ਆਈਆਰਬੀ) ਦੁਆਰਾ ਨਿਗਰਾਨੀ ਕੀਤੀ ਗਈ ਸੀ. ਮੈਂ ਅਧਿਆਇ 6 ਵਿਚ ਇਨ੍ਹਾਂ ਨੈਤਿਕ ਮੁੱਦਿਆਂ ਤੇ ਹੋਰ ਵਿਸਥਾਰ ਨਾਲ ਗੱਲ ਕਰਾਂਗਾ.
ਬਲੂਮੇਨਸਟੌਕ ਨੂੰ ਧਨ ਅਤੇ ਸੁਖੀਤਾ ਨੂੰ ਦਰਸਾਉਣ ਵਿੱਚ ਦਿਲਚਸਪੀ ਸੀ. ਪਰ ਇਹ ਗੁਣ ਕਾਲ ਰਿਕਾਰਡਾਂ ਵਿਚ ਸਿੱਧੇ ਨਹੀਂ ਹਨ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਇਹ ਖੋਜ ਰਿਕਾਰਡ ਲਈ ਅਧੂਰਾ ਹੈ - ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤਾਂ ਦੀ ਇਕ ਸਾਂਝੀ ਵਿਸ਼ੇਸ਼ਤਾ ਜਿਸ ਦੀ ਚਰਚਾ ਅਧਿਆਇ 2 ਵਿੱਚ ਕੀਤੀ ਗਈ ਸੀ. ਹਾਲਾਂਕਿ, ਇਸ ਤਰ੍ਹਾਂ ਲੱਗਦਾ ਹੈ ਕਿ ਕਾਲ ਰਿਕਾਰਡਾਂ ਵਿੱਚ ਸ਼ਾਇਦ ਅਜਿਹੀ ਕੋਈ ਜਾਣਕਾਰੀ ਹੈ ਜੋ ਅਸਿੱਧੇ ਤੌਰ ਤੇ ਦੌਲਤ ਬਾਰੇ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੀ ਹੈ ਅਤੇ ਤੰਦਰੁਸਤੀ ਇਸ ਸੰਭਾਵਨਾ ਦੇ ਮੱਦੇਨਜ਼ਰ, ਬਲੂਮੇਨਸਟੌਕ ਨੇ ਪੁੱਛਿਆ ਕਿ ਕੀ ਕਿਸੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਨੂੰ ਸਿਖਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਉਹ ਆਪਣੇ ਕਾਲ ਰਿਕਾਰਡ ਦੇ ਆਧਾਰ ਤੇ ਕਿਸੇ ਸਰਵੇਖਣ ਦਾ ਜਵਾਬ ਕਿਵੇਂ ਦੇਵੇਗਾ. ਜੇ ਇਹ ਸੰਭਵ ਹੈ, ਤਾਂ ਬਲੂਮੇਨਸਟੌਕ ਇਸ ਮਾਡਲ ਦਾ ਇਸਤੇਮਾਲ 1.5 ਲੱਖ ਗਾਹਕਾਂ ਦੇ ਸਰਵੇ ਦੇ ਜਵਾਬਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਕਰ ਸਕਦਾ ਹੈ.
ਅਜਿਹੇ ਮਾਡਲ ਨੂੰ ਬਣਾਉਣ ਅਤੇ ਸਿਖਲਾਈ ਦੇਣ ਲਈ, ਕੈਲੀਫੋਰਨੀਆ ਦੇ ਵਿਗਿਆਨ ਅਤੇ ਤਕਨਾਲੋਜੀ ਦੇ ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਖੋਜੀ ਸਹਾਇਕ ਨੇ ਹਜ਼ਾਰਾਂ ਗਾਹਕਾਂ ਦੇ ਇੱਕ ਰਲਵੇਂ ਨਮੂਨੇ ਦੀ ਵਰਤੋਂ ਕੀਤੀ. ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਟੀਚਿਆਂ ਨੂੰ ਸਮਝਾਇਆ ਕਿ ਪ੍ਰੋਗ੍ਰਾਮ ਵਿਚ ਹਿੱਸਾ ਲੈਣ ਵਾਲਿਆਂ ਨੇ ਕਾਲ ਰਿਕਾਰਡਾਂ ਦੇ ਸਰਵੇਖਣ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਜੋੜਨ ਦੀ ਆਪਣੀ ਸਹਿਮਤੀ ਮੰਗੀ ਸੀ, ਅਤੇ ਫਿਰ ਉਨ੍ਹਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ ਧਨ ਅਤੇ ਤੰਦਰੁਸਤੀ ਨੂੰ ਮਾਪਣ ਲਈ ਕਈ ਸਵਾਲ ਪੁੱਛੇ, ਜਿਵੇਂ ਕਿ "ਕੀ ਤੁਸੀਂ ਰੇਡੀਓ? "ਅਤੇ" ਕੀ ਤੁਸੀਂ ਸਾਈਕਲ ਦੇ ਮਾਲਕ ਹੋ? "(ਅੰਸ਼ਕ ਸੂਚੀ ਲਈ ਚਿੱਤਰ 3.14 ਵੇਖੋ). ਸਰਵੇਖਣ ਵਿਚ ਸ਼ਾਮਲ ਸਾਰੇ ਭਾਗੀਦਾਰਾਂ ਨੂੰ ਆਰਥਿਕ ਤੌਰ ਤੇ ਮੁਆਵਜ਼ਾ ਦਿੱਤਾ ਗਿਆ ਸੀ.
ਅਗਲੀ ਵਾਰ, ਬਲੂਮਨੇਸਟੌਕ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਵਿਚ ਆਮ ਤੌਰ ਤੇ ਦੋ-ਪੜਾਵੀ ਵਿਧੀ ਦਾ ਇਸਤੇਮਾਲ ਕਰਦਾ ਸੀ: ਫੀਚਰ ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਨਿਰੀਖਣ ਕੀਤੇ ਸਿੱਖਣ ਦੁਆਰਾ. ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਫੀਚਰ ਇੰਜਨੀਅਰਿੰਗ ਪੜਾਅ ਵਿਚ, ਜਿਨ੍ਹਾਂ ਸਾਰਿਆਂ ਨਾਲ ਇੰਟਰਵਿਊ ਕੀਤੀ ਗਈ ਸੀ, ਬਲੂਮੇਨਸਟੌਕ ਨੇ ਕਾਲ ਰਿਕਾਰਡ ਨੂੰ ਹਰੇਕ ਵਿਅਕਤੀ ਦੇ ਗੁਣਾਂ ਦੇ ਸੈੱਟ ਵਿਚ ਤਬਦੀਲ ਕਰ ਦਿੱਤਾ; ਡੈਟਾ ਵਿਗਿਆਨੀ ਇਹਨਾਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ "ਫੀਚਰਸ" ਨੂੰ ਕਹਿ ਸਕਦੇ ਹਨ ਅਤੇ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਉਨ੍ਹਾਂ ਨੂੰ "ਵੇਅਰਿਏਬਲਜ਼" ਕਹਿੰਦੇ ਹਨ. ਉਦਾਹਰਣ ਵਜੋਂ, ਹਰੇਕ ਵਿਅਕਤੀ ਲਈ, ਬਲੂਮੇਨਸਟੌਕ ਨੇ ਕਿਰਿਆ ਦੇ ਨਾਲ ਕੁੱਲ ਗਿਣਤੀ ਦੀ ਗਿਣਤੀ ਕੀਤੀ, ਵੱਖਰੇ ਵਿਅਕਤੀਆਂ ਦੀ ਗਿਣਤੀ ਜਿਸ ਨਾਲ ਕਿਸੇ ਵਿਅਕਤੀ ਦੇ ਸੰਪਰਕ ਵਿਚ ਰਿਹਾ ਹੈ, ਏਅਰ ਟਾਈਮ ਤੇ ਖਰਚੇ ਗਏ ਪੈਸੇ ਦੀ ਮਾਤਰਾ, ਅਤੇ ਇਸੇ ਤਰਾਂ. ਨਾਜ਼ੁਕ ਤੌਰ ਤੇ, ਚੰਗੀ ਫੀਚਰ ਇੰਜੀਨੀਅਰਿੰਗ ਨੂੰ ਖੋਜ ਦੇ ਮਾਹੌਲ ਲਈ ਗਿਆਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਘਰੇਲੂ ਅਤੇ ਅੰਤਰਰਾਸ਼ਟਰੀ ਕਾਲਾਂ (ਅਸੀਂ ਅੰਤਰਰਾਸ਼ਟਰੀ ਤੌਰ 'ਤੇ ਅਮੀਰ ਹੋਣ ਵਾਲੇ ਲੋਕਾਂ ਦੀ ਉਮੀਦ ਕਰ ਸਕਦੇ ਹਾਂ) ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਤਾਂ ਇਹ ਫੀਚਰ ਇੰਜਨੀਅਰਿੰਗ ਪੜਾਅ' ਤੇ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ. ਰਵਾਂਡਾ ਦੀ ਥੋੜੀ ਜਿਹੀ ਸਮਝ ਵਾਲਾ ਖੋਜੀ ਇਸ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਸ਼ਾਮਲ ਨਹੀਂ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇਸ ਮਾਡਲ ਦੇ ਭਵਿੱਖਬਾਣੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਪ੍ਰਭਾਵਤ ਹੋਵੇਗਾ.
ਅਗਲਾ, ਨਿਰੀਖਣ ਕੀਤੇ ਗਏ ਸਿੱਖਣ ਦੇ ਪੜਾਅ ਵਿੱਚ, ਬਲੂਮਨੇਸਟੌਕ ਨੇ ਆਪਣੇ ਫੀਚਰਸ ਦੇ ਅਧਾਰ ਤੇ ਹਰੇਕ ਵਿਅਕਤੀ ਲਈ ਸਰਵੇਖਣ ਦੇ ਜਵਾਬ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਇੱਕ ਮਾਡਲ ਬਣਾਇਆ. ਇਸ ਕੇਸ ਵਿੱਚ, ਬਲੂਮੇਨਸਟੌਕ ਨੇ ਰਿਜਸਟੈਂਸੀ ਰਿਗਰੈਸ਼ਨ ਦਾ ਇਸਤੇਮਾਲ ਕੀਤਾ, ਪਰ ਉਹ ਕਈ ਹੋਰ ਸਟੈਟਿਸਟਿਕਲ ਜਾਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੇ ਤਰੀਕੇ ਵਰਤ ਸਕਦਾ ਸੀ.
ਇਸ ਨੇ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕੀਤਾ? ਕੀ ਬਲਾਊਮੇਨਸਟਕ ਨੇ ਸਵਾਲਾਂ ਦੇ ਸਰਵੇਖਣਾਂ ਦੇ ਅੰਦਾਜ਼ੇ ਲਗਾਉਣ ਵਿਚ ਸਮਰੱਥ ਸੀ ਜਿਵੇਂ ਕਿ "ਕੀ ਤੁਸੀਂ ਕੋਈ ਰੇਡੀਓ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ?" ਅਤੇ "ਕੀ ਤੁਸੀਂ ਸਾਈਕਲ ਦੇ ਮਾਲਕ ਹੋ?" ਕਾਲ ਰਿਕਾਰਡਾਂ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਗਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਉਪਯੋਗ ਕਰਦੇ ਹੋ? ਆਪਣੇ ਪੂਰਵ-ਅਨੁਮਾਨਕ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਬਲੂਮੇਨਸਟਕ ਨੇ ਕਰਾਸ-ਵੈਧਤਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਇੱਕ ਤਕਨੀਕ ਜੋ ਆਮ ਤੌਰ ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ ਵਰਤੀ ਜਾਂਦੀ ਹੈ ਪਰ ਬਹੁਤ ਘੱਟ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਵਿੱਚ. ਕ੍ਰਾਸ-ਪ੍ਰਮਾਣਿਕਤਾ ਦਾ ਉਦੇਸ਼ ਇਸ ਨੂੰ ਸਿਖਲਾਈ ਦੇ ਕੇ ਅਤੇ ਡਾਟਾ ਦੇ ਵੱਖ-ਵੱਖ ਸਬਸੈੱਟਾਂ 'ਤੇ ਇਸ ਦੀ ਜਾਂਚ ਕਰ ਕੇ ਮਾਡਲ ਦੇ ਭਵਿੱਖਬਾਣੀ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਨਿਰਣਾਇਕ ਮੁਲਾਂਕਣ ਮੁਹੱਈਆ ਕਰਨਾ ਹੈ. ਖਾਸ ਤੌਰ ਤੇ ਬਲੂਮੇਨਸਟੌਕ ਨੇ ਆਪਣੇ ਡਾਟਾ ਨੂੰ 100 ਲੋਕਾਂ ਦੇ 10 ਭਾਗਾਂ ਵਿੱਚ ਵੰਡਿਆ. ਫਿਰ, ਉਸ ਨੇ ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਨੌਂ ਭਾਗਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਅਤੇ ਬਾਕੀ ਬਚੇ ਚੱਕਰ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਦੀ ਪ੍ਰਭਾਵੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ. ਉਸ ਨੇ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ 10 ਵਾਰ ਦੁਹਰਾਇਆ - ਹਰੇਕ ਅੰਕ ਨੂੰ ਵੈਧਤਾ ਡੇਟਾ ਵਜੋਂ ਇੱਕ ਵਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਵਾਲਾ- ਅਤੇ ਨਤੀਜਿਆਂ ਦੇ ਔਸਤਨ.
ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਕੁਝ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੀ (ਚਿੱਤਰ 3.14); ਉਦਾਹਰਨ ਲਈ, ਬਲੂਮਨੇਸਟੌਕ 97.6% ਦੀ ਸ਼ੁੱਧਤਾ ਨਾਲ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕਦਾ ਹੈ ਜੇਕਰ ਕਿਸੇ ਕੋਲ ਰੇਡੀਓ ਹੈ ਇਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦਾ ਹੈ, ਪਰ ਇੱਕ ਸਧਾਰਨ ਵਿਕਲਪ ਦੇ ਵਿਰੁੱਧ ਇੱਕ ਗੁੰਝਲਦਾਰ ਪਰਿਭਾਸ਼ਾ ਵਿਧੀ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਹਮੇਸ਼ਾ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਹੈ. ਇਸ ਕੇਸ ਵਿੱਚ, ਇੱਕ ਸਧਾਰਨ ਵਿਕਲਪ ਇਹ ਅਨੁਮਾਨ ਕਰਨਾ ਹੈ ਕਿ ਹਰ ਕੋਈ ਸਭ ਤੋਂ ਵੱਧ ਆਮ ਜਵਾਬ ਦੇਵੇਗਾ. ਉਦਾਹਰਨ ਲਈ, 97.3% ਉੱਤਰਦਾਤਾਵਾਂ ਨੇ ਰੇਡੀਓ ਦੇ ਮਾਲਕ ਹੋਣ ਦੀ ਰਿਪੋਰਟ ਦਿੱਤੀ ਹੈ, ਜੇ ਬਲੂਮਨੇਸਟੌਕ ਨੇ ਅਨੁਮਾਨ ਲਗਾਇਆ ਸੀ ਕਿ ਹਰ ਕੋਈ ਇੱਕ ਰੇਡੀਓ ਦੇ ਮਾਲਕ ਕੋਲ ਰਿਪੋਰਟ ਕਰੇਗਾ ਕਿ ਉਸ ਕੋਲ 97.3% ਦੀ ਸ਼ੁੱਧਤਾ ਹੋਵੇਗੀ, ਜੋ ਹੈਰਾਨੀਜਨਕ ਤਰੀਕੇ ਨਾਲ ਉਸਦੀ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਪ੍ਰਕਿਰਿਆ (97.6% ਸ਼ੁੱਧਤਾ) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਸਮਾਨ ਹੈ. . ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿਚ, ਸਾਰੇ ਫੈਨਸੀ ਡਾਟਾ ਅਤੇ ਮਾਡਲਿੰਗ ਨੇ ਭਵਿੱਖਬਾਣੀ ਦੀ ਸ਼ੁੱਧਤਾ 97.3% ਤੋਂ 97.6% ਤਕ ਵਧਾ ਦਿੱਤੀ. ਪਰ, ਹੋਰ ਸਵਾਲਾਂ ਲਈ, ਜਿਵੇਂ ਕਿ "ਕੀ ਤੁਸੀਂ ਸਾਈਕਲ ਦੇ ਮਾਲਕ ਹੋ?", ਭਵਿੱਖਬਾਣੀ 54.4% ਤੋਂ ਘਟਾ ਕੇ 67.6% ਹੋ ਗਈ ਹੈ. ਵਧੇਰੇ ਆਮਤੌਰ ਤੇ, 3.15 ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਕੁਝ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਲਈ, ਬਲੂਮਨੇਸਟੌਕ ਨੇ ਸਿਰਫ਼ ਆਸਾਨ ਬੇਸਲਾਈਨ ਪੂਰਵ-ਅਨੁਮਾਨ ਲਗਾਉਣ ਤੋਂ ਬਹੁਤਾ ਸੁਧਾਰ ਨਹੀਂ ਕੀਤਾ, ਪਰ ਹੋਰ ਗੁਣਾਂ ਲਈ ਕੁਝ ਸੁਧਾਰ ਹੋਇਆ ਸੀ. ਇਹਨਾਂ ਨਤੀਜਿਆਂ ਤੇ ਸਿਰਫ਼ ਵੇਖਣਾ, ਪਰ, ਤੁਸੀਂ ਸ਼ਾਇਦ ਇਹ ਨਾ ਸੋਚੋ ਕਿ ਇਹ ਪਹੁੰਚ ਖਾਸ ਤੌਰ 'ਤੇ ਵਾਅਦਾ ਕਰਦੀ ਹੈ.
ਪਰ, ਸਿਰਫ ਇਕ ਸਾਲ ਬਾਅਦ, ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਦੋ ਸਾਥੀਆਂ-ਗੈਬਰੀਅਲ ਕਾਡਾਮੂਰੋ ਅਤੇ ਰਾਬਰਟ ਔਨ ਨੇ ਸਾਇੰਸ ਵਿਚ ਕਾਫ਼ੀ ਚੰਗੇ ਨਤੀਜੇ (Blumenstock, Cadamuro, and On 2015) . ਇਸ ਸੁਧਾਰ ਦੇ ਦੋ ਮੁੱਖ ਤਕਨੀਕੀ ਕਾਰਨ ਹਨ: (1) ਉਨ੍ਹਾਂ ਨੇ ਵਿਅਕਤੀਆਂ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਅਨੁਮਾਨਤ ਕਰਨ ਦੀ ਬਜਾਏ ਹੋਰ ਵਧੀਆ ਤਰੀਕਿਆਂ (ਅਰਥਾਤ, ਇੰਜੀਨੀਅਰਿੰਗ ਵਿਸ਼ੇਸ਼ਤਾ ਲਈ ਇਕ ਨਵੀਂ ਪਹੁੰਚ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਤੋਂ ਜਵਾਬ ਦੇਣ ਲਈ ਇੱਕ ਹੋਰ ਵਧੀਆ ਮਾਡਲ) ਅਤੇ (2) ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਸੀ ਸਰਵੇਖਣ ਦੇ ਪ੍ਰਸ਼ਨ (ਜਿਵੇਂ, "ਕੀ ਤੁਸੀਂ ਇੱਕ ਰੇਡੀਓ ਦੇ ਮਾਲਕ ਹੋ?"), ਉਹਨਾਂ ਨੇ ਇੱਕ ਸੰਚਿਤ ਸੰਪੱਤੀ ਸੂਚੀ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ. ਇਨ੍ਹਾਂ ਤਕਨੀਕੀ ਸੁਧਾਰਾਂ ਦਾ ਭਾਵ ਹੈ ਕਿ ਉਹ ਆਪਣੇ ਨਮੂਨੇ ਵਿਚਲੇ ਲੋਕਾਂ ਲਈ ਧਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਕਾਲ ਰਿਕਾਰਡਾਂ ਦਾ ਇਸਤੇਮਾਲ ਕਰਨ ਦੇ ਇੱਕ ਉਚਿਤ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ.
ਨਮੂਨੇ ਵਿਚਲੇ ਲੋਕਾਂ ਦੀ ਦੌਲਤ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦੇ ਹੋਏ, ਇਹ ਖੋਜ ਦਾ ਅੰਤਮ ਟੀਚਾ ਨਹੀਂ ਸੀ. ਯਾਦ ਰੱਖੋ ਕਿ ਵਿਕਾਸਸ਼ੀਲ ਦੇਸ਼ਾਂ ਵਿਚ ਗਰੀਬੀ ਦੇ ਸਹੀ, ਉੱਚ-ਹੱਲ ਦੇ ਅਨੁਮਾਨਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਉੱਤਮ ਟੀਚਾ ਨਮੂਨਾ ਸਰਵੇਖਣਾਂ ਅਤੇ ਸੰਖੇਪ ਦੀਆਂ ਕੁਝ ਵਧੀਆ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਜੋੜਨਾ ਸੀ. ਇਸ ਟੀਚੇ ਨੂੰ ਹਾਸਲ ਕਰਨ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਬਲੂਮਨੇਸਟੌਕ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੇ ਆਪਣੇ ਮਾਡਲ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਡੇਟਾ ਨੂੰ ਕਾਲ ਰਿਕਾਰਡਾਂ ਵਿੱਚ 1.5 ਮਿਲੀਅਨ ਦੇ ਸਾਰੇ ਲੋਕਾਂ ਦੀ ਸੰਪੱਤੀ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵਰਤਿਆ. ਅਤੇ ਉਨ੍ਹਾਂ ਨੇ ਭੂਗੋਲਿਕ ਸੂਚਨਾ ਦਾ ਇਸਤੇਮਾਲ ਕਾੱਲ ਦੇ ਰਿਕਾਰਡਾਂ ਵਿਚ ਲਿਖਿਆ (ਯਾਦ ਰੱਖੋ ਕਿ ਡੇਟਾ ਵਿਚ ਹਰੇਕ ਕਾਲ ਲਈ ਨਜ਼ਦੀਕੀ ਸੈੱਲ ਟਾਵਰ ਦੀ ਸਥਿਤੀ ਸ਼ਾਮਲ ਹੈ) ਹਰੇਕ ਵਿਅਕਤੀ ਦੇ ਘਰ ਦੀ ਅਨੁਮਾਨਤ ਥਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ (ਚਿੱਤਰ 3.17). ਇਨ੍ਹਾਂ ਦੋਹਾਂ ਅਨੁਮਾਨਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਕੇ, ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਉਸਦੇ ਸਾਥੀਆਂ ਨੇ ਗਾਹਕਾਂ ਦੇ ਦੌਲਤ ਦੇ ਭੂਗੋਲਿਕ ਵੰਡ ਦਾ ਅੰਦਾਜ਼ਾ ਬਹੁਤ ਵਧੀਆ ਸਥਾਨਿਕ ਗ੍ਰੈਨਿਊਲੈਰਿਟੀ ਤੇ ਪਾਇਆ. ਉਦਾਹਰਣ ਵਜੋਂ, ਉਹ ਰਵਾਂਡਾ ਦੇ 2,148 ਸੈੱਲਾਂ (ਦੇਸ਼ ਦੇ ਸਭ ਤੋਂ ਛੋਟੇ ਪ੍ਰਸ਼ਾਸ਼ਕੀ ਇਕਾਈ) ਵਿਚ ਹਰੇਕ ਦੀ ਔਸਤ ਸੰਪਤੀ ਦਾ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦੇ ਹਨ.
ਇਹਨਾਂ ਅਨੁਮਾਨਾਂ ਵਿੱਚ ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਗਰੀਬੀ ਦੇ ਵਾਸਤਵਿਕ ਪੱਧਰ ਦੇ ਨਾਲ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮੇਲ ਖਾਂਦਾ ਹੈ? ਇਸ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ, ਮੈਂ ਇਸ ਤੱਥ 'ਤੇ ਜ਼ੋਰ ਦੇਣਾ ਚਾਹੁੰਦਾ ਹਾਂ ਕਿ ਸ਼ੱਕੀ ਹੋਣ ਦੇ ਕਈ ਕਾਰਨ ਹਨ. ਉਦਾਹਰਣ ਵਜੋਂ, ਵਿਅਕਤੀਗਤ ਪੱਧਰ ਤੇ ਪੂਰਵ-ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਸਮਰੱਥਾ ਬਹੁਤ ਸ਼ੋਰ ਵਾਲੀ ਸੀ (ਚਿੱਤਰ 3.17). ਅਤੇ, ਸ਼ਾਇਦ ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ, ਮੋਬਾਇਲ ਫੋਨਾਂ ਵਾਲੇ ਲੋਕ ਮੋਬਾਇਲ ਫੋਨਾਂ ਤੋਂ ਬਿਨਾਂ ਲੋਕਾਂ ਤੋਂ ਵਿਵਸਥਿਤ ਢੰਗ ਨਾਲ ਵੱਖਰੇ ਹੋ ਸਕਦੇ ਹਨ. ਇਸ ਤਰ੍ਹਾਂ, ਬਲੂਮਨੇਸਟੌਕ ਅਤੇ ਸਹਿਯੋਗੀਆਂ ਨੂੰ ਕਵਰੇਜ ਦੀਆਂ ਅਜਿਹੀਆਂ ਕਿਸਮਾਂ ਦੀਆਂ ਬਿਮਾਰੀਆਂ ਤੋਂ ਪੀੜਤ ਹੋ ਸਕਦੀ ਹੈ ਜੋ ਮੈਂ 1936 ਦੇ ਲਿਟਰੇਰੀ ਡਾਈਜੈਸਟ ਸਰਵੇਖਣ ਨੂੰ ਪਿਛੋਕੜ ਦਿੱਤਾ ਸੀ ਜੋ ਮੈਂ ਪਹਿਲਾਂ ਦੱਸਿਆ ਸੀ.
ਆਪਣੇ ਅੰਦਾਜ਼ਿਆਂ ਦੀ ਗੁਣਵੱਤਾ ਦੀ ਭਾਵਨਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਬਲੂਮਨੇਸਟੌਕ ਅਤੇ ਸਹਿਯੋਗੀਆਂ ਨੂੰ ਉਨ੍ਹਾਂ ਨਾਲ ਕੁਝ ਹੋਰ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਦੀ ਲੋੜ ਸੀ. ਖੁਸ਼ਕਿਸਮਤੀ ਨਾਲ, ਉਸੇ ਸਮੇਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਆਪਣੇ ਅਧਿਐਨ ਦੇ ਰੂਪ ਵਿੱਚ, ਰਵਾਂਡਾ ਦੇ ਇੱਕ ਹੋਰ ਸਮੂਹ ਰਵਾਂਡਾ ਵਿੱਚ ਇੱਕ ਹੋਰ ਰਵਾਇਤੀ ਸਮਾਜਕ ਸਰਵੇਖਣ ਚਲਾ ਰਿਹਾ ਸੀ. ਇਹ ਹੋਰ ਸਰਵੇਖਣ - ਜੋ ਵਿਆਪਕ ਤੌਰ ਤੇ ਸਨਮਾਨਿਤ ਜਨਗਣਨਾ ਅਤੇ ਸਿਹਤ ਸਰਵੇਖਣ ਪ੍ਰੋਗਰਾਮ ਦਾ ਹਿੱਸਾ ਸੀ - ਇੱਕ ਵੱਡਾ ਬਜਟ ਸੀ ਅਤੇ ਉੱਚ ਗੁਣਵੱਤਾ, ਰਵਾਇਤੀ ਵਿਧੀਆਂ ਦਾ ਇਸਤੇਮਾਲ ਕੀਤਾ. ਇਸ ਲਈ, ਜਨਸੰਖਿਆ ਅਤੇ ਸਿਹਤ ਸਰਵੇਖਣ ਦੇ ਅੰਦਾਜ਼ੇ ਨੂੰ ਸਧਾਰਣ ਤੌਰ ਤੇ ਸੋਨਾ-ਮਿਆਰੀ ਅਨੁਮਾਨ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਦੋ ਅੰਦਾਜ਼ੇ ਦੀ ਤੁਲਨਾ ਕੀਤੀ ਗਈ ਸੀ, ਉਹ ਬਿਲਕੁਲ ਇਕੋ ਜਿਹੇ ਸਨ (ਚਿੱਤਰ 3.17). ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਕਾਲ ਰਿਕਾਰਡਾਂ ਦੇ ਨਾਲ ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਸਰਵੇਖਣ ਡੇਟਾ ਨੂੰ ਜੋੜ ਕੇ, ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਨੇ ਸੋਨੇ-ਸਟੈਂਡਰਡ ਪਹੁੰਚ ਤੋਂ ਤੁਲਨਾਤਮਕ ਅਨੁਮਾਨ ਲਗਾਉਣ ਵਿੱਚ ਸਮਰੱਥਾਵਾਨ ਸੀ
ਇੱਕ ਸੰਦੇਹਵਾਦੀ ਇਹ ਨਤੀਜੇ ਨਿਰਾਸ਼ਾ ਦੇ ਰੂਪ ਵਿੱਚ ਦੇਖ ਸਕਦੇ ਹਨ. ਆਖਰਕਾਰ, ਉਨ੍ਹਾਂ ਨੂੰ ਦੇਖਣ ਦਾ ਇੱਕ ਢੰਗ ਇਹ ਕਹਿਣਾ ਹੈ ਕਿ ਵੱਡੇ ਅੰਕਾਂ ਅਤੇ ਮਸ਼ੀਨਾਂ ਦੀ ਸਿਖਲਾਈ ਦਾ ਇਸਤੇਮਾਲ ਕਰਕੇ, ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਸਹਿਯੋਗੀ ਅੰਦਾਜ਼ੇ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਸਮਰੱਥ ਸਨ ਜੋ ਪਹਿਲਾਂ ਤੋਂ ਹੀ ਮੌਜੂਦਾ ਢੰਗਾਂ ਦੁਆਰਾ ਵਧੇਰੇ ਭਰੋਸੇਯੋਗ ਬਣਾਏ ਜਾ ਸਕਦੇ ਹਨ. ਪਰ ਮੈਨੂੰ ਨਹੀਂ ਲਗਦਾ ਕਿ ਇਹ ਦੋ ਕਾਰਨਾਂ ਕਰਕੇ ਇਸ ਅਧਿਐਨ ਬਾਰੇ ਸੋਚਣ ਦਾ ਸਹੀ ਤਰੀਕਾ ਹੈ. ਪਹਿਲਾਂ, ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਸਹਿਕਰਮੀਆਂ ਦੇ ਅੰਦਾਜ਼ੇ ਤਕਰੀਬਨ 10 ਗੁਣਾ ਤੇਜ਼ ਅਤੇ 50 ਗੁਣਾ ਸਸਤਾ (ਜਦੋਂ ਕੀਮਤ ਨੂੰ ਬਦਲਣ ਦੇ ਮੁੱਲ ਦੇ ਰੂਪ ਵਿਚ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ) ਸੀ. ਜਿਵੇਂ ਮੈਂ ਪਹਿਲਾਂ ਇਸ ਅਧਿਆਇ ਵਿਚ ਦਲੀਲ ਦਿੱਤੀ ਸੀ, ਖੋਜਕਾਰ ਆਪਣੇ ਸੰਕਟ 'ਤੇ ਖ਼ਰਚ ਅਣਡਿੱਠਾ ਕਰਦੇ ਹਨ. ਇਸ ਕੇਸ ਵਿਚ, ਉਦਾਹਰਨ ਲਈ, ਲਾਗਤ ਵਿੱਚ ਨਾਟਕੀ ਕਮੀ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਹਰ ਕੁਝ ਸਾਲ ਚੱਲਣ ਦੀ ਬਜਾਏ - ਜਿਵੇਂ ਕਿ ਜਨਸੰਖਿਆ ਅਤੇ ਸਿਹਤ ਸਰਵੇਖਣਾਂ ਲਈ ਇੱਕ ਮਿਆਰੀ ਹੈ - ਹਰ ਕਿਸਮ ਦਾ ਸਰਵੇਖਣ ਹਰ ਮਹੀਨੇ ਚਲਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਖੋਜਕਾਰਾਂ ਅਤੇ ਨੀਤੀਆਂ ਲਈ ਕਈ ਫਾਇਦੇ ਪ੍ਰਦਾਨ ਕਰੇਗਾ ਨਿਰਮਾਤਾ ਸੰਦੇਹਵਾਦੀ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਨੂੰ ਨਾ ਲੈਣ ਦਾ ਦੂਜਾ ਕਾਰਨ ਇਹ ਹੈ ਕਿ ਇਹ ਅਧਿਐਨ ਇੱਕ ਬੁਨਿਆਦੀ ਵਿਅੰਜਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਕਿ ਵੱਖ-ਵੱਖ ਖੋਜ ਦੇ ਹਾਲਾਤਾਂ ਅਨੁਸਾਰ ਤਿਆਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਇਹ ਵਿਅੰਜਨ ਸਿਰਫ ਦੋ ਸਮੱਗਰੀ ਅਤੇ ਦੋ ਕਦਮ ਹੈ. ਇਹ ਸਮੱਗਰੀ (1) ਇੱਕ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ ਹੈ ਜੋ ਵਿਆਪਕ ਪਰ ਪਤਲੀ ਹੈ (ਅਰਥਾਤ, ਇਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਲੋਕ ਹਨ ਪਰ ਉਹ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੈ ਜਿਸ ਦੀ ਤੁਹਾਨੂੰ ਹਰ ਇੱਕ ਵਿਅਕਤੀ ਬਾਰੇ ਲੋੜ ਹੈ) ਅਤੇ (2) ਇੱਕ ਸਰਵੇਖਣ ਜੋ ਸੰਕੁਚਿਤ ਹੈ ਪਰ ਮੋਟਾ (ਭਾਵ, ਇਹ ਸਿਰਫ ਕੁਝ ਕੁ ਲੋਕ, ਪਰ ਇਸ ਕੋਲ ਉਹ ਜਾਣਕਾਰੀ ਹੈ ਜੋ ਤੁਹਾਨੂੰ ਉਨ੍ਹਾਂ ਲੋਕਾਂ ਬਾਰੇ ਚਾਹੀਦੀ ਹੈ) ਇਹ ਸਮੱਗਰੀ ਫਿਰ ਦੋ ਪੜਾਵਾਂ ਵਿੱਚ ਮਿਲਾ ਕੇ ਮਿਲਦੀ ਹੈ. ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਦੋਵੇਂ ਡਾਟਾ ਸਰੋਤਾਂ ਦੇ ਲੋਕਾਂ ਲਈ, ਇੱਕ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਬਣਾਉ ਜੋ ਸਰਵੇਖਣ ਦੇ ਜਵਾਬਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ. ਅਗਲਾ, ਵੱਡੇ ਮਾਧਿਅਮ ਦੇ ਸਰੋਤ ਵਿੱਚ ਹਰ ਕਿਸੇ ਦੇ ਸਰਵੇਖਣ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਅੱਡ ਕਰਨ ਲਈ ਉਸ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰੋ. ਇਸ ਲਈ, ਜੇ ਕੁਝ ਸਵਾਲ ਹੈ ਜੋ ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨੂੰ ਪੁੱਛਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਉਨ੍ਹਾਂ ਲੋਕਾਂ ਦੇ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ ਦੀ ਭਾਲ ਕਰੋ ਜੋ ਉਨ੍ਹਾਂ ਦੇ ਜਵਾਬ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਭਾਵੇਂ ਤੁਸੀਂ ਵੱਡੇ ਡਾਟੇ ਦੇ ਸਰੋਤ ਦੀ ਪਰਵਾਹ ਨਾ ਕਰਦੇ ਹੋਵੋ . ਭਾਵ, ਬਲੂਮੇਨਸਟੌਕ ਅਤੇ ਸਹਿਕਰਮਰਾਂ ਨੇ ਕਾਲ ਰਿਕਾਰਡਾਂ ਦੀ ਪਰਵਾਹ ਨਹੀਂ ਕੀਤੀ. ਉਹ ਸਿਰਫ ਕਾਲ ਰਿਕਾਰਡਾਂ ਦੀ ਦੇਖਭਾਲ ਕਰਦੇ ਸਨ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦਾ ਸਰਵੇਖਣ ਦੇ ਅਨੁਮਾਨਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਉਹਨਾਂ ਦੀ ਦੇਖਭਾਲ ਕੀਤੀ ਸੀ. ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਵਿੱਚ ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ ਕੇਵਲ ਅਸਿੱਧੇ ਦਿਲਚਸਪੀ-ਬਣਦੀ ਹੈ ਜਿਸ ਵਿੱਚ ਏਮਬੈਡਡ ਪੁੱਛਗਿੱਛ ਤੋਂ ਵੱਖ ਪੁੱਛਦੀ ਹੈ, ਜਿਸਦਾ ਮੈਂ ਪਹਿਲਾਂ ਜ਼ਿਕਰ ਕੀਤਾ ਸੀ.
ਸਿੱਟਾ ਵਿੱਚ, ਬਲੂਮੇਨਸਟੌਕ ਦੁਆਰਾ ਕੀਤੇ ਗਏ ਸੁਝਾਵਾਂ ਨੂੰ ਇੱਕ ਵੱਡੇ ਡੈਟਾ ਸ੍ਰੋਤ ਦੇ ਨਾਲ ਮਿਲਾਉਣ ਵਾਲੇ ਸਰਵੇਖਣ ਦੇ ਅੰਕੜੇ ਇੱਕ ਸੋਨੇ-ਮਿਆਰੀ ਸਰਵੇਖਣ ਦੇ ਮੁਕਾਬਲੇ ਤੁਲਨਾ ਕਰਨ ਲਈ ਅਨੁਮਾਨ ਲਗਾਉਂਦੇ ਹਨ. ਇਹ ਖਾਸ ਉਦਾਹਰਨ ਵਿੱਚ ਵਿਆਪਕ ਪੁੱਛ-ਗਿੱਛ ਅਤੇ ਪਰੰਪਰਾਗਤ ਸਰਵੇਖਣ ਵਿਧੀਆਂ ਦੇ ਵਿੱਚ ਕੁਝ ਵਪਾਰਕ ਬੰਦਾਂ ਦੀ ਵੀ ਸਪੱਸ਼ਟਤਾ ਹੁੰਦੀ ਹੈ. ਵਧੀਕ ਪੁੱਛੇ ਗਏ ਅੰਦਾਜ਼ੇ ਨੂੰ ਸਮੇਂ ਸਿਰ, ਕਾਫੀ ਸਸਤਾ ਅਤੇ ਹੋਰ ਤਿੱਖੇ ਬਣਾ ਦਿੱਤਾ ਗਿਆ. ਪਰ, ਦੂਜੇ ਪਾਸੇ, ਇਸ ਤਰ੍ਹਾਂ ਦੀ ਸਪੱਸ਼ਟ ਪੁੱਛਗਿੱਛ ਦਾ ਅਜੇ ਤਕ ਕੋਈ ਮਜ਼ਬੂਤ ਸਿਧਾਂਤਕ ਆਧਾਰ ਨਹੀਂ ਹੈ. ਇਹ ਇਕੋ ਉਦਾਹਰਨ ਇਹ ਨਹੀਂ ਦਰਸਾਉਂਦਾ ਕਿ ਇਹ ਪਹੁੰਚ ਕਦੋਂ ਕੰਮ ਕਰੇਗੀ ਅਤੇ ਇਹ ਕਦੋਂ ਨਹੀਂ ਹੋਵੇਗੀ, ਅਤੇ ਇਸ ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੇ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਖਾਸ ਤੌਰ 'ਤੇ ਉਨ੍ਹਾਂ ਦੇ ਵੱਡੇ ਡਾਟੇ ਦੇ ਸਰੋਤ ਵਿਚ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਹਨ ਅਤੇ ਜੋ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ, ਦੇ ਕਾਰਨ ਸੰਭਵ ਅਨੁਸ਼ਾਸਨ ਬਾਰੇ ਚਿੰਤਤ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਿਆਪਕ ਪੁੱਛ-ਗਿੱਛ ਦੀ ਪਹੁੰਚ ਅਜੇ ਆਪਣੇ ਅਨੁਮਾਨਾਂ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਅਨਿਸ਼ਚਿਤਤਾ ਦਾ ਅਨੁਮਾਨ ਲਾਉਣ ਲਈ ਵਧੀਆ ਢੰਗ ਨਹੀਂ ਹੈ. ਖੁਸ਼ਕਿਸਮਤੀ ਨਾਲ, ਵਿਸਥਾਰਤ ਪੁੱਛਗਿੱਛ ਵਿੱਚ ਅੰਕੜਾ-ਛੋਟੇ-ਖੇਤਰ ਅਨੁਮਾਨ (Rao and Molina 2015) , ਅਭਿਮਾਨੀ (Rubin 2004) , ਅਤੇ ਮਾਡਲ-ਅਧਾਰਿਤ ਪੋਸਟ-ਸਟਰ੍ਰਿਫਿਕਸ਼ਨ (ਜੋ ਕਿ ਸ਼੍ਰੀ ਪੀ. ਜੋ ਢੰਗ ਮੈਂ ਪਹਿਲਾਂ ਅਧਿਆਇ ਵਿੱਚ ਦਿੱਤਾ ਸੀ) (Little 1993) . ਇਨ੍ਹਾਂ ਡੂੰਘੇ ਕੁਨੈਕਸ਼ਨਾਂ ਦੇ ਕਾਰਨ, ਮੈਂ ਉਮੀਦ ਕਰਦਾ ਹਾਂ ਕਿ ਵਿਆਪਕ ਪੁੱਛ-ਗਿੱਛ ਕਰਨ ਦੀਆਂ ਵਿਧੀਆਂ ਦੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਨੀਤੀਆਂ ਵਿੱਚ ਜਲਦੀ ਸੁਧਾਰ ਕੀਤਾ ਜਾਵੇਗਾ.
ਅਖੀਰ ਵਿੱਚ, ਬਲੂਮਨੇਸਟੌਕ ਦੀ ਪਹਿਲੀ ਅਤੇ ਦੂਜੀ ਕੋਸ਼ਿਸ਼ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਡਿਜੀਟਲ-ਉਮਰ ਸਮਾਜਿਕ ਖੋਜ ਬਾਰੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਬਕ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਹੈ: ਸ਼ੁਰੂਆਤ ਦਾ ਅੰਤ ਨਹੀਂ ਹੈ. ਉਹ ਹੈ, ਕਈ ਵਾਰ, ਪਹਿਲੀ ਪਹੁੰਚ ਸਭ ਤੋਂ ਵਧੀਆ ਨਹੀਂ ਹੋਵੇਗੀ, ਪਰ ਜੇ ਖੋਜਕਰਤਾ ਕੰਮ ਕਰਦੇ ਰਹਿਣਗੇ ਤਾਂ ਚੀਜ਼ਾਂ ਬਿਹਤਰ ਹੋ ਸਕਦੀਆਂ ਹਨ. ਵਧੇਰੇ ਆਮ ਤੌਰ ਤੇ ਜਦੋਂ ਡਿਜ਼ੀਟਲ ਉਮਰ ਵਿਚ ਸਮਾਜਿਕ ਖੋਜ ਦੇ ਨਵੇਂ ਪਹੁੰਚ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਦੋ ਵੱਖਰੇ ਮੁਲਾਂਕਣ ਕਰਨੇ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੇ ਹਨ: (1) ਇਹ ਕੰਮ ਹੁਣ ਕਿੰਨੀ ਚੰਗੀ ਹੈ? ਅਤੇ (2) ਭਵਿੱਖ ਵਿੱਚ ਇਹ ਕੰਮ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਹੋਵੇਗਾ ਜਿਵੇਂ ਕਿ ਡੇਟ ਲਕਸ਼ ਵਿਚ ਤਬਦੀਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ ਅਤੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸ ਸਮੱਸਿਆ ਵੱਲ ਹੋਰ ਧਿਆਨ ਦਿੱਤਾ ਹੈ? ਹਾਲਾਂਕਿ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਪਹਿਲੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਦੂਜਾ ਅਕਸਰ ਜ਼ਿਆਦਾ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਹੈ.