2.3.1.1 ਵੱਡੇ

ਵੱਡੇ ਡੇਟਾਸੇਟ ਦਾ ਅੰਤ ਕਰਨ ਲਈ ਇੱਕ ਢੰਗ ਹਨ; ਉਹ ਆਪਣੇ ਆਪ ਨੂੰ ਵਿੱਚ ਇੱਕ ਅੰਤ ਨਹੀ ਹਨ.

ਵੱਡੇ ਡਾਟਾ ਦੇ ਤਿੰਨ ਚੰਗਾ ਗੁਣ ਦੇ ਪਹਿਲੇ ਸਭ ਚਰਚਾ ਕੀਤੀ ਹੈ: ਇਹ ਵੱਡੇ ਡਾਟਾ ਹਨ. ਬਹੁਤ ਸਾਰੇ ਲੋਕ, ਪ੍ਰਤੀ ਵਿਅਕਤੀ ਜਾਣਕਾਰੀ ਦੀ ਲਾਟ ਹੈ, ਜ ਵਾਰ ਵੱਧ ਬਹੁਤ ਸਾਰੇ ਪ੍ਰੇਖਣ: ਇਹ ਡਾਟਾ ਸਰੋਤ ਤਿੰਨ ਵੱਖ ਵੱਖ ਢੰਗ ਵਿੱਚ ਵੱਡੇ ਹੋ ਸਕਦਾ ਹੈ. ਇੱਕ ਵੱਡੇ dataset ਹੋਣ ਨਾਲ, ਬਹੁਤ ਘੱਟ ਸਮਾਗਮ ਦਾ ਅਧਿਐਨ ਛੋਟੇ ਅੰਤਰ ਖੋਜਣ, ਹੈ ਅਤੇ observational ਡਾਟਾ ਤੱਕ causal ਅਨੁਮਾਨ ਬਣਾਉਣ, ਖੋਜ-ਮਾਪਣ ਦੇ ਸੰਸਿਤੀ ਦੇ ਕੁਝ ਖਾਸ ਕਿਸਮ ਦੇ ਯੋਗ ਕਰਦਾ ਹੈ. ਇਸ ਵਿਚ ਇਹ ਵੀ sloppiness ਦੀ ਇੱਕ ਖਾਸ ਕਿਸਮ ਦੀ ਅਗਵਾਈ ਕਰਨ ਲਈ ਲੱਗਦਾ ਹੈ.

ਪਹਿਲੀ ਗੱਲ ਇਹ ਹੈ ਕਿ ਜਿਸ ਲਈ ਆਕਾਰ ਨੂੰ ਖਾਸ ਤੌਰ 'ਤੇ ਲਾਭਦਾਇਕ ਹੈ ਖਾਸ subgroups ਅਨੁਮਾਨ ਕਰਨ ਲਈ ਔਸਤ ਪਰੇ ਵਧ ਰਿਹਾ ਹੈ. ਮਿਸਾਲ ਲਈ, ਗੈਰੀ ਰਾਜਾ, ਜੈਨੀਫ਼ਰ ਪੈਨ, ਅਤੇ ਮੌਲੀ ਰੌਬਰਟਸ (2013) ਸੰਭਾਵਨਾ ਮਾਪਿਆ ਚੀਨ ਵਿਚ ਸਮਾਜਿਕ ਮੀਡੀਆ ਨੂੰ ਪੋਸਟ ਸਰਕਾਰ ਨੇ censored ਕੀਤਾ ਜਾਵੇਗਾ, ਜੋ ਕਿ. ਆਪਣੇ ਆਪ ਨੂੰ ਦੇ ਕੇ ਹਟਾਉਣ ਦੀ ਇਸ ਔਸਤ ਸੰਭਾਵਨਾ ਨੂੰ ਸਮਝਣ ਇਸੇ ਸਰਕਾਰ ਨੇ ਕੁਝ ਪੋਸਟ ਨਾ, ਪਰ ਹੋਰ censors ਲਈ ਬਹੁਤ ਹੀ ਮਦਦਗਾਰ ਹੈ. ਪਰ, ਕਿਉਕਿ ਆਪਣੇ dataset 11 ਲੱਖ ਪੋਸਟ ਵੀ ਸ਼ਾਮਲ, ਰਾਜਾ ਅਤੇ ਸਾਥੀ ਨੂੰ ਵੀ 85 ਵੱਖ-ਵੱਖ ਵਰਗ (ਉਦਾਹਰਨ ਲਈ, ਪੋਰਨੋਗ੍ਰਾਫੀ, ਤਿੱਬਤ, ਅਤੇ ਬੀਜਿੰਗ ਵਿੱਚ ਟਰੈਫਿਕ) ਤੇ ਪੋਸਟ ਲਈ ਸਸਰਿਸ਼ਪ ਦੀ ਸੰਭਾਵਨਾ ਅਨੁਮਾਨ ਪੈਦਾ. ਵੱਖ-ਵੱਖ ਵਰਗ ਵਿੱਚ ਪੋਸਟ ਲਈ ਸਸਰਿਸ਼ਪ ਦੀ ਸੰਭਾਵਨਾ ਦੀ ਤੁਲਨਾ ਕਰ ਕੇ, ਉਹ ਹੈ ਅਤੇ ਇਸੇ ਸਰਕਾਰ ਨੇ ਪੋਸਟ ਦੇ ਕੁਝ ਕਿਸਮ censors ਬਾਰੇ ਹੋਰ ਸਮਝਣ ਦੇ ਯੋਗ ਸਨ. 11 ਹਜ਼ਾਰ ਪੋਸਟ (ਦੀ ਬਜਾਏ 11 ਲੱਖ ਪੋਸਟ) ਦੇ ਨਾਲ, ਉਹ ਇਹ ਸ਼੍ਰੇਣੀ-ਖਾਸ ਅਨੁਮਾਨ ਪੈਦਾ ਕਰਨ ਦੇ ਯੋਗ ਹੋ ਗਿਆ ਹੈ, ਨਾ ਹੋਵੇਗਾ.

ਦੂਜਾ, ਆਕਾਰ ਲਈ ਬਹੁਤ ਘੱਟ ਘਟਨਾ ਦੀ ਪੜ੍ਹਾਈ ਕਰ ਰਿਹਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਲਾਭਦਾਇਕ ਹੈ. ਮਿਸਾਲ ਲਈ, ਗੋਇਲ ਅਤੇ ਸਾਥੀ (2015) ਵੱਖ ਵੱਖ ਢੰਗ ਹੈ, ਜੋ ਕਿ ਟਵੀਟ ਵਾਇਰਸ ਜਾਣ ਸਕਦਾ ਹੈ ਦਾ ਅਧਿਐਨ ਕਰਨਾ ਚਾਹੁੰਦਾ ਸੀ. ਇਸ ਕਰਕੇ ਮੁੜ-ਟਵੀਟ ਦੇ ਵੱਡੇ Cascades ਬਹੁਤ ਹੀ ਘੱਟ-ਦੇ ਬਾਰੇ ਇੱਕ ਵਿੱਚ ਹਨ, 3,000-ਉਹ ਕ੍ਰਮ ਨੂੰ ਆਪਣੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਕਾਫ਼ੀ ਵੱਡਾ Cascades ਦਾ ਪਤਾ ਕਰਨ ਲਈ ਵਿੱਚ ਇੱਕ ਅਰਬ ਵੱਧ ਟਵੀਟ ਦਾ ਅਧਿਐਨ ਕਰਨ ਦੀ ਲੋੜ ਹੈ.

ਤੀਜਾ, ਵੱਡੀ ਡੇਟਾਸੇਟ ਛੋਟੇ ਅੰਤਰ ਨੂੰ ਖੋਜਣ ਲਈ ਖੋਜਕਾਰ ਯੋਗ ਕਰੋ. ਅਸਲ ਵਿਚ, ਉਦਯੋਗ ਵਿੱਚ ਵੱਡੇ ਡਾਟਾ 'ਤੇ ਫੋਕਸ ਦੇ ਬਹੁਤ ਇਹ ਛੋਟੇ ਅੰਤਰ ਦੇ ਬਾਰੇ ਹੈ: ਭਰੋਸੇਯੋਗ ਇੱਕ ਵਿਗਿਆਪਨ' ਤੇ 1% ਅਤੇ 1.1% ਕਲਿੱਕ-ਦੁਆਰਾ ਦਰ ਦੇ ਵਿੱਚ ਅੰਤਰ ਖੋਜਣ ਵਾਧੂ ਮਾਲੀਆ ਵਿੱਚ ਡਾਲਰ ਦੇ ਦਹਿ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰ ਸਕਦੇ ਹੋ. ਕੁਝ ਵਿਗਿਆਨਕ ਸੈਟਿੰਗ ਵਿੱਚ, ਅਜਿਹੇ ਛੋਟੇ ਅੰਤਰ ਖਾਸ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਨਾ ਹੋ ਸਕਦਾ ਹੈ (ਵੀ, ਜੇ ਉਹ ਭੋਰਾ ਮਹੱਤਵਪੂਰਨ ਹਨ). ਪਰ, ਕੁਝ ਨੀਤੀ ਨੂੰ ਸੈਟਿੰਗ ਵਿੱਚ, ਅਜਿਹੇ ਛੋਟੇ ਅੰਤਰ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜਦ ਸਾਮੂਹਿਕ ਵਿਚ ਦੇਖਿਆ ਬਣ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਦੋ ਜਨਤਕ ਸਿਹਤ ਦਖਲ ਅਤੇ ਇੱਕ ਹੈ ਥੋੜ੍ਹਾ ਹੋਰ ਵੱਧ ਹੋਰ ਅਸਰਦਾਰ ਹੈ, ਫਿਰ ਹੋਰ ਅਸਰਦਾਰ ਦਖਲ ਵਾਧੂ ਜੀਵਨ ਦੇ ਹਜ਼ਾਰ ਨੂੰ ਸੰਭਾਲਣ ਖਤਮ ਕਰ ਸਕਦਾ ਹੈ ਬਦਲਣ ਹਨ.

ਅੰਤ ਵਿੱਚ, ਵੱਡੇ ਡਾਟਾ ਸੈੱਟ ਬਹੁਤ observational ਡਾਟਾ ਤੱਕ causal ਅਨੁਮਾਨ ਕਰਨ ਲਈ ਸਾਡੀ ਯੋਗਤਾ ਨੂੰ ਵਧਾਉਣ. ਵੱਡੇ ਡੇਟਾਸੇਟ ਬੁਨਿਆਦੀ, observational ਡਾਟਾ ਤੱਕ causal ਅਨੁਿਾਨ ਬਣਾਉਣ ਮੇਲ ਅਤੇ ਕੁਦਰਤੀ ਪ੍ਰਯੋਗ-ਦੋ ਤਕਨੀਕ ਹੈ, ਜੋ ਕਿ ਖੋਜਕਾਰ observational ਤੱਕ causal ਦਾਅਵੇ ਕਰਨ ਲਈ ਵਿਕਸਤ ਕੀਤਾ ਹੈ ਦਾ ਡਾਟਾ-ਦੋਨੋ ਬਹੁਤ ਵੱਡੇ ਡੇਟਾਸੇਟ ਫ਼ਾਇਦਾ ਨਾਲ ਸਮੱਸਿਆ ਨੂੰ ਤਬਦੀਲ ਨਾ ਕਰੋ, ਪਰ. ਮੈਨੂੰ ਸਮਝਾਉਣ ਅਤੇ ਇਸ ਅਧਿਆਇ ਵਿੱਚ ਬਾਅਦ ਵਿੱਚ ਵੱਡਾ ਵਿਸਥਾਰ ਵਿਚ ਇਸ ਦਾਅਵੇ ਮਿਸਾਲ ਜਦ ਮੈਨੂੰ ਖੋਜ ਰਣਨੀਤੀ ਦਾ ਵਰਣਨ ਹੋਵੋਗੇ.

ਪਰ bigness ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਚੰਗਾ ਸੰਪਤੀ ਜਦ ਠੀਕ ਵਰਤਿਆ ਹੈ, ਮੈਨੂੰ ਦੇਖਿਆ ਹੈ ਕਿ bigness ਆਮ ਨੂੰ ਇੱਕ ਸੰਕਲਪ ਗਲਤੀ ਕਰਨ ਦੀ ਅਗਵਾਈ ਕਰਦਾ. ਕੁਝ ਕਾਰਨ ਕਰਕੇ, bigness ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨ ਲਈ ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ ਖੋਜਕਾਰ ਦੀ ਅਗਵਾਈ ਕਰਨ ਲਈ ਲੱਗਦਾ ਹੈ. Bigness ਬੇਤਰਤੀਬ ਗਲਤੀ ਬਾਰੇ ਚਿੰਤਾ ਕਰਨ ਦੀ ਲੋੜ ਹੈ ਨੂੰ ਘੱਟ ਕਰਦਾ ਹੈ, ਜਦਕਿ, ਇਸ ਨੂੰ ਅਸਲ ਵਿੱਚ ਯੋਜਨਾਬੱਧ ਗਲਤੀ ਬਾਰੇ ਚਿੰਤਾ ਕਰਨ ਦੀ ਲੋੜ ਹੈ, ਨੂੰ ਡਾਟਾ ਨੂੰ ਬਣਾਇਆ ਹੈ ਅਤੇ ਇਕੱਠੇ ਕੀਤੇ ਹਨ, ਵਿੱਚ ੳੱੁਪਰ ਤੱਕ ਪੈਦਾ ਗਲਤੀ ਹੈ, ਜੋ ਕਿ ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਹੇਠ ਹੋਰ ਵਿੱਚ ਦਾ ਵਰਣਨ ਹੋਵੋਗੇ ਦੀ ਕਿਸਮ ਵਧਾ ਦਿੰਦਾ ਹੈ. ਇੱਕ ਛੋਟੇ dataset ਵਿੱਚ, ਦੋਨੋ ਲਗਾਤਾਰ ਗਲਤੀ ਅਤੇ ਯੋਜਨਾਬੱਧ ਗਲਤੀ ਮਹੱਤਵਪੂਰਨ ਹੋ ਸਕਦਾ ਹੈ, ਪਰ ਹੈ ਇੱਕ ਵਿਸ਼ਾਲ dataset ਲਗਾਤਾਰ ਗਲਤੀ ਵਿੱਚ ਦੂਰ ਔਸਤ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਯੋਜਨਾਬੱਧ ਗਲਤੀ ਟੂਣਾ. ਖੋਜਕਾਰ, ਜੋ ਤਰਤੀਬਵਾਰ ਗਲਤੀ ਨੂੰ ਗਲਤ ਗੱਲ ਇਹ ਹੈ ਦੀ ਇੱਕ ਸਟੀਕ ਅਨੁਮਾਨ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਆਪਣੇ ਵੱਡੇ ਡੇਟਾਸੇਟ ਵਰਤ ਹੀ ਖਤਮ ਹੋ ਜਾਵੇਗਾ, ਬਾਰੇ ਨਾ ਸੋਚੋ; ਉਹ ਠੀਕ ਗਲਤ ਹੋ ਜਾਵੇਗਾ (McFarland and McFarland 2015) .