ਹੋਰ ਟਿੱਪਣੀ

ਇਸ ਭਾਗ ਦੀ ਬਜਾਏ, ਇੱਕ ਵਾਰਤਾ ਦੇ ਤੌਰ ਤੇ ਪੜ੍ਹਿਆ ਜਾ ਕਰਨ ਲਈ ਇੱਕ ਹਵਾਲਾ ਦੇ ਤੌਰ ਤੇ ਵਰਤਿਆ ਜਾ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ.

  • ਜਾਣ ਪਛਾਣ (ਹਿੱਸਾ 2.1)

ਦੀ ਦੇਖ ਹੈ ਕਿ ਇਸ ਅਧਿਆਇ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀ ਹੈ ਇਕ ਕਿਸਮ ਦੀ ਪ੍ਰਾਕ੍ਰਿਤਿਕ ਹੈ. ਡਿਜ਼ੀਟਲ ਖਾਲੀ ਵਿੱਚ ਪ੍ਰਾਕ੍ਰਿਤਿਕ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ ਨੂੰ ਵੇਖੋ Boellstorff et al. (2012) , ਅਤੇ ਮਿਕਸਡ ਡਿਜ਼ੀਟਲ ਅਤੇ ਸਰੀਰਕ ਖਾਲੀ ਵਿੱਚ ਪ੍ਰਾਕ੍ਰਿਤਿਕ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ ਨੂੰ ਵੇਖੋ Lane (2016) .

  • ਵੱਡੇ ਡਾਟਾ (ਹਿੱਸਾ 2.2)

ਤੁਹਾਨੂੰ ਡਾਟਾ repurposing ਰਹੇ ਹਨ, ਜਦ, ਉੱਥੇ ਦੋ ਮਾਨਸਿਕ ਗੁਰੁਰ ਤੁਹਾਨੂੰ ਸੰਭਵ ਸਮੱਸਿਆ ਹੈ, ਜੋ ਕਿ ਤੁਹਾਨੂੰ ਆ ਸਕਦਾ ਹੈ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ ਕਿ ਹਨ. ਪਹਿਲੀ, ਤੁਹਾਨੂੰ ਆਪਣੇ ਸਮੱਸਿਆ ਦਾ ਲਈ ਆਦਰਸ਼ dataset ਕਲਪਨਾ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ dataset ਹੈ, ਜੋ ਕਿ ਤੁਹਾਨੂੰ ਵਰਤ ਰਹੇ ਹੋ, ਜੋ ਕਿ ਦੀ ਤੁਲਨਾ ਕਰੋ. ਉਹ ਕਰਨਾ ਸਮਾਨ ਹਨ ਅਤੇ ਉਹ ਵੱਖ ਹਨ? ਤੁਹਾਨੂੰ ਆਪਣੇ ਆਪ ਨੂੰ ਆਪਣੇ ਡਾਟਾ ਇਕੱਠਾ ਨਾ ਕੀਤਾ ਹੋਵੇ, ਉਥੇ ਤੁਹਾਨੂੰ ਕੀ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਤੁਹਾਨੂੰ ਕੀ ਹੈ ਦੇ ਵਿੱਚ ਅੰਤਰ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ. ਪਰ, ਜੇ ਇਹ ਫਰਕ ਨਾਬਾਲਗ ਜ ਪ੍ਰਮੁੱਖ ਹਨ ਦਾ ਫੈਸਲਾ ਕਰਨ ਲਈ ਹੈ.

ਦੂਜਾ, ਯਾਦ ਰੱਖੋ ਕਿ ਕਿਸੇ ਨੂੰ ਬਣਾਇਆ ਹੈ ਅਤੇ ਕਿਸੇ ਕਾਰਨ ਕਰਕੇ ਤੁਹਾਡੇ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ. ਤੁਹਾਨੂੰ ਆਪਣੇ ਤਰਕ ਨੂੰ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ. ਰਿਵਰਸ-ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਇਸ ਕਿਸਮ ਦੀ ਤੁਹਾਨੂੰ ਆਪਣੇ repurposed ਡਾਟਾ ਵਿੱਚ ਸੰਭਵ ਸਮੱਸਿਆ ਹੈ ਅਤੇ ੳੱੁਪਰ ਦੀ ਪਛਾਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ.

ਇੱਥੇ "ਵੱਡੇ ਡਾਟਾ" ਦੀ ਕੋਈ ਸਿੰਗਲ ਸਹਿਮਤੀ ਪਰਿਭਾਸ਼ਾ ਹੈ, ਪਰ ਬਹੁਤ ਸਾਰੇ ਪਰਿਭਾਸ਼ਾ 3 ਬਨਾਮ ਤੇ ਧਿਆਨ ਕਰਨ ਲੱਗਦਾ ਹੈ: (ਉਦਾਹਰਨ ਲਈ, ਵਾਲੀਅਮ, ਕਈ ਕਿਸਮ ਦੇ, ਅਤੇ ਰਫ਼ਤਾਰ Japec et al. (2015) ). ਇਸ ਦੀ ਬਜਾਇ ਡਾਟਾ ਦੇ ਗੁਣ ਤੇ ਧਿਆਨ ਵੱਧ, ਮੇਰੇ ਪਰਿਭਾਸ਼ਾ ਇਸੇ ਡਾਟਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਤੇ ਹੋਰ ਜ਼ੋਰ.

ਵੱਡੇ ਡਾਟਾ ਦੇ ਵਰਗ ਦੇ ਅੰਦਰ ਸਰਕਾਰ ਨੂੰ ਪ੍ਰਬੰਧਕੀ ਡਾਟਾ ਦੀ ਮੇਰੀ ਸ਼ਾਮਲ ਇੱਕ ਬਿੱਟ ਬਹੁਤ ਹੈ. ਦੂਸਰੇ ਜੋ ਇਸ ਕੇਸ ਕੀਤਾ ਹੈ, ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ Legewie (2015) , Connelly et al. (2016) , ਅਤੇ Einav and Levin (2014) . ਖੋਜ ਲਈ ਸਰਕਾਰ ਨੇ ਪ੍ਰਸ਼ਾਸਨਿਕ ਡਾਟਾ ਦੇ ਮੁੱਲ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Card et al. (2010) , Taskforce (2012) , ਅਤੇ Grusky, Smeeding, and Snipp (2015) .

ਸਰਕਾਰ ਨੇ ਅੰਕੜਾ ਸਿਸਟਮ ਨੂੰ, ਖਾਸ ਤੌਰ 'ਤੇ ਅਮਰੀਕਾ ਦੇ ਜਨਗਣਨਾ ਬਿਊਰੋ ਦੇ ਅੰਦਰ ਤੱਕ ਪ੍ਰਬੰਧਕੀ ਖੋਜ ਦੀ ਇੱਕ ਝਲਕ ਲਈ, ਵੇਖੋ Jarmin and O'Hara (2016) . ਅੰਕੜੇ ਸਵੀਡਨ 'ਤੇ ਪ੍ਰਬੰਧਕੀ ਦੇ ਰਿਕਾਰਡ ਖੋਜ ਦੀ ਇੱਕ ਕਿਤਾਬ ਲੰਬਾਈ ਦੇ ਇਲਾਜ ਲਈ, ਵੇਖੋ Wallgren and Wallgren (2007) .

ਅਧਿਆਇ ਵਿਚ, ਮੈਨੂੰ ਸੰਖੇਪ ਅਜਿਹੇ ਜਨਰਲ ਸੋਸ਼ਲ ਸਰਵੇ (GSS) ਇੱਕ ਸਮਾਜਿਕ ਮੀਡੀਆ ਨੂੰ ਡਾਟਾ ਸਰੋਤ ਨੂੰ ਅਜਿਹੇ ਟਵਿੱਟਰ ਦੇ ਤੌਰ ਤੇ ਦੇ ਤੌਰ ਤੇ ਇੱਕ ਰਵਾਇਤੀ ਸਰਵੇਖਣ ਦੇ ਮੁਕਾਬਲੇ. ਰਵਾਇਤੀ ਸਰਵੇਖਣ ਅਤੇ ਸਮਾਜਿਕ ਮੀਡੀਆ ਨੂੰ ਡਾਟਾ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਚੰਗੀ ਹੈ ਅਤੇ ਧਿਆਨ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਲਈ, ਵੇਖੋ, Schober et al. (2016) .

  • ਵੱਡੇ ਡਾਟਾ ਦੇ ਆਮ ਲੱਛਣ ਹੈ (ਹਿੱਸਾ 2.3)

ਵੱਡੇ ਡਾਟਾ ਦੇ ਇਹ 10 ਗੁਣ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਦੀ ਇੱਕ ਕਿਸਮ ਦੇ ਵਿੱਚ ਵੱਖ ਵੱਖ ਲੇਖਕ ਦੀ ਇੱਕ ਕਿਸਮ ਦੇ ਕੇ ਕਿਹਾ ਗਿਆ ਹੈ. ਲਿਖਣਾ ਹੈ, ਜੋ ਕਿ ਇਹ ਮੁੱਦੇ 'ਤੇ ਮੇਰੇ ਸੋਚ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ਅਤੇ Goldstone and Lupyan (2016) .

ਇਸ ਅਧਿਆਇ ਦੌਰਾਨ, ਮੈਨੂੰ ਮਿਆਦ ​​ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਹੈ, ਜੋ ਕਿ ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਮੁਕਾਬਲਤਨ ਨਿਰਪੱਖ ਹੈ ਵਰਤਿਆ ਹੈ. ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਕਰਨ ਲਈ ਇਕ ਹੋਰ ਪ੍ਰਸਿੱਧ ਮਿਆਦ ​​ਡਿਜ਼ੀਟਲ ਛਾਪ ਹੈ (Golder and Macy 2014) ਹੈ, ਪਰ HAL Abelson, ਕੇਨ Ledeen, ਅਤੇ ਹੈਰੀ ਲੇਵਿਸ ਦੇ ਤੌਰ ਤੇ (2008) ਬਾਹਰ ਇਸ਼ਾਰਾ, ਇੱਕ ਹੋਰ ਉਚਿਤ ਮਿਆਦ ​​ਸੰਭਵ ਹੈ ਕਿ ਡਿਜੀਟਲ ਫਿੰਗਰਪਰਿੰਟ ਹੈ. ਜਦ ਤੁਹਾਨੂੰ ਖੁਰੇ ਬਣਾਉਣ ਲਈ, ਤੁਹਾਨੂੰ ਕੀ ਹੋ ਰਿਹਾ ਹੈ ਅਤੇ ਆਪਣੇ ਖੁਰੇ ਆਮ ਤੌਰ 'ਤੇ ਨਿੱਜੀ ਤੌਰ' ਤੇ ਤੁਹਾਡੇ ਲਈ ਲਗਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਜਾਣੂ ਹਨ. ਉਸੇ ਹੀ ਆਪਣੇ ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਕਰਨ ਲਈ ਸੱਚ ਹੈ, ਨਾ ਹੈ. ਅਸਲ ਵਿਚ, ਤੁਹਾਨੂੰ ਟਰੇਸ ਨੂੰ ਛੱਡ ਰਹੇ ਹਨ, ਹਰ ਵੇਲੇ, ਜੋ ਕਿ ਇਸ ਬਾਰੇ ਤੁਹਾਡੇ ਨਾਲ ਬਹੁਤ ਘੱਟ ਗਿਆਨ ਹੈ. ਅਤੇ, ਪਰ ਇਹ ਟਰੇਸ 'ਤੇ ਆਪਣੇ ਨਾਮ ਦੀ ਹੈ ਨਾ, ਉਹ ਅਕਸਰ ਵਾਪਸ ਤੁਹਾਨੂੰ ਕਰਨ ਲਈ ਨਾਲ ਜੋੜਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਹੋਰ ਸ਼ਬਦ ਵਿੱਚ, ਉਹ ਹੋਰ ਫਿੰਗਰਪਰਿੰਟ ਵਰਗੇ ਹਨ: ਅਦਿੱਖ ਅਤੇ ਨਿੱਜੀ ਤੌਰ 'ਤੇ ਪਛਾਣ.

ਵੱਡੇ

ਇਸੇ ਵੱਡੇ ਡੇਟਾਸੇਟ, ਅੰਕੜਾ ਟੈਸਟ ਸਮੱਸਿਆ ਦੇਣਾ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Lin, Lucas, and Shmueli (2013) ਅਤੇ McFarland and McFarland (2015) . ਇਹ ਮੁੱਦੇ ਖੋਜਕਾਰ ਦੀ ਅਗਵਾਈ ਅੰਕੜਾ ਮਹੱਤਤਾ ਦੀ ਬਜਾਏ ਅਮਲੀ ਅਹਿਮੀਅਤ 'ਤੇ ਧਿਆਨ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ.

ਹਮੇਸ਼ਾ-'ਤੇ

ਜਦ ਵਿਚਾਰ ਕਰ ਹਮੇਸ਼ਾ-'ਤੇ ਡਾਟਾ, ਇਸ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਵਿਚਾਰ ਕਰਨ ਕਿ ਕੀ ਤੁਹਾਨੂੰ ਵਾਰ ਵੱਧ ਸਹੀ ਉਸੇ ਹੀ ਲੋਕ ਦੀ ਤੁਲਨਾ ਕਰ ਰਹੇ ਹਨ ਜ ਕਿ ਕੀ ਤੁਹਾਨੂੰ ਕੁਝ ਲੋਕ ਬਦਲ ਰਹੇ ਗਰੁੱਪ ਨੂੰ ਤੁਲਨਾ ਕਰ ਰਹੇ ਹਨ; ਉਦਾਹਰਨ ਲਈ ਨੂੰ ਵੇਖੋ, Diaz et al. (2016) .

ਗੈਰ-ਪ੍ਰਤਿਕਿਰਿਆ

ਗੈਰ-ਪ੍ਰਤਿਕਿਰਿਆ ਉਪਾਅ 'ਤੇ ਇਕ ਉਤਕ੍ਰਿਸ਼ਟ ਕਿਤਾਬ ਹੈ Webb et al. (1966) . ਕਿਤਾਬ ਦੇ ਪ੍ਰੀ-ਦੀ ਮਿਤੀ ਵਿਚ ਮਿਸਾਲ ਡਿਜ਼ੀਟਲ ਦੀ ਉਮਰ ਹੈ, ਪਰ ਉਹ ਅਜੇ ਵੀ ਰੋਸਨੀ ਰਹੇ ਹਨ. ਪੁੰਜ ਨਿਗਰਾਨੀ ਦੀ ਮੌਜੂਦਗੀ ਦੇ ਕਾਰਨ ਆਪਣੇ ਵਿਵਹਾਰ ਨੂੰ ਤਬਦੀਲ ਕਰਨ ਦੀ ਮਿਸਾਲ ਲਈ, ਵੇਖੋ, Penney (2016) ਅਤੇ Brayne (2014) .

ਅਧੂਰਾ

ਰਿਕਾਰਡ ਨੂੰ ਸਪਲਾਈ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Dunn (1946) ਅਤੇ Fellegi and Sunter (1969) (ਇਤਿਹਾਸਕ) ਅਤੇ Larsen and Winkler (2014) (ਆਧੁਨਿਕ). ਇਸੇ ਪਹੁੰਚ ਅਜਿਹੇ ਡਾਟਾ deduplication, ਮਿਸਾਲ ਦੀ ਪਛਾਣ, ਨਾਮ ਮੇਲ ਦੇ ਤੌਰ ਤੇ ਇਹ ਵੀ ਨਾਮ ਦੇ ਹੇਠ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਹੈ, ਖੋਜ ਡੁਪਲੀਕੇਟ, ਅਤੇ ਰਿਕਾਰਡ ਨੂੰ ਡਿਟੈਕਸ਼ਨ ਡੁਪਲੀਕੇਟ (Elmagarmid, Ipeirotis, and Verykios 2007) . ਵੀ ਰਹੱਸ ਨੂੰ ਸਪਲਾਈ, ਜਿਸ ਨੂੰ ਨਿੱਜੀ ਤੌਰ 'ਤੇ ਜਾਣਕਾਰੀ ਨੂੰ ਪਛਾਣ ਦੇ ਪ੍ਰਸਾਰਣ ਦੀ ਲੋੜ ਨਹ ਹੈ ਨੂੰ ਰਿਕਾਰਡ ਕਰਨ ਲਈ ਤਰੀਕੇ ਰੱਖਣ ਹਨ (Schnell 2013) . ਫੇਸਬੁੱਕ ਵੀ ਇੱਕ ਵੋਟਿੰਗ ਵਤੀਰੇ ਨੂੰ ਆਪਣੇ ਰਿਕਾਰਡ ਨੂੰ ਲਿੰਕ ਕਰਨ ਲਈ ਜਾਰੀ ਤਿਆਰ ਕੀਤਾ ਹੈ; ਇਹ ਇੱਕ ਤਜਰਬੇ ਹੈ, ਜੋ ਕਿ ਮੈਨੂੰ ਤੁਹਾਡੇ ਅਧਿਆਇ 4 ਵਿੱਚ ਦੇ ਬਾਰੇ ਵਿੱਚ ਦੱਸ ਦੇਣਗੇ ਲਾਉਣ ਲਈ ਕੀਤਾ ਗਿਆ ਸੀ (Bond et al. 2012; Jones et al. 2013) .

ਬਣਤਰ ਵੈਧਤਾ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Shadish, Cook, and Campbell (2001) , ਅਧਿਆਇ 3.

ਪਰੇ

ਏਓਐਲ ਖੋਜ ਲਾਗ ਹਾਰ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Ohm (2010) . ਮੈਨੂੰ ਕੰਪਨੀ ਅਤੇ ਅਧਿਆਇ 4 'ਚ ਸਰਕਾਰ ਨਾਲ ਭਾਈਵਾਲੀ ਬਾਰੇ ਸਲਾਹ ਦੀ ਪੇਸ਼ਕਸ਼ ਜਦ ਮੈਨੂੰ ਪ੍ਰਯੋਗ ਦਾ ਵਰਣਨ. ਲੇਖਕ ਦੀ ਇੱਕ ਨੰਬਰ ਦੀ ਖੋਜ ਹੈ, ਜੋ ਕਿ ਅਪਹੁੰਚ ਡਾਟਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਬਾਰੇ ਚਿੰਤਾ ਪ੍ਰਗਟ ਕੀਤੀ ਹੈ, ਨੂੰ ਵੇਖਣ Huberman (2012) ਅਤੇ boyd and Crawford (2012) .

ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਖੋਜਕਾਰ ਡਾਟਾ ਪਹੁੰਚ ਹਾਸਲ ਕਰਨ ਲਈ ਇਕ ਚੰਗਾ ਤਰੀਕਾ ਹੈ ਇੱਕ intern ਜ ਦਾ ਦੌਰਾ ਖੋਜਕਾਰ ਦੇ ਤੌਰ ਤੇ ਇੱਕ ਕੰਪਨੀ 'ਤੇ ਕੰਮ ਕਰਨ ਲਈ ਹੁੰਦਾ ਹੈ. ਡਾਟਾ ਪਹੁੰਚ ਯੋਗ ਕਰਨ ਲਈ ਇਸ ਦੇ ਨਾਲ, ਇਸ ਕਾਰਜ ਨੂੰ ਵੀ ਮਦਦ ਕਰੇਗਾ ਖੋਜਕਾਰ ਬਾਰੇ ਡਾਟਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਕਿ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਹੋਰ ਸਿੱਖਣ.

ਗੈਰ-ਪ੍ਰਤੀਨਿਧ ਨਾਲ

ਗੈਰ-representativeness ਖੋਜਕਾਰ ਅਤੇ ਸਰਕਾਰ ਜੋ ਇੱਕ ਪੂਰੀ ਆਬਾਦੀ ਦੇ ਬਾਰੇ ਬਿਆਨ ਕਰਨ ਲਈ ਚਾਹੁੰਦੇ ਹੋ ਲਈ ਇੱਕ ਵੱਡੀ ਸਮੱਸਿਆ ਹੈ. ਇਹ ਕੰਪਨੀ ਹੈ, ਜੋ ਕਿ ਖਾਸ ਕਰਕੇ ਆਪਣੇ ਉਪਭੋਗੀ ਤੇ ਧਿਆਨ ਕਰ ਰਹੇ ਹਨ ਇਸ ਲਈ ਚਿੰਤਾ ਦਾ ਘੱਟ ਹੈ. ਨੂੰ ਅੰਕੜੇ ਜਰਮਨੀ ਕਾਰੋਬਾਰ ਵੱਡੇ ਡਾਟਾ ਦੇ ਗੈਰ-representativeness ਦੇ ਮੁੱਦੇ ਸਮਝਦਾ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Buelens et al. (2014) .

ਅਧਿਆਇ 3 ਵਿਚ, ਮੈਨੂੰ ਬਹੁਤ ਕੁਝ ਵੱਡਾ ਵਿਸਥਾਰ ਵਿੱਚ ਨਮੂਨੇ ਅਤੇ ਅੰਦਾਜ਼ੇ ਦਾ ਵਰਣਨ ਹੋਵੋਗੇ. ਵੀ, ਜੇ ਡਾਟਾ ਗੈਰ-ਪ੍ਰਤੀਨਿਧ ਨਾਲ, ਕੁਝ ਖਾਸ ਹਾਲਾਤ ਦੇ ਅਧੀਨ ਹਨ, ਉਹ ਚੰਗੇ ਅਨੁਮਾਨ ਪੈਦਾ ਕਰਨ ਲਈ ਭਾਰ ਜਾ ਸਕਦਾ ਹੈ.

ਭਟਕ

ਸਿਸਟਮ ਰੁਖ਼ ਬਾਹਰ ਤੱਕ ਨੂੰ ਦੇਖਣ ਲਈ ਬਹੁਤ ਹੀ ਔਖਾ ਹੈ. ਪਰ, MovieLens ਪ੍ਰਾਜੈਕਟ ਨੂੰ (ਅਧਿਆਇ 4 ਵਿੱਚ ਹੋਰ ਚਰਚਾ ਕੀਤੀ) ਇੱਕ ਅਕਾਦਮਿਕ ਖੋਜ ਗਰੁੱਪ ਨੇ ਵੱਧ 15 ਸਾਲ ਦੇ ਲਈ ਚਲਾਉਣ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਸ ਲਈ, ਉਹ ਦਸਤਾਵੇਜ਼ ਅਤੇ ਸ਼ੇਅਰ ਦਾ ਰਾਹ ਹੈ, ਜੋ ਕਿ ਸਿਸਟਮ ਨੂੰ ਵਾਰ ਵੱਧ ਸ਼ਾਮਿਲ ਕੀਤਾ ਹੈ ਅਤੇ ਕਿਸ ਨੂੰ ਇਸ ਬਾਰੇ ਜਾਣਕਾਰੀ ਹੈ ਕਿ ਇਸ ਵਿਸ਼ਲੇਸ਼ਣ ਅਸਰ ਹੋ ਸਕਦਾ ਹੈ (Harper and Konstan 2015) .

ਵਿਦਵਾਨ ਦੀ ਇੱਕ ਨੰਬਰ ਦੀ ਟਵਿੱਟਰ '' ਚ ਰੁਖ਼ 'ਤੇ ਧਿਆਨ ਹੈ: Liu, Kliman-Silver, and Mislove (2014) ਅਤੇ Tufekci (2014) .

ਐਲਗੋਰਿਦਮ ਸ਼ਰਮਸਾਰ

ਮੈਨੂੰ ਪਹਿਲੀ ਸੁਣਿਆ ਸ਼ਬਦ "ਐਲਗੋਰਿਦਮ ਸ਼ਰਮਸਾਰ" ਇੱਕ ਭਾਸ਼ਣ ਵਿਚ Jon Kleinberg ਦੁਆਰਾ ਵਰਤਿਆ. Performativity ਪਿੱਛੇ ਮੁੱਖ ਵਿਚਾਰ ਹੈ ਕਿ ਕੁਝ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਮਨਮਤਿ "ਇੰਜਣ ਨਾ ਕੈਮਰੇ 'ਹਨ (Mackenzie 2008) . ਜੋ ਕਿ ਹੈ, ਉਹ ਅਸਲ ਵਿੱਚ ਸੰਸਾਰ ਨੂੰ ਸ਼ਕਲ ਦੀ ਬਜਾਏ ਹੁਣੇ ਹੀ ਇਸ ਨੂੰ ਹਾਸਲ.

dirty

ਸਰਕਾਰੀ ਅੰਕੜਾ ਅਦਾਰੇ ਡਾਟਾ ਸਫਾਈ, ਅੰਕੜਾ ਡਾਟਾ ਸੰਪਾਦਨ ਨੂੰ ਕਾਲ ਕਰੋ. De Waal, Puts, and Daas (2014) ਦੇ ਸਰਵੇਖਣ ਡਾਟਾ ਲਈ ਤਿਆਰ ਅੰਕੜਾ ਡਾਟਾ ਸੰਪਾਦਨ ਤਕਨੀਕ ਦਾ ਵਰਣਨ ਹੈ ਅਤੇ ਦਾ ਮੁਆਇਨਾ ਕਰਨ ਲਈ ਹੈ, ਜੋ ਕਿ ਇਸ ਹੱਦ ਉਹ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਨੂੰ ਲਾਗੂ ਹੈ, ਅਤੇ ਹਨ Puts, Daas, and Waal (2015) ਨੂੰ ਇੱਕ ਆਮ ਦਰਸ਼ਕ ਲਈ ਇੱਕੋ ਵਿਚਾਰ ਦੇ ਕੁਝ ਪੇਸ਼ ਕਰਦਾ ਹੈ.

ਟਵਿੱਟਰ, ਵਿੱਚ ਸਪੈਮ 'ਤੇ ਧਿਆਨ ਪੜ੍ਹਾਈ ਦੇ ਕੁਝ ਉਦਾਹਰਣ ਲਈ Clark et al. (2016) ਅਤੇ Chu et al. (2012) . ਅੰਤ ਵਿੱਚ, Subrahmanian et al. (2016) DARPA ਟਵਿੱਟਰ Bot ਚੁਣੌਤੀ ਦੇ ਨਤੀਜੇ ਬਾਰੇ ਦੱਸਦਾ ਹੈ.

ਸੰਵੇਦਨਸ਼ੀਲ

Ohm (2015) ਦੀ ਸਮੀਖਿਆ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਦਾ ਵਿਚਾਰ 'ਤੇ ਪਿਛਲੇ ਖੋਜ ਅਤੇ ਇੱਕ ਬਹੁ-ਫੈਕਟਰ ਟੈਸਟ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ. ਚਾਰ ਕਾਰਕ ਉਹ ਤਜਵੀਜ਼ ਹਨ: ਨੁਕਸਾਨ ਦੀ ਸੰਭਾਵਨਾ; ਨੁਕਸਾਨ ਦੀ ਸੰਭਾਵਨਾ; ਇਕ ਗੁਪਤ ਰਿਸ਼ਤਾ ਦੀ ਮੌਜੂਦਗੀ; ਅਤੇ ਕੀ ਖਤਰਾ ਹੈ ਬਹੁ ਚਿੰਤਾ ਪ੍ਰਗਟ ਕਰਦੇ ਹਨ.

  • ਕੁਝ ਗਿਣਤੀ ਹੈ (ਹਿੱਸਾ 2.4.1)

ਨ੍ਯੂ ਯਾਰ੍ਕ ਵਿੱਚ ਟੈਕਸੀ ਦੇ Farber ਦਾ ਅਧਿਐਨ ਕਰਨ ਦੁਆਰਾ ਇੱਕ ਪਿਛਲੇ ਅਧਿਐਨ ਕਰਨ 'ਤੇ ਆਧਾਰਿਤ ਸੀ Camerer et al. (1997) ਹੈ, ਜੋ ਕਿ ਕਾਗਜ਼ ਦਾ ਦੌਰਾ ਸ਼ੀਟ-ਪੇਪਰ ਡਰਾਈਵਰ ਦੁਆਰਾ ਵਰਤੇ ਦਾ ਦੌਰਾ ਸ਼ੁਰੂ ਵਾਰ ਨੂੰ ਰਿਕਾਰਡ ਕਰਨ ਲਈ ਫਾਰਮ, ਅੰਤ ਵੇਲੇ, ਅਤੇ ਕਿਰਾਏ ਦੇ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਸੁਵਿਧਾ ਵਾਸਤੇ ਨਮੂਨੇ ਵਰਤਿਆ. ਇਹ ਪਿਛਲੇ ਅਧਿਐਨ ਦਾ ਪਤਾ ਲੱਗਿਆ ਹੈ ਕਿ ਡਰਾਈਵਰ ਦਾ ਟੀਚਾ ਕਮਾਉਣ ਹੋਣਾ ਸੀ: ਉਹ ਦਿਨ, ਜਿੱਥੇ ਦੀ ਮਜੂਰੀ ਦੇ ਉੱਚ ਸਨ ਤੇ ਘੱਟ ਕੰਮ ਕੀਤਾ.

Kossinets and Watts (2009) ਸਮਾਜਿਕ ਨੈੱਟਵਰਕ ਵਿੱਚ homophily ਦੇ ਆਰੰਭ 'ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਗਿਆ. ਦੇਖੋ Wimmer and Lewis (2010) ਵੀ ਇਸੇ ਸਮੱਸਿਆ ਨੂੰ ਹੈ, ਜੋ ਕਿ ਫੇਸਬੁੱਕ ਡਾਟਾ ਵਰਤਦਾ ਹੈ ਲਈ ਇੱਕ ਵੱਖਰੀ ਪਹੁੰਚ ਲਈ.

ਇਸ ਉਪਰੰਤ ਕੰਮ ਵਿਚ, ਰਾਜਾ ਅਤੇ ਸਾਥੀ ਨੂੰ ਹੋਰ ਚੀਨ ਵਿਚ ਆਨਲਾਈਨ ਸਸਰਿਸ਼ਪ ਪਤਾ ਲਗਾਇਆ ਹੈ (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . ਚੀਨ ਵਿਚ ਆਨਲਾਈਨ ਸਸਰਿਸ਼ਪ ਨੂੰ ਮਾਪਣ ਲਈ ਇੱਕ ਸਬੰਧਤ ਪਹੁੰਚ ਲਈ, ਵੇਖੋ Bamman, O'Connor, and Smith (2012) . ਵਿੱਚ ਵਰਤਿਆ ਇੱਕ ਵਰਗਾ ਅੰਕੜਾ ਢੰਗ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ King, Pan, and Roberts (2013) 11 ਲੱਖ ਪੋਸਟ ਦੀ ਭਾਵਨਾ ਦਾ ਅੰਦਾਜ਼ਾ ਕਰਨ ਲਈ, ਵੇਖੋ, Hopkins and King (2010) . ਨਿਰੀਖਣ ਸਿੱਖਣ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, James et al. (2013) (ਘੱਟ ਤਕਨੀਕੀ) ਅਤੇ Hastie, Tibshirani, and Friedman (2009) (ਹੋਰ ਤਕਨੀਕੀ).

  • ਅਨੁਮਾਨ ਹੈ (ਹਿੱਸਾ 2.4.2)

ਅਨੁਮਾਨ ਉਦਯੋਗਿਕ ਡਾਟਾ ਵਿਗਿਆਨ ਦਾ ਇੱਕ ਵੱਡਾ ਹਿੱਸਾ ਹੈ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ਅਨੁਮਾਨ ਦੇ ਇਕ ਕਿਸਮ ਦੀ ਹੈ, ਜੋ ਕਿ ਆਮ ਤੌਰ ਤੇ ਸਮਾਜਿਕ ਖੋਜਕਾਰ ਦੁਆਰਾ ਕੀਤਾ ਗਏ ਹਨ, ਉਦਾਹਰਨ ਲਈ, ਜਨ ਅਨੁਮਾਨ ਹਨ Raftery et al. (2012) .

ਗੂਗਲ ਫਲੂ ਰੁਝਾਨ ਫਲੂ ਬੋਲਬਾਲਾ nowcast ਲਈ ਖੋਜ ਡਾਟਾ ਨੂੰ ਵਰਤਣ ਲਈ ਪਹਿਲੀ ਪ੍ਰਾਜੈਕਟ ਨੂੰ ਨਹੀ ਸੀ. ਅਸਲ ਵਿਚ, ਸੰਯੁਕਤ ਰਾਜ ਅਮਰੀਕਾ ਵਿੱਚ ਖੋਜਕਾਰ (Polgreen et al. 2008; Ginsberg et al. 2009) ਅਤੇ ਸਵੀਡਨ (Hulth, Rydevik, and Linde 2009) ਪਾਇਆ ਹੈ, ਜੋ ਕਿ ਕੁਝ ਖਾਸ ਖੋਜ ਸ਼ਬਦ (ਉਦਾਹਰਨ ਲਈ, "ਫਲੂ") ਭਵਿੱਖਬਾਣੀ ਰਾਸ਼ਟਰੀ ਜਨਤਾ ਦੀ ਸਿਹਤ ਦੀ ਨਿਗਰਾਨੀ ਇਸ ਨੂੰ ਅੱਗੇ ਡਾਟਾ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ. ਬਾਅਦ ਬਹੁਤ ਸਾਰੇ, ਹੋਰ ਵੀ ਬਹੁਤ ਸਾਰੇ ਪ੍ਰਾਜੈਕਟ ਦੀ ਬਿਮਾਰੀ ਨਿਗਰਾਨੀ ਖੋਜ ਲਈ ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਡਾਟਾ ਨੂੰ ਵਰਤਣ ਲਈ, ਵੇਖੋ, ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ Althouse et al. (2015) ਨੂੰ ਇੱਕ ਸਮੀਖਿਆ ਲਈ.

ਸਿਹਤ ਦੇ ਨਤੀਜੇ ਦਾ ਅਨੁਮਾਨ ਕਰਨ ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਡਾਟਾ ਵਰਤ ਕਰਨ ਲਈ ਇਸ ਦੇ ਨਾਲ, ਇਹ ਵੀ ਟਵਿੱਟਰ ਡਾਟਾ ਵਰਤ ਚੋਣ ਨਤੀਜੇ ਦਾ ਅਨੁਮਾਨ ਕਰਨ ਦਾ ਕੰਮ ਦੀ ਇੱਕ ਵੱਡੀ ਰਕਮ ਕੀਤਾ ਗਿਆ ਹੈ; ਸਮੀਖਿਆ ਦੇ ਲਈ ਵੇਖੋ, Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ਚੌਧਰੀ. 7), ਅਤੇ Huberty (2015) .

ਫਲੂ ਬੋਲਬਾਲਾ ਦਾ ਅੰਦਾਜ਼ਾ ਹੈ ਅਤੇ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਚੋਣ ਸੰਸਾਰ ਵਿੱਚ ਘਟਨਾ ਦੇ ਕੁਝ ਕਿਸਮ ਦਾ ਅਨੁਮਾਨ ਕਰਨ ਡਿਜ਼ੀਟਲ ਟਰੇਸ ਦੇ ਕੁਝ ਕਿਸਮ ਦੀ ਵਰਤ ਦੇ ਦੋਨੋ ਮਿਸਾਲ ਹਨ ਟਵਿੱਟਰ ਡਾਟਾ ਵਰਤ ਲਈ ਖੋਜ ਡਾਟਾ ਦਾ ਇਸਤੇਮਾਲ. ਉੱਥੇ ਪੜ੍ਹਾਈ ਇਸ ਨੂੰ ਆਮ ਬਣਤਰ ਹੈ, ਜੋ ਕਿ ਦੀ ਇੱਕ ਬਹੁਤ ਵੱਡੀ ਗਿਣਤੀ ਹੈ. ਟੇਬਲ 2.5 ਕੁਝ ਹੋਰ ਮਿਸਾਲ ਵੀ ਸ਼ਾਮਲ ਹੈ.

ਟੇਬਲ 2.5: ਸਟੱਡੀਜ਼ ਦੇ ਅਧੂਰਾ ਸੂਚੀ ਕੁਝ ਡਿਜ਼ੀਟਲ ਬਣਾਵਟ ਨੂੰ ਵਰਤਣ ਲਈ ਕੁਝ ਘਟਨਾ ਦਾ ਅਨੁਮਾਨ ਕਰਨ.
ਡਿਜੀਟਲ ਟਰੇਸ ਨਤੀਜਾ ਕੀਟਾਟੀਓਨ
ਟਵਿੱਟਰ ਅਮਰੀਕਾ 'ਚ ਫਿਲਮ ਦੇ ਬਾਕਸ ਆਫਿਸ ਮਾਲੀਆ Asur and Huberman (2010)
ਖੋਜ ਚਿੱਠੇ ਅਮਰੀਕਾ ਵਿੱਚ ਫਿਲਮ, ਸੰਗੀਤ, ਬੁੱਕ, ਅਤੇ ਵੀਡੀਓ ਗੇਮਜ਼ ਦੀ ਵਿਕਰੀ Goel et al. (2010)
ਟਵਿੱਟਰ ਡੋ ਜੋਨਸ ਇੰਡਸਟਰੀਅਲ ਔਸਤ (ਅਮਰੀਕਾ ਸਟਾਕ ਮਾਰਕੀਟ) Bollen, Mao, and Zeng (2011)
  • Approximating ਪ੍ਰਯੋਗ (ਹਿੱਸਾ 2.4.3)

ਰਸਾਲੇ ਪੀ.ਐਸ. ਸਿਆਸੀ ਸਾਇੰਸ ਵੱਡੇ ਡਾਟਾ, causal ਅਨੁਿਾਨ, ਅਤੇ ਰਸਮੀ ਥਿਊਰੀ 'ਤੇ ਇੱਕ ਭਾਸ਼ਣ ਸੀ, ਅਤੇ Clark and Golder (2015) ਹਰ ਇੱਕ ਯੋਗਦਾਨ ਸੰਖੇਪ. ਸੰਯੁਕਤ ਰਾਜ ਅਮਰੀਕਾ ਦੇ ਸਾਇੰਸਜ਼ ਦੇ ਨੈਸ਼ਨਲ ਅਕੈਡਮੀ ਦੇ ਜਰਨਲ ਕਾਰਵਾਈ causal ਅਨੁਿਾਨ ਅਤੇ ਵੱਡੇ ਡਾਟਾ 'ਤੇ ਇੱਕ ਭਾਸ਼ਣ ਸੀ, ਅਤੇ Shiffrin (2016) ਹਰ ਇੱਕ ਯੋਗਦਾਨ ਸੰਖੇਪ.

ਕੁਦਰਤੀ ਪ੍ਰਯੋਗ ਦੇ ਰੂਪ ਵਿੱਚ, Dunning (2012) ਇੱਕ ਸ਼ਾਨਦਾਰ ਕਿਤਾਬ 'ਦੀ ਲੰਬਾਈ ਦੇ ਇਲਾਜ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ. ਇੱਕ ਕੁਦਰਤੀ ਤਜਰਬੇ ਦੇ ਤੌਰ ਤੇ ਵੀਅਤਨਾਮ ਦੇ ਖਰੜੇ ਲਾਟਰੀ ਵਰਤ 'ਤੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ, Berinsky and Chatfield (2015) . ਮਸ਼ੀਨ ਨੂੰ ਸਿੱਖਣ ਤਰੀਕੇ ਆਪ ਹੀ ਵੱਡੇ ਡਾਟਾ ਸਰੋਤ ਦੇ ਅੰਦਰ ਕੁਦਰਤੀ ਪ੍ਰਯੋਗ ਖੋਜਣ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਹੈ, ਜੋ ਕਿ ਇਸ ਲਈ, ਵੇਖੋ, Jensen et al. (2008) ਅਤੇ Sharma, Hofman, and Watts (2015) .

ਮੇਲ ਦੇ ਰੂਪ ਵਿੱਚ, ਇੱਕ ਆਸ਼ਾਵਾਦੀ ਸਮੀਖਿਆ ਲਈ, ਵੇਖੋ, Stuart (2010) , ਅਤੇ ਇੱਕ ਨਿਰਾਸ਼ਾਵਾਦੀ ਸਮੀਖਿਆ ਲਈ ਨੂੰ ਵੇਖੋ Sekhon (2009) . ਛੰਗਾਈ ਦੀ ਇੱਕ ਕਿਸਮ ਦੀ ਦੇ ਤੌਰ ਤੇ ਮਿਲਦੇ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਵੇਖੋ Ho et al. (2007) . ਿਕਤਾਬ ਹੈ, ਜੋ ਕਿ ਮੇਲ ਦੀ ਸ਼ਾਨਦਾਰ ਇਲਾਜ ਮੁਹੱਈਆ ਕਰਨ ਲਈ, ਵੇਖੋ, Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ਅਤੇ Imbens and Rubin (2015) .