2.3.2.6 گندي

وڏي ڊيٽا وسيلن فضول ۽ فضول سان دوت ڪري سگهجي ٿو.

ڪجهه تحقيق کي يقين آهي ته وڏي انگن اکرن کان هٽي ڪري، خاص طور تي جن آن لائن ذريعن کان، pristine آهن، ڇاڪاڻ ته اهي خودڪار طريقي سان گڏ آهن. حقيقت ۾، ماڻهن جو وڏو ڊيٽا وسيلن سان ڪم ڪيو آهي ڄاڻندا آھن ته اھي ايف گندي آهن. ته اهي ايف ڊيٽا جنهن کي تحقيق ڪرڻ لاء فائدي جي حقيقي ڪارناما ڌيان نه ڪندا آھن شامل آهي. ڪيتريون ئي سماجي سائنسدان اڳ ۾ ئي وڏي-پيماني تي سماجي سروي جي انگن اکرن صفائي جي عمل سان واقف آهن، پر وڏي جي انگن اکرن کان هٽي ڪري صفائي جا ٻه سبب لاء وڌيڪ ڏکيو آهي: 1) انھن تي تحقيق ۽ 2 لاء تحقيق جي پيدا نه ٿيا) تحقيق عام طور تي ڪيئن جي گهٽ ڄاڻ (اھي) پيدا ٿي پيا آھن.

گندي ڊجيٽل جو سراغ ڊيٽا واپس ۽ ساٿيو 'جي illustrated آهن جي خطرن کان (2010) 11 سيپٽمبر جي حملن کي جذباتي جواب جي مطالعي، 2001. تحقيق وضاحت مهينن يا ان کان به سالن کان گڏ retrospective ڊيٽا استعمال ڪري دهشت زده ٿين ڏينهن جي جواب جو اڀياس. پر، واپسي ۽ ساٿيو هڪ ڊجيٽل بصر-جي timestamped جي وسيلي هميشه-تي مليو، 85.000 آمريڪي pagers-۽ هن کان پاڻمرادو رڪارڊ الحال ڪوبه پيغام جي تحقيق فعال هڪ گهڻو finer timescale تي جذباتي جواب تعليم حاصل ڪرڻ لاء. واپس ۽ ساٿيو کي (1) sadness (مثال طور، رو، ڏک)، (2) ڏڪي (مثال طور، لاڳاپيل لفظن جي في سيڪڙو جي pager الحال ڪوبه پيغام جي جذباتي مواد coding جي پيدا ھڪ منٽ-جي-منٽ سيپٽمبر 11th جي جذباتي مقرر وقت ، پريشان ڊڄندا)، ۽ (3) ڪاوڙ (مثال طور، نفرت، نازڪ). انهن کي مليو ته sadness ۽ ڏڪي هڪ مضبوط طرز کان سواء ئي ڏينهن اهڙي fluctuated، پر جي ڏينھن دٻيل ڪاوڙ ۾ هڪ اهميت وڌي نه هئي ته. ان کي هڪ اڻوڻندڙ ​​واقعي کي فوري طور تي جواب جي اهڙي هڪ اعلي-قرارداد مقرر وقت ڪري ممڪن نہ ٿئي ها معياري طريقا استعمال ڪري: هي تحقيق جي انگن اکرن کان هٽي ڪري هميشه-تي جي طاقت جي هڪ عجيب گریبان ٿيڻ لڳي.

بس هڪ سال کان پوء، جڏهن ته، Cynthia Pury (2011) جي انگن اکرن تي وڌيڪ ڌيان پائيندو. هوء دريافت ڪيو ته مشڪوڪ ناراض الحال ڪوبه پيغام جي هڪ وڏي تعداد ۾ ھڪ pager جي ٺاهيل هئا ۽ اهي سڀ هڪجهڙائي هئا. هتي ڇا جن مشڪوڪ ناراض الحال ڪوبه پيغام موجود چيو آهي:

"وري شروع NT مشين [جو نالو] ڪابينا ۾ [جو نالو] [هنڌ] ۾: نازڪ: [تاريخ ۽ وقت]"

اهي الحال ڪوبه پيغام موجود ناراض لڳل هئا، ڇاڪاڻ ته اهي لفظ "تنقيدي" آهي، جنهن کي عام طور تي ڪاوڙ مان صاف ظاهر آهي پر هن معاملي ۾ نه ٿو ڪري سگھي شامل آهن. هن هڪ خود pager جي ٺاهيل جو پيغام کڻي وڃڻ مڪمل طور تي سنڌ جي وجھندو آھي (شڪل 2.2) ڏينھن جي ڪورس تي ڪاوڙ ۾ واڌارو کي ختم ڪري. ٻين لفظن ۾، ۾ مکيه نتيجي ۾ Back, Küfner, and Egloff (2010) هڪ pager جي هڪ artifact هو. هن مثال جي علامت آهي جيئن، نسبتا پيچيده ۽ گندا ڊيٽا جي نسبتا سادو تجزيو سنجيدگي سان ظلم وڃڻ جي صلاحيت آهي.

(؛ Pury 2011؛ ​​واپس، Küfner، ۽ Egloff 2011 ع واپس، Küfner، ۽ Egloff 2010 ع) اندازي مطابق 11 سيپٽمبر 2001 جي ڪورس تي ڪاوڙ ۾ گڻ 85،000 آمريڪي pagers تي مشتمل: 2.2 شخصيت. اصل ڦري، Küfner، ۽ Egloff (2010 ع) جي ڏينهن دٻيل ڪاوڙ وڌندا جي طرز آهي. نازڪ:: [تاريخ ۽ وقت] [هنڌ] تي ڪابينا ۾ وري شروع NT مشين [جو نالو] [جو نالو]: تنهن هوندي به، انهن ۾ وجھندو آھي ناراض الحال ڪوبه پيغام مان گھڻا ھڪ pager ته بار بار هيٺ ڏنل پيغام ٻاهر موڪلي جي ٺاهيل هئا. هن پيغام سان ختم ڪري، ڪاوڙ ۾ وجھندو آھي واڌارو غائب (Pury 2011؛ ​​واپس، Küfner، ۽ Egloff 2011 ع). هن شخصيت Pury ۾ انجير 1B (2011 ع) جي هڪ reproduction آهي.

اندازي مطابق 11 سيپٽمبر 2001 جي ڪورس تي ڪاوڙ ۾ گڻ 85،000 آمريڪي pagers تي مشتمل: 2.2 شخصيت (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . اصل، Back, Küfner, and Egloff (2010) جي ڏينهن دٻيل ڪاوڙ وڌندا جي طرز آهي. "وري شروع NT مشين [جو نالو] ڪابينا ۾ [جو نالو] [هنڌ] ۾:: نازڪ: [تاريخ ۽ وقت]" تنهن هوندي به، انهن ۾ وجھندو آھي ناراض الحال ڪوبه پيغام مان گھڻا ھڪ pager ته بار بار هيٺ ڏنل پيغام ٻاهر موڪلي جي ٺاهيل هئا. هن پيغام سان ختم ڪري، ڪاوڙ ۾ وجھندو آھي واڌارو غائب (Pury 2011; Back, Küfner, and Egloff 2011) . هن شڪل ۾ انجير 1B جي هڪ reproduction آهي Pury (2011) .

گندي ڊيٽا ته هڪ لخت جگر کان جيئن قصدا-جيئن ته پيدا ڪيو آهي هڪ معقول محتاط محقق جي لڌا ٿي pager-سگهي ٿو، جڏهن ته، اتي به ڪجهه آن لائن نظام ته جاڻي spammers راغب آهي. اهي spammers زور ڏئي جعلي ڊيٽا پيدا، ۽-اڪثر تمام سندن اهل لڪايو رکڻ لاء سخت بخش-ڪم ما اتساهجي. مثال طور، Twitter ۽ تي سياسي سرگرمي گهٽ ۾ گهٽ ڪجهه معقول نفيس اسپام، انھي ڪجهه سياسي ماري ڄاڻي ٻجھي اھي اصل کان وڌيڪ مشهور نظر ڪيون آهن شامل ڪرڻ لڳي آهي (Ratkiewicz et al. 2011) . ڊيٽا ته جاڻي اسپام تي مشتمل ٿي سگھي ٿو سان گڏ ڪم تي تحقيق سندن پهتو قائل آهي ته اهي لڌا ويا ۽ لاڳاپيل فضول ڪڍي ڇڏيا آهن جي چئلينج کي منهن.

آخر ۾، ڇا گندي ڊيٽا سمجهيو ويندو آهي توهان جي تحقيق جي سوال تي باريڪ طريقن ۾ ڀاڙي ڪري سگهن ٿا. مثال طور، وڪيپيڊيا کي ڪيترن ئي تبديليون خودڪار bots جي پيدا ٿين ٿا (Geiger 2014) . توهان وڪيپيڊيا جي ايڪولاجي ۾ دلچسپي آهي، ته پوء انهن bots اهم آهن. پوء جيڪڏھن اوھان ۾ ڪيئن انسان وڪيپيڊيا کي ڏيندا دلچسپي آهي، اهي انهن bots جي ڪيو تبديليون اصلوڪي ڪيو وڃي.

جڏهن ته بهترين طريقي گندي ڊيٽا جي fooled رهيو کان بچڻ لاء سمجهڻ لاء ڪيئن پنهنجي ڊيٽا کي اهڙي سادي اڏائڻ پلاٽن بڻائي ٿي ته جيئن سادو exploratory تجزيو انجام کي پيدا ڪيا ويا، آهن.