2.3.1.1 بگ

وڏيون datasets ختم ڪرڻ جو هڪ وسيلو آهي. اهي پاڻ ۾ هڪ حرف آخر نه آهن.

وڏي ڊيٽا جي ٽن سٺي ڪنڀار جي پهرين تمام گهڻي ڳالهه ٻولهه ڪئي آهي: انهن ويل ڊيٽا آهن. ڪيترن ئي ماڻهن کي، جيء رپيا معلومات جو پکو، يا وقت جي حوالي سان ڪيترن ئي مشاهدو ڪيو: انهن انگن اکرن کان هٽي ڪري ٽن مختلف طريقن ۾ وڏو ٿي سگهي ٿو. هڪ وڏي dataset گذارڻ، تحقيق-جريب heterogeneity جي ڪجهه مخصوص قسمن جي قابل بنائي ناياب ڏينهن زير تعليم، ننڍي اختلاف جي سڄاڻپ، ۽ observational جي انگن اکرن کان causal ڪاٿي بڻائي ٿي. اهو به sloppiness جي هڪ خاص قسم جي رسي ڪرڻ لڳي.

پهرين شيء جنهن لاء ڪرائون سائيز واري خاص طور مفيد آهي خاص subgroups لاء انومان ڪرڻ سراسرين کان هوا آهي. مثال طور، Gary بادشاهه، Jennifer پان، ۽ حفصة شهمير (2013) جي ممڪن چين ۾ سماجي ميڊيا جون تحريرون حڪومت جي censored وڃي ها ته ماپي. پاڻ قسم حذف ڪرڻ جي هن سراسري ممڪن سمجهه ۾ ڇو ته حڪومت جي ڪجهه تحريرن ۾ نه پر ٻين censors لاء ڏاڍي مددگار نه آھي. پر، ڇاڪاڻ ته انهن جي dataset 11 لک تحريرون شامل، بادشاهه ۽ ساٿيو به 85 جدا جدا ڀاڱا آهن (مثال طور، فحاشي، تبت، ۽ بيجنگ ۾ ٽريفڪ) تي تحريرن کي سينسرشپ جو ممڪن لاء ڪاٿي جي روپ ۾. مختلف ڀاڱا ۾ تحريرون لاء سينسرشپ جي ممڪن comparing جو قسم آھي، (اھي) ڪيئن ۽ ڇو ته حڪومت جي تحريرن جو ڪجهه قسمن censors جي باري ۾ وڌيڪ سمجهي ڪرڻ جي قابل هئا. 11 هزار تحريرون (بدران 11 لک تحريرن) سان، اهي انهن جو درجو-مخصوص ڪاٿي پيدا ڪرڻ جي قابل ٿي ويا آهن نه هوس.

ٻيو، ماپ لاء انتهائي ڏينهن جي زير تعليم آهي خاص طور تي مفيد آهي. مثال طور، Goel ۽ ساٿيو (2015) جي مختلف طريقن سان ته ڪوبه پيغام سوز وڃڻ ڪري سگهو ٿا تعليم حاصل ڪرڻ جو خواهشمند آهي. ڇاڪاڻ ته ٻيهر ڪوبه پيغام جي وڏي cascades هڪ 3،000-اھي حڪم سندن ڇنڊڇاڻ لاء ڪافي وڏي cascades سٽ ۾ هڪ ارب کان وڌيڪ في تعليم حاصل ڪرڻ لاء گهربل ۾ انتهائي ناياب-جي باري ۾ هڪ آهن.

ٽيون، وڏي datasets تحقيق ننڍي اختلاف لڳائڻ لاء فعال. حقيقت ۾، صنعت ۾ وڏو ڊيٽا تي وڌائڻ جو گهڻو انهن ننڍن اختلاف جي باري ۾ آهي: reliably هڪ ع تي 1٪ ۽ 1.1٪ ڪلڪ-ذريعي شرح جي وچ ۾ فرق جي سڄاڻپ اضافو وڏن ۾ ڊالر جي لکن ۾ ترجمو ڪري سگهي ٿو. ڪجهه علمي جوڙ ۾، جيئن ته ننڍي اختلاف خاص طور اهم نه ٿي ٿئي (به جيڪڏھن statistically اهم آهن). پر، ڪي پاليسي جي سيٽنگ ۾، جيئن ته ننڍي اختلاف اهم جڏهن گڏيل عددي معلومات حاصل ۾ ڏٺو بڻجي سگهو ٿا. مثال طور، جيڪڏهن اتي ٻه عوام جي صحت جي قدمن آهن ۽ هڪ ٻئي کان ڪجھ وڌيڪ اثرائتو آهي، ته پوء ان جي وڌيڪ اثرائتي مداخلت کي مٽائيندي مٿي اضافي سرن جي هزارين بچت کي ختم ڪري سگهي ٿي.

آخر ۾، وڏي ڊيٽا بيان وڏي observational جي انگن اکرن کان causal انومان ڪرڻ اسان جي صلاحيت وڌي. وڏي datasets بنيادي طور observational جي انگن اکرن کان causal inference بڻائي سان مسئلا، سميلن ۽ قدرتي تجربن-ٻن طريقن ته تحقيق observational ڊيٽا-ٻئي کان causal دعوا بڻائي وڏي وڏي datasets مان فائدو حاصل ڪرڻ لاء ٺاهيا ويا آهن تبديل نه ڪندا آھن جيتوڻيڪ. مون کي تمام تفصيل سان بعد ۾ هن باب ۾ بيان ۽ بيان ويندس هن دعوي جڏهن مون تحقيق حڪمت بيان.

جيتوڻيڪ پن عام طور هڪ سٺي ملڪيت آهي جڏهن صحيح استعمال ڪيو، مون کي محسوس وڃان ته پن جو عام طور تي هڪ conceptual غلطي ڪري ويا آهن. لاء ڪي سبب، پن کي نظرانداز ڪرڻ ڪيئن انهن جي ڊيٽا ٺاهيل ويو تحقيق ڏس ڪرڻ لڳي. + R بي ترتيبي غلطي جي باري ۾ پريشان ٿيڻ جي ضرورت جي خاتمي ٿو، جڏهن ته، اهو اصل ۾ منظم غلطيون جي باري ۾ پريشان ٿيڻ جي ضرورت وڌائي، غلطيون جو قسم آهي ته مون کي ته هيٺان کان وڌيڪ ۾ بيان سين ڪيئن ڊيٽا کي پيدا ڪيو ۽ گڏ آهن ۾ پير پساري کان طالع. هڪ ننڍي dataset ۾، ٻنهي بي ترتيبي گمراھي ۽ منظم غلطي اهم ٿي سگهي ٿو، پر آهي هڪ وڏي dataset ۾ بي ترتيبي غلطي پري averaged ڪري سگهجي ٿو ۽ منظم غلطي dominates. تحقيق جيڪي منظم غلطي جي باري ۾ ڇونه سوچ ڪندا آھن جي غلط شيء جي هڪ ڪهڙو اندازي حاصل ڪرڻ لاء سندن وڏي datasets استعمال ڪري مٿي ختم ڪندو. اھي وعن غلط ٿيندو (McFarland and McFarland 2015) .