2.3.1.1 بگ

بڑے اعداد و شمار کو ختم کرنے کا ذریعہ ہیں. وہ خود کو میں ختم نہیں ہیں.

بڑے اعداد و شمار کے تین اچھی خصوصیات میں سے سب سے زیادہ بات چیت کی ہے: ان بڑے اعداد و شمار ہیں. بہت سے لوگ، فی شخص معلومات کے بہت، یا وقت کے ساتھ بہت سے مشاہدات: یہ اعداد و شمار ذرائع تین مختلف طریقوں سے بڑا ہو سکتا ہے. ایک بڑی ڈیٹا سیٹ ہو رہی ہے، نادر واقعات کا مطالعہ کر چھوٹے اختلافات کا پتہ لگانے، اور پریکشتاتمک ڈیٹا سے اسباب تخمینے بنانے تحقیق ماپنے heterogeneity کی کچھ مخصوص اقسام کے قابل بناتا ہے،. یہ بھی sloppiness کی ایک مخصوص قسم کے لئے قیادت کرنے لگتا ہے.

پہلی چیز کے سائز خاص طور پر مفید ہے، جس کے لئے مخصوص subgroups کے تخمینے بنانے کی اوسط سے آگے بڑھ رہا ہے. مثال کے طور پر، گیری بادشاہ، جینیفر پین، اور مولی رابرٹس (2013) احتمال ماپا چین میں سوشل میڈیا خطوط حکومت کی طرف سے سنسر کیا جائے گا. خود کی طرف سے منسوخی کا یہ اوسط احتمال حکومت کچھ خطوط لیکن دوسروں کو نہیں سنسر کیوں سمجھ کے لئے بہت مددگار نہیں ہے. لیکن، کیونکہ ان کے ڈیٹا سیٹ شامل 11 ملین خطوط، بادشاہ اور ان کے ساتھیوں نے بھی 85 علیحدہ زمروں (مثلا، فحاشی، تبت، اور بیجنگ میں ٹریفک) پر خطوط کے لئے سنسر شپ کے امکانات کے تخمینے سے تیار. مختلف اقسام میں خطوط کے لئے سنسر شپ کے امکانات کا موازنہ کر کے، وہ حکومت کے خطوط کے بعض اقسام سنسر کیوں اور کیسے کے بارے میں مزید سمجھنے کے لئے کے قابل تھے. 11 ہزار مراسلات (11 ملین بجائے پوسٹس) کے ساتھ، وہ ان زمرے کے ساتھ مخصوص تخمینے پیدا کرنے کے قابل نہیں کرے گا کیا گیا ہے.

دوسرا، سائز نادر واقعات کا مطالعہ کر رہا ہے کے لئے خاص طور پر مفید ہے. مثال کے طور پر، گویل اور ساتھیوں (2015) ٹویٹس وائرل جا سکتے ہیں کہ مختلف طریقوں کا مطالعہ کرنے کے لئے کرنا چاہتا تھا. دوبارہ ٹویٹس کی بڑی آبشاریں ایک انتہائی نادر تقریبا ایک ہیں کیونکہ 3،000 وہ ان کے تجزیہ کے لئے کافی بڑی آبشاریں کو تلاش کرنے کے لئے میں ایک ارب سے زیادہ ٹویٹس مطالعہ کرنے کے لئے کی ضرورت.

سوئم، بڑے اعداد و شمار چھوٹے اختلافات کا پتہ لگانے کے محققین کو چالو. سچ تو یہ ہے، صنعت میں بڑے اعداد و شمار پر خصوصی توجہ کے زیادہ تر ان چھوٹے اختلافات کے بارے میں ہے: معتبر ایک اشتھار پر 1 فیصد اور 1.1 فیصد پر کلک کے ذریعے کی شرح کے درمیان فرق کا پتہ لگانے کی اضافی آمدنی میں لاکھوں ڈالر میں ترجمہ کر سکتے ہیں. کچھ سائنسی ترتیبات میں، اس طرح چھوٹے اختلافات (وہ اہم اعدادوشمار ہیں یہاں تک کہ اگر) خاص طور پر اہم نہیں ہو سکتا ہے. لیکن، کچھ پالیسی کی ترتیبات میں، اس طرح کے چھوٹے اختلافات اہم مجموعی دیکھا جب بن سکتے ہیں. مثال کے طور پر، وہاں دو عوامی صحت مداخلت اور ایک تھوڑا سا زیادہ مؤثر دوسرے کے مقابلے میں، اس کے بعد زیادہ مؤثر مداخلت اضافی زندگی کے ہزاروں کی بچت ختم ہو سکتی ہے کے لئے سوئچنگ کر رہے ہیں تو.

آخر میں، بڑی ڈیٹا سیٹ نہایت پریکشتاتمک ڈیٹا سے اسباب تخمینے بنانے کے لئے اپنی صلاحیت کو بڑھانے کے. بڑے اعداد و شمار بنیادی، پریکشتاتمک ڈیٹا سے اسباب تخمینے بنانے کے ملاپ اور قدرتی تجربات-دو تراکیب محققین پریکشتاتمک سے اسباب دعوی کرنے کے لئے تیار کیا ہے کہ اعداد و شمار پر دونوں بہت بڑے اعداد و شمار سے فائدہ کے ساتھ مسائل کو تبدیل نہیں کرتے اگرچہ. میں وضاحت اور اس باب میں بعد میں زیادہ تفصیل سے اس دعوی کی نمائندگی کرتی ہے میں نے تحقیق کی حکمت عملی کی وضاحت کرتے وقت لیں گے.

bigness عام طور پر درست طریقے سے استعمال کیا جب ایک اچھا جائیداد ہے، اگرچہ، میں نے اس bigness عام طور پر ایک تصوراتی خرابی کی طرف جاتا ہے محسوس کیا ہے. کسی وجہ سے، bigness ان کے ڈیٹا سے پیدا کیا گیا تھا کہ کس طرح نظر انداز کرنے کے محققین کی قیادت کرنے لگتا ہے. bigness بے ترتیب خرابی کے بارے میں فکر کرنے کی ضرورت کو کم کرتا ہے جبکہ، یہ اصل میں، غلطیاں میں نے اس کے نیچے زیادہ میں بیان کریں گے کہ کی قسم کے اعداد و شمار کو پیدا کیا اور جمع کیا جاتا ہے کس طرح میں تعصبات سے پیدا منظم غلطیوں کے بارے میں فکر کرنے کی ضرورت کو بڑھاتا ہے. ایک چھوٹا سا ڈیٹا سیٹ میں، بے ترتیب گمراہی اور منظم غلطی دونوں اہم ہو سکتا ہے، لیکن ایک بڑی ڈیٹا سیٹ کے بے ترتیب گمراہی میں دور اوسط جا سکتا ہے اور منظم غلطی غلبہ. جو منظم غلطی غلط کام کی درست تخمینہ حاصل کرنے کے لئے ان کے بڑے اعداد و شمار کا استعمال کرتے ہوئے ختم ہو جائے گی کے بارے میں نہیں سوچتے محققین؛ وہ واضح طور پر غلط ہو جائے گا (McFarland and McFarland 2015) .