بڑے اعداد و شمار کو ختم کرنے کا ذریعہ ہیں. وہ خود کو میں ختم نہیں ہیں.
بڑے اعداد و شمار کے ذرائع کے سب سے بڑے پیمانے پر بات چیت کی خصوصیت یہ ہے کہ وہ بڑے ہیں. مثال کے طور پر بہت سے مقالے، بات چیت کرتے ہوئے شروع ہوتا ہے اور کبھی کبھی برجنگ کے بارے میں - ان کے بارے میں کتنے ڈیٹا کا تجزیہ کیا گیا تھا. مثال کے طور پر، Google Books Corpus میں سائنس کے استعمال رجحانات کا مطالعہ کرنے والے سائنس میں شائع کردہ کاغذ مندرجہ ذیل (Michel et al. 2011) :
"[ہمارے] کورپس میں 500 ارب الفاظ، انگریزی میں (361 ارب)، فرانسیسی (45 ارب)، ہسپانوی (45 بلین)، جرمن (37 بلین)، چینی (13 ارب)، روسی (35 ارب)، اور عبرانی (2 بلین) 1500 ء میں سب سے پرانی کام شائع کیے گئے تھے. ابتدائی دہائیوں میں ہر سال صرف چند کتابوں کی نمائندگی کی جاتی ہے، جس میں کئی سو الفاظ الفاظ شامل ہیں. 1800 تک، کور ہر سال 98 ملین الفاظ بڑھ جاتا ہے؛ 1 9 00 تک، 1.8 ارب؛ اور 2000 تک، 11 بلین. انسان انسان کی طرف سے پڑھا نہیں جا سکتا. اگر آپ 2000 2000 سے صرف انگریزی زبان کے اندراجات کو پڑھنے کی کوشش کرتے ہیں تو، 200 الفاظ / منٹ کے مناسب رفتار پر، خوراک یا نیند کے بغیر رکاوٹ کے بغیر، یہ 80 سال لگے گا. حروف کی ترتیب انسانی جینوم سے زیادہ 1000 گنا زیادہ ہے: اگر آپ نے اسے براہ راست لائن میں لکھا ہے تو یہ چاند تک پہنچ جائے گا اور 10 بار اس وقت تک. "
اس اعداد و شمار کا پیمانہ بلاشبہ متاثر کن ہے، اور ہم سب خوش قسمت ہیں کہ گوگل کتب ٹیم نے ان اعداد و شمار کو عوام کو (حقیقت میں، اس باب کے اختتام پر کچھ سرگرمیوں کو اس ڈیٹا کا استعمال کرتے ہوئے) کو جاری کیا ہے. لیکن، جب بھی آپ اس طرح کچھ دیکھتے ہیں تو آپ سے پوچھنا چاہئے: کیا یہ سبھی معلومات واقعی میں کر رہی ہیں؟ کیا انھوں نے ایک ہی تحقیق کیا ہے اگر ڈیٹا چاند تک پہنچ سکتا ہے اور صرف ایک بار پھر ہوسکتا ہے؟ کیا اعداد و شمار صرف ماؤنٹ ایورسٹ کے اوپر یا اییل ٹاور کے سب سے اوپر پہنچ سکتا ہے تو کیا ہوگا؟
اس صورت میں، ان کی تحقیقات، حقیقت میں، کچھ نتائج ہیں جو ایک طویل عرصہ تک الفاظ کی ایک بڑی لاش کی ضرورت ہوتی ہے. مثال کے طور پر، وہ ایک ایسی چیز ہے جو گرامر کی ارتقاء کرتی ہے، خاص طور پر بے ترتیب فعل کے برعکس کی شرح میں تبدیلی. چونکہ کچھ غیر قانونی فعل کافی نایاب ہیں، بہت سے اعداد و شمار کو وقت کے ساتھ تبدیلیوں کا پتہ لگانے کی ضرورت ہے. بہت سے، تاہم، محققین بڑے اعداد و شمار کے ذریعہ کے سائز کا اختتام تصور کرتے ہیں کہ "دیکھو کہ میں کس قدر زیادہ سے زیادہ اعداد و شمار کر سکتا ہوں" - کچھ زیادہ اہم سائنسی مقصد کے ذریعہ سے کہیں گے.
میرے تجربے میں، غیر معمولی واقعات کا مطالعہ تین مخصوص سائنسی اختتاموں میں سے ایک ہے جو بڑے اعداد و شمار کو فعال بناتے ہیں. دوسرا ہیروجینیتا کا مطالعہ ہے، جیسا کہ ریاستہائے متحدہ میں سوشل چیلنج پر راج چیٹی اور ساتھیوں (2014) کی طرف سے ایک مطالعہ کی طرف سے بیان کیا جا سکتا ہے. ماضی میں، بہت سے محققین نے والدین اور بچوں کے زندگی کے نتائج کی موازنہ کی طرف سے سماجی تحریک کی تعلیم حاصل کی ہے. اس ادب سے ایک مسلسل تلاش یہ ہے کہ فوائد والدین کو فائدہ مند بچوں کی ضرورت ہوتی ہے، لیکن اس تعلقات کی طاقت وقت اور مختلف ممالک (Hout and DiPrete 2006) میں مختلف ہوتی ہے. حال ہی میں، تاہم، Chetty اور ساتھیوں نے ریاستہائے متحدہ کے اعداد و شمار (ریاست 2.1) میں بین الاقوامی تجزیہ نقل و حرکت میں حیات جغرافیائی انداز کا تخمینہ کرنے کے لئے 40 ملین افراد سے ٹیکس کے ریکارڈ استعمال کرنے کے قابل تھے. انہوں نے پایا، مثال کے طور پر، یہ ممکن ہے کہ بچہ کم سے کم کوٹائل میں کسی خاندان سے شروع ہونے والی قومی آمدنی کی تقسیم کے اوپر سے زیادہ سے زیادہ قیمتوں میں پہنچ جائے، جو سانس، کیلیفورنیا میں تقریبا 13 فی صد ہے، لیکن شمالی کیرولینا، چارلوٹ میں صرف 4 فی صد ہے. اگر آپ کو ایک لمحہ کے لئے 2.1 کی شکل نظر آتی ہے، تو آپ کو یہ محسوس کرنا شروع ہوسکتا ہے کہ دوسروں کے مقابلے میں کچھ جگہوں میں مداخلت پسندانہ تحریک زیادہ ہے. Chetty اور ساتھیوں نے بالکل وہی سوال تھا، اور انہوں نے محسوس کیا کہ اعلی نقل و حرکت علاقوں میں کم رہائشی الگ الگ، کم آمدنی عدم مساوات، بہتر پرائمری اسکولوں، بہتر سماجی دارالحکومت، اور خاندان کی استحکام سے زیادہ ہے. یقینا، ان رابطوں سے اکیلے یہ نہیں ظاہر ہوتا ہے کہ ان عوامل کو زیادہ حرکت پذیری کا سبب بنتا ہے، لیکن وہ ممکنہ میکانیزم تجویز کرتے ہیں جو مزید کام میں تلاش کی جاسکتی ہیں، جو بالکل اس بات کا ہے کہ چیفین اور ساتھیوں نے بعد میں کام کیا ہے. یاد رکھیں کہ کس طرح اس منصوبے میں ڈیٹا کا سائز بہت اہم تھا. اگر Chetty اور ساتھیوں نے 40 ملین کے بجائے 40 ہزار افراد کے ٹیکس ریکارڈ استعمال کیے ہیں، تو وہ علاقائی جغرافیائی انداز کا تخمینہ نہیں کر سکیں گے اور وہ کبھی بھی تحقیقات کرنے میں کامیاب نہیں ہوسکتے ہیں تاکہ اس مکانات کی شناخت کی کوشش کریں.
آخر میں، غیر معمولی واقعات کا مطالعہ اور تجاویز کا مطالعہ کرنے کے علاوہ، بڑی ڈیٹا بیس محققین کو چھوٹے اختلافات کا پتہ لگانے میں بھی مدد دیتا ہے. حقیقت میں، انڈسٹری میں بڑے اعداد و شمار کے بارے میں بہت زیادہ توجہ ان چھوٹے چھوٹے اختلافات کے بارے میں ہے: ایک اشتھار پر 1٪ اور 1.1٪ کے کلک سے زائد شرحوں کے درمیان فرق کا پتہ لگانے کے قابل اضافی آمدنی میں لاکھوں ڈالر کا ترجمہ کر سکتا ہے. کچھ سائنسی ترتیبات میں، تاہم، چھوٹے چھوٹے اختلافات خاص طور پر اہم نہیں ہوسکتے ہیں، یہاں تک کہ اگر وہ مستحکم طور پر اہم ہیں (Prentice and Miller 1992) . لیکن، کچھ پالیسی کی ترتیبات میں، مجموعی طور پر دیکھا جب وہ اہم بن سکتے ہیں. مثال کے طور پر، اگر دو عوامی صحت مداخلت ہیں اور ایک دوسرے سے تھوڑا زیادہ مؤثر ہے تو پھر زیادہ مؤثر مداخلت اٹھا کر ہزاروں اضافی زندگیوں کو بچانے کا خاتمہ کرسکتے ہیں.
اگرچہ مناسب طریقے سے استعمال ہونے پر بجنس عام طور پر ایک اچھی جائیداد ہے، میں نے محسوس کیا ہے کہ یہ کبھی کبھی تصوراتی غلطی کی وجہ سے ہوسکتا ہے. کسی وجہ سے، بزنس محققین کی قیادت کرنے لگتا ہے کہ ان کے اعداد و شمار کو کیسے بنایا گیا تھا. اگرچہ بکسیس بے ترتیب غلطی کے بارے میں فکر کرنے کی ضرورت کو کم کرتی ہے، اس میں اصل میں نظاماتی غلطیوں کے بارے میں فکر کرنے کی ضرورت بڑھتی ہے، غلطیوں کی قسم جس میں میں ذیل میں بیان کرتا ہوں کہ کس طرح کے اعداد و شمار کی تخلیق کی جاسکتی ہے. مثال کے طور پر، اس منصوبے میں میں اس باب میں بعد میں بیان کروں گا، محققین نے 11 ستمبر، 2001 کو پیغامات کا استعمال کیا تھا جس میں دہشت گردی کے حملے (Back, Küfner, and Egloff 2010) رد (Back, Küfner, and Egloff 2010) ردعمل کے اعلی قرارداد جذباتی ٹائم لائن تیار کرنے کے لئے. کیونکہ محققین نے پیغامات کی ایک بڑی تعداد تھی، ان کے بارے میں فکر کرنے کی ضرورت نہیں تھی کہ آیا وہ دن کے دوران زیادہ تر غصے کا مشاہدہ کرتے ہیں یا بے ترتیب تبدیلی کی طرف سے وضاحت کی جا سکتی ہیں. بہت سارے اعداد و شمار تھے اور پیٹرن اس بات کا واضح تھا کہ تمام اعداد و شمار کے اعداد و شمار کے ٹیسٹ نے یہ تجویز کی کہ یہ ایک حقیقی نمونہ تھا. لیکن، ان اعداد و شمار کے ٹیسٹ سے معلوم نہیں تھا کہ اعداد و شمار کیسے بنائے گئے تھے. اصل میں، یہ پتہ چلا کہ بہت سے پیٹرن ایک ہی بوٹ سے منسوب تھے جنہوں نے پورے دن میں زیادہ سے زیادہ بے معنی پیغامات پیدا کیے ہیں. اس ایک بوٹ کو ہٹانے نے کاغذ میں کچھ کلیدی نتائج کو مکمل طور پر تباہ کردیا (Pury 2011; Back, Küfner, and Egloff 2011) . بالکل آسان، محققین جو منظم طریقے سے غلطی کے بارے میں نہیں سوچتے ان کے بڑے ڈیٹا بیسوں کا استعمال کرتے ہوئے خطرے کا سامنا کرنا پڑتا ہے، یہ ایک غیر معمولی مقدار کا درست تخمینہ حاصل کرنے کے لئے، جیسے خود کار طریقے سے بوٹ کی طرف سے پیدا غیر معمولی پیغامات کے جذباتی مواد.
آخر میں، بڑے ڈیٹا بیس خود کو ختم نہیں کررہے ہیں، لیکن وہ بعض قسم کے تحقیق کو غیر معمولی واقعات کا مطالعہ کرتے ہیں، حرف کی اہلیت کا تخمینہ لگاتے ہیں اور چھوٹے اختلافات کا پتہ لگاتے ہیں. بڑے ڈیٹایٹس بھی کچھ محققین کی قیادت کرنے لگتے ہیں کہ ان کے اعداد و شمار کو کیسے بنایا گیا تھا، ان کی قیادت کی جا سکتی ہے، جو ان کو کسی غیر معمولی مقدار کا درست تخمینہ حاصل کرنے میں کامیاب ہوسکتا ہے.