بڑے ڈیٹا کے ذرائع ہر جگہ ہیں، لیکن سماجی تحقیق کے لئے ان کا استعمال مشکل ہوسکتا ہے. میرے تجربے میں، اعداد و شمار کے لئے "کوئی مفت دوپہر کا کھانا" حکمرانی جیسے کچھ بھی نہیں ہے: اگر آپ اس کے جمع کرنے میں بہت زیادہ کام نہیں کرتے ہیں، تو آپ شاید اس کے بارے میں سوچتے ہیں کہ بہت سے کاموں میں ڈالنا ہوگا. تجزیہ کرنا
آج کل اور ممکنہ کل کے بڑے اعداد و شمار کے ذریعہ 10 خصوصیات ہوتے ہیں. ان میں سے تین عام طور پر (لیکن ہمیشہ نہیں) تحقیق کے لئے مددگار ہیں: بڑے، ہمیشہ پر، اور غیر فعال. سات عام طور پر (لیکن ہمیشہ نہیں) ریسرچ کے لئے دشواری ہیں: نامکمل، ناقابل قبول، غیر جانبدار، بہاؤ، الگورتھم کی طرف سے الجھن، گندی، اور حساس. ان میں سے بہت سے خصوصیات آخر میں پیدا ہوتے ہیں کیونکہ سماجی تحقیق کے مقصد کے لئے بڑے اعداد و شمار کا ذریعہ نہیں بنایا گیا تھا.
اس باب میں خیالات کی بنیاد پر، مجھے لگتا ہے کہ تین اہم طریقے ہیں کہ بڑے ڈیٹا وسائل سماجی تحقیق کے لئے زیادہ قابل قدر ہوں گے. سب سے پہلے، وہ محققین کو نظریاتی نظریاتی مقابلہ کے درمیان فیصلہ کرنے کے قابل بن سکتے ہیں. اس طرح کے کام کی مثالیں Farber (2015) (نیویارک ٹیکسی ڈرائیور) اور King, Pan, and Roberts (2013) (چین میں سینسر شپ) شامل ہیں. دوسرا، بڑے ڈیٹا ذرائع ابلاغ کے ذریعہ پالیسی کے لئے بہتر پیمائش کر سکتا ہے. اس طرح کے کام کا ایک مثال Ginsberg et al. (2009) (گوگل فلو رجحانات). آخر میں، بڑی اعداد و شمار کے ذریعہ تجربے کو چلانے کے بغیر محققین کی وجہ سے تخمینوں کا اندازہ لگانے میں مدد مل سکتی ہے. اس قسم کے کام کی مثال Mas and Moretti (2009) (پیداوری پر ہم مرتبہ اثرات) اور Einav et al. (2015) (ای بے پر نیلامیوں پر شروع کی قیمت کا اثر). تاہم، ان طریقوں میں سے ہر ایک کو محققین کی ضرورت ہوتی ہے جو اعداد و شمار کو بہت زیادہ لانا چاہتی ہے، جیسے کہ مقدار کی تعریف، جس کا اندازہ لگانا ضروری ہے یا دو نظریات پیش کرتے ہیں جن کی پیشن گوئی کی جاتی ہے. اس طرح، مجھے لگتا ہے کہ یہ کتنا بڑا ڈیٹا وسائل کر سکتا ہے اس بارے میں سوچنے کا بہترین طریقہ یہ ہے کہ وہ محققین کی مدد کرسکیں جو دلچسپ اور اہم سوالات سے پوچھ سکتے ہیں.
اختتام کرنے سے پہلے، مجھے لگتا ہے کہ یہ قابل غور ہے کہ اعداد و شمار اور نظریہ کے درمیان تعلقات پر بڑا ڈیٹا کے ذریعہ ایک اہم اثر ہوسکتا ہے. اب تک، اس باب نے اصول پر مبنی تجربہ کار تحقیق کے نقطہ نظر کو لے لیا ہے. لیکن بڑے اعداد و شمار کے ذریعہ بھی محققین کو نظریاتی طور پر نظر انداز کرنے کے لئے محققین کو فعال بناتی ہے. یہ، تجرباتی حقائق، پیٹرن اور پہلوؤں کی محتاط جمع کے ذریعہ، محققین نئے نظریات کی تعمیر کر سکتے ہیں. یہ متبادل، نظریہ سے پہلے ڈیٹا کا نقطہ نظر نیا نہیں ہے، اور یہ زبردست طور پر بارنی گلسر اور انیللم اسٹراس (1967) طرف سے بیان کیا گیا تھا جس نے ان کے کالم نظریہ کے لۓ. تاہم، یہ اعداد و شمار پہلے نقطہ نظر "نظریہ کے اختتام" کا اشارہ نہیں کرتا، جیسا کہ ڈیجیٹل عمر (Anderson 2008) میں تحقیق کے ارد گرد کچھ صحافت میں دعوی کیا گیا ہے. بلکہ، ڈیٹا ماحول میں تبدیلی کے طور پر، ہمیں اعداد و شمار اور نظریہ کے درمیان تعلقات میں ریبلبل کی توقع ہے. ایک ایسی دنیا میں جہاں ڈیٹا جمع کرنا مہنگا تھا، اس میں صرف اس اعداد و شمار کو جمع کرنے کے لئے احساس ہوا کہ نظریات کا خیال ہے کہ سب سے زیادہ مفید ہو. لیکن، ایسی ایسی دنیا میں جہاں بہت سے اعداد و شمار مفت کے لئے پہلے ہی دستیاب ہیں، اس سے پہلے ڈیٹا کا پہلا نقطہ نظر (Goldberg 2015) بھی کوشش کرنا پڑتا ہے.
جیسا کہ میں نے اس باب میں دکھایا ہے، محققین لوگوں کو دیکھ کر بہت سیکھ سکتے ہیں. اگلے تین باب میں، میں وضاحت کروں گا کہ ہم اپنے اعداد و شمار کے مجموعے کو کیسے جانتے ہیں اور ہم ان سے سوالات (باب 3)، تجربات چلاتے ہوئے (4 باب)، اور یہاں تک کہ ان میں شامل ہونے سے بھی زیادہ براہ راست لوگوں سے بات چیت کرتے ہیں کہ کس طرح زیادہ اور مختلف چیزیں سیکھ سکتے ہیں. تحقیقاتی عمل میں براہ راست (باب 5).