وسیع پیمانے پر پوچھ گچھ میں، سروے کا ڈیٹا ایک بڑا ڈیٹا ذریعہ کے ارد گرد سیاق و سباق بناتا ہے جس میں کچھ اہم پیمائش ہوتی ہے لیکن دوسروں کی کمی ہوتی ہے.
سروے کے اعداد و شمار اور بڑے ڈیٹا ذرائع کو یکجا کرنے کا ایک طریقہ یہ ہے کہ میں اس سے بہتر پوچھ لوں گا. افزودہ پوچھ گچھ میں، ایک بڑا ڈیٹا ذریعہ کچھ اہم پیمائش پر مشتمل ہے لیکن دیگر پیمائشوں کی کمی نہیں ہے لہذا محققین کو ایک سروے میں ان کی گمشدگی کی پیمائش کو جمع کرتا ہے اور پھر دو اعداد و شمار کے ذریعہ ایک دوسرے سے منسلک ہوتا ہے. افضل مطالعہ کا ایک مثال Burke and Kraut (2014) طرف سے مطالعہ ہے کہ آیا فیس بک پر بات چیت کی وجہ سے دوستی کی قوت میں اضافہ ہوتا ہے، جس میں میں نے سیکشن 3.2 میں بیان کیا تھا). اس صورت میں، برک اور کرراٹ فیس بک لاگ ڈیٹا کے ساتھ مشترکہ سروے کے اعداد و شمار.
اس ترتیب میں جس برک اور کررا کام کر رہے تھے، تاہم، اس کا مطلب یہ ہے کہ انہیں دو بڑی مشکلات سے نمٹنے کی ضرورت نہیں تھی جو محققین کو عام طور پر حساس پوچھتے ہیں. سب سے پہلے، اصل میں انفرادی سطح کے اعداد و شمار کے سیٹ کے ساتھ مل کر منسلک، ایک ریکارڈ ریکارڈ کا نام، ایک مشکل عمل ہو سکتا ہے اگر اعداد و شمار کے ذرائع دونوں میں کوئی منفرد شناخت نہیں ہے جو اس بات کا یقین کرنے کے لئے کہ ایک ڈیٹا بیس میں درست ریکارڈ درست ریکارڈ کے ساتھ ملا ہے دوسرے ڈیٹا بیس میں. بہتر پوچھ گچھ کے ساتھ دوسرا بنیادی مسئلہ یہ ہے کہ محققین کے لئے بڑے اعداد و شمار کے ذریعہ کا معیار اکثر مشکل ہوگا کیونکہ ڈیٹا جس کی بنیاد پر ڈیٹا پیدا ہوتا ہے وہ ملکیت ہو سکتا ہے اور 2 باب میں بیان کردہ بہت سے مسائل کو حساس ہوسکتا ہے. دوسرے الفاظ میں، مشکوک پوچھ گچھ اکثر غلطی سے متعلق سروے میں شامل ہوں گے جو نامعلوم معیار کے سیاہ باکس ڈیٹا ذرائع کے مطابق ہیں. تاہم، ان مسائل کے باوجود، ریاستہائے متحدہ میں ووٹنگ کے پیٹرن پر ان کی تحقیق میں سٹیفن انصولبیریر اور اییتس ہسش (2012) طرف سے پیش کیا گیا تھا، تاہم، بہتر تحقیقات کرنے کے لئے قابل قدر پوچھ استعمال کیا جا سکتا ہے.
ووٹر ٹرن آؤٹ آؤٹ سیاسی سائنس میں وسیع تحقیق کا موضوع ہے، اور، ماضی میں، کون سے ووٹروں کے محققین کی سمجھ اور کیوں عام طور پر سروے کے اعداد و شمار کے تجزیہ پر مبنی ہے. تاہم، ریاستہائے متحدہ امریکہ میں ووٹنگ ایک غیر معمولی طرز عمل ہے جس میں حکومت نے ریکارڈ کیا ہے کہ ہر شہری نے ووٹ دیا ہے (یقینا، حکومت نے ریکارڈ نہیں کیا ہے کہ ہر ایک شہری کا ووٹ). بہت سے سالوں کے لئے، ان سرکاری ووٹنگ کا ریکارڈ کاغذ کے فارموں پر دستیاب تھا، ملک کے مختلف مقامی سرکاری دفتروں میں بکھرے ہوئے. اس نے سیاسی سائنسدانوں کو ووٹ کی مکمل تصویر اور اس کا موازنہ کرنے کے لئے یہ بہت مشکل، لیکن ناممکن نہیں، اور سروے میں لوگ اپنے ووٹنگ کے رویے کے ساتھ ووٹنگ کے بارے میں کیا کہتے ہیں (Ansolabehere and Hersh 2012) .
لیکن اب ان ووٹنگ ریکارڈز کو ڈیجیٹل کیا گیا ہے، اور کئی نجی کمپنیاں نے منظم طریقے سے جمع کیے ہوئے اور ان کو مل کر وسیع ماسٹر ووٹنگ کی فائلیں تیار کرنے کے لۓ ان تمام متحرک امریکیوں کے ووٹنگ کا رویہ بھی شامل کیا ہے. Ansolabehere اور حشر نے ان کمپنیوں میں سے ایک کے ساتھ شراکت کیا - کیٹسٹسٹ ایل سی سی - ووٹر کے بہتر تصویر کی ترقی میں مدد کے لئے اپنی ماسٹر ووٹنگ فائل کا استعمال کرنے کے لئے. اس کے علاوہ، کیونکہ ان کا مطالعہ ڈیجیٹل ریکارڈوں پر جمع کیا گیا تھا جس نے کمپنی کے مجموعہ اور ہم آہنگی میں بہت سے وسائل سرمایہ کاری کیے ہیں، کو جمع کیا اور اس کا علاج کیا، اس نے پچھلے کوششوں پر کمپنیوں کی امداد کے بغیر اور اینالاگ ریکارڈز کا استعمال کرتے ہوئے کئے بغیر کئی فوائد پیش کیے.
باب 2 میں بڑے اعداد و شمار کے بہت سے وسائل کی طرح، کیٹسٹسٹ ماسٹر فائل میں تعداد میں ڈیموگرافک، مستحکم، اور رویے کی معلومات شامل نہیں ہوئی جن میں انصولابیرئی اور ہیرس کی ضرورت ہے. دراصل وہ سروے میں ووٹ ڈالنے والے رویے کے بارے میں خاص طور پر دلچسپ ووٹنگ کے رویے (یعنی، کیٹسٹسٹ ڈیٹا بیس میں معلومات) کے ساتھ دلچسپی رکھتے تھے. تو Ansolabehere اور حشر نے اس اعداد و شمار کو جمع کیا ہے جو ان کے بڑے بابو سروے کے طور پر چاہتے تھے، اس باب میں پہلے بیان کردہ CCES. اس کے بعد انہوں نے اپنا ڈیٹا کیٹسٹسٹ کو دیا، اور کیٹٹلسٹ نے ان کو ایک ضم شدہ ڈیٹا فائل واپس دیا جس میں ووٹ کے رویے (کیٹسٹسٹ سے) شامل تھے، خود کار طریقے سے ووٹ دینے والے رویے (سی سی ای ایس سے) اور جواب دینے والوں کے ڈیموگرافکس اور رویے (CCES سے) 3.13). دوسرے الفاظ میں، انصولابیری اور حشر نے سروے کے اعداد و شمار کے ساتھ ووٹ ریکارڈ ریکارڈ ڈیٹا کو مشترکہ کیا تاکہ تحقیقات کریں کہ انفرادی طور پر کسی بھی ڈیٹا ذریعہ سے ممکن نہیں.
ان کے مشترکہ ڈیٹا فائل کے ساتھ، انصولبیرے اور حشر تین اہم نتائج حاصل کرتے تھے. سب سے پہلے، ووٹنگ کا زیادہ سے زیادہ رپورٹنگ انتہائی زیادہ ہے: تقریبا غیر نصف افراد نے ووٹنگ کی اطلاع دی، اور اگر کسی نے ووٹنگ کی اطلاع دی تو صرف 80٪ کا موقع ہے کہ وہ دراصل ووٹ ڈالتے ہیں. دوسری، زیادہ سے زیادہ رپورٹنگ بے ترتیب نہیں ہے: زیادہ سے زیادہ رپورٹنگ اعلی آمدنی، اچھی تعلیم یافتہ جماعتوں کے درمیان عام ہے، جو عام معاملات میں مصروف ہیں. دوسرے الفاظ میں، جو لوگ زیادہ تر ووٹ دینے کا امکان رکھتے ہیں وہ ووٹنگ کے بارے میں بھی جھوٹ بولتے ہیں. تیسری، اور زیادہ تر، زیادہ سے زیادہ مبینہ طور پر، زیادہ سے زیادہ رپورٹنگ کی منظم نوعیت کی وجہ سے، ووٹرز اور غیر متنوعوں کے درمیان حقیقی اختلافات صرف سروے سے ظاہر ہونے کے مقابلے میں چھوٹے ہیں. مثال کے طور پر، جو بیچلر کی ڈگری کے ساتھ ووٹنگ کی رپورٹ کے بارے میں 22 فی صد پوائنٹس کے بارے میں زیادہ امکان رکھتے ہیں، ان میں صرف 10 فی صد پوائنٹس ہیں جو دراصل ووٹ ڈالتے ہیں. شاید یہ حیرت انگیز نہیں ہے، کہ ووٹنگ کے موجودہ وسائل پر مبنی نظریات بہت زیادہ بہتر ہیں جو کہ ووٹنگ کی رپورٹ کرے گی (جو اعداد و شمار جو ماضی میں استعمال کیے گئے اعداد و شمار کے مطابق ہیں) سے کہیں گے کہ وہ اصل میں ووٹ دینے والے ہیں. اس طرح، Ansolabehere and Hersh (2012) تجرباتی طور پر ووٹنگ کو ووٹنگ کو سمجھنے اور پیشن گوئی کرنے کے لئے نئے نظریات کے لئے کال کریں.
لیکن کیا ہم ان نتائج پر بھروسہ کریں؟ یاد رکھو، یہ نتائج خرابی کی غلطی کے ساتھ سیاہ باکس کے اعداد و شمار کے ساتھ منسلک غلطی کے ساتھ منحصر ہے. مزید خاص طور پر، نتائج دو کلیدی مرحلے پر پائے جاتے ہیں: (1) کیٹسٹسٹ کی صلاحیت بہت معقول اعداد و شمار کے ذریعہ کو درست ماسٹر ڈیٹایٹائل پیدا کرنے کے لۓ اور (2) کاسٹسٹسٹ کی صلاحیت اس کے ماسٹر ڈیٹیٹائل کے سروے کے اعداد و شمار سے متعلق کرنے کے لئے. ان اقدامات میں سے ہر ایک کو مشکل ہے، اور کسی بھی مرحلے میں غلطی محققین کو غلط نتائج حاصل کرسکتے ہیں. تاہم، اعداد و شمار کے پروسیسنگ اور منسلک دونوں کمپنیوں کے طور پر کیٹسٹری کے مسلسل وجود کے لئے اہم ہیں، لہذا یہ ان مسائل کو حل کرنے میں وسائل سرمایہ کاری کر سکتے ہیں، اکثر اس پیمانے پر کوئی علمی محقق نہیں مل سکتا. ان کے کاغذ میں، انصولابیر اور حشر ان دو مراحل کے نتائج کی جانچ پڑتال کرنے کے لۓ کئی اقدامات کرتے ہیں- اگرچہ ان میں سے بعض ملکیت ہیں- اور یہ چیکس دوسرے محققین کے لئے سروے کے اعداد و شمار سے منسلک کرنے کے لئے مددگار ثابت ہوسکتے ہیں جن میں سیاہ باکس کے بڑے ڈیٹا ذرائع.
اس مطالعہ سے عام سبق کے محققین کو کیا کر سکتا ہے؟ سب سے پہلے سروے کے اعداد و شمار کے ساتھ بڑا اعداد و شمار کے وسائل کو فروغ دینے اور بڑے ڈیٹا وسائل کے ساتھ سروے کے اعداد و شمار کو فروغ دینے سے زبردست قدر بھی ہے (آپ اس مطالعہ کو بھی دیکھ سکتے ہیں). ان دو اعداد و شمار کے ذرائع کے مطابق، محققین انفرادی طور پر یا تو کے ساتھ ناممکن تھا کہ ایسا کرنے کے قابل تھے. دوسرا عام سبق یہ ہے کہ اگرچہ مجموعی، کاروباری اعداد و شمار کے ذرائع، جیسے کیٹٹسٹسٹ کے اعداد و شمار کو "زمین کی سچائی،" کچھ معاملات میں نہیں سمجھنا چاہئے، وہ مفید ثابت ہوسکتے ہیں. شکایات کبھی کبھی ان مجموعی، تجارتی اعداد و شمار کے ذریعہ مطلق حق کے ساتھ موازنہ کرتے ہیں اور یہ بتاتے ہیں کہ یہ اعداد و شمار کے ذرائع مختصر ہوتے ہیں. تاہم، اس صورت میں، شکایات غلط مقابلے کر رہے ہیں: تمام اعداد و شمار جو محققین کا استعمال مکمل مطلق حق سے کم ہوتے ہیں. اس کے بجائے، بہتر ہے کہ تجارتی، اعداد و شمار کے اعداد و شمار کے ذریعہ دوسرے دستیاب اعداد و شمار کے ذریعہ موازنہ کریں (مثال کے طور پر، خود کو ووٹنگ دینے والے رویے)، جو کبھی بھی غلطیاں بھی ہیں. آخر میں، انصولابہر اور ہشر کے مطالعہ کا تیسرا عام سبق یہ ہے کہ بعض حالات میں، محققین بڑے سرمایہ کاری سے فائدہ اٹھا سکتے ہیں کہ بہت سے نجی کمپنیاں پیچیدہ سماجی ڈیٹا سیٹ جمع کرنے اور اس کو بہتر بنانے میں ہیں.