غیر نمائش کے اعداد و شمار کے باہر سے نمونے کے عمومی اداروں کے لئے خراب ہیں، لیکن نمونہ کے اندر اندر موازنہ کے لئے بہت مفید ہوسکتا ہے.
کچھ سماجی سائنسدان اعداد و شمار کے ساتھ کام کرنے کے عادی ہیں جو اچھی طرح سے مقرر کردہ آبادی سے مستحکم بے ترتیب نمونہ سے آتے ہیں، جیسے کسی خاص ملک میں تمام بالغوں. اس طرح کے اعداد و شمار کے نمائندے کے اعداد و شمار کو کہا جاتا ہے کیونکہ نمونہ "بڑی آبادی" کی نمائندگی کرتا ہے. بہت سے محققین کے انعام کے نمائندے کے اعداد و شمار، اور کچھ، نمائندگی کے اعداد و شمار سخت سائنس سے مطابقت رکھتا ہے، جبکہ غیر متعلقہ اعداد و شمار کوپن سے مطابقت رکھتا ہے. سب سے زیادہ انتہا پسندی میں، کچھ شکایات اس بات کا یقین لگتے ہیں کہ غیر غیر معمولی اعداد و شمار سے کچھ بھی نہیں سیکھا جا سکتا ہے. اگر یہ ایرر برقرار رہے تو ہمارے ہیلپ ڈیسک سے رابطہ کریں. غلط استعمال کی اطلاع دیتے ہوئے ایرر آ گیا ہے. براہ مہربانی دوبارہ کوشش کریں. اگر یہ ایرر برقرار رہے تو ہمارے ہیلپ ڈیسک سے رابطہ کریں. غلط استعمال کی اطلاع دیتے ہوئے ایرر آ گیا ہے. خوش قسمتی سے، یہ شکست صرف جزوی طور پر درست ہیں. کچھ ریسرچ کے مقاصد ہیں جن کے لئے غیر متعلقہ ڈیٹا واضح طور پر مناسب نہیں ہے، لیکن اس میں دوسروں کے لئے یہ واقعی بہت مفید ثابت ہوسکتا ہے.
اس فرق کو سمجھنے کے لۓ، لندن میں 1853-54 کولرا کے پھیلنے کے بارے میں جان سنو کا مطالعہ ایک سائنسی کلاسک پر غور کریں. اس وقت، بہت سے ڈاکٹروں کا خیال ہے کہ کولرا "برا ہوا" کی وجہ سے تھا، لیکن برف کا خیال تھا کہ یہ ایک مہلک بیماری تھی، شاید اس طرح سے گندم پینے کے پانی سے پھیل گیا. اس خیال کو آزمانے کے لئے، برف نے جو کچھ ہم شاید ممکنہ طور پر استعمال کرتے ہیں اس کا فائدہ اٹھایا. انہوں نے مقابلے میں گھریلو کولرا کی شرح دو مختلف پانی کی کمپنیوں کی طرف سے خدمت کی تھی: لیممیٹ اور ساؤتھ وارک اور ووکس ہال. ان کمپنیوں نے اسی گھر والوں کو خدمت کی، لیکن وہ ایک اہم انداز میں مختلف تھے: 1849 میں - مہاکاشی کے چند سال پہلے شروع ہوا - لیمتھ نے لندن میں مرکزی سیوریج خارج ہونے والے مادہ سے اپنا انتباہ نکالا، جبکہ جنوبی واک اور وکس ہال نے ان کی مانند پائپ بائیں طرف چھوڑ دیا گند نکاسی کا مادہ. جب برف نے دو کمپنیوں کی طرف سے خدمات انجام دینے والے کلالوں میں موت کی شرح سے مقابلے کی، اس نے محسوس کیا کہ ساؤتھ وارک اور ووکس ہال کے کمپنی جو گاہکوں کو گندے پانی سے گراؤنڈ پانی فراہم کررہے ہیں وہ کولرا سے مرنے کے 10 گنا زیادہ ہوتے ہیں. یہ نتیجہ کولرا کی وجہ سے برف کے دلائل کے لئے مضبوط سائنسی ثبوت فراہم کرتا ہے، اگرچہ یہ لندن میں لوگوں کے نمائندہ نمونے پر مبنی نہیں ہے.
تاہم، ان دونوں کمپنیوں کے اعداد و شمار ایک مختلف سوال کا جواب دینے کے لئے مثالی نہیں ہوں گے: پھیلنے کے دوران لندن میں کولرا کی کیا تعداد تھی؟ اس دوسرا سوال کے لئے، جو بھی اہم ہے، لندن سے لوگوں کے نمائندے نمونہ رکھنے کے لئے یہ بہتر ہوگا.
جیسا کہ برف کے کام کی وضاحت کرتا ہے، وہاں کچھ سائنسی سوالات موجود ہیں جن کے لئے غیر روایتی اعداد و شمار کافی مؤثر ہوسکتے ہیں اور اس کے علاوہ دوسروں کے لئے یہ مناسب نہیں ہے. ان دونوں قسم کے سوالات کو الگ کرنے کے لئے ایک خامہ راستہ یہ ہے کہ کچھ سوالات اندرونی نمونوں کے بارے میں ہیں اور کچھ نمونے سے باہر نمونے کے بارے میں ہیں. یہ فرق مختلف ایڈیڈومیولوجی میں مزید کلاسک مطالعہ کی طرف سے مزید وضاحت کی جا سکتی ہے: برطانوی ڈاکٹروں کا مطالعہ، جس نے تمباکو نوشی کرنے میں ایک اہم کردار ادا کیا. اس مطالعے میں، رچرڈ گڑیا اور اے بریڈفورڈ ہل نے کئی سالوں تک تقریبا 25،000 نردجیکرن ڈاکٹروں کی پیروی کی اور مطالعہ شروع ہونے پر ان کی رقم کی بنیاد پر ان کی موت کی شرح کا مقابلہ کیا. گڑیا اور ہل (1954) نے ایک مضبوط نمائش کے رد عمل کا تعلق پایا: زیادہ بھاری لوگوں نے تمباکو نوشی کیا، زیادہ امکان ہے کہ وہ پھیپھڑوں کے کینسر سے مرنے جاۓ. بے شک یہ ناروا ڈاکٹروں کے اس گروپ پر مبنی تمام برطانوی باشندوں کے درمیان پھیپھڑوں کے کینسر کے اندازے کا اندازہ کرنے کا ناواقف ہو گا، لیکن نمونہ کے مقابلے میں اب بھی اس بات کا ثبوت پیش کرتا ہے کہ تمباکو نوشیوں میں پھیپھڑوں کے کینسر کا سبب بنتا ہے.
اب میں نے نمونہ نمونہ اور نمونے کے باہر سے نمونے کے درمیان فرق کی وضاحت کی ہے، دو caveats کے ترتیب میں ہیں. سب سے پہلے، قدرتی طور پر اس کے بارے میں سوالات ہیں جن میں مرد برتانوی ڈاکٹروں کے ایک نمونہ کے اندر تعلق رکھنے والے تعلقات، خواتین، برطانوی ڈاکٹروں یا نارین برتانوی فیکٹری کارکنوں یا جرمن جرمن فیکٹری کارکنوں یا بہت سے دیگر گروہوں کے نمونے میں بھی منعقد کریں گے. یہ سوال دلچسپ اور اہم ہیں، لیکن وہ اس حد تک اس سوال سے مختلف ہیں کہ ہم ایک نمونہ سے آبادی کو عام طور پر عام کرسکتے ہیں. مثال کے طور پر، مثال کے طور پر، آپ شاید شبہ رکھتے ہیں کہ سگریٹ اور کینسر کے درمیان تعلق جو مرد برطانوی برطانوی ڈاکٹروں میں پایا گیا تھا وہ شاید دوسرے دوسرے گروپوں میں اسی طرح کی ہوسکیں گے. اس extrapolation کرنے کی آپ کی صلاحیت اس حقیقت سے نہیں آتی ہے کہ برطانوی برطانوی ڈاکٹر کسی بھی آبادی سے ایک مستحکم بے ترتیب نمونہ ہیں؛ بلکہ، یہ میکانیزم کو سمجھنے سے آتا ہے جو تمباکو نوشی اور کینسر سے تعلق رکھتا ہے. اس طرح، ایک نمونہ سے عام طور پر آبادی کو عام طور پر ایک اعداد وشماری کا مسئلہ ہے، لیکن ایک گروہ میں ایک گروپ میں پایا پیٹرن کی نقل و حمل کے بارے میں سوالات ایک غیر معمولی مسئلہ (Pearl and Bareinboim 2014; Pearl 2015) .
اس موقع پر، ایک شکایات یہ بتاتی ہیں کہ تمباکو نوشی اور کینسر کے درمیان تعلقات کے مقابلے میں گروپوں میں زیادہ تر سماجی پیٹرن شاید کم نقل و حمل ہیں. اور میں اتفاق کرتا ہوں ہم حد تک نقل و حمل کے پیٹرن کی توقع کرنی چاہئے کہ بالآخر ایک سائنسی سوال ہے جو اصول اور ثبوت پر مبنی فیصلہ کرنا ہوگا. یہ خود کار طریقے سے فرض نہیں کیا جانا چاہئے کہ پیٹرن نقل و حمل ہوں گے، لیکن نہ ہی یہ فرض کیا جاسکتا ہے کہ وہ نقل و حمل نہیں ہوں گے. نقل و حمل کے بارے میں یہ کچھ مضر سوالات آپ کو واقف ہو جائیں گے اگر آپ نے انڈر گریجویٹ طلباء (Sears 1986, [@henrich_most_2010] ) مطالعہ کی طرف سے انسانی رویے کے بارے میں کتنا محققین کو سیکھ سکتے ہیں کے بارے میں بحث کی ہے. ان بحثوں کے باوجود، تاہم، یہ کہنا مناسب نہیں ہوگا کہ محققین انڈر گریجویٹ طلباء کو پڑھنے سے کچھ سیکھ سکیں.
دوسرا غار یہ ہے کہ غیر تحقیق شدہ اعداد و شمار کے ساتھ سب سے زیادہ محققین برف یا گڑیا اور ہل جیسے محتاط نہیں ہیں. لہذا، یہ ثابت کرنے کے لئے کہ جب محققین غیر غیر معمولی اعداد و شمار سے باہر نمونہ عام کرنے کی کوشش کرتے ہیں تو کیا غلط ہوسکتا ہے، میں آپ کو 2009 ء کے جرمن پارلیمانی انتخابات کے اندر اندیک تیماسجن اور ساتھیوں (2010) مطالعہ کے بارے میں بتانا چاہتا ہوں. 100،000 سے زائد ٹویٹس کا تجزیہ کرتے ہوئے، انہوں نے پایا کہ ٹائٹس کے تناسب سیاسی جماعت کا ذکر کرتے ہیں جو پارلیمانی انتخابات میں حصہ لینے والے جماعتوں کے ووٹوں کے تناسب سے مل کر (2.3 نمبر). دوسرے الفاظ میں، یہ ظاہر ہوتا ہے کہ ٹویٹر ڈیٹا، جو بنیادی طور پر مفت تھا، روایتی عوامی رائے سروے کی جگہ لے سکتا ہے، جو مہینوں کے اعداد و شمار پر ان کے زور سے مہنگا ہے.
آپ کو شاید ہی ٹویٹر کے بارے میں معلوم ہے کہ آپ کو اس نتیجہ کا فوری طور پر شک ہونا چاہئے. 2009 میں ٹویٹر پر جرمن جرمن ووٹرز کا ایک بے شمار بے مثال نمونہ نہیں تھا، اور کچھ جماعتوں کے حامیوں کو شاید سیاسی جماعتوں کے بارے میں زیادہ تر پارٹیوں کے دیگر حامیوں کے مقابلے میں ٹویٹ کر سکتا ہے. اس طرح، یہ حیرت انگیز لگتا ہے کہ آپ ممکن تصور کر سکتے ہیں کہ ممکنہ طور پر باضابطہ طور پر کسی بھی طرح سے منسوخ ہوجائیں گے تاکہ یہ اعداد و شمار جرمنی کے ووٹروں کو براہ راست عکاس کریں. دراصل، Tumasjan et al. (2010) نتائج Tumasjan et al. (2010) سچ ثابت ہونے کے لئے بہت اچھا ہو گیا. Andreas Jungherr، پیسل جورنسن، اور ہارالڈ Schoen (2012) کی طرف سے ایک پیچیدہ کاغذ کی نشاندہی کی گئی ہے کہ اصل تجزیہ نے سیاسی جماعت کو چھوڑ دیا تھا جس میں اصل میں ٹویٹر پر سب سے زیادہ اشارہ مل گیا تھا: سمندری ڈاکو پارٹی، ایک چھوٹی سی پارٹی جس میں حکومتی ریگولیشن سے لڑتی ہے انٹرنیٹ کی. جب تجزیہ میں سمندری ڈاکو پارٹی میں شامل کیا گیا تو، ٹویٹر کا حوالہ الیکشن نتائج کے خوفناک پیش رفت بن جاتا ہے (2.3 نمبر). جیسا کہ اس مثال کی وضاحت کرتا ہے، نمونے سے باہر نمونے کرنے کے لئے غیر غیر معمولی بڑے اعداد و شمار کا استعمال کرتے ہوئے ذریعہ بہت غلط ہوسکتا ہے. اس کے علاوہ، آپ کو یہ معلوم ہونا چاہئے کہ 100،000 ٹویٹس موجود تھے بنیادی طور پر غیر متعلقہ: بہت سے غیر معتبر اعداد و شمار اب بھی غیر نمائندگی ہیں، ایک مرکزی خیال، موضوع جس میں میں سروے پر بات کروں گا، میں باب 3 میں واپس آؤں گا.
اختتام کرنے کے لئے، بہت سے بڑے اعداد و شمار کے ذریعہ کچھ اچھی طرح سے آبادی کی نمائندگی نمونہ نہیں ہیں. سوالات جو نمونہ کے نمونے کی آبادی کی ضرورت ہوتی ہے اس کے لئے، جس سے یہ تیار کیا گیا تھا، یہ ایک سنجیدہ مسئلہ ہے. لیکن نمونے کے مقابلے میں اندرونی سوالات کے بارے میں سوالات کے لئے غیر غیر متعلقہ اعداد و شمار طاقتور ہوسکتے ہیں، جب تک محققین اپنے نمونے کی خصوصیات اور معاشی یا تجرباتی ثبوت کے ساتھ نقل و حمل کے بارے میں دعوی کے دعوی کے بارے میں واضح ہیں. دراصل، میری امید یہ ہے کہ بڑے ڈیٹا وسائل محققین کو بہت غیر غیر معمولی گروہوں میں زیادہ سے زیادہ نمونہ موازنہ کرنے کے قابل بنائے گی، اور میرا اندازہ یہ ہے کہ بہت سے مختلف گروہوں کے تخمینوں کو ایک مستحکم بے ترتیب سے ایک ہی تخمینہ سے سماجی تحقیق کو آگے بڑھانا ہوگا. نمونہ