غير غير معياري ڊيٽا جا نمونو عام نموني لاء خراب آهن، پر نموني جي مقابلي ۾ ڪافي مفيد ٿي سگهن ٿيون.
ڪجهه سماجي سائنسدان انهي ڊيٽا سان ڪم ڪرڻ جي عادي آهن جيڪي هڪ خاص طور تي بيان ڪيل آبادي جي بي ترتيب واري نموني مان ٺهيل آهن، جهڙوڪ هڪ خاص ملڪ جي سڀني ماڻهن وانگر. هن قسم جي ڊيٽا نمائندو ڊيٽا کي سڏيو ويندو آهي ڇاڪاڻ ته نموني "نمائندگي" وڏي آبادي آهي. ڪيترائي محقق انعام نما نمائندو ڊيٽا ۽ ڪجهه، نمائندي ڊيٽا سخت سائنس سان مترادف آهي، جڏهن ته غير تجارتي ڊيٽا سان گڏ ننڍپڻ جي برابر آهي. سڀ کان وڌيڪ سخت، ڪجهه شڪايتون يقين ڪن ٿا ته اڻ ڄاڻايل ڊيٽا کان ڪجھ به نه سکيو وڃي. جيڪڏهن سچ، اهو محسوس ٿئي ها ته وڏن انگن اکرن مان ڪهڙي حد تائين ڄاڻائي سگهجي ٿو ڇاڪاڻ ته انهن مان گهڻا غير معقول آهن. خوش قسمت، اهي شڪايتون صرف جزوي طور درست آهن. هتي ڪجهه تحقيق جا مقصد آهن جن لاء غير تجارتي انگ اکر واضح طور تي مناسب نه آهي، پر ٻيا اهڙا آهن، جن لاء اهو شايد انهي سان ڀرپور مفيد آهي.
هن فرق کي سمجهڻ لاء، اسان کي لنڊن ۾ هڪ سائنسي کلاسک: جان برف جي ڪرولر 1853-54 جو مطالعو سمجهي ٿو. ڪيترين ئي ڊاڪٽرن تي ايمان آندو ويو آهي ته کولرا کي "خراب هوا" جي سبب هئي، پر برف يقين ڪيو ويو ته اها هڪ انتفابي بيماري آهي، شايد شايد گندو پاڻي پيئڻ واري پاڻي سان وڇائي. هن خيال جي جاچ ڪرڻ لاء، برف جو اهو فائدو ورتو جيڪو اسان شايد شايد ڪنهن قدرتي تجربو کي سڏين. هن جي مقابلي ۾ گهرن جي ڪررايل شرحن جي ڪري ٻن مختلف ڪمپنين سان گڏ: Lamb Lamb ۽ Southwark ۽ Vauxhall. اھي ڪمپنيون ھڪڙي گھر وارا ڪم ڪيا، پر انھن ھڪڙي وڏي طريقي سان اختلاف ڪيو: 1849 ع ۾، وڏي ايراضيء کان پوء، ليمتن کان لنڊن جي مکيه پاڻيء جي نيڪال مان پنھنجي وقتي نقطي ڦري ويا، جتي ساوڪارڪ ۽ ووڪسھال کان پنھنجي انٽيپ پائپ ڪٽي ڇڏي، گندگي خارج ڪرڻ وارو. جڏهن برفن جي ڀيٽ ۾ ٻن ڪمپنين پاران چاولا کان موت جي شرحن جي مقابلي ۾ برف جي شرح، هن کي محسوس ڪيو ته سسٽوڪ ۽ وڪس هيل-ڪمپ ڪمپني جو گراهڪ گندو پاڻي مهيا ڪندڙ هو، جيڪي چاڙرا کان 10 ڀيرا وڌيڪ مري ويا آهن. اهو نتيجو کولرا جي سبب بابت برف جي دليلن لاء مضبوط سائنسي ثبوت فراهم ڪري ٿو، جيتوڻيڪ اهو لنڊن ۾ ماڻهن جي نمائندي نموني جي بنياد تي نه آهي.
ان ٻن ڪمپنين جي ڊيٽا، بهرحال، مختلف سوال جو جواب ڏيڻ لاء مثالي نه سگهندو: ماتحت ٿيڻ دوران لنڊن ۾ کولرا جي ڪهڙي ڇا هئي؟ انهي سيڪنڊ لاء، جيڪو پڻ اهم آهي، اهو بهتر آهي ته لنڊن کان ماڻهن جي نمائندو نموني حاصل ڪرڻ لاء.
جيئن ته برف جو ڪم ظاهر ڪري ٿو، ڪجهه سائنسي سوال آهن، جن لاء غير غير معمولي ڊيٽا ڪافي اثرائتو ٿي سگهندا آهن ۽ ٻيا اهڙا آهن، جن لاء اهو سٺو نه آهي. هڪڙي خشڪ طريقي سان انهن ٻن قسمن جي سوالن کي فرق ڪرڻو آهي ته ڪجهه سوالن جي نموني جي اندر بابت آهن ۽ ڪجهه ڪجهه نموني جي عام نموني بابت آهن. اهو فرق اياميدياولوجي ۾ هڪ ٻيو کلاسک مطالعي پاران وڌيڪ وضاحت ڪري سگهجي ٿو: برطانوي ڊاڪٽرن جو مطالعو، جنهن ۾ تماڪ جي سگريٽ جو سبب بڻائڻ ۾ اهم ڪردار ادا ڪيو. هن مطالعي ۾، رچرڊ گڏي ۽ اي. برادفس هيل ڪيترن ئي سالن تائين لڳ ڀڳ 25،000 مرد ڊاڪٽرن جي پيروي ڪئي ۽ مطالعي شروع ٿيڻ کان پوء انهن جي موت جي شرح تي ٻڌل آهي. گڏي ۽ ھلي (1954) ھڪڙي مضبوط جذباتي موٽ جو تعلق رھيو آھي: وڌيڪ بھترين ماڻھن کي تماڪ ڪيو پيو وڃي، ممڪن آھي تھ ھو توھان ڦڦڙن جي سرطان مان مرڻ کان پھريان ھو. يقيني طور تي، هي برطانوي ماڻهن جي هن گروهه جي بنياد تي برطانوي ماڻهن جي وچ ۾ ڦڦڙن جي سرطان جي پيماني تي اندازو ڪرڻ جو اندازو لڳايو ويندو آهي، پر نموني سان مقابلو پڻ اڃا تائين پيش ڪندو آهي ته تماڪ جي تڪليف جو ڦڦڙن جو سبب آهي.
هاڻي ته مون نموني جي نموني ۽ نموني جي عام نموني جي وچ ۾ فرق وضاحت ڪيو آهي، ٻه ٻواٽ جي ترتيب ۾ آهن. پهرين، قدرتي طور تي ڪيتريون ئي برطانوي ڊاڪٽرن جي نموني سان تعلق رکندي ڪيتري قدر ڪيتريون ئي سوالون آهن جن ۾ عورت، برطانوي ڊاڪٽرن يا برطانوي ڊاڪٽرن جي ڪارڪردگي ڪارڪنن يا جرمن جرمن فيڪٽر ڪارڪنن يا ٻين ڪيترن ئي گروهن ۾ پڻ شامل آهي. اهي سوال دلچسپ ۽ اهم آهن، پر اهي ڪيترا ئي سوالن کان مختلف آهن جن کي اسين نموني جي نموني کان عام ڪري سگهون ٿا. مثال طور، مثال طور، توهان کي شايد شڪ آهي ته سگريٽ ۽ ڪينسر جي وچ ۾ تعلق اهو آهي ته برطانوي ڊاڪٽرن ۾ شايد شايد انهن سڀني گروهن ۾ ساڳي هوندي. توهان جي انسپلولن کي توهان جي صلاحيت اها آهي ته برطانوي ڊاڪٽرن جي ڪنهن به آبادي کان غير معمولي نموني نموني آهي. بلڪه، اهو سمجهه ۾ اچي ٿو ته تماڪ جي سگريٽ ۽ سرطان جوڙي ميڪانيزم جو. ان ڪري، هڪ نموني مان ٺهيل آهي جنهن جي نتيجي ۾ آبادي وڏي تعداد ۾ هڪ عدديه معاملو آهي، پر هڪ گروهه هڪ گروپ ۾ هڪ گروپ ۾ موجود نموني جي نقل و حمل بابت سوال گهڻو ڪري هڪ غير (Pearl and Bareinboim 2014; Pearl 2015) مسئلو آهي (Pearl and Bareinboim 2014; Pearl 2015) .
هن حقيقت تي هڪ شڪايت ظاهر ٿئي ٿي ته سڀ کان وڌيڪ سماجي نمونس تماڪ ۽ سگريٽ جي وچ ۾ لاڳاپا کان وڌيڪ گروپن جي ڀيٽ ۾ گھٽ هوندا آهن. ۽ مان متفق آهيان. جنهن جي حد تائين اسان کي نمونن جي منتقلي هجڻ گهرجي ته آخرڪار هڪ سائنسي سوال آهي جنهن تي نظريو ۽ دليل جي بنياد تي فيصلو ڪيو وڃي. اهو خودڪار طور تي فرض نه ڪيو وڃي ٿو ته نمونن ٽرانسپورٽ وارا هوندا، پر نه اهو سمجهيو وڃي ته اهي ٽرانسپورٽ نه هوندا. (Sears 1986, [@henrich_most_2010] ) विद्यार्थीहरू (Sears 1986, [@henrich_most_2010] ) . ان بحث جي باوجود، جيتوڻيڪ، اهو چئي سگهجي ٿو ته محقق ان گريجوئيڊ شاگردن جي مطالعي مان ڪجهه به نه سکڻ جي قابل ٿي سگهندي.
ٻيو ڪاروٽ اهو آهي ته سڀ کان وڌيڪ محقق غير تجزياتي ڊيٽا سان گڏ محتاط نه آهن جيترو برف يا گڏي ۽ هيل وانگر. تنهن ڪري، محقق کي غير تجزياتي انگن اکرن مان ٺهيل نموني ٺاهڻ جي ڪوشش ڪري غلط ٿي سگهي ٿو، آئون توهان کي 2009 ء جرمن جرمن پارليامينٽ چونڊ جي اندريک تونسجن ۽ ان جي ڀائيوارن (2010) مطالعي جي باري ۾ ٻڌايان ٿو. 100،000 کان وڌيڪ ٽائڪن جي تجزيه ڪندي، هنن اهو محسوس ڪيو ته ٽائيم جو انداز سياسي پارٽين جو ذڪر ڪري رهيو آهي، جنهن ۾ ووٽ پارٽيء پارلياماني چونڊ ۾ وصول ڪيو ويو آهي (انگ اکر 2.3). ٻين لفظن ۾، اها ئي Twitter جي ڊيٽا ظاهر ڪئي وئي، جيڪا لازمي طور تي آزاد هئي، روايتي عوامي راء جي سروي کي تبديل ڪري سگهي ٿي، جيڪي قيمتي طور تي نمائندن جي ڊيٽا تي زور ڀريندا آهن.
عطا ڪيو ته توهان شايد ئي ئي Twitter جي باري ۾ ڄاڻو ٿا، توهان کي هن نتيجن کي فوري طور تي شڪ ٿيڻ گهرجي. Twitter تي 2009 ع واري جرمن جرمن ووٽن جي امڪاني انداز جي نموني نموني نه هئا، ۽ ڪجهه پارٽين جي حملي جي سياست کي گهڻو ڪجهه ٻين جماعتن جي حامين جي ڀيٽ ۾ گهڻو ڪري سگهي ٿو. اهڙيء طرح، اها حيرت لڳي ٿي ته ممڪن تمام ممڪن آهي جيڪي توهان تصور ڪري سگهون ها ته ڪجهه به منسوخ ڪري ڇڏين ها ته هي انگ جرمن ووٽررن جو عڪس ظاهر ڪيو ويندو. حقيقت ۾، Tumasjan et al. (2010) ۾ نتيجا Tumasjan et al. (2010) سچا سچي ٿيڻ صحيح آھي. آرڈر جونگيرس، پيسلل جورنسن ۽ هارريل شينڪس (2012) هڪ پيروي ڪيل ڪتاب جي نشاندهي ڪئي وئي آهي ته اصل تجزيي موجب سياسي جماعت کي خارج ڪيو ويو جيڪا اصل ۾ Twitter تي سڀ کان وڌيڪ موصول ٿي پئي هئي: قزاق پارٽي، هڪ ننڍڙي پارٽي جيڪا حڪومتي ضابطي جي خلاف آهي انٽرنيٽ جو. جڏهن سموريون قزاقي پارٽي تجزيي ۾ شامل ٿي چڪا آهن، ٽائرن جو نقشو چونڊ نتيجن جي ڀيانڪ پيشڪين جو ڪارڻ بڻجي ٿو (2.3). جيئن ته هن مثال بيان ڪري ٿو، غير نموني جي غير معمولي ادارن کي غير غير معمولي وڏن انگن اکرن کي استعمال ڪرڻ بلڪل غلط ٿي سگھن ٿا. انهي سان گڏ، توهان کي اهو ڄاڻڻ گهرجي ته 100،000 ٽائڪن جون بنيادي طور تي غير موثر هئا: گهڻيون غير معمولي ڊيٽا اڃا به غير نمائندو آهي، هڪ موضوع جيڪو آء سروي تي بحث ڪندس باب 3 ۾ واپس موٽندو.
نتيجو حاصل ڪرڻ لاء ڪيترائي وڏن انگن اکرن جا ڪجهه نمايان آبادي جا نمونا نمونا نه آهن. سوالن جي لاء، جيڪا آبادي جي نموني جي نتيجن کي عام ڪرڻ جي ضرورت هوندي هئي ان مان ڪڍي سگهجي ٿي، اهو هڪ سنگين مسئلو آهي. پر ٺهيل نموني جي باري ۾ سوالن جي باري ۾، غير تجزياتي ڊيٽا طاقتور ٿي سگهي ٿي، ايتري قدر جو جيئن محقق پنهنجي نموني جي خاصيتن بابت واضح آهن ۽ نظرياتي يا تجرباتي ثبوت سان نقل و حمل بابت دعوي جي حمايت ڪن ٿا. حقيقت ۾، منهنجي اميد آهي ته وڏي ڊيٽا وسيلن ڪيترن ئي غير تجزياتي گروهن ۾ وڌيڪ اندروني نموني ٺاهڻ جي قابل ڪري سگهندا آهن، ۽ منهنجو گمان اهو آهي ته ڪيترن ئي گروهن کان تخميني سماجي تحقيقي پيش رفت هڪ وڌيڪ تخميني کان وڌيڪ هوندي نموني.