ایک قسم کا مشاہدہ یہ ہے کہ اس باب میں شامل نہیں ہے. ڈیجیٹل خالی جگہوں میں اخلاقیات کے بارے میں زیادہ کے لئے، دیکھیں Boellstorff et al. (2012) ، اور مخلوط ڈیجیٹل اور جسمانی خالی جگہوں میں اخلاقیات پر زیادہ سے زیادہ، Lane (2016) دیکھیں.
"بڑے اعداد و شمار،" کی کوئی بھی اتفاق رائے کی تعریف نہیں ہے، لیکن بہت سے تعریفیں "3 ویز" پر توجہ مرکوز لگتی ہیں: حجم، مختلف قسم اور رفتار (مثال کے طور پر، Japec et al. (2015) ). De Mauro et al. (2015) ملاحظہ کریں De Mauro et al. (2015) تعریفوں کا جائزہ لینے کے لئے.
بڑے اعداد و شمار کے زمرے میں سرکاری انتظامی اعداد و شمار میں شامل ہونے میں میرا کچھ غیر معمولی ہے، اگرچہ دوسروں نے یہ مقدمہ بھی لیا ہے، جن میں Legewie (2015) ، Connelly et al. (2016) ، اور Einav and Levin (2014) . تحقیق کے لئے سرکاری انتظامی اعداد و شمار کی قدر کے بارے میں مزید کے لئے، Card et al. (2010) دیکھیں Card et al. (2010) ، Adminstrative Data Taskforce (2012) ، اور Grusky, Smeeding, and Snipp (2015) .
سرکاری اعداد و شمار کے نظام، خاص طور پر امریکی مردم شماری بیورو کے اندر اندر انتظامی تحقیق کے نقطہ نظر کے لئے Jarmin and O'Hara (2016) . اعداد و شمار سویڈن میں انتظامی ریکارڈ ریسرچ کے کتاب کی لمبائی کے علاج کے لئے Wallgren and Wallgren (2007) .
باب میں، میں مختصر طور پر ایک روایتی سروے کے مقابلے میں عام سماجی سروے (جی ایس ایس) کے مقابلے میں سوشل میڈیا کے اعداد و شمار ذریعہ جیسے ٹویٹر. روایتی سروے اور سوشل میڈیا کے اعداد و شمار کے درمیان ایک مکمل اور محتاط مقابلے کے لئے، Schober et al. (2016) دیکھیں Schober et al. (2016) .
مختلف اعداد و شمار کے مختلف قسم کے مختلف طریقوں میں بڑے اعداد و شمار کی یہ 10 خصوصیات بیان کی گئی ہیں. ان مسائل پر میری سوچ پر اثرانداز ہونے والے تحریر Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) Howison, Wiggins, and Crowston (2011) boyd and Crawford (2012) ، SJ Taylor (2013) Mayer-Schönberger and Cukier (2013) SJ Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، K. Lewis (2015b) Lazer (2015) K. Lewis (2015b) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، اور Goldstone and Lupyan (2016) .
اس باب کے دوران، میں نے ڈیجیٹل نشانوں کا اصطلاح استعمال کیا ہے ، جس میں میرا خیال ہے کہ نسبتا غیر جانبدار ہے. ڈیجیٹل نشانوں کے لئے ایک اور مقبول اصطلاح ڈیجیٹل پیپر پرنٹس (Golder and Macy 2014) ، لیکن ہیل ابیلسن، کینی لیسین اور ہییری لیوس (2008) نشاندہی کرتے ہوئے شاید زیادہ موزون اصطلاح شاید ڈیجیٹل انگلیوں کے نشانوں سے ہے . جب آپ پیپر پرنٹس بناتے ہیں، تو آپ کو کیا ہو رہا ہے کے بارے میں آگاہ ہے اور آپ کے پتے کے نشان آپ کو ذاتی طور پر ذاتی طور پر نہیں مل سکتے ہیں. یہ آپ کے ڈیجیٹل نشانوں کے لئے درست نہیں ہے. اصل میں، آپ کو ہر وقت آپ کو بہت کم علم ہے جس کے بارے میں نشانیاں چھوڑ رہے ہیں. اور، اگرچہ ان نشانوں پر آپ کا نام نہیں ہے، تو وہ اکثر آپ سے منسلک ہوسکتے ہیں. دوسرے الفاظ میں، وہ انگلی کے نشان کی طرح زیادہ ہیں: پوشیدہ اور ذاتی طور پر شناخت.
مزید معلومات کے لئے کیوں بڑے ڈیٹایٹس اعداد وشمار سے متعلق اعدادوشمار مہیا کرتے ہیں، M. Lin, Lucas, and Shmueli (2013) اور McFarland and McFarland (2015) . ان مسائل کو محققین کی قیادت کرنا لازمی ہے کہ اس کے بجائے اعداد وشماری اہمیت کے بجائے عملی اہمیت پر توجہ دی جائے.
راج چیٹی اور ساتھیوں نے ٹیکس کے ریکارڈ تک رسائی حاصل کرنے کے بارے میں مزید کہا، Mervis (2014) دیکھیں.
بڑے اعداد و شمار بھی کمپیوٹنگ کے مسائل پیدا کرسکتے ہیں جو عام طور پر ایک کمپیوٹر کی صلاحیتوں سے باہر ہیں. لہذا، بڑے اعداد و شمار پر computations بنانے محققین اکثر کئی کمپیوٹرز، ایک پروسیسنگ کبھی کبھی متوازی پروگرامنگ کہا جاتا ہے پر کام پھیلاتے ہیں. متوازی پروگرامنگ کے تعارف کے لۓ، خاص طور پر ایک ہیپ نامی زبان میں، Vo and Silvia (2016) دیکھیں Vo and Silvia (2016) .
ہمیشہ کے اعداد و شمار پر غور کرتے وقت، یہ ضروری ہے کہ آپ اس بات پر غور کرنا اہم ہو کہ آیا آپ اس وقت کے برابر عین مطابق لوگوں کا موازنہ کر رہے ہیں یا آپ لوگوں کے کچھ تبدیلی والے گروہ کا موازنہ کر رہے ہیں؛ مثال کے طور پر ملاحظہ کریں، Diaz et al. (2016) .
غیر معمولی اقدامات پر ایک کلاسک کتاب Webb et al. (1966) . اس کتاب میں مثالیں ڈیجیٹل عمر کی پیش گوئی کرتے ہیں، لیکن وہ اب بھی روشن کر رہے ہیں. بڑے پیمانے پر نگرانی کی موجودگی کی وجہ سے لوگوں کی مثالوں کے لۓ، Penney (2016) اور Brayne (2014) .
ردعمل اس سے متعلق ہے کہ محققین نے طلباء کے مطالبات کو کونسا مطالبہ کیا ہے (Orne 1962; Zizzo 2010) اور ہاورٹو اثر (Adair 1984; Levitt and List 2011) .
ریکارڈ لنک پر زیادہ سے زیادہ، Dunn (1946) اور Fellegi and Sunter (1969) (تاریخی) اور Larsen and Winkler (2014) (جدید) ملاحظہ کریں. اسی طرح کے نقطہ نظر کمپیوٹر سائنس میں ایسے ناموں کے تحت تیار کیے گئے ہیں جیسے اعداد و شمار کی نقل، مثال کی شناخت، نام کے ملاپ، ڈپلیکیٹ کا پتہ لگانے، اور ڈپلیکیٹ ریکارڈ کا پتہ لگانے (Elmagarmid, Ipeirotis, and Verykios 2007) . ذاتی طور پر شناختی معلومات کی منتقلی (Schnell 2013) ضرورت نہیں ہے جس میں تعلق رکھنے والے ریکارڈ کو ریکارڈ کرنے کے لئے رازداری کی بھی حفاظتی اقدامات موجود ہیں. فیس بک نے بھی اپنے ریکارڈوں کو ووٹنگ کے رویے سے منسلک کرنے کے لئے ایک عمل تیار کیا ہے؛ یہ ایک تجربے کا اندازہ کرنے کے لئے کیا گیا تھا کہ میں باب باب 4 (Bond et al. 2012; Jones et al. 2013) میں آپ کو بتائے گا.
صداقت کی تعمیر پر مزید کے لئے، Shadish, Cook, and Campbell (2001) باب 3 دیکھیں.
اے او ایل کی تلاش لاگ مباحثہ پر زیادہ کے لئے، دیکھیں Ohm (2010) . میں تجربات کی وضاحت کرتے وقت میں باب 4 میں کمپنیوں اور حکومتوں کے ساتھ شراکت داری کے متعلق مشورہ پیش کرتا ہوں. کئی مصنفین نے تحقیق کے بارے میں خدشات ظاہر کی ہے کہ قابل رسائی ڈیٹا پر انحصار کرتا ہے، Huberman (2012) اور boyd and Crawford (2012) .
یونیورسٹی کے محققین کے ڈیٹا تک رسائی حاصل کرنے کے لئے ایک اچھا طریقہ ایک انٹرن یا میں آنے کے محقق کے طور پر ایک کمپنی میں کام کرنے کے لئے ہے. ڈیٹا تک رسائی کو چالو کرنے کے علاوہ میں، یہ عمل بھی محقق کے لئے کس طرح کے اعداد و شمار، پیدا کیا گیا تجزیہ کے لئے اہم ہے جس کے بارے میں مزید جاننے کے لئے مدد ملے گی.
سرکاری اعداد و شمار تک رسائی حاصل کرنے کے لحاظ سے، Mervis (2014) بارے میں تبادلہ خیال کیا گیا ہے کہ راج چیٹی اور ساتھیوں نے سماجی تحریک پر ان کی تحقیق میں استعمال کیا ٹیکس ریکارڈ تک رسائی حاصل کی ہے.
ایک تصور کے طور پر "نمائندگی کی Kruskal and Mosteller (1979a) " کی تاریخ کے بارے میں زیادہ سے زیادہ، Kruskal and Mosteller (1979b) ، Kruskal and Mosteller (1979c) Kruskal and Mosteller (1979b) ، Kruskal and Mosteller (1979c) ، اور Kruskal and Mosteller (1980) .
برف کے کام اور گڑیا اور پہاڑی کے کام کا خلاصہ مختصر تھا. کولرا پر برف کے کام پر زیادہ کے لئے، دیکھیں Freedman (1991) . برطانوی ڈاکٹروں کے مطالعہ کے بارے میں مزید Doll et al. (2004) دیکھیں Doll et al. (2004) اور Keating (2014) .
بہت سے محققین یہ جاننے کے لئے حیران ہوں گے کہ اگرچہ گڑیا اور ہل نے خاتون ڈاکٹروں اور 35 سے زائد ڈاکٹروں کے اعداد و شمار کو جمع کیا ہے، تو وہ جان بوجھ کر اس ڈیٹا کو اپنے پہلے تجزیہ میں استعمال نہیں کرتے تھے. جیسا کہ انہوں نے کہا: "چونکہ 35 سال سے کم خواتین اور مردوں میں پھیپھڑوں کے کینسر کا نسبتا نسبتا غیر معمولی ہے، اس سے کچھ سال تک آنے والے مفید افراد کو ان گروہوں میں حاصل کرنے کی امکان نہیں ہے. اس ابتدائی رپورٹ میں ہم نے 35 سال اور اس سے اوپر مردوں کے بارے میں اپنی توجہ کو محدود کر دیا ہے. " Rothman, Gallacher, and Hatch (2013) ، جس میں اشتعال انگیز عنوان ہے" کیوں نمائندگی سے متعلق ہونا چاہئے، "کی قدر کے لئے زیادہ عام دلیل جان بوجھ کر غیر روایتی اعداد و شمار بنانا.
غیر آبادی کی محتاج محققین اور حکومتوں کے لئے ایک بڑی مسئلہ ہے جو پوری آبادی کے بارے میں بیانات کرنا چاہتے ہیں. کمپنیوں کے لئے یہ خدشہ ہے کہ عام طور پر ان کے صارفین پر توجہ مرکوز ہے. مزید معلومات کے لئے کہ کس طرح اعداد و شمار نیدرلینڈز بڑے بڑے کاروباری اعداد و شمار کے Buelens et al. (2014) مسئلہ سمجھتے ہیں، ملاحظہ کریں Buelens et al. (2014) .
بڑے اعداد و شمار کے ذرائع کے غیر نمائندہ نوعیت کے بارے میں تشویش کا اظہار کرنے والے محققین کے مثال کے طور پر، boyd and Crawford (2012) ، K. Lewis (2015b) اور Hargittai (2015) .
سماجی سروے اور ایپیڈیمولوجی تحقیق کے اہداف کے حوالے سے زیادہ تفصیلی مقابلے کے لئے، Keiding and Louis (2016) ملاحظہ کریں.
ووٹروں کے بارے میں نمونے کی نمائش کرنے کے لئے ٹویٹر کو استعمال کرنے کی کوششوں پر زیادہ سے زیادہ، خاص طور پر 2009 کے جرمن انتخابات کے معاملے پر Jungherr (2013) اور Jungherr (2015) . Tumasjan et al. (2010) کام کے بعد Tumasjan et al. (2010) دنیا بھر میں محققین نے مختلف قسم کے انتخابات کی پیشکش کرنے کے لئے ٹویٹر کے اعداد و شمار کی صلاحیت کو بہتر بنانے کے لئے - جذباتی تجزیہ کا استعمال کرتے ہوئے فینسیئر طریقوں کا استعمال کیا ہے - جیسے کہ جماعتوں کے مثبت اور منفی (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . یہاں یہ ہے کہ کس طرح Huberty (2015) نے انتخابات کی پیشن گوئی کے لئے ان کوششوں کے نتائج کا خلاصہ کیا ہے:
"سوشل میڈیا پر مبنی تمام معروف پیشن گوئی کے طریقوں میں ناکام رہا جب ناکام ہونے والے انتخابی انتخابات کی پیش گوئی کے مطالبات پر مبنی ہے. ان ناکامیوں کے مطابق، سماجی میڈیا کی بنیادی خصوصیات کی وجہ سے طریقہ کار یا الگورتھممک مشکلات کے بجائے ظاہر ہوتا ہے. مختصر میں، سوشل میڈیا، اور شاید کبھی نہیں، ووٹر کے مستحکم، غیر جانبدار، نمائندہ تصویر پیش کرتے ہیں؛ اور سوشل میڈیا کے سہولت نمونے ان مسائل کو حل کرنے کے لئے کافی ڈیٹا نہیں ہیں. "
باب 3 میں، میں زیادہ سے زیادہ تفصیل میں نمونے لگانے اور تخمینہ کی وضاحت کروں گا. یہاں تک کہ اگر اعداد و شمار غیر معقول ہیں، بعض شرائط کے تحت، وہ اچھے اندازے کی پیداوار کے لئے وزن میں جا سکتے ہیں.
باہر سے دیکھنے کے لئے نظام بہاؤ بہت مشکل ہے. تاہم، فلم لینس پروجیکٹ (باب 4 میں زیادہ سے زیادہ بات چیت) ایک تعلیمی ریسرچ گروپ کے ذریعہ 15 سال سے زیادہ عرصے تک چلایا گیا ہے. اس طرح، وہ اس دستاویز کے بارے میں معلومات فراہم کرسکتے ہیں اور اس طرح کے بارے میں معلومات کا اندازہ لگایا گیا ہے کہ اس وقت نظام کس طرح تیار ہوا ہے اور یہ کس طرح تجزیہ (Harper and Konstan 2015) .
ٹویٹر میں کئی متعدد ماہرین نے ٹویٹر پر توجہ مرکوز کی ہے: Liu, Kliman-Silver, and Mislove (2014) اور Tufekci (2014) .
آبادی بڑھنے سے نمٹنے کے لئے ایک نقطہ نظر صارفین کے ایک پینل بنانا ہے، جس میں محققین کو وقت کے ساتھ اسی لوگوں کا مطالعہ کرنے کی اجازت دیتی ہے، Diaz et al. (2016) .
میں نے سب سے پہلے جان کلیبرگ نے ایک گفتگو میں "الورگتھیمی طور پر الجھن" اصطلاح کو سنا تھا، لیکن بدقسمتی سے مجھے یاد نہیں آتا کہ کب یا کہاں بات کی گئی تھی. پہلی بار جس نے میں نے پرنٹ میں اصطلاح دیکھا تھا Anderson et al. (2015) میں تھا Anderson et al. (2015) ، یہ دلچسپ بات ہے کہ ڈیٹنگ سائٹس کی طرف سے استعمال شدہ الورگتھیم کس طرح سماجی ترجیحات کا مطالعہ کرنے کے لئے ان ویب سائٹس سے ڈیٹا استعمال کرنے کے لئے محققین کی صلاحیت کو پیچیدہ کرسکتے ہیں. یہ تشویش Anderson et al. (2014) جواب میں K. Lewis (2015a) طرف سے اٹھایا گیا تھا Anderson et al. (2014) .
فیس بک کے علاوہ، ٹویٹر نے صارفین کو ٹرائیڈک بندش کے خیال پر مبنی پیروی کرنے کی بھی سفارش کی ہے؛ ملاحظہ کریں Su, Sharma, and Goel (2016) . لہذا ٹویٹر میں ٹریلڈک بندش کی سطح تین ٹرادکی بندش اور ٹرالڈک بندش کو فروغ دینے کے لئے کچھ الگورتھم کی رجحان کی طرف سے کچھ انسانی رجحان کا ایک مجموعہ ہے.
کارکردگی کے بارے میں مزید کے لئے - خاص طور پر یہ خیال ہے کہ کچھ سماجی سائنس نظریات "انجن نہیں کیمرے" (یعنی وہ صرف اس کی وضاحت کرنے کے بجائے دنیا کی شکل میں) ہیں - - مکیززی Mackenzie (2008) .
سرکاری اعداد و شمار ایجنسیوں ڈیٹا صفائی کی اعداد و شمار کے اعداد و شمار میں ترمیم کو کال کریں. De Waal, Puts, and Daas (2014) سروے کے اعداد و شمار کے لئے تیار کردہ اعداد و شمار کے اعداد و شمار میں ترمیم کی تکنیک کی وضاحت کرتے ہیں اور اس کی جانچ پڑتال کرتے ہیں کہ وہ بڑے اعداد و شمار کے ذرائع پر لاگو ہوتے ہیں، اور Puts, Daas, and Waal (2015) کچھ خیالات موجود ہیں. ایک اور عام ناظرین
سوشل بٹس کا جائزہ لینے کے لئے، Ferrara et al. (2016) دیکھیں Ferrara et al. (2016) . ٹویٹر میں سپیم تلاش کرنے پر توجہ مرکوز کے کچھ مثالیں کے لئے، Clark et al. (2016) ملاحظہ کریں Clark et al. (2016) اور Chu et al. (2012) . آخر میں، Subrahmanian et al. (2016) ڈی اے آر پی ٹویٹر بوٹ چیلنج کے نتائج کی وضاحت کرتے ہیں، ٹویٹر پر بٹس کا پتہ لگانے کے لئے نقطہ نظر کا موازنہ کرنے کے لئے تیار ایک بڑے پیمانے پر تعاون.
Ohm (2015) سنجیدگی سے متعلق معلومات کے بارے میں تحقیقات کا جائزہ لیا اور کثیر عنصر ٹیسٹ پیش کرتا ہے. وہ چار عوامل ہیں جنہوں نے تجویز کی ہے، نقصان کی شدت، نقصان کی امکانات، خفیہ تعلقات کی موجودگی، اور کیا خطرے میں انتہا پسندی کے خدشات کی عکاسی ہوتی ہے.
نیویارک میں ٹیکسیوں کے فاربر کے مطالعہ Camerer et al. (1997) طرف سے پہلے مطالعہ پر مبنی تھا Camerer et al. (1997) جس نے کاغذ سفر کے چادروں کے تین مختلف سہولتوں کا استعمال کیا. اس کے پہلے مطالعے سے پتہ چلتا ہے کہ ڈرائیوروں کو ہدف آمدنی حاصل کرنے لگتی تھی: وہ ان دنوں میں کم کام کرتے تھے جہاں ان کے اجرت زیادہ تھے.
بعد میں کام، بادشاہ اور ساتھیوں نے چین (King, Pan, and Roberts 2014, [@king_how_2016] ) میں آن لائن سینسر شپ کو مزید تلاش کیا ہے. چین میں آن لائن سینسر شپ کی پیمائش کرنے کے متعلق ایک نقطہ نظر کے لئے Bamman, O'Connor, and Smith (2012) ملاحظہ کریں. Hopkins and King (2010) دیکھیں، 11 ملین خطوط کے جذبے کا اندازہ کرنے کے لئے King, Pan, and Roberts (2013) میں استعمال کردہ اعداد و شمار کے طریقوں پر زیادہ سے زیادہ کے لئے. نگرانی کے سیکھنے کے بارے میں مزید کے لئے، James et al. (2013) دیکھیں James et al. (2013) (کم تکنیکی) اور Hastie, Tibshirani, and Friedman (2009) (زیادہ تکنیکی).
(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) صنعتی ڈیٹا سائنس کا ایک بڑا حصہ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ایک قسم کی پیشن گوئی جو عام طور پر سماجی محققین کی طرف سے کیا جاتا ہے، آبادی کی پیشن گوئی ہے؛ دیکھیں، مثال کے طور پر، Raftery et al. (2012) .
گوگل فلو رجحانات انفلوینزا کی حدود کو ابھرانے کے لئے تلاش کے اعداد و شمار کا استعمال کرنے کا پہلا منصوبہ نہیں تھا. دراصل، ریاستہائے متحدہ کے محققین (Polgreen et al. 2008; Ginsberg et al. 2009) اور سویڈن (Hulth, Rydevik, and Linde 2009) نے یہ پتہ چلا ہے کہ بعض تلاش کے الفاظ (مثال کے طور پر، "فلو") کی عوامی عوامی صحت کی نگرانی کی پیشکش کی گئی ہے. ڈیٹا جاری کرنے سے پہلے. اس کے بعد بہت سے، بہت سے دیگر منصوبوں نے بیماری کی نگرانی کے پتہ لگانے کے لئے ڈیجیٹل ٹریس ڈیٹا استعمال کرنے کی کوشش کی؛ Althouse et al. (2015) دیکھیں Althouse et al. (2015) ایک جائزہ کے لئے.
صحت کے نتائج کی پیشن گوئی کرنے کے لئے ڈیجیٹل ٹریس ڈیٹا استعمال کرنے کے علاوہ، انتخابی نتائج کی پیشن گوئی کرنے کے لئے ٹویٹر ڈیٹا کا استعمال کرتے ہوئے بہت زیادہ کام بھی کیا گیا ہے؛ جائزہ لینے کے لئے Gayo-Avello (2011) ، Gayo-Avello (2013) ، Jungherr (2015) (باب 7)، اور Huberty (2015) . اقتصادی اشارے، جو مجموعی گھریلو مصنوعات (جی ڈی پی) کی Bańbura et al. (2013) ، مرکزی بینک میں بھی عام ہے، Bańbura et al. (2013) . ٹیبل 2.8 میں مطالعہ کے چند مثالیں بھی شامل ہیں جو دنیا میں کچھ قسم کے واقعے کی پیشن گوئی کرنے کے لئے کسی قسم کی ڈیجیٹل ٹریس استعمال کرتے ہیں.
ڈیجیٹل ٹریس | نتیجہ | حوالہ جات |
---|---|---|
ٹویٹر | امریکہ میں فلموں کے باکس آفس آمدنی | Asur and Huberman (2010) |
تلاش لاگ ان | امریکہ میں فلموں، موسیقی، کتابیں، اور ویڈیو گیمز کی فروخت | Goel et al. (2010) |
ٹویٹر | ڈو جونز صنعتی اوسط (امریکی سٹاک مارکیٹ) | Bollen, Mao, and Zeng (2011) |
سوشل میڈیا اور تلاش کی لاگ ان | امریکہ، برطانیہ، کینیڈا، اور چین میں سرمایہ کار جذباتی اور اسٹاک مارکیٹوں کے سروے | Mao et al. (2015) |
تلاش لاگ ان | سنگاپور اور بینکک میں ڈینگی بخار کی کثرت | Althouse, Ng, and Cummings (2011) |
آخر میں، جون کولینبرگ اور ساتھیوں نے (2015) نے نشاندہی کی ہے کہ پیشن گوئی کے مسائل دو، سب سے مختلف اقسام میں گر جاتے ہیں اور سماجی سائنسدانوں نے ایک پر توجہ مرکوز کرنے اور دوسرے کو نظر انداز کرنے کے لئے تیار کیا ہے. ایک پالیسی ساز بنانے کا تصور کریں، میں اسے انا کو بلاؤں گا، جو خشک ہونے کا سامنا کرنا پڑتا ہے اور اس کا فیصلہ کرنا ہوگا کہ بارش کا موقع بڑھانے کے لئے بارش کا رقص کرنے کے لۓ ایک شرمندگی کا اظہار کیا جائے. ایک اور پالیسی سازی، میں اس کی بیٹی کو فون کروں گا، یہ فیصلہ کرنا ضروری ہے کہ گھر کے راستے پر گیلی حاصل کرنے سے بچنے کے لئے چھتری کا استعمال کیا جائے. اگر وہ موسم سمجھتے ہیں تو انا اور بیٹی دونوں کو بہتر فیصلہ کر سکتا ہے، لیکن انہیں مختلف چیزیں جاننے کی ضرورت ہے. انا کو سمجھنا ضروری ہے کہ بارش رقص بارش کا سبب بن سکتا ہے. بیتی، دوسری طرف، causality کے بارے میں کچھ بھی سمجھنے کی ضرورت نہیں ہے؛ وہ صرف ایک درست پیشن گوئی کی ضرورت ہے. سماجی محققین اکثر مسائل پر توجہ مرکوز کرتے ہیں جیسے اینینا - جو کلینبربر اور ساتھیوں نے "بارش رقص کی طرح" پالیسی کے مسائل کا مطالبہ کیا ہے، کیونکہ ان کی وجہ سے اسباب کے سوالات شامل ہوتے ہیں. Betty - جو کلینبربر اور ساتھیوں نے "چھتری کی طرح" پالیسی کے مسائل کا سامنا کرنے والے ایک جیسے سوالات بھی بہت اہم ہو سکتے ہیں، لیکن سماجی محققین سے بہت کم توجہ مل چکا ہے.
جریدے پی ایس سیاسی سائنس میں بڑے اعداد و شمار، علت کی توثیق، اور رسمی اصول پر ایک سمپوزیم تھا، اور Clark and Golder (2015) ہر شراکت کا خلاصہ کرتے ہیں. ریاستہائے متحدہ امریکہ کے نیشنل اکیڈمی آف سائنسز کے جریدے کی کارروائیوں میں Shiffrin (2016) اور بڑے اعداد و شمار پر سمپوزیم تھا، اور Shiffrin (2016) نے ہر ایک حصہ کا خلاصہ پیش کیا. بڑے پیمانے پر وسائل کے وسائل کے اندر قدرتی تجربات کو تلاش کرنے کے لئے مشین سیکھنے کے طریقوں کے لۓ، Jensen et al. (2008) دیکھیں Jensen et al. (2008) ، Sharma, Hofman, and Watts (2015) ، اور Sharma, Hofman, and Watts (2016) .
قدرتی تجربات کے لحاظ سے، Dunning (2012) بہت سے مثالیں کے ساتھ تعارف، کتاب کی لمبائی کا علاج فراہم کرتا ہے. قدرتی تجربات کی شکست کے نقطہ نظر کے لئے، Rosenzweig and Wolpin (2000) (معیشت) یا Sekhon and Titiunik (2012) (سیاسی سائنس) دیکھیں. Deaton (2010) اور Heckman and Urzúa (2010) کا کہنا ہے کہ قدرتی تجربات پر توجہ مرکوز کرنے کے لئے محققین کو غیر معمولی causal اثرات کا اندازہ کرنے پر توجہ مرکوز کی قیادت کر سکتے ہیں؛ Imbens (2010) ان دلائلوں کو قدرتی تجربات کی قدر کے بارے میں زیادہ امید مند نظر کے ساتھ شمار کرتی ہے.
جب بیان کیا جاتا ہے کہ محققین کی خدمت کے اثرات کے مسودے کے اثرات کا اندازہ لگانا کیسے ہو سکتا ہے، میں اس آلہ کی تشہیر متغیرات کی وضاحت کرتا رہا. Imbens and Rubin (2015) ، ان کے باب 23 اور 24 میں، تعارف فراہم کرتے ہیں اور لاٹری مسودہ کو ایک مثال کے طور پر استعمال کرتے ہیں. تعمیل کاروں پر فوجی سروس کا اثر بعض اوقات معتبر اوسط کے اثرات (سی سی سی) اور کبھی کبھی مقامی اوسط علاج کے اثر (لیتا) کا نام دیا جاتا ہے. Sovey and Green (2011) ، Angrist and Krueger (2001) ، اور Bollen (2012) سیاسی سائنس، معیشت، اور سماجیات میں اوزار متغیر کے استعمال کے جائزے پیش کرتے ہیں، اور Sovey and Green (2011) لئے "ریڈر کی فہرست" فراہم کرتا ہے. وسائل متغیر کا استعمال کرتے ہوئے مطالعہ کا اندازہ
یہ پتہ چلتا ہے کہ 1970 کے مسودہ لاٹری کو اصل میں مناسب طریقے سے بے ترتیب نہیں کیا گیا تھا. خالص بے ترتیب (Fienberg 1971) چھوٹے (Fienberg 1971) سے چھوٹے وقفے تھے. Berinsky and Chatfield (2015) کا کہنا ہے کہ یہ چھوٹا سا انحراف کافی اہمیت نہیں ہے اور مناسب طریقے سے منظم کردہ بے ترتیب کی اہمیت پر تبادلہ خیال ہے.
مماثلت کی شرائط میں، Stuart (2010) کو ایک امید مند نظر ثانی کے لئے، اور Sekhon (2009) کو بے چینی جائزہ لینے کے لۓ دیکھیں. ایک قسم کی چھتری کے طور پر مماثلت پر زیادہ کے لئے، دیکھو دیکھو Ho et al. (2007) . ہر شخص کے لئے ایک کامل میچ تلاش کرنا اکثر مشکل ہے، اور اس کی ایک بڑی پیچیدگی پیدا ہوتی ہے. سب سے پہلے، جب درست میچ دستیاب نہیں ہیں تو، محققین کو یہ فیصلہ کرنے کی ضرورت ہے کہ دو یونٹس کے درمیان فاصلے کی پیمائش کیسے کی جائے اور اگر ایک دیئے گئے فاصلہ کافی قریب ہے. ایک دوسری پیچیدگی پیدا ہوتی ہے اگر محققین کو علاج کے گروپ میں ہر معاملے کے لئے ایک سے زیادہ میچز استعمال کرنا ہے، کیونکہ اس سے زیادہ عین مطابق تخمینوں کا سبب بن سکتا ہے. ان دونوں مسائل اور ساتھ ہی دیگر دونوں، تفصیل میں بیان کیا گیا ہے کہ Imbens and Rubin (2015) باب 18 Imbens and Rubin (2015) . حصہ II ( ??? ) بھی دیکھیں.
Dehejia and Wahba (1999) کو ایک مثال کے طور پر دیکھیں جہاں مماثل طریقوں کو بے ترتیب کنٹرول استعمال سے ان لوگوں کی طرح اندازہ لگایا گیا تھا. لیکن، مثال کے لئے Arceneaux, Gerber, and Green (2006) اور Arceneaux, Gerber, and Green (2010) جہاں مماثلت کے طریقوں کو تجرباتی بنچمارک دوبارہ بنانے میں ناکام رہی.
Rosenbaum (2015) اور Hernán and Robins (2016) بڑے اعداد و شمار کے اندر اندر مفید موازنہ دریافت کرنے کے لئے دوسرے مشورہ پیش کرتے ہیں.