آپ کو اچھا اعداد و شمار کے ساتھ ایک اچھا سوال یکجا سادہ گنتی دلچسپ ہو سکتا ہے.
اگرچہ یہ جدید آواز کی زبان میں جوڑتا ہے، بہت ساری سماجی تحقیق واقعی چیزوں کا شمار کرتی ہے. بڑے اعداد و شمار کی عمر میں، محققین ہمیشہ سے کہیں زیادہ شمار کرسکتے ہیں، لیکن اس کا یہ مطلب نہیں ہے کہ انہیں صرف غلطی سے شمار کرنا شروع ہوگا. اس کے بجائے، محققین سے پوچھنا چاہئے: کیا چیزیں شمار کرنے کے قابل ہیں؟ شاید یہ مکمل طور پر ذہنی طور پر معاملہ ہوسکتا ہے، لیکن کچھ عام نمونہ موجود ہیں.
اکثر طلبا نے اپنی گنتی کی تحقیق کو حوصلہ افزائی کرتے ہوئے کہا: میں کچھ شمار کرنے جا رہا ہوں جو کسی سے پہلے کبھی نہیں شمار ہوتا ہے. مثال کے طور پر، ایک طالب علم یہ کہہ سکتا ہے کہ بہت سے لوگ نے تارکین وطن کا مطالعہ کیا ہے اور بہت سے لوگوں نے جڑواں بچوں کا مطالعہ کیا ہے، لیکن کسی نے بھی تارکین وطن کی جڑواں کی تعلیم نہیں کی ہے. میرے تجربے میں، یہ حکمت عملی، جو میں غیر موجودگی سے حوصلہ افزائی کرتا ہوں، عام طور پر اچھی تحقیق نہیں کرتا. غیر موجودگی کی طرف سے تحریک کی طرح ایسی بات یہ ہے کہ وہاں وہاں ایک سوراخ ہے، اور میں اس کو بھرنے کے لئے بہت مشکل کام کروں گا. لیکن ہر سوراخ کو بھرنے کی ضرورت نہیں ہے.
غیر موجودگی سے حوصلہ افزائی کرنے کے بجائے، مجھے لگتا ہے کہ ایک بہتر حکمت عملی تحقیق کے سوالات کو تلاش کرنا ہے جو اہم یا دلچسپ (یا مثالی طور پر) ہے. ان دونوں شرائط کو وضاحت کرنے کے لئے تھوڑا مشکل ہے، لیکن اہم تحقیق کے بارے میں سوچنے کا ایک طریقہ یہ ہے کہ پالیسی سازوں کی طرف سے اہم پیمانے پر کچھ پیمانے پر اثرات یا فیڈ ہیں. مثال کے طور پر، بے روزگاری کی شرح کو کم کرنا ضروری ہے کیونکہ یہ معیشت کا ایک اشارہ ہے جو پالیسی کے فیصلوں کو چلاتا ہے. عام طور پر، میں سوچتا ہوں کہ محققین ایک اہم بات سمجھتے ہیں جو اہم ہے. لہذا، اس حصے کے باقی حصوں میں، میں دو مثالیں پیش کروں گا جہاں میں سوچتا ہوں کہ گنتی دلچسپ ہے. ہر صورت میں، محققین کو بے شمار طریقے سے شمار نہیں کیا گیا تھا؛ بلکہ، وہ بہت خاص ترتیبات میں شمار کر رہے تھے جس نے سماجی نظام کیسے کام کرنے کے بارے میں عام خیالات میں اہم بصیرت ظاہر کی. دوسرے الفاظ میں، یہ خاص طور پر گنتی کرنے والی مشقوں کی ایک بہت دلچسپی سے اعداد و شمار نہیں ہے، یہ زیادہ عام خیالات سے آتا ہے.
گنتی کی سادہ طاقت کا ایک مثال ہریری فاربر کی (2015) نیویارک شہر ٹیکسی ڈرائیوروں کے رویے کا مطالعہ کرتا ہے. اگرچہ یہ گروہ متعدد دلچسپی سے متفق نہیں ہوسکتا ہے، یہ لیبر کی معیشت میں دو مقابلہ نظریات کی جانچ کے لئے ایک اسٹریٹجک ریسرچ سائٹ ہے . فاربر کے تحقیق کے مقاصد کے لئے، ٹیکسی ڈرائیوروں کے کام کے ماحول کے بارے میں دو اہم خصوصیات ہیں: (1) ان کا گھنٹہ اجرت دن سے روزہ لگاتا ہے، موسم جیسے عوامل پر مبنی ہوتا ہے، اور (2) گھنٹوں کی تعداد کام ہر روز اپنے فیصلے پر مبنی کر سکتا ہے. یہ خصوصیات گھنٹہ اجرت اور گھنٹوں کے درمیان تعلقات کے بارے میں ایک دلچسپ سوال اٹھاتا ہے. معیشت میں نوکلاسیکل ماڈل کی پیش گوئی کی جاتی ہے کہ ٹیکسی ڈرائیور زیادہ دنوں میں کام کریں گے، جہاں ان کی زیادہ سے زیادہ گھنٹی اجرت ہوتی ہے. متبادل طور پر، رویے کی معیشت کے ماڈل بالکل بالکل مخالف ہیں. اگر ڈرائیور کسی خاص آمدنی کا ہدف مقرر کرتے ہیں- فی دن $ 100 کہتے ہیں اور کام کرتے ہیں جب تک کہ اس ہدف کو پورا نہیں کیا جائے گا، تو ڈرائیوروں کو کم گھنٹے تک کام کرنے کا وقت ختم ہوجائے گا جسے وہ زیادہ کر رہے ہیں. مثال کے طور پر، اگر آپ ایک ہدف کمانے والے تھے تو، آپ کو ایک اچھا دن ($ 25 فی گھنٹہ فی گھنٹہ) اور برا دن (فی گھنٹہ 20 فی گھنٹہ) پر پانچ گھنٹوں تک چار گھنٹے کام کرنا ختم ہوسکتا ہے. لہذا، ڈرائیوروں کو زیادہ گھنٹہ اجرتوں کے ساتھ دن میں زیادہ گھنٹے کام کرتی ہیں (نیویچلاسیکل ماڈل کی پیش گوئی کے مطابق) یا کم گھنٹے کے اجرت کے ساتھ دن کے ساتھ زیادہ گھنٹے (جیسا کہ رویہ اقتصادی ماڈل کی پیش گوئی کی گئی ہے)؟
اس سوال کا جواب دینے کے لئے فاربر نے 2009 سے 2013 تک نیویارک شہر کی ٹیکسیوں کی طرف سے لیئے ہر ٹیکسی سفر پر ڈیٹا حاصل کیا ہے، جو اب عوامی طور پر دستیاب ہیں. یہ اعداد و شمار جو الیکٹرانک میٹر کی طرف سے جمع کیے گئے ہیں جس میں شہر ٹیکس استعمال کرنے کی ضرورت ہوتی ہے- ہر سفر کے بارے میں معلومات شامل ہیں: آغاز وقت، مقام شروع کریں، اختتام کا وقت، اختتام مقام، کرایہ اور ٹپ (اگر ٹویٹ کریڈٹ کارڈ کے ساتھ ٹاپ ادا کیا گیا ہے) . اس ٹیکسی میٹر کے اعداد و شمار کا استعمال کرتے ہوئے، فاربر نے پتہ چلا کہ زیادہ تر ڈرائیور زیادہ دنوں میں کام کرتے ہیں جب تنخواہ زیادہ ہوتی ہے، نووسکلیکل نظریہ کے مطابق.
اس اہم تلاش کے علاوہ، فابریکر حیات وحدت اور متحرکات کی بہتر تفہیم کے لئے اعداد و شمار کا سائز استعمال کرنے میں کامیاب تھا. انہوں نے محسوس کیا کہ، وقت کے ساتھ، نئے ڈرائیور آہستہ آہستہ اعلی اجرت کے دنوں میں زیادہ گھنٹے کام کرنے کے لئے سیکھتے ہیں (مثال کے طور پر، وہ نیویچلاسیکل ماڈل پیش گوئی کے طور پر برتاؤ سیکھتے ہیں). اور نئے ڈرائیور جو ٹیکس ڈرائیوروں کو چھوڑنے کے لۓ زیادہ سے زیادہ ہدف کمانے والوں کی طرح سلوک کرتے ہیں. ان دونوں کے ٹھیک ٹھیک نتائج، جنہوں نے موجودہ ڈرائیوروں کے مشاہدہ کردہ رویے کی وضاحت میں مدد کی، صرف ڈیٹا بیس کے سائز کی وجہ سے ہی ممکن تھا. ابتدائی مطالعے میں ان کا پتہ لگانے کے لئے وہ ناممکن تھے کہ کم عرصے سے ٹیکسی ڈرائیوروں کو تھوڑی دیر کے دوران (Camerer et al. 1997) کا استعمال کرتے تھے (Camerer et al. 1997) .
فاربر کا مطالعہ ایک بڑا ڈیٹا ذریعہ کا استعمال کرتے ہوئے تحقیق کے لئے سب سے بہتر کیس منظر کے قریب تھا کیونکہ شہر کی طرف سے جمع کردہ اعدادوشمار اس اعداد و شمار کے قریب بہت خوبصورت تھے جو فاربر نے جمع کیے تھے (ایک فرق یہ ہے کہ فابرٹ کل پر ڈیٹا چاہتا تھا مزدوروں کے دوروں کے علاوہ تجاویز- لیکن شہر کے اعداد و شمار میں صرف کریڈٹ کارڈ کی طرف سے ادائیگی کی تجاویز شامل ہیں). تاہم، اکیلے اعداد و شمار کافی نہیں تھے. فاربر کے تحقیق کی کلیدی معلومات کو ایک دلچسپ سوال پیش کر رہا تھا، ایک ایسا سوال جس میں صرف اس مخصوص ترتیب سے زیادہ اثرات ہیں.
چیزیں گننے کا ایک دوسرا مثال چینی حکومت کی طرف سے آن لائن سینسرشپ پر گیری کنگ، جینفر پین، اور مولی رابرٹس (2013) طرف سے تحقیق سے آتا ہے. تاہم، اس صورت میں، محققین نے اپنے بڑے اعداد و شمار کو جمع کرنا پڑا تھا اور انہیں حقیقت یہ ہے کہ ان کے اعداد و شمار نامکمل تھا.
بادشاہ اور ساتھیوں کو اس حقیقت سے حوصلہ افزائی کی گئی تھی کہ چین میں سماجی میڈیا مراسلات ایک بہت بڑا ریاستی سازوسامان کے ذریعہ سینسر ہیں جو لسگوں کے ہزاروں افراد کو شامل کرنے کے بارے میں سوچتے ہیں. تاہم، محققین اور شہریوں کو اس بات کا کوئی احساس نہیں ہے کہ یہ سینسر اس بات کا فیصلہ کرتے ہیں کہ کونسا مواد حذف کیا جانا چاہئے. چین کے ماہرین نے اصل میں تنازعات کی توقع کی ہے کہ کس قسم کے خطوط کو ختم کرنے کا امکان ہے. کچھ لوگ سوچتے ہیں کہ سینسروں نے اس خطوط پر توجہ مرکوز کی ہے جو ریاست کی تنقید کی جاتی ہے، جبکہ دوسروں کو لگتا ہے کہ وہ ان پوزیشنوں پر توجہ مرکوز کرتے ہیں جو اجتماعی رویے کی حوصلہ افزائی کرتے ہیں جیسے احتجاج. ان میں سے کونسی توقعات درست ہوتی ہے اس کے بارے میں معلوم ہے کہ تحقیقات کس طرح چین اور دیگر اخلاقی حکومتوں کو سنسرشپ میں مشغول کرتے ہیں کہ کس طرح سمجھتے ہیں. لہذا، بادشاہ اور ساتھیوں کو شائع ہونے والے خطوط کا موازنہ کرنا چاہتا تھا اور بعد میں شائع شدہ اشاعتوں کے ساتھ خارج کر دیا گیا اور کبھی خارج نہیں کیا گیا.
ان خطوط جمع متعلقہ خطوط مختلف صفحے ترتیب فائنڈنگ، اور پھر بعد میں خارج کر دیا گیا تھا جس کو دیکھ کر ان خطوط revisiting کے ساتھ 1،000 سے زائد چینی سوشل میڈیا ویب سائٹس-ہر ایک داخلے کی حیرت انگیز انجینئرنگ کارنامہ ملوث. بڑے پیمانے ویب کرالنگ ساتھ منسلک معمول انجینئرنگ مسائل کے علاوہ، اس منصوبے سے شامل چیلنج بہت سنسر خطوط کم 24 گھنٹے میں نیچے لے جایا جاتا ہے، کیونکہ یہ بہت تیزی سے ہو جائے کرنے کی ضرورت ہے نہیں تھا. دوسرے الفاظ میں، ایک سست کرالر خطوط سنسر کیا گیا ہے کہ کے بہت یاد کریں گے. اس کے علاوہ، crawlers کے پتہ لگانے کی چوری کرتے ہوئے ایسا نہ ہو کہ سوشل میڈیا ویب سائٹس تک رسائی کو بلاک یا دوسری صورت میں مطالعہ کے جواب میں ان کی پالیسیوں میں تبدیلی یہ سب ڈیٹا جمع کرنا تھا.
اس بڑے پیمانے پر انجنیئرنگ کا کام مکمل کیا گیا ہے جب تک، بادشاہ اور ساتھیوں نے 85 مختلف پیش کردہ موضوعات پر 11 ملین مراسلہ حاصل کیے ہیں، ہر ایک حساسیت کے فرض سطح کے ساتھ. مثال کے طور پر، اعلی سنویدنشیلتا کا موضوع ای وی ویوی ہے، متضاد آرٹسٹ؛ درمیانی سنویدنشیلتا کا ایک موضوع چینی کرنسی کی تعریف اور تشویش ہے، اور کم سنویدنشیلتا کا موضوع ورلڈ کپ ہے. ان 11 ملین خطوط میں سے تقریبا 2 ملین سینسر ہیں. کچھ حیران کن بات، بادشاہ اور ساتھیوں نے محسوس کیا کہ انتہائی سنجیدگی سے متعلق موضوعات پر مراسلہ درمیانی اور کم حساسیت کے موضوع پر پوسٹس سے تھوڑا زیادہ زیادہ سنسر تھے. دوسرے الفاظ میں، چینی سنسروں کے بارے میں ایک ایسی پوسٹ سنسر کرنے کا امکان ہے جو ای وی ویوی نے ایک پوسٹ کے طور پر ذکر کیا ہے جو ورلڈ کپ کا ذکر کرتی ہے. یہ نتائج اس خیال کی حمایت نہیں کرتے کہ حکومت حساس موضوعات پر تمام مراسلہ سنسر.
تاہم، موضوع کی طرف سے سینسر شپ کی شرح کی یہ سادہ حساب گمراہ ہو سکتی ہے. مثال کے طور پر، حکومت ایی وی ویی کے حامیوں کو سنجیدگی سے سنبھال سکتی ہے، لیکن ان کے عہدوں کو چھوڑ دو. خطوط کے درمیان زیادہ احتیاط سے فرق کرنے کے لئے، محققین ہر پوزیشن کے جذبے کو پورا کرنے کی ضرورت ہوتی ہے. بدقسمتی سے، بہت سے کاموں کے باوجود، قبل از کم موجودہ لفظوں کا استعمال کرتے ہوئے جذباتی پتہ لگانے کے مکمل طور پر خود کار طریقے سے بہت سے حالات میں اب بھی بہت اچھا نہیں ہے (11.9 2001 کے ایک جذباتی ٹائم لائن 2001 میں بیان 2.39 میں بیان کردہ مسائل پر واپس سوچتے ہیں). لہذا، بادشاہ اور ساتھیوں نے اپنے 11 ملین سوشل میڈیا پوزیشنوں کو لیبل کرنے کا ایک طریقہ کی ضرورت تھی کہ آیا وہ ریاست (1) ریاست کے اہم، (2) واقعات کے بارے میں غیر فعال یا حقیقت پسندانہ رپورٹوں کی حمایت کرتے ہیں یا (3). یہ ایک بڑے کام کی طرح لگتا ہے، لیکن انہوں نے یہ ایک طاقتور چال کا استعمال کرتے ہوئے حل کیا جو اعداد و شمار میں عام ہے لیکن معاشرتی سائنس میں نسبتا غیر معمولی ہے: نگرانی سیکھنے ؛ اعداد و شمار 2.5 دیکھیں
سب سے پہلے، عام طور پر پریڈ پراسیسنگ کے نام سے ایک قدم میں، محققین سوشل میگزین کو ایک دستاویز کی اصطلاح میٹرکس میں تبدیل کر لیتے ہیں، جہاں ہر دستاویز اور ایک کالم کے لئے ایک قطار موجود ہے جس میں ریکارڈ کیا گیا ہے کہ آیا اس پوسٹ نے ایک مخصوص لفظ (مثال کے طور پر احتجاج یا ٹریفک) . اگلا، تحقیقی معاونوں کا ایک گروہ نے خطوط کے نمونے کے جذبے کو ہاتھ سے لیبل لگا دیا. اس کے بعد، انہوں نے اس ہاتھ کے لیبل کردہ ڈیٹا کا استعمال کرنے کے لئے ایک مشین سیکھنے کے ماڈل بنانے کے لئے جو اپنی پوزیشن پر مبنی ایک پوسٹ کی جذباتی صلاحیت کو کم کرسکتا ہے. آخر میں، انہوں نے اس ماڈل کو 11 ملین خطوط کی جذباتی انداز میں اندازہ لگایا.
اس طرح، دستی طور پر 11 ملین مراسلہ پڑھنے اور لیبلنگ کی بجائے - جو منطقی طور پر ناممکن ہو جائے گا- بادشاہ اور ساتھیوں نے دستی طور پر ایک چھوٹی سی تعداد میں لیبل لگایا اور اس کے بعد تمام مراسلات کی جذباتی اندازہ کا اندازہ لگایا. اس تجزیہ کو مکمل کرنے کے بعد، وہ یہ نتیجہ اخذ کرنے کے قابل تھے کہ، کچھ حیران کن طور پر، کسی پوسٹ کو ختم کرنے کی امکانات اس سے مطابقت نہیں تھی کہ یہ ریاست یا ریاستی معاونت کا اہم تھا.
آخر میں، بادشاہ اور ساتھیوں نے دریافت کیا کہ صرف تین قسم کے خطوط باقاعدگی سے سنسر کئے گئے ہیں: فحش کی شکل، سینسروں کی تنقید، اور جو اجتماعی عمل کی صلاحیت رکھتے تھے (یعنی، بڑے پیمانے پر احتجاج کرنے کا امکان). ایک بہت بڑی تعداد کی پوزیشنوں کو دیکھ کر جو حذف کر دیا گیا تھا اور پوسٹس حذف نہیں ہوئے تھے، بادشاہ اور ساتھیوں کو سیکھنے کے قابل تھا کہ سنسروں کو دیکھنے اور گننے کے ذریعے کس طرح کام کرتے ہیں. اس کے علاوہ، ایک مرکزی خیال، موضوع کو فروغ دینا جو اس کتاب میں ہوتا ہے، نگرانی شدہ سیکھنے کا نقطہ نظر ہے جسے وہ کچھ استعمال کرتے ہیں اور ہاتھ سے لیبلنگ کرتے ہیں اور اس کے بعد ڈیجیٹل عمر میں سماجی تحقیق میں بہت عام ہونے کے لئے آرام سے موڑ لیبل کرنے کے لئے ایک مشین سیکھنے کے ماڈل کی تعمیر کرتے ہیں. . آپ تصاویر کو دیکھیں گے کہ تصاویر 2.5 میں باب 3 (سوالات سے پوچھتے ہیں) اور 5 (بڑے پیمانے پر تعاون کی تخلیق) کے بارے میں بہت ملتے جلتے ہیں. یہ چند نظریات میں سے ایک ہے جو ایک سے زیادہ باب میں ظاہر ہوتا ہے.
یہ مثال - نیو یارک میں ٹیکسی ڈرائیوروں کے کام کرنے والے رویے اور چینی حکومت کی سماجی میڈیا سینسر شپ کے رویے سے ظاہر ہوتا ہے کہ بڑے اعداد و شمار کے نسبتا معمول کی گنتی میں بعض حالات میں، دلچسپ اور اہم تحقیقات کی راہنمائی کرسکتے ہیں. تاہم، دونوں صورتوں میں، محققین نے بڑے اعداد و شمار کے ذریعہ دلچسپ سوالات لانا پڑا؛ خود کا ڈیٹا کافی نہیں تھا.