جيڪڏھن اوھين چڱائي ڊيٽا سان گڏ هڪ سٺو سوال تڏهن سادي ڳڻپ دلچسپ ٿي سگهي ٿو.
جيتوڻيڪ اهو نفيس آواز رکندڙ ٻوليء ۾ زبردست آهي، تمام گهڻيون سماجي تحقيق حقيقتن کي صرف ڳڻڻ جي شيء آهي. وڏن انگن جي عمر ۾، محقق ڪڏهن به کان وڌيڪ شمار ڪري سگهن ٿا، پر انهي جو مطلب اهو ناهي ته انهن کي صرف غداري جي ڳڻپ ڪرڻ شروع ڪيو وڃي. ان جي بدران، محققن کان پڇڻ گهرجي: ڪهڙيون شيون شمار ڪرڻ وارا آهن؟ اهو شايد هڪ مڪمل طور تي ذائقي معاملن وانگر لڳي سگهي ٿو، پر ڪجهه عام نمونن آهن.
گهڻو ڪري شاگردن جي چوڻ موجب ان جي ڳڻپ جي تحقيق کي ڌمڪيون ڏينديون آهن: آئون ڪجهه ڳڻڻ جي آهيان، جنهن کان پهريان ڪڏهن به ڪنهن جي پرواهه نه ڪئي آهي. مثال طور، هڪ شاگرد اهو چئي سگهي ٿو ته ڪيترن ئي ماڻهن لڏپلاڻ جو اڀياس ڪيو ۽ ڪيترن ئي ماڻهن کي ٽوڻ جو اڀياس ڪيو آهي، پر ڪنهن به ڪو مهاجر جڙي جو اڀياس نه ڪيو. منهنجي تجربه ۾، هيء حڪمت، جنهن جي غير موجودگي کان حوصلا سڏين ٿا، عام طور تي سٺو تحقيق نٿو ڪري سگهجي. غير موجودگي کان متاثر ٿيندڙ قسم وانگر آهي ته اتي اتي سوراخ موجود آهي، ۽ مان هن کي ڀرڻ لاء تمام ڏکي ڪرڻ وارو ڪم اچي رهيو آهيان. پر هر هر سوراخ ڀريو نه هجي.
غير موجودگي کي متحرڪ ڪرڻ جي بدران، منهنجو خيال آهي ته هڪ بهتر حڪمت عملي جو سوال ڳولڻ آهي جيڪي اهم يا دلچسپ آهن (يا مثالي طور ٻنهي). انهن ٻنهي شرطن جي وضاحت ڪرڻ ۾ سخت محنت آهي، پر هڪ اهم تحقيق بابت سوچڻ جو هڪ طريقو اهو آهي ته اهو پاليسين ساز ٺاهيندڙن پاران اهم فيصلي ۾ ڪجهه ماپيل اثر يا فيڊ آهي. مثال طور، بيروزگاري جي شرح کي ماپڻ ضروري آهي ڇاڪاڻ ته اهو معيشت جو هڪ اشارو آهي جيڪو پاليسي فيصلن کي هلائي ٿو. عام طور تي، مون سمجهيو ته محقق هڪ اهم ڪهاڻي آهي جيڪو اهم آهي. تنهن ڪري، هن حصي جي باقي باقي، آئون ٻه مثال مهيا ڪرڻ وارا آهن جتي مون کي ڳڻڻ دلچسپ آهي. هر حالت ۾، محقق بي غازي اندازن جي ڳڻپ ۾ نه هيون. بلڪه، اهي تمام خاص سيٽنگون ڳڻپيندا هئا جيڪي انهن سماجي سسٽم کي ڪم ڪرڻ جي باري ۾ وڌيڪ عام خيالن ۾ اهم ڌيان ڏنو. ٻين لفظن ۾، جيڪي انهن خاص ڳڻپ ۾ مشڪلاتن جو مشق ٺاهي ٿو انهن مان ڪيترا ئي ڊيٽا نه آهن، اهو انهن کان وڌيڪ عام خيالن مان اچي ٿو.
ڳڻپ جي سادي طاقت جو هڪ مثال هيرير فاربرز (2015) نيويارڪ سٽي ٽيڪسي ڊرائيور جي رويي جو مطالعو ڪيو آهي. جيتوڻيڪ هي گروپ ورثي طور تي دلچسپ نه سمجهي سگهي ٿي، اهو مزدور اقتصاديات ۾ ٻن مقصدن بابت تجربن جي جانچ لاء هڪ ستراتيژيڪ تحقيق وارو ماڳ آهي . فاربربر جي تحقيق جي مقصدن لاء، ٽيڪسيڪل ڊرائيور جي ڪم ماحول جي باري ۾ ٻه اهم خاصيتون آهن: (1) انهن جي ڪلاڪ مزدوري ڏينهن کان ڏينهن تائين ڦهلائي ٿو، جهڙوڪ موسم، ۽ موسم (2) ڪم پنهنجن فيصلن تي ٻڌل هر روز رواني ٿو. اهي خاصيتون ڪلاڪ جي ڪلاڪ ۽ ڪلاڪن جي وچ ۾ رابطي بابت هڪ دلچسپ سوال رکن ٿيون. نئپيڪل نموني ماڊل ۾ پيش ڪن ٿا ته ٽيڪسيڪل هلائيندڙ وڌيڪ ڏينهن تي ڪم آڻيندا آهن جتي اهي وڏا ڪلاڪ اجورو آهن. متبادل طور، ماڊل رويي جي معاشيات کي بلڪل سامهون پيش ڪن ٿا. جيڪڏهن ڊرائيور هڪ خاص آمدني جو ھدف مقرر ڪيو- هر ڏينهن تي $ 100 چوندا آهن ۽ اهو ڪم ڪم ڪرڻ تائين پهچي ويندو آهي، پوء ڊرائيور جيڪي ڏينهن ۾ وڌيڪ ڪمائي رهيا آهن انهن ڏينهن ۾ ڪم ڪري رهيا آهن. مثال طور، جيڪڏهن توهان هڪ ٽارگيٽ ڪم ڪندڙ آهيو، توهان سٺو ڏينهن ($ 25 في ڪلاڪ) ۽ خراب ڏينهن ($ 20 في ڪلاڪ) تي پنجن ڪلاڪن تي ڪم ڪري سگهو ٿا. سو، ڊرائيور گهرو ڪلاڪ جي اجوري سان (ڏينهن ۾ نييڪڪوسلڪ ماڊلز جي پيش ڪيل پيش ڪيو) يا گهٽ ڪلاڪ جي اجوري سان ڏينهن ۾ وڌيڪ ڪلاڪ (وڌيڪ طريقي سان هلندڙ اقتصادي ماڊل) سان گڏ وڌيڪ ڪلاڪ ڪم ڪن ٿا؟
هن سوال جو جواب ڏيڻ لاء نيويارڪ سٽي ڪابيسز 2009/2009 کان 2013 تائين هر ٽيڪسي جي سفر تي فراهمي حاصل ڪئي وئي، جيڪا عام طور تي موجود آهن. اهي ڊيٽا جنهن کي اليڪٽرانڪ ميٽر پاران گڏ ڪيو ويو آهي ته شهر کي استعمال ڪرڻ لاء ٽيڪس گهربل آهي، هر سفر بابت معلومات شامل آهن: شروعاتي وقت، شروعاتي مقام، آخري وقت، آخري جڳهه، ڀاڻ ۽ ٽپ (جيڪڏهن ٽيپ جي ڪريڊٽ ڪارڊ سان ادا ڪيو ويو آهي) . هن ٽيڪسي ميٽر ڊيٽا کي استعمال ڪندي، ڏوربر اهو محسوس ڪيو ته اڪثر ڊرائيور وڌيڪ ڏينهن ۾ ڪم ڪن ٿا جڏهن اجرت اعلي آهن، نائيڪوشوڪ نظريي سان لاڳاپو.
انهي مکيه ڳولا جي باوجود، ڏوربرٽ کي هيڪلوجائيت ۽ ڊائڪنڪس جي بهتر سمجهڻ لاء ڊيٽا جي سائيز استعمال ڪرڻ جي قابل هئي. هن اهو معلوم ڪيو ته، وقت مٿان، نوان ڊرائيور هلندڙ تيز رفتار واري ڏينهن تي وڌيڪ ڪلاڪ ڪم ڪرڻ لاء سکندا آهن (مثال طور، اهي نوڪشاهه واري نموني وانگر پيش ڪن ٿا). ۽ نون ڊرائيور جيڪي وڌيڪ حدف ڪرڻ وارا هڙتال ڪندا آهن، ٽيڪس ڊرائيور کي ڇڏي ڏيڻ جا وڌيڪ امڪان هوندا آهن. انهن ٻنهي کان وڌيڪ واضح نتيجن جو، جيڪو موجوده ڊرائيور جي مشاورت جي رويي جي وضاحت ۾ مدد ڪري ٿو، صرف ڊيٽ جي ماپ جي ڪري ئي ممڪن آهي. اڳوڻي مطالعي ۾ ڳولڻ ناممڪن ٿي چڪا هئا جيڪي ٿورڙي عرصي دوران ننڍو ٽيڪسي ڊرائيورن کان ڪاغذ جي سفر شيڪن (Camerer et al. 1997) .
فاربر جي مطالعي کي وڏي ڊيٽا جي ذريعا استعمال ڪندي هڪ تحقيق جي لاء هڪ بهترين ڪيس جي ويجهو هئي، ڇاڪاڻ ته شهر پاران گڏ ڪيل ڊيٽا سهڻا هن گڏ ڪيل ڊيٽا جي ويجهو هوندا هئا (هڪ فرق اهو آهي ته فاربر کل تي ڊيٽا هجي ها اجوري-رستن سان گڏ تجاوز، پر شهر جي ڊيٽا صرف ڪريڊٽ ڪارڊ پاران ادا ڪيل تجاويز شامل آهي). بهرحال، ڊيٽا اڪيلو ڪافي نه هئا. فاربر جي تحقيق لاء اهم معلومات ڊيٽا کي هڪ دلچسپ سوال هو، هڪ سوال آهي جيڪو صرف هن مخصوص سيٽنگ کان وڏي پيماني تي آهي.
شين جي ڳڻپ جو هڪ ٻيو مثال چيني حڪومت پاران آن لائين سينسرٽيشن تي گري بادشاهه، جينيفر پين ۽ مولي رابرٽس (2013) پاران تحقيق کان ٿيندي. ان صورت ۾، محقق انهن کي پنهنجو وڏي ڊيٽا گڏ ڪرڻو پيو هو ۽ انهن حقيقت سان اهو معاملو ڪرڻو هو ته انهن جي معلومات ناممڪن هئي.
بادشاهه ۽ ڀائيوارن کي ان حقيقت کان متاثر ڪيو ويو آهي ته چين ۾ سماجي ميڊيا جي وڏي زبردستي رياستن سان سنسر ٿيل آهن، انهي سوچ ۾ هزارين ماڻهن شامل ٿيڻ جو خيال آهي. محقق ۽ شهرين، ٿورڙي، ڪجهه احساس آهي ته اهي سينسرز اهو فيصلو ڪن ٿا ته ڪهڙي مواد کي ختم ٿي وڃي. چين جي عالمن اصل ۾ تڪرار لڳاتار آهن جن جي پوسٽن کي ڪٽنب ختم ڪرڻ جا سڀ کان وڌيڪ امڪان آهن. ڪجهه سوچيو ته سينزرن پوسٽن تي تنقيد ڪن ٿيون جيڪي رياست جو تنقيدي آهن، جڏهن ته ٻين ڪجهه سوچيو ٿا ته اهي پوسٽن تي ڌيان ڏيندا آهن جيڪي اجتماعي رويي جي حوصلا افزائي ڪن، جهڙوڪ احتجاج. انهي جي نتيجي ۾ جيڪي انهن جي اميدن جو صحيح آهي اهو صحيح آهي ته ڪيئن تحقيق ڪندڙن کي چين ۽ سينٽرلينڊ ۾ شامل ڪندڙ ٻين طاقتور حڪومتن کي سمجهي سگهندي. تنهن ڪري، بادشاهه ۽ ساٿي پوسٽون جيڪي اشاعت شايع ڪيا ويا هئا ۽ انهي کان پوء انهن پوسٽن سان ختم ٿيل جيڪي شايع ٿيل ۽ ڪڏهن به ختم نه ٿيا.
انهن جون تحريرون گڏ ملوث مختلف صفحو layouts-پئجي لاڳاپيل تحريرن سان وڌيڪ 1.000 چيني سماجي ميڊيا ويب-هر آهين، ۽ پوء انهن جون تحريرون revisiting کي ڏسڻ لاء، جنهن تنهن کان پوء ختم ٿي ويا جو هذا انجنيئرنگ جادو آندائون. وڏي پيماني تي ويب-رهيو آهين سان لاڳاپيل عام انجنيئرنگ پريشاني کي ان کان سواء، هن منصوبي جي شامل چئلينج آهي ته اها انتهائي چنبڙي وڃي ٿو، ڇاڪاڻ ته ڪيترن ئي censored تحريرن ۾ گهٽ کان 24 ڪلاڪن ۾ نازل ورتو آهن جي ضرورت هئي. ٻين لفظن ۾، هڪ سست crawler تحريرن ته censored هئا جو پکو نه وڃايو ها. وڌيڪ، هن crawlers جڏهن ته گهڻن بلاڪ يا ٻي صورت ۾ سنڌ جي تعليم حاصل ڪرڻ جي جواب ۾ سندن پاليسيون تبديل ڪري سماجي ميڊيا ويب متان ڳولا روس هن موڪليل مواد گڏ ڪرڻ ڪندا هئا.
ان وقت تائين هي وڏي انجنيئرنگ جو ڪم مڪمل ٿي چڪو هو، بادشاهه ۽ ان سان گڏوگڏ 85 مختلف پيش ڪيل موضوع تي 11 ملين پوسٽون حاصل ڪيا ويا، جن مان هر هڪ حساسيت جو فرض سطح. مثال طور، اعلي سنائيدگيشن جو موضوع اي وي وي وي آهي، ڀريل فنڪار؛ وچ مرڪزي حساسيت جو موضوع چيني ڪرنسي جي قدرتي ۽ تشخيص آهي، ۽ گهٽ حساسيت جو هڪ موضوع ورلڊ ڪپ آهي. انهن 11 ملين پوسٽن ۾، 2 ملين سينس ٿي چڪا هئا. ڪجھھ حيران ٿي چڪا آھن، بادشاهه ۽ ساٿين کي اھو اھم حساس مضمونن تي پوسٽ ھيا آھن، وچين ۽ گهٽ حساسيت جي موضوعن جي ڀيٽ ۾ ٿورو ئي ڀيرا سنسر ٿيل آھن. ٻين لفظن ۾ چيني سينسر هڪ پوسٽ جو ذڪر ڪيو آهي ته ايائي ويئي جي هن پوسٽ جو ذڪر ڪيو آهي ته ورلڊ ڪپ جو ذڪر آهي. انهن نتيجن کي اهو خيال نه آهي ته حڪومت کي سنسر سان حساس موضوع تي سڀني پوسٽن جي حمايت نٿا ڪن.
موضوع سان سنسرسر جي شرح جو هي سادو حساب گمراهي ٿي سگهي ٿو. مثال طور، حڪومت اي وي ويي جي پوسٽن تي مشتمل سسنس ڏئي سگھن ٿا، پر پوسٽون ڇڏيندا جيڪي مٿس تنقيد آهن. انهي پوزيشن جي وچ ۾ وڌيڪ احتياط ڪرڻ لاء، هر پوسٽ جي جذبي جي اندازي ڪرڻ لاء محقق جي ضرورت آهي. بدقسمتي سان، گهڻو ڪم باوجود، اڳوڻي موجود اڳوڻي لغات استعمال ڪندي جذباتي معائنه جي خودڪار طريقي سان اڃا تائين ڪيترن ئي حالتن ۾ تمام سٺو نه آهن (سوچ 2.3.9 ۾ بيان ڪيل 11، 2001 को भावनात्मक समयरेखा सिर्जना गर्ने समस्याहरूमा سوچو). تنهن ڪري، بادشاهه ۽ ڀائيوارن کي 11 ملين سماجي ميڊيا جي پوسٽن کي لسٽ ڪرڻ جي لاء هڪ ضرورت هئي جيئن ته اهي (1) رياست جو تنقيدي، (2) رياست جو سهارو، يا (3) واقعن بابت غير مناسب ۽ حقيقتن جي رپورٽ. اهو آواز هڪ تمام گهڻي نوڪري وانگر آهي، پر انهن اهو هڪ طاقتور چال جو استعمال ڪيو جيڪو ڊيٽا سائنس ۾ عام آهي، پر نسبتا ننڍا سماجي سائنس ۾: مانيٽرنگ سکڻ ؛ ڏسو 2.5.
پهريون، عام طور پر هڪ پروڊيڪسنگنگ کي نالي سان سڏيو ويندو، محقق سوشل میڈیا مباحثن کي دستاويزي اصطلاح ميريکس ۾ تبديل ڪري، جتي هر سند ۽ يو کالم لاء يو قطار موجود هئي، جو درج آهي ته پوسٽ يو مخصوص لفظ (مثال، احتجاج يا ٽرئفڪ) . اڳيون، تحقيق جي اسسٽنٽين جو هڪ گروپ هٿ-پوسٽ جي نموني جي جذبي تي هٿ رکندو. ان کان پوء، اهي هن هٿ-ليبل ٿيل ڊيٽا استعمال ڪيون ويون آهن هڪ مشيني سکيا وارو نمونہ ٺاهي سگھي ٿو جيڪو پوسٽ جي جذبي تي پنهنجي خاصيتن جي بنياد تي ڪري سگهي ٿو. آخرڪار، هنن هن نموني کي 11 ملين پوسٽن جي جذبي جي اندازي ڪرڻ لاء استعمال ڪيو.
ان ڪري، دستي طور تي 11 لک پوسٽون پڙهڻ ۽ ليبلنگ جي بدران، منطقي طور ناممڪن ناممڪن هوندي. بادشاهه ۽ ڀائيوارن کي ميزبان جي ننڍن تعداد ۾ لکيا ۽ سڀني پوسٽن جي جذبي جي اندازي ڪرڻ لاء نگراني تعليم حاصل ڪئي. هن تجزيي کي مڪمل ڪرڻ کان پوء، اهو نتيجو اهو ٿي سگهي ٿو ته، ڪجهه به حيران ٿي چڪي آهي ته پوسٽ ختم ٿي وڃڻ کان پوء ڇا هو رياست جو حامي ۽ هٿيارن جي تنقيدي هئي.
آخر ۾، بادشاهه ۽ ڀائيوارن دريافت ڪئي ته فقط ٽي قسم جون پوسٽون باقاعده سان سنسر هئا: فحشگراف، سنسر جي تنقيد، ۽ جيڪي اجتماعي عمل جي صلاحيت رکن ٿا (يعني وڏي پيماني تي احتجاج ڪرڻ جي امڪان). پوسٽن جي وڏي انگ جو مشاهدو ڪندي جيڪو ڊهي ويو ۽ پوسٽون ختم ٿي ويون هيون، بادشاهه ۽ ڀائيوارن کي سکڻ ۽ ڳڻپ ڪرڻ سان ڪئينسر ڪيئن ڪم ڪرڻ سکڻ جي قابل هئا. وڌيڪ، هڪ موضوع کي پيش ڪندي جيڪو هن ڪتاب ۾ موجود هوندو، انهن جي نگراني واري سکيا واري طريقي سان جيڪي ڪجهه استعمال ڪيا ويا آهن ۽ پوء ڪجهه نتيجو استعمال ڪيا ويا آهن ۽ انهي کان پوء هڪٻئي جي ليب کي تبديل ڪرڻ لاء هڪ مشيني سکيا نموني تعمير ڪري سماجي تحقيق ۾ عام طور تي عام طور تي ڊجيٽل عمر ۾ . توهان ڏسڻ ۾ پئجي ويندا آهيو 2.5 نسخن ۾ 3 انگن اکرن (سوالن کان پڇڻ) ۽ 5 (ڪاميٽي تعاون ٺاهڻ)؛ هي ڪجھه خيالن مان هڪ آهي جيڪو ڪيترن ئي بابن ۾ ظاهر ٿئي ٿو.
هنن مثالن - نيويارڪ ۾ ٽيڪسيڪلن جو ڪم ڪندڙ رويي ۽ چيني حڪومت جو سوشل मीडिया सेंसरशिप व्यवहार، जो कि ठूलो डेटा स्रोतहरूको अपेक्षाकृत सरल गणना गर्न सक्छ، केहि परिस्थितिमा، रोचक र महत्त्वपूर्ण अनुसन्धानको लागी हुन सक्छ. جڏهن ته ٻنهي معاملن ۾، محققن کي وڏي ڊيٽا جي ذريعن ڏانهن دلچسپ سوال آڻڻو هو؛ پاڻ پنهنجي طرفان ڊيٽا ڪافي نه هئي.