توهان جي وڏي ڊيٽا کي ڪيترو نه ڪٽيو، اهو شايد شايد توهان وٽ معلومات نه آهي.
سڀ کان وڏو ڊيٽا وسيع ناگزير آهن ، انهي جي معني ۾ اهي اهي ڄاڻ نه آهن جيڪي توهان جي تحقيق لاء چاهيو ٿا. اها ڊيٽا جي هڪ عام خاصيت آهي جيڪا تحقيق کان سواء ٻيا مقصد لاء پيدا ڪيا ويا آهن. ڪيترائي سماجي سائنسدان اڳ ۾ ئي ناممڪن نموني سان معاملا ڪرڻ جو تجربو ڪيو آهي، جهڙوڪ هڪ موجوده سروي جنهن کان پڇڻ جي گهرج نه هئي. بدقسمتي سان، نامڪمل مسئلن جي وڏي انگ ۾ وڏي پئماني تي گهڻا هوندا آهن. منهنجي تجربن ۾، وڏي ڊيٽا سماجي تحقيق لاء ٽن قسم جي معلومات مفيد طور تي غائب ٿي رهيو آهي: شرڪت ڪندڙن بابت ڊيموگرافڪ معلومات، ٻين پليٽ فارمن تي رويي ۽ ڊيٽا نظرياتي تعميرات کي هلائڻ لاء.
انهن ٽن قسمن جي نموني مان، مسئلو نامناسب ڊيٽا جي نظرياتي جوڙجڪ کي هلائڻ لاء مسئلو حل ڪرڻ تمام مشڪل آهي. ۽ منهنجي تجربو ۾، اڪثر ڪري غلطي طور تي نظر انداز ڪيو ويندو آهي. درحقيقت نظرياتي جوڙجڪ اهي نظرياتي خيال آهن ته سماجي سائنسدان مطالعي ۽ نظرياتي معياري عملي جي معياري بڻائڻ جو مطلب آهي ته معقول ڊيٽا سان گڏ ٺاهي وٺڻ جي ڪجھ طريقا پيش ڪن. بدقسمتي سان، اهو سادو آواز وارو عمل اڪثر ڪري سگهندو هجي. مثال طور، اچو ته تجرباتي طور تي عام دعوي کي امتحان ڏيڻ جي ڪوشش ڪري رهيا آهيون ته ماڻهو جيڪي وڌيڪ ذهانت رکندڙ آهن وڌيڪ پئسا وٺندا آهن. هن دعوي کي امتحان ڏيڻ لاء، توهان کي "intelligence" کي ماپڻ جي ضرورت هوندي آهي پر ڇا ڄاڻ آهي؟ Gardner (2011) اهو به چيو ويو آهي ته اصل ۾ اٺ مختلف قسم جا ڄاڻ آهن. ۽ اهڙا طريقيڪار موجود آهن جيڪي ڄاڻائن جي اهڙن شڪلن کي درست انداز ۾ ڪري سگهن ٿا؟ نفسيات رکندڙ هٿن جي ڪم جي باوجود، انهن سوالن تي اڃا تائين غير معمولي جواب نه آهي.
اهڙيء طرح، نسبتا ساده نسخي به دعوي آهي- جيڪي ماڻهو وڌيڪ ذهانت وارا پيسا وڌيڪ پيسا حاصل ڪن ٿا- अनुभवको मूल्यांकन गर्न गाह्रो हुन सक्छ किनकि यसले डेटामा सैद्धांतिक निर्माणहरू परिचालन गर्न गाह्रो हुन सक्छ. ٻين مثالن جي نظرياتي جوڙجڪ جيڪي اهم آهن پر عملي طور تي محنت ڪرڻ ۾ شامل آهن "ريتن،" "سماجي سرمائي،" ۽ "جمهوريت" سوشل سائنسدان انهي ميچ کي نظرياتي تعميرات ۽ ڊيٽا جي تعمير جي صحيحيت (Cronbach and Meehl 1955) وچ ۾ سڏين ٿا. جيئن ته تعميرات جي هن مختصر لسٽ ڏي ٿو ته، صحيح بڻائڻ هڪ مسئلو آهي، جيڪا سماجي سائنسدان گهڻو وقت سان جدوجهد ڪئي آهي. پر منهنجي تجربي ۾، پيداوار جي مسئلن جي مسئلن اڃا به وڏا هوندا آهن جڏهن ڊيٽا سان ڪم ڪندڙ تحقيق جي مقصدن لاء نه ٺهي رهيا آهن (Lazer 2015) .
جڏهن توهان تحقيق جي نتيجي جو جائزو وٺڻ چاهيندا آهيو، انهي جي درستگي جو جائزو وٺڻ لاء هڪ تڪڙو ۽ مفيد رستو نتيجو وٺڻ آهي، جيڪو عام طور تي تعمير جي لحاظ سان بيان ڪيو ويندو آهي ۽ استعمال ٿيل ڊيٽا جي لحاظ سان ٻيهر ظاهر ڪري ٿو. مثال طور، انهن ٻن نظرياتي مطالعي تي غور ڪيو جيڪي اهو سمجهڻ چاهين ٿا ته ماڻهو جيڪي وڌيڪ ذهانت وارا وڌيڪ پئسا ڪمائيندا آهن. پهرين اڀياس ۾، محقق مليا ته رويون پروگريسي ميٿيسس تي صحيح سيٽن جو امتحان-تجزياتي ڄاڻ رکندڙ (Carpenter, Just, and Shell 1990) هڪ سٺي مطالعي جي آزمائش (Carpenter, Just, and Shell 1990) -ان پنهنجن ٽيڪس موٽن تي اعلي رپورٽون حاصل ڪن ٿا. ٻئين مطالعي ۾، محقق مليا ته ماڻهن کي Twitter تي ماڻهن جو جيڪو گهڻي لفظن استعمال ڪيو آهي اهو عيش و آرام جي برانڊن جو ذڪر ڪرڻ ۾ وڌيڪ آهي. ٻنهي صورتن ۾، اهي محقق دعوي ڪري سگهن ٿا ته انهن اهو ظاهر ڪيو آهي ته جيڪي ماڻهو وڌيڪ ذهانت وارا وڌيڪ پئسا ڪمائيندا آهن. بهرحال، پهرين مطالعي ۾ نظرياتي تعميرات ان ڊيٽا کي بهتر طور تي ڪم ڪيا ويا آهن، جڏهن ته سيڪنڊ ۾ اهي نه آهن. وڌيڪ، جيئن ته هن مثال بيان ڪري ٿي، وڌيڪ ڊيٽا ٺاهي سگهڻ جي صحيح طريقي سان مسئلا حل نه ڪندو آهي. توهان کي ٻين مطالعي جو نتيجو شڪ ڪرڻ گهرجي ته ڇا اهو هڪ ملين ٽائڪن، هڪ ارب ٽائيم يا ٽريلن ٽائڪن شامل آهي. محقق ڪندڙن لاء اهو خيال سان واقف نه هجڻ جي صورت ۾، ٽيبل 2.2 مطالعي جي ڪجهه مثالن کي ڏني وئي آهي جيڪي نظرياتي تعميرات کي ڊجيٽل ٽيسٽ جي ڊيٽا کي استعمال ڪن ٿا.
ڊيٽا جو ذريعو | نظرياتي تعمير | حوالا |
---|---|---|
يونيورسٽي مان ايم اي ميلون (صرف ميٽا-ڊيٽا) | سماجي تعلقات | Kossinets and Watts (2006) ، Kossinets and Watts (2009) ، De Choudhury et al. (2010) |
سماجي ميڊيا ايڊبو تي پوسٽون | شائري مصروفيت | Zhang (2016) |
فرم مان اي ميل وارا (ميڪا ڊيٽا ۽ مڪمل متن) | هڪ تنظيم ۾ ثقافتي فطري | Srivastava et al. (2017) |
جيتوڻيڪ نظرياتي جوڙجڪ تي قبضو ڪرڻ لاء نامناسب ڊيٽا جو مسئلو حل ڪرڻ تمام ڏکيو آهي، غير ضروري قسم جي ٻين عام قسمن جا عام حل: اڻ ڄاتل ڊيموگرافڪ معلومات ۽ ٻين پليٽ فارمن تي رويي تي نامڪمل معلومات. پهريون حل اصل ۾ توهان جي گهربل ڊيٽا کي گڏ ڪرڻ آهي؛ مان توهان کي ٻڌايان ٿو ته باب 3 ۾ جڏهن آء توهان کي سروي بابت ٻڌايو آهي. ٻيو مکيه حل ڇا ڊيٽا سائنسدانن کي سڏيندا صارف-وصف inference ۽ سماجي سائنسدان سڏ imputation ڪندا آهي. هن رويي ۾، محقق ان معلومات کي استعمال ڪن ٿا جيڪي انهن تي ڪن ماڻهن تي ٻين ماڻهن جي صفائي کي منتظر آهن. هڪ ٽيون ممڪن حل ڪيترن ئي ڊيٽا ڊيٽا کي گڏ ڪرڻ لاء آهي. اهو عمل ڪڏهن ڪڏهن رڪارڊ لنڪ سڏيو ويندو آهي. هن پروسيس لاء منهنجي پسنديده استعار Dunn (1946) لکيل لکت جي پهرين لکت واري پهرين آرٽيڪل ۾ لکندي هئي جيڪا رڪارڊ تي لکيو ويو آهي.
"دنيا ۾ هر ماڻهو زندگي جي ڪتاب پيدا ڪري ٿي. هيء ڪتاب ڄمڻ سان شروع ٿئي ٿو ۽ موت سان ختم ٿئي ٿو. هن جا صفحا زندگيء جي پرنسپل واقعن جي رڪارڊ مان تيار ڪيا ويا آهن. ريڪارڊ لنڪ جو نالو هن ڪتاب جي صفحن کي حجم ۾ گڏ ڪرڻ جي عمل کي ڏنو ويو آهي. "
جڏهن ڊن لکيو آهي ته هن جو اهو خيال آهي ته هو زندگي جي ڪتاب ۾ وڏي زندگي، جنم، طلاق ۽ موت جهڙا واقعا شامل ڪري سگھن ٿا. بهرحال، هاڻي اهو ماڻهن ماڻهن بابت گهڻو ڄاڻيو ويو آهي، ڪتاب جي حياتيء کي هڪ ناقابل بيان حد تائين تفصيلي نقشو ٿي سگهي ٿي، جيڪڏهن اهي مختلف صفحن (يعني اسان جي ڊجيٽل نشان) گڏجي گڏ ٿي سگهن ٿيون. هي ڪتاب زندگي جي محقق لاء هڪ وڏو وسيلو ٿي سگهي ٿو. پر، اهو به بربادي جي ڊيٽابيس (Ohm 2010) کي پڻ سڏيو وڃي ٿو، جيڪو سڀني قسمن جي غير اخلاقي مقصدن لاء استعمال ڪيو ويندو آهي، جيئن ته آئون باب 6 (Ethics) ۾ بيان ڪندس.