محققین سنسرشپ کا مطالعہ کرنے کے لئے چینی سوشل میڈیا کی سائٹس ہے scraped. انہوں اویکت-خاصیت تخمینے کے ادوریپن کے ساتھ نمٹا.
گزشتہ دو مثالوں میں استعمال بڑے اعداد و شمار اصل میں، محققین کو یہ بھی ان کے اپنے پریکشتاتمک کے اعداد و شمار، کے طور پر حیرت انگیز گیری بادشاہ، جینیفر پین، اور مولی رابرٹس کی طرف سے سچتر کیا گیا تھا جمع کر سکتے ہیں (2013) چینی حکومت کی طرف سے سنسر شپ پر تحقیق.
چین میں سوشل میڈیا خطوط لوگوں کے ہزاروں کی دسیوں کو شامل کرنے کے بارے میں سوچا جاتا ہے کہ ایک بہت بڑا ریاست اپریٹس کی طرف سے سنسر رہے ہیں. محققین اور شہریوں، تاہم، ان سنسر کا فیصلہ کس طرح کے مواد کو سوشل میڈیا سے خارج کر دیا جائے چاہئے جو بہت کم احساس ہے. چین کے اسکالرز دراصل متضاد توقعات خطوط کی قسم کو خارج کر دیا حاصل کرنے کے لئے سب سے زیادہ امکان ہے جس کے بارے میں ہے. کچھ سنسر دوسروں وہ اس طرح کے احتجاج کے اجتماعی رویے کی حوصلہ افزائی کہ خطوط، پر توجہ مرکوز لگتا ہے جبکہ ریاست کے اہم ہیں کہ خطوط پر توجہ مرکوز ہے کہ لگتا ہے کہ. باہر figuring ان کی توقعات میں سے کون صحیح ہے محققین چین اور سنسر شپ میں مشغول ہے کہ دوسرے آمرانہ حکومتوں کو سمجھنے کس طرح کے لئے اثر پڑتا ہے. لہذا، بادشاہ اور ان کے ساتھیوں شائع کیا اور بعد میں شائع کیا اور کبھی نہیں خارج کر دیا گیا ہے کہ خطوط میں خارج کر دیا گیا ہے کہ خطوط کا موازنہ کرنے کے لئے کرنا چاہتا تھا.
ان خطوط جمع متعلقہ خطوط مختلف صفحے ترتیب فائنڈنگ، اور پھر بعد میں خارج کر دیا گیا تھا جس کو دیکھ کر ان خطوط revisiting کے ساتھ 1،000 سے زائد چینی سوشل میڈیا ویب سائٹس-ہر ایک داخلے کی حیرت انگیز انجینئرنگ کارنامہ ملوث. بڑے پیمانے ویب کرالنگ ساتھ منسلک معمول انجینئرنگ مسائل کے علاوہ، اس منصوبے سے شامل چیلنج بہت سنسر خطوط کم 24 گھنٹے میں نیچے لے جایا جاتا ہے، کیونکہ یہ بہت تیزی سے ہو جائے کرنے کی ضرورت ہے نہیں تھا. دوسرے الفاظ میں، ایک سست کرالر خطوط سنسر کیا گیا ہے کہ کے بہت یاد کریں گے. اس کے علاوہ، crawlers کے پتہ لگانے کی چوری کرتے ہوئے ایسا نہ ہو کہ سوشل میڈیا ویب سائٹس تک رسائی کو بلاک یا دوسری صورت میں مطالعہ کے جواب میں ان کی پالیسیوں میں تبدیلی یہ سب ڈیٹا جمع کرنا تھا.
اس بڑے پیمانے پر انجینئرنگ ٹاسک مکمل کیا گیا تھا ایک بار، بادشاہ اور ان کے ساتھیوں پہلے مخصوص سنویدنشیلتا کی ان کی توقع کی سطح کی بنیاد پر کر رہے تھے کہ 85 مختلف موضوعات پر تقریبا 11 ملین خطوط حاصل کیا تھا. مثال کے طور پر، اعلی سنویدنشیلتا کا موضوع عی Weiwei، باغی آرٹسٹ ہے؛ مشرق سنویدنشیلتا کا موضوع تعریف اور چینی کرنسی کی قدر میں کمی ہے، اور کم سنویدنشیلتا کا موضوع ورلڈ کپ ہے. ان 11 ملین خطوط کی تقریبا 2 لاکھ سنسر کیا گیا تھا، لیکن انتہائی حساس موضوعات پر خطوط متوسط اور کم سنویدنشیلتا موضوعات پر خطوط سے صرف تھوڑا سا زیادہ کثرت سے سنسر کیا گیا تھا. دوسرے الفاظ میں، چینی سنسر ورلڈ کپ کا ذکر ہے کہ ایک پوسٹ کے طور عی Weiwei کا ذکر ہے کہ ایک پوسٹ کو سنسر کرنے کے بارے میں کے طور پر امکان ہے. یہ نتائج سادہ خیال حکومت حساس موضوعات پر تمام پوسٹس سنسر کہ مماثل نہیں ہے.
موضوع کی طرف سے سنسر شپ کی شرح کی یہ سادہ حساب تاہم، گمراہ کن ہو سکتا ہے. مثال کے طور پر، حکومت عی Weiwei کے حامی ہیں، لیکن اس میں سے اہم ہیں کہ خطوط چھوڑ کہ خطوط کو سنسر سکتا. زیادہ احتیاط سے خطوط کے درمیان تمیز کرنے کے لئے، محققین ہر پوسٹ کے جذبات کی پیمائش کرنے کی ضرورت ہے. اس طرح، اس کے بارے میں سوچنے کے لئے ایک طریقہ ہے ہر پوسٹ کا ایک اہم اویکت خصوصیت میں ہر پوسٹ کے جذبات کہ. بدقسمتی سے، زیادہ کام کے باوجود، پہلے سے موجود لغات کا استعمال کرتے ہوئے جذبات کا پتہ لگانے کے مکمل خود کار طریقوں کو اب بھی نہیں بہت سی صورتوں میں بہت اچھے ہیں (دفعہ 2.3.2.6 سے ستمبر 11، 2001 کی ایک جذباتی ٹائم لائن کرنے کے مسائل پر واپس لگتا ہے کہ). لہذا، بادشاہ اور ان کے ساتھیوں وہ 1 تھے چاہے) ریاست کے اہم کرنے کے طور پر ان کے 11 ملین سوشل میڈیا خطوط لیبل لگانے کے لئے ایک راستہ کی ضرورت ہے، 2) ریاست، یا 3) واقعات کے بارے میں غیر متعلقہ یا حقائق پر مبنی رپورٹوں کے حامی. یہ ایک بڑے پیمانے پر کام کی طرح لگتا ہے، لیکن وہ ایک طاقتور چال کا استعمال کرتے ہوئے یہ حل؛ ڈیٹا سائنس میں عام ہے لیکن سماجی سائنس میں اس وقت نسبتا نادر ہے کہ ایک.
سب سے پہلے، ایک قدم میں عام طور پر پری پروسیسنگ بلایا، محققین ہر دستاویز کے لئے ایک صف اور پوسٹ ایک مخصوص لفظ موجود ہے کہ آیا ریکارڈ ایک کالم تھا جہاں ایک دستاویز مدتی میٹرکس، میں سوشل میڈیا خطوط میں تبدیل (مثلا، احتجاج، ٹریفک، وغیرہ). اگلا، تحقیق کے معاونین کے ایک گروپ کے پیغام کا ایک نمونہ کے جذبات کو ہاتھ سے لیبل لگا. اس کے بعد، بادشاہ اور ان کے ساتھیوں کو اس کی خصوصیات کی بنیاد پر ایک پوسٹ کی جذبات کا استنباط کر سکتے ہیں کہ ایک مشین لرننگ ماڈل کا اندازہ لگانے کے لیے اس کو ہاتھ سے لیبل لگا ڈیٹا استعمال کیا. آخر میں، وہ سب کے سب 11 ملین خطوط کے جذبات کا اندازہ لگانے کے لیے اس مشین لرننگ ماڈل کا استعمال کیا. اس طرح، دستی طور پر پڑھنے اور لیبلنگ 11 ملین خطوط (ذرائع آمدورفت کے مسائل ناممکن ہو جائے گا جس میں) کے بجائے، وہ دستی طور پر خطوط کی ایک چھوٹی سی تعداد کا لیبل لگا اور اس کے بعد استعمال کیا سائنسدانوں تمام پوسٹس کے زمرے اندازہ لگانے کے زیر نگرانی سیکھنے کو فون کیا کے اعداد و شمار. اس تجزیہ مکمل کرنے کے بعد، بادشاہ اور ان کے ساتھیوں کو کسی حد تک حیرت کی بات، ایک پوسٹ کے امکانات یہ ریاست کے اہم یا ریاست کا حامی تھا چاہے کے لئے غیر متعلقہ تھا خارج کر دیا جا رہا ہے، یہ نتیجہ اخذ کرنے کے قابل تھے.
، فحاشی سنسر کی تنقید، اور اجتماعی کارروائی کی صلاحیت تھی کہ ان لوگوں (یعنی بڑے پیمانے پر احتجاجی مظاہروں کے نتیجے میں کے امکان): آخر میں، بادشاہ اور ان کے ساتھیوں نے دریافت خطوط میں سے صرف تین قسم باقاعدگی سنسر کیا گیا ہے کہ. خارج کر دیا گیا اور خطوط گئے تھے میں سے خطوط کو خارج کر دیا نہیں کیا گیا ہے کی ایک بڑی تعداد کا مشاہدہ کرتے ہوئے، بادشاہ اور ان کے ساتھیوں سنسر دیکھ کر اور گنتی کی طرف سے صرف کام کا طریقہ سیکھنے کے لئے کے قابل تھے. بعد کی تحقیق میں، وہ اصل میں براہ راست چینی سوشل میڈیا ماحول میں منظم طریقے سے مختلف مواد اور ماپنے سنسر حاصل ہے جس کے ساتھ خطوط بنانے کی طرف سے مداخلت (King, Pan, and Roberts 2014) . ہم کتاب بھر میں واقع ہو گا کہ ایک موضوع کا اشارہ باب 4. مزید میں تجرباتی نقطہ نظر کے بارے میں مزید جاننے گا،، ان اویکت وصف تخمینے مسائل جو کبھی کبھی ساتھ حل کیا جا سکتا زیر نگرانی سیکھنے کے نتیجے میں سماجی تحقیق میں بہت عام ہو باہر ڈیجیٹل دور. تم ابواب 3 (سوال پوچھنا) اور 5 میں 2.3 لگانے کی تصاویر بہت ملتا جلتا دیکھیں گے (بڑے پیمانے پر تعاون کی تشکیل)؛ یہ ایک سے زیادہ ابواب میں ظاہر ہوتا ہے کہ چند خیالات میں سے ایک ہے.
ان مثالوں-نیویارک میں ٹیکسی ڈرائیوروں، طالب علموں کی طرف دوستی قیام، اور پریکشتاتمک اعداد و شمار کے نسبتا آسان گنتی نظریاتی پیشین گوئیوں کو ٹیسٹ کرنے کے محققین فعال کرسکتے ہیں کہ چینی حکومت کی جانب سے شو کے سوشل میڈیا سنسر شپ کے رویے کے کام کرنے کے رویے کی تینوں. کچھ صورتوں میں، بڑی ڈیٹا آپ نسبتا براہ راست اس گنتی کو ایسا کرنے کی (نیویارک ٹیکسی کی صورت میں کے طور پر) قابل بناتا ہے. دوسری صورتوں میں، محققین ان کے اپنے پریکشتاتمک کے اعداد و شمار جمع کرنے کے لئے (چینی سنسر شپ کے معاملے میں کے طور پر) کی ضرورت ہو گی؛ ایک دوسرے کے ساتھ کے اعداد و شمار کو ضم (نیٹ ورک کے ارتقاء کے معاملے میں کے طور پر) کی طرف سے ادوریپن سے نمٹنے؛ یا (چینی سنسر شپ کے معاملے میں کے طور پر) اویکت-خاصیت تخمینے کے کچھ فارم کی کارکردگی کا مظاہرہ. مجھے امید ہے کہ طور پر یہ مثالیں دکھائے، محققین جو دلچسپ سوالات پوچھنا کرنے کے قابل ہیں کے لئے، بڑے بہت اچھا وعدہ ہے.