2.4.1.3 চীনা সরকার দ্বারা সামাজিক মিডিয়ার সেন্সরশিপ

গবেষকরা সেন্সরশিপ অধ্যয়ন চীনা সামাজিক মিডিয়া সাইট স্ক্র্যাপযুক্ত. তারা সুপ্ত-বৈশিষ্ট্য অনুমান সঙ্গে অসম্পূর্ণতা সঙ্গে মোকাবিলা.

আগের দুটি উদাহরণ ব্যবহৃত বড় তথ্য ছাড়াও, গবেষকরা তাদের নিজস্ব পর্যবেক্ষণ ও তথ্য, যেমন বিস্ময়কর গ্যারি রাজা, জেনিফার প্যান, এবং মলি রবার্টসের দ্বারা সচিত্র ছিল তথ্য সংগ্রহ করতে পারে (2013) সেন্সরশিপ উপর গবেষণা চীনা সরকার দ্বারা.

চীন মধ্যে সোশ্যাল মিডিয়া পোস্ট একটি বিরাট রাষ্ট্র যন্ত্র যে মানুষ শত সহস্রের অন্তর্ভুক্ত বলে মনে করা হয় দ্বারা সেন্সর করা হয়. গবেষক এবং নাগরিক, তবে কিভাবে এই সেন্সরের সিদ্ধান্ত কি কন্টেন্ট সামাজিক মিডিয়া থেকে মুছে ফেলা হবে সামান্য জ্ঞান আছে. চীন এর পণ্ডিতদের আসলে পরস্পরবিরোধী প্রত্যাশা পোস্টের ধরণের যা সম্পর্কে সবচেয়ে মোছা পাওয়ার সম্ভাবনা আছে. কেউ কেউ মনে করে যে সেন্সর পোস্ট যে রাষ্ট্রের সমালোচনামূলক অন্যগুলি মনে করি তারা পোস্ট, এই ধরনের প্রতিবাদের যে সমষ্টিগত আচরণের উৎসাহিত ফোকাস ফোকাস. figuring আউট যা এই প্রত্যাশা সঠিক কিভাবে গবেষকরা চীন এবং অন্যান্য স্বৈরাচারী সরকারগুলো যে সেন্সরশিপ নিয়োজিত বুঝতে জন্য প্রভাব রয়েছে. তাই, রাজা এবং সহকর্মীদের পোস্ট প্রকাশিত হয় এবং পরবর্তীকালে পোস্ট প্রকাশিত হয় এবং কখনো মোছা থেকে মুছে ফেলা তুলনা করতে চেয়েছিলেন.

এই পোস্টের সংগ্রহ জড়িত প্রাসঙ্গিক পোস্ট বিভিন্ন পৃষ্ঠা লেআউট-ফাইন্ডিং, এবং তারপর এই পোস্ট revisiting দেখতে যা পরবর্তীতে মোছা হয়েছে বেশি 1,000 চীনের সোশ্যাল মিডিয়া ওয়েবসাইট-প্রতিটি ক্রলিং এর আশ্চর্যজনক প্রকৌশল কৃতিত্ব. বৃহদায়ত ওয়েব ক্রলিং সঙ্গে যুক্ত স্বাভাবিক ইঞ্জিনিয়ারিং সমস্যার ছাড়াও, এই প্রকল্পের যোগ চ্যালেঞ্জ এটি অত্যন্ত দ্রুত করা, কারণ অনেক সেন্সর পোস্ট কম 24 ঘন্টার মধ্যে নিচে নেয়া হয় প্রয়োজন ছিল. অন্য কথায়, একটি ধীর ক্রলার পোস্ট যে সেন্সর ছিল প্রচুর মিস্ হবে. উপরন্তু, ক্রলার পাছে সামাজিক মিডিয়া ওয়েবসাইট অ্যাক্সেস অবরুদ্ধ বা অন্যথায় অধ্যয়ন প্রতিক্রিয়ায় তাদের নীতি পরিবর্তন যখন সনাক্তকরণ ফাঁকি এই সব তথ্য সংগ্রহ করতে হতো.

একবার এই বৃহদায়তন প্রকৌশল টাস্ক সম্পন্ন হয়, রাজা ও তার সহকর্মীরা 85 বিভিন্ন বিষয় যে প্রাক নির্দিষ্ট সংবেদনশীলতা তাদের প্রত্যাশিত স্তরের উপর ভিত্তি করে ছিল প্রায় 11 মিলিয়ন পোস্ট প্রাপ্ত ছিল. উদাহরণস্বরূপ, উচ্চ সংবেদনশীলতা একটি বিষয় Ai Weiwei, ভিন্নমতাবলম্বী শিল্পী; মধ্যম সংবেদনশীলতা একটি বিষয় উপলব্ধি এবং চীনা মুদ্রার অবমূল্যায়ন হয়, এবং কম সংবেদনশীলতা একটি বিষয় বিশ্বকাপ. এই 11 মিলিয়ন পোস্টের প্রায় 2 মিলিয়ন সেন্সর করা হয়েছে, কিন্তু অত্যন্ত স্পর্শকাতর বিষয় পোষ্ট মধ্যম এবং কম সংবেদনশীলতা বিষয়ের উপর পোস্টের চেয়েও শুধুমাত্র সামান্য বেশি প্রায়ই সেন্সর করা হয়েছে. অন্য কথায়, চীনা সেন্সর সম্পর্কে যেমন একটি পোস্টে যে যে একটি পোস্ট বিশ্বকাপ উল্লেখ হিসাবে Ai Weiwei উল্লেখ সেন্সর করার সম্ভাবনা বেশি. এই তথ্যও সরল ধারণা যে সরকার স্পর্শকাতর বিষয় সকল পোস্ট সেন্সরের মেলেনি.

বিষয় দ্বারা সেন্সরশিপ হারের এই সহজ হিসেবটি বিভ্রান্তিকর হতে পারে, তবে. উদাহরণস্বরূপ, সরকার পোষ্টগুলি Ai Weiwei সমর্থন জুগিয়ে থাকে, কিন্তু পোস্ট যে তার সমালোচনা হয় ছেড়ে সেন্সর পারে. যাতে আরো সাবধানে পোস্ট এর মাঝে গবেষকরা প্রতিটি পোস্টের অনুভূতি পরিমাপ করতে হবে. সুতরাং, একটি উপায় এটা আমার মনে হয় প্রতিটি পোস্টে একটি গুরুত্বপূর্ণ সুপ্ত বৈশিষ্ট্য প্রতিটি পোস্টের মনোবৃত্তি. দুর্ভাগ্যবশত, অনেক কাজ সত্ত্বেও, প্রাক বিদ্যমান অভিধান ব্যবহার অনুভূতি সনাক্তকরণ সম্পূর্ণরূপে স্বয়ংক্রিয় পদ্ধতি এখনো অনেক পরিস্থিতিতে খুব ভাল হয় (সমস্যার অনুচ্ছেদ 2.3.2.6 থেকে 11 সেপ্টেম্বর, 2001 এক আবেগঘন টাইমলাইনে তৈরি ফিরে মনে করি). তাই, রাজা এবং সহকর্মীদের কিনা তারা 1 ছিল) রাষ্ট্রের সমালোচনামূলক হিসেবে তাদের 11 মিলিয়ন সোশ্যাল মিডিয়া পোস্ট লেবেল একটি উপায় প্রয়োজন, 2) রাষ্ট্র, বা ঘটনা সম্পর্কে 3) অপ্রাসঙ্গিক বা তথ্যভিত্তিক রিপোর্ট সমর্থন. এই একটি বিশাল কাজের মত শোনাচ্ছে, কিন্তু তারা একটি শক্তিশালী কৌতুক ব্যবহার মীমাংসিত; এক তথ্য বিজ্ঞানে সাধারণ কিন্তু বর্তমানে অপেক্ষাকৃত সামাজিক বিজ্ঞান বিরল যে.

প্রথমত, একটি ধাপে সাধারণত প্রাক প্রক্রিয়াকরণ ডেকে গবেষকরা একটি নথি মেয়াদী ম্যাট্রিক্স, যেখানে প্রত্যেকটি নথির জন্য এক সারি এবং কলাম যে রেকর্ড কিনা পোস্টে একটি নির্দিষ্ট শব্দ অন্তর্ভুক্ত ছিল সামাজিক মিডিয়া পোস্ট রূপান্তরিত (যেমন, প্রতিবাদ, ট্রাফিক-পরিচ্ছদ ইত্যাদি). পরবর্তী, গবেষণা সহকারী একদল পোস্টের একটি নমুনা অনুভূতির হাত-লেবেল. তারপর রাজা ও তার সহকর্মীরা একটি মেশিন লার্নিং মডেল যে তার বৈশিষ্ট্যের উপর ভিত্তি করে একটি পোস্ট অনুভূতি সম্পর্কে অনুমান করতে পারে অনুমান করার জন্য এই হাত-লেবেল তথ্য ব্যবহার করা হয়. অবশেষে, তারা 11 মিলিয়ন পোস্টের মনোবৃত্তি অনুমান করার জন্য এই মেশিন লার্নিং মডেল ব্যবহৃত. এভাবে বদলে নিজে পড়া এবং লেবেল 11 মিলিয়ন পোস্ট (যা logistically অসম্ভব হবে), তারা নিজে পোস্ট একটি ছোট সংখ্যা লেবেল এবং তারপর ব্যবহার করা কি তথ্য বিজ্ঞানীদের সব পোস্টের বিভাগ অনুমান করার তত্বাবধানে শিক্ষা কল করবে. এই বিশ্লেষণ শেষ করার পর, রাজা এবং তার সহকর্মীরা যে উপসংহার করতে পেরেছি, কিছুটা আশ্চর্যজনক, একটি পোস্টের সম্ভাব্যতা মুছে ফেলা হচ্ছে তা রাষ্ট্রের সমালোচনামূলক বা রাষ্ট্র সমর্থন ছিল সম্পর্কহীন ছিল.

চিত্র 2.3: রাজা, প্যান ব্যবহৃত পদ্ধতির জন্য সরলীকৃত পরিকল্পিত, এবং রবার্টস (2013) 11 মিলিয়ন চীনা সামাজিক মিডিয়া পোস্ট অনুভূতি আনুমানিক হিসাব থেকে. প্রথমত, একটি ধাপে সাধারণত প্রাক প্রক্রিয়াকরণ ডেকে গবেষকরা একটি নথি মেয়াদী ম্যাট্রিক্স মধ্যে সোশ্যাল মিডিয়া পোস্ট রূপান্তরিত (বেশি কঠোর এবং স্টুয়ার্ট (2013) আরও তথ্যের জন্য দেখুন). দ্বিতীয়ত, গবেষক পোস্টের একটি ছোট নমুনা অনুভূতির হাত কোডেড. তৃতীয়ত, গবেষক পোস্টের মনোবৃত্তি শ্রেণীভুক্ত একটি পরিদর্শিত লার্নিং মডেল প্রশিক্ষিত. চতুর্থত, গবেষকরা সব পোস্টের মনোবৃত্তি অনুমান করার পরিদর্শিত লার্নিং মডেল ব্যবহৃত. আরো বিস্তারিত বিবরণ জন্য রাজা, প্যান, এবং রবার্টস (2013), পরিশিষ্ট B দেখুন.

চিত্র 2.3: ব্যবহৃত পদ্ধতির জন্য সরলীকৃত পরিকল্পিত King, Pan, and Roberts (2013) 11 মিলিয়ন চীনা সামাজিক মিডিয়া পোস্ট অনুভূতি আনুমানিক হিসাব থেকে. প্রথমত, একটি ধাপে সাধারণত প্রাক প্রক্রিয়াকরণ ডেকে গবেষকরা একটি নথি মেয়াদী ম্যাট্রিক্স মধ্যে সোশ্যাল মিডিয়া পোস্ট রূপান্তরিত (দেখতে Grimmer and Stewart (2013) আরও তথ্যের জন্য). দ্বিতীয়ত, গবেষক পোস্টের একটি ছোট নমুনা অনুভূতির হাত কোডেড. তৃতীয়ত, গবেষক পোস্টের মনোবৃত্তি শ্রেণীভুক্ত একটি পরিদর্শিত লার্নিং মডেল প্রশিক্ষিত. চতুর্থত, গবেষকরা সব পোস্টের মনোবৃত্তি অনুমান করার পরিদর্শিত লার্নিং মডেল ব্যবহৃত. দেখুন King, Pan, and Roberts (2013) একটি আরো বিস্তারিত বিবরণ জন্য, পরিশিষ্ট B.

, পর্নোগ্রাফি সেন্সর সমালোচনা, আর যে সমষ্টিগত কর্ম সম্ভাবনা ছিল (অর্থাৎ, বড় মাপের বিক্ষোভ নেতৃস্থানীয় সম্ভাবনা): শেষ, রাজা ও তার সহকর্মীরা আবিষ্কার করেন যে পোস্টের শুধুমাত্র তিন ধরনের নিয়মিত সেন্সর করা হয়েছে. পোস্ট মোছা এবং পোস্ট করা হয়েছে যে মোছা হয়নি একটি বিশাল সংখ্যা নিরীক্ষক দ্বারা, রাজা এবং সহকর্মীদের শিখতে কিভাবে সেন্সর পর্যবেক্ষক এবং গণনা করে ঠিক কাজ করতে পেরেছি. পরবর্তী গবেষণায়, তারা আসলে সরাসরি চীনা সামাজিক মিডিয়া বাস্তু মধ্যে ধারাক্রমে বিভিন্ন কন্টেন্ট এবং পরিমাপ যা সেন্সর পেতে সঙ্গে পোস্ট তৈরি করে এতে হস্তক্ষেপ (King, Pan, and Roberts 2014) . আমরা অধ্যায় 4. উপরন্তু মধ্যে পরীক্ষামূলক পন্থা সম্পর্কে আরো জানতে হবে, যে বই জুড়ে ঘটবে একটি থিম foreshadowing, এই সুপ্ত-অ্যাট্রিবিউট অনুমান সমস্যা-যা কখনো কখনো সঙ্গে সমাধান করা যেতে পারে তত্বাবধানে শিক্ষা-ঘুরিয়ে আউট সামাজিক গবেষণা খুব সাধারণ হতে আধুনিক যুগ. আপনি ছবি খুব অধ্যায় 3 (প্রশ্ন জিজ্ঞাসা) এবং 5 2.3 চিত্র অনুরূপ দেখতে হবে (ভর সহযোগিতা তৈরি করা); এটা কয়েক ধারনা যে একাধিক অধ্যায়গুলির মধ্যে উপস্থিত করা হয়.

এই উদাহরণ-ট্যাক্সি ড্রাইভার নিউ ইয়র্কে, ছাত্র দ্বারা বন্ধুত্ব গঠন, এবং চীনা সরকার-শো যে পর্যবেক্ষণমূলক ডেটা অপেক্ষাকৃত সহজ কাউন্টিং তাত্ত্বিক ভবিষ্যৎবাণী পরীক্ষা গবেষকরা সক্রিয় করতে পারেন সামাজিক মিডিয়া সেন্সরশীপ আচরণের কাজ আচরণের তিনটি. কিছু ক্ষেত্রে, বড় তথ্য আপনি অপেক্ষাকৃত সরাসরি এই কাউন্টিং না (নিউ ইয়র্ক ট্যাক্সি ক্ষেত্রে যেমন) সম্ভব. অন্যান্য ক্ষেত্রে, গবেষকরা তাদের নিজস্ব পর্যবেক্ষণ ও তথ্য (চীনা সেন্সরশিপের ক্ষেত্রে হিসাবে) সংগ্রহ করতে হবে; একসঙ্গে ডেটা মার্জ (নেটওয়ার্ক বিবর্তনের ক্ষেত্রে হিসাবে) দ্বারা অসম্পূর্ণতা সঙ্গে মোকাবেলা; বা সুপ্ত-বৈশিষ্ট্য অনুমান কিছু ফর্ম করণ (চীনা সেন্সরশিপের ক্ষেত্রে হিসাবে). আমি আশা করি এসব উদাহরণ দেন, গবেষকরা আকর্ষণীয় প্রশ্ন জিজ্ঞাসা করতে সক্ষম হয় যারা জন্য, বড় বড় প্রতিশ্রুতি ঝুলিতে.