นักวิจัยจีนคัดลอกเว็บไซต์สื่อสังคมเพื่อศึกษาการเซ็นเซอร์ พวกเขาจัดการกับความไม่สมบูรณ์มีลักษณะแฝง-อนุมาน
นอกเหนือไปจากข้อมูลขนาดใหญ่ที่ใช้ในสองตัวอย่างก่อนหน้านี้นักวิจัยยังสามารถเก็บข้อมูลของตัวเองสังเกตการณ์ตามที่ได้แสดงให้เห็นอย่างน่าพิศวงโดยแกรี่คิง, เจนนิเฟอร์แพนและมอลลี่โรเบิร์ต (2013) การวิจัยเกี่ยวกับการเซ็นเซอร์จากรัฐบาลจีน
โพสต์สื่อสังคมในประเทศจีนมีการตรวจสอบโดยเครื่องมือของรัฐมหาศาลที่เป็นความคิดที่จะรวมหลายหมื่นคน นักวิจัยและประชาชน แต่มีความรู้สึกเล็ก ๆ น้อย ๆ ของวิธีการเซ็นเซอร์เหล่านี้ตัดสินใจว่าเนื้อหาควรจะถูกลบออกจากสื่อสังคม นักวิชาการจากประเทศจีนจะมีความคาดหวังที่ขัดแย้งกันเกี่ยวกับชนิดของการโพสต์มีแนวโน้มที่จะได้รับการลบ บางคนคิดว่าเซ็นเซอร์มุ่งเน้นไปที่การโพสต์ที่มีความสำคัญของรัฐขณะที่คนอื่นคิดว่าพวกเขามุ่งเน้นไปที่โพสต์ที่ส่งเสริมพฤติกรรมส่วนรวมเช่นการประท้วง หาที่ของความคาดหวังเหล่านี้เป็นสิ่งที่ถูกต้องมีผลกระทบต่อวิธีการที่นักวิจัยเข้าใจจีนและรัฐบาลเผด็จการอื่น ๆ ที่มีส่วนร่วมในการเซ็นเซอร์ ดังนั้นพระมหากษัตริย์และเพื่อนร่วมงานต้องการที่จะเปรียบเทียบการโพสต์ที่ได้รับการตีพิมพ์และต่อมาได้ถูกลบไปยังโพสต์ที่ได้รับการตีพิมพ์และไม่เคยถูกลบ
การจัดเก็บภาษีที่เกี่ยวข้องกับการโพสต์เหล่านี้ความสำเร็จทางวิศวกรรมที่น่าตื่นตาตื่นใจของการรวบรวมข้อมูลมากกว่า 1,000 สื่อสังคมจีนเว็บไซต์-แต่ละคนมีรูปแบบที่แตกต่างกันหน้าหาโพสต์ที่เกี่ยวข้องแล้ว revisiting โพสต์เหล่านี้เพื่อดูว่าถูกลบออกในภายหลัง นอกเหนือไปจากปัญหาทางวิศวกรรมปกติที่เกี่ยวข้องกับการขนาดใหญ่ที่รวบรวมข้อมูลเว็บของโครงการนี้มีความท้าทายเพิ่มที่ว่ามันจำเป็นจะต้องได้อย่างรวดเร็วเนื่องจากการโพสต์เซ็นเซอร์จำนวนมากถูกนำตัวลงในเวลาน้อยกว่า 24 ชั่วโมง ในคำอื่น ๆ ซอฟต์แวร์รวบรวมข้อมูลช้าจะพลาดจำนวนมากโพสต์ที่ได้รับการตรวจสอบ นอกจากนี้โปรแกรมรวบรวมข้อมูลต้องทำทุกการเก็บรวบรวมข้อมูลนี้ในขณะที่หลบหนีการตรวจสอบเกรงว่าเว็บไซต์สื่อสังคมปิดกั้นการเข้าถึงหรือการเปลี่ยนแปลงนโยบายของพวกเขาในการตอบสนองต่อการศึกษา
เมื่องานวิศวกรรมขนาดใหญ่นี้เสร็จสมบูรณ์กิ่งและเพื่อนร่วมงานได้รับประมาณ 11 ล้านข้อความใน 85 หัวข้อที่แตกต่างที่ถูกกำหนดไว้ล่วงหน้าอยู่บนพื้นฐานของระดับที่คาดหวังของพวกเขาจากความไว ยกตัวอย่างเช่นเรื่องของความไวสูงคือ Ai Weiwei ศิลปินคัดค้าน; หัวข้อของความไวกลางคือการแข็งค่าและการลดค่าของสกุลเงินของจีนและเป็นหัวข้อของความไวต่ำคือการแข่งขันฟุตบอลโลก ของเหล่านี้ 11 ล้านโพสต์เกี่ยวกับ 2 ล้านได้รับการตรวจสอบ แต่โพสต์ในหัวข้อที่มีความไวสูงได้รับการตรวจสอบเพียงเล็กน้อยบ่อยกว่าโพสต์ในกลางและต่ำหัวข้อไว ในคำอื่น ๆ เซ็นเซอร์จีนเกี่ยวกับการเป็นแนวโน้มที่จะตรวจสอบการโพสต์ที่กล่าวถึง Ai Weiwei เป็นโพสต์ที่กล่าวถึงการแข่งขันฟุตบอลโลกที่ การค้นพบนี้ไม่ตรงกับความคิดง่าย ๆ ว่ารัฐบาลเซ็นเซอร์ข้อความทั้งหมดในหัวข้อที่มีความละเอียดอ่อน
นี้คำนวณง่ายอัตราการเซ็นเซอร์ตามหัวข้อที่อาจจะทำให้เข้าใจผิดอย่างไร ยกตัวอย่างเช่นรัฐบาลอาจจะตรวจสอบการโพสต์ที่จะสนับสนุน Ai Weiwei แต่ปล่อยให้โพสต์ที่มีความสำคัญของเขา เพื่อที่จะแยกแยะความแตกต่างระหว่างเสาอย่างระมัดระวังมากขึ้นนักวิจัยจะต้องวัดความเชื่อมั่นของแต่ละโพสต์ ดังนั้นวิธีหนึ่งที่จะคิดเกี่ยวกับมันก็คือความเชื่อมั่นของแต่ละโพสต์ในคุณลักษณะที่แฝงความสำคัญของแต่ละโพสต์ วิธีการ แต่แม้จะมีการทำงานมากโดยอัตโนมัติอย่างเต็มที่ในการตรวจสอบความเชื่อมั่นโดยใช้พจนานุกรมที่มีอยู่ก่อนยังไม่ดีมากในหลาย ๆ สถานการณ์ (คิดว่ากลับไปปัญหาการสร้างเส้นอารมณ์ของ 11 กันยายน 2001 จากมาตรา 2.3.2.6) ดังนั้นพระมหากษัตริย์และเพื่อนร่วมงานจำเป็นต้องมีวิธีที่จะติดป้ายของพวกเขา 11 ล้านโพสต์สื่อสังคมเป็นไปได้ว่าพวกเขาเป็น 1) ที่สำคัญของรัฐ 2) การสนับสนุนของรัฐหรือ 3) รายงานที่ไม่เกี่ยวข้องหรือข้อเท็จจริงเกี่ยวกับเหตุการณ์ที่เกิดขึ้น นี้เสียงเหมือนงานใหญ่ แต่พวกเขาได้รับการแก้ไขโดยใช้เคล็ดลับที่มีประสิทธิภาพ; หนึ่งที่เป็นเรื่องธรรมดาในข้อมูลวิทยาศาสตร์ แต่ขณะนี้ค่อนข้างหายากในทางสังคมศาสตร์
ครั้งแรกในขั้นตอนโดยทั่วไปเรียกว่าก่อนการประมวลผลนักวิจัยแปลงโพสต์สื่อสังคมเข้ากับเมทริกซ์เอกสารระยะที่มีหนึ่งแถวสำหรับแต่ละเอกสารและคอลัมน์หนึ่งที่บันทึกไว้ว่าโพสต์ที่มีเฉพาะคำ (เช่นการประท้วง การจราจร ฯลฯ ) ถัดไปเป็นกลุ่มของผู้ช่วยนักวิจัยมือมีป้ายกำกับความเชื่อมั่นของกลุ่มตัวอย่างของโพสต์ที่ จากนั้นพระบาทสมเด็จพระเจ้าอยู่หัวและเพื่อนร่วมงานของข้อมูลที่ใช้มือป้ายนี้เพื่อประเมินรูปแบบการเรียนรู้เครื่องที่สามารถสรุปความเชื่อมั่นของการโพสต์ขึ้นอยู่กับลักษณะของ ในที่สุดพวกเขาใช้เครื่องนี้การเรียนรู้รูปแบบที่จะประเมินความเชื่อมั่นของทั้งหมด 11 ล้านโพสต์ ดังนั้นด้วยตนเองมากกว่าการอ่านและการติดฉลาก 11 ล้านโพสต์ (ซึ่งจะเป็นไปไม่ได้ logistically) ที่พวกเขาเองที่มีข้อความขนาดเล็กจำนวนโพสต์และใช้สิ่งที่นักวิทยาศาสตร์ข้อมูลจะเรียกการเรียนรู้การดูแลเพื่อประเมินประเภทจากโพสทั้งหมดแล้ว หลังจากเสร็จสิ้นการวิเคราะห์นี้พระบาทสมเด็จพระเจ้าอยู่หัวและเพื่อนร่วมงานก็สามารถที่จะสรุปได้ว่าค่อนข้างน่าแปลกใจที่น่าจะเป็นของการโพสต์จะถูกลบออกก็ไม่เกี่ยวข้องกับการไม่ว่าจะเป็นที่สำคัญของรัฐหรือการสนับสนุนจากรัฐ
ในท้ายที่สุดพระมหากษัตริย์และเพื่อนร่วมงานได้ค้นพบว่ามีเพียงสามประเภทของการโพสต์ได้รับการตรวจสอบอย่างสม่ำเสมอ: สื่อลามกวิจารณ์ของเซ็นเซอร์และผู้ที่มีศักยภาพดำเนินการร่วมกัน (เช่นความเป็นไปได้ของที่นำไปสู่การประท้วงขนาดใหญ่) โดยการสังเกตจำนวนมากของโพสต์ที่ถูกลบและโพสต์ที่ไม่ได้ถูกลบออกกษัตริย์และเพื่อนร่วมงานก็สามารถที่จะเรียนรู้วิธีการเซ็นเซอร์ทำงานได้โดยการเฝ้าดูและนับ ในการวิจัยต่อมาพวกเขาจริงโดยตรงแทรกแซงเข้าไปในระบบนิเวศสื่อจีนทางสังคมโดยการสร้างบทความที่มีเนื้อหาที่แตกต่างกันอย่างเป็นระบบและการวัดที่ได้รับการตรวจสอบ (King, Pan, and Roberts 2014) เราจะเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการทดลองในบทที่ 4 นอกจากนี้แววรูปแบบที่จะเกิดขึ้นตลอดทั้งเล่มเหล่านี้แฝงแอตทริบิวต์การอนุมานปัญหาซึ่งบางครั้งสามารถแก้ไขได้ด้วยการเรียนรู้ภายใต้การดูแล-เปิดออกเพื่อจะพบบ่อยมากในการวิจัยทางสังคมใน ยุคดิจิตอล. คุณจะเห็นภาพที่คล้ายกันมากกับรูปที่ 2.3 ในบทที่ 3 (ถามคำถาม) และ 5 (การสร้างความร่วมมือมวล); มันเป็นหนึ่งในไม่กี่ความคิดที่ปรากฏในหลายบท
ทั้งสามของตัวอย่างที่เหล่านี้มีพฤติกรรมในการทำงานของคนขับรถแท็กซี่ในนิวยอร์กก่อมิตรภาพโดยนักเรียนและพฤติกรรมการเซ็นเซอร์สื่อสังคมของชาวจีนที่รัฐบาลแสดงให้เห็นว่าการนับค่อนข้างง่ายของข้อมูลสังเกตการณ์สามารถช่วยให้นักวิจัยเพื่อทดสอบการคาดการณ์ในเชิงทฤษฎี ในบางกรณีข้อมูลขนาดใหญ่ช่วยให้คุณทำนับนี้ค่อนข้างโดยตรง (เช่นในกรณีของนิวยอร์กรถแท็กซี่) ในกรณีอื่น ๆ นักวิจัยจะต้องเก็บรวบรวมข้อมูลของตนเองสังเกตการณ์ (เช่นในกรณีของการเซ็นเซอร์จีน); จัดการกับความไม่สมบูรณ์โดยการผสานข้อมูลร่วมกัน (เช่นในกรณีของการวิวัฒนาการเครือข่าย); หรือดำเนินการในรูปแบบของลักษณะแฝง-อนุมานบางคน (เช่นในกรณีของการเซ็นเซอร์ของจีน) ขณะที่ผมหวังว่าตัวอย่างเหล่านี้แสดงสำหรับนักวิจัยที่มีความสามารถที่จะถามคำถามที่น่าสนใจใหญ่ถือสัญญาที่ดี