นับง่ายสามารถที่น่าสนใจถ้าคุณรวมเป็นคำถามที่ดีกับข้อมูลที่ดี
แม้ว่าจะมีการพูดภาษาที่มีความซับซ้อน แต่การวิจัยทางสังคมเป็นเพียงการนับคะแนนเท่านั้น ในยุคของข้อมูลขนาดใหญ่นักวิจัยสามารถนับได้มากขึ้นกว่าเดิม แต่นั่นไม่ได้หมายความว่าพวกเขาควรจะเริ่มต้นนับการถ่ายทอดทางพันธุกรรมอย่างฉับพลัน นักวิจัยควรถามว่าอะไรคือสิ่งที่ควรค่าแก่การนับ? เรื่องนี้อาจดูเหมือนเป็นเรื่องส่วนตัว แต่มีรูปแบบทั่วไป
บ่อยครั้งที่นักเรียนกระตุ้นการนับการวิจัยด้วยการพูดว่า: ฉันจะนับสิ่งที่ไม่มีใครเคยนับมาก่อน ตัวอย่างเช่นนักเรียนอาจพูดได้ว่าหลายคนได้ศึกษาอพยพและหลายคนได้ศึกษาฝาแฝด แต่ไม่มีใครศึกษาฝาแฝดของผู้อพยพ จากประสบการณ์ของผมยุทธศาสตร์นี้ซึ่งผมเรียกว่า แรงจูงใจจากการขาดงาน ไม่ได้นำไปสู่การวิจัยที่ดี แรงจูงใจจากการไม่มีตัวตนเป็นเหมือนการบอกว่ามีหลุมอยู่ตรงนั้นและฉันจะทำงานหนักเพื่อเติมเต็ม แต่ไม่จำเป็นต้องเติมทุกหลุม
แทนที่จะคิดว่าเป็นแรงจูงใจโดยการขาดงานผมคิดว่ากลยุทธ์ที่ดีคือการค้นหาคำถามที่มี ความสำคัญ หรือ น่าสนใจ (หรือทั้งสองอย่าง) คำศัพท์ทั้งสองนี้ยากที่จะนิยามได้ แต่วิธีหนึ่งในการคิดเกี่ยวกับงานวิจัยที่สำคัญคือมีผลกระทบที่วัดได้หรือนำไปสู่การตัดสินใจที่สำคัญโดยผู้กำหนดนโยบาย ตัวอย่างเช่นการวัดอัตราการว่างงานเป็นสิ่งสำคัญเพราะเป็นตัวชี้วัดเศรษฐกิจที่ผลักดันการตัดสินใจเชิงนโยบาย โดยทั่วไปผมคิดว่านักวิจัยมีความรู้สึกที่ดีในสิ่งที่สำคัญ ดังนั้นในส่วนที่เหลือของส่วนนี้ฉันจะให้สองตัวอย่างที่ฉันคิดว่านับเป็นสิ่งที่น่าสนใจ ในแต่ละกรณีนักวิจัยไม่ได้นับได้อย่างชัดเจน ค่อนข้างจะนับในการตั้งค่าเฉพาะอย่างยิ่งที่เปิดเผยข้อมูลเชิงลึกที่สำคัญในความคิดทั่วไปเกี่ยวกับวิธีการทำงานของระบบสังคม กล่าวอีกนัยหนึ่งสิ่งที่ทำให้การทำแบบฝึกหัดนับจำนวนนี้เป็นข้อมูลที่น่าสนใจไม่ได้เป็นข้อมูลเอง
ตัวอย่างหนึ่งของพลังที่เรียบง่ายของการนับมาจากการศึกษาของ Henry Farber (2015) เกี่ยวกับพฤติกรรมของคนขับรถแท็กซี่ในนครนิวยอร์ค แม้ว่ากลุ่มนี้อาจไม่ค่อยน่าสนใจ แต่ก็เป็น เว็บไซต์เชิงกลยุทธ์ ในการทดสอบทฤษฎีเศรษฐศาสตร์แรงงานสองทฤษฎีที่แข่งขันกัน สำหรับวัตถุประสงค์ของการวิจัยของ Farber มีสองลักษณะสำคัญเกี่ยวกับสภาพแวดล้อมในการทำงานของคนขับรถแท็กซี่คือ (1) ค่าจ้างรายชั่วโมงเปลี่ยนแปลงไปในแต่ละวันขึ้นอยู่กับปัจจัยต่างๆเช่นสภาพอากาศและ (2) จำนวนชั่วโมงที่พวกเขา งานสามารถเปลี่ยนแปลงได้ทุกวันตามการตัดสินใจของพวกเขา คุณลักษณะเหล่านี้นำไปสู่คำถามที่น่าสนใจเกี่ยวกับความสัมพันธ์ระหว่างค่าจ้างรายชั่วโมงกับจำนวนชั่วโมงที่ทำงาน แบบจำลองนีโอคลาสสิกในด้านเศรษฐศาสตร์คาดการณ์ว่าคนขับรถแท็กซี่จะทำงานได้ดีขึ้นในวันที่มีค่าจ้างรายชั่วโมงที่สูงขึ้น อีกทางเลือกหนึ่งจากเศรษฐศาสตร์พฤติกรรมทำนายตรงกันข้าม หากผู้ขับขี่กำหนดเป้าหมายรายได้โดยเฉพาะอย่างเช่น $ 100 ต่อวันและทำงานจนกว่าเป้าหมายจะได้รับการตอบสนองผู้ขับขี่ก็จะทำงานน้อยลงในหลายวันที่มีรายได้เพิ่มขึ้น ตัวอย่างเช่นถ้าคุณเป็นผู้มีรายได้เป้าหมายคุณอาจต้องทำงานสี่ชั่วโมงในวันดีๆ (25 บาทต่อชั่วโมง) และห้าชั่วโมงในวันที่ไม่ดี (20 เหรียญต่อชั่วโมง) ดังนั้นคนขับรถจะทำงานได้มากขึ้นในวันที่มีค่าจ้างรายชั่วโมงสูงกว่า (เช่นเดียวกับที่คาดการณ์ไว้ในแบบจำลองนีโอคลาสสิก) หรือมากกว่าชั่วโมงในวันที่มีค่าจ้างรายชั่วโมงที่ต่ำกว่า (ตามที่คาดการณ์ไว้ในรูปแบบพฤติกรรมทางเศรษฐกิจ)?
เพื่อตอบคำถามนี้ Farber ได้รับข้อมูลเกี่ยวกับการเดินทางรถแท็กซี่ทุกครั้งที่ถ่ายโดยรถแท็กซี่นิวยอร์กซิตี้จากปี 2009 ถึง 2013 ข้อมูลที่เปิดเผยต่อสาธารณะ ข้อมูลเหล่านี้ซึ่งเก็บรวบรวมโดยเมตรอิเล็กทรอนิกส์ที่เมืองต้องใช้รถแท็กซี่เพื่อใช้รวมถึงข้อมูลเกี่ยวกับการเดินทางแต่ละครั้ง ได้แก่ เวลาเริ่มต้นสถานที่เริ่มต้นเวลาสิ้นสุดสถานที่สิ้นสุดค่าโดยสารและทิป (ถ้าทิปชำระด้วยบัตรเครดิต) . การใช้ข้อมูลแท็กซี่มิเตอร์นี้ Farber พบว่าคนขับรถส่วนใหญ่ทำงานมากขึ้นในวันที่ค่าจ้างสูงขึ้นสอดคล้องกับทฤษฎีนีโอคลาสสิก
นอกเหนือจากการค้นพบครั้งนี้แล้ว Farber ยังสามารถใช้ข้อมูลขนาดใหญ่เพื่อทำความเข้าใจถึงความหลากหลายและการเปลี่ยนแปลงได้ดียิ่งขึ้น เขาพบว่าเมื่อเวลาผ่านไปคนขับรถรุ่นใหม่ ๆ ค่อยๆเรียนรู้ที่จะทำงานเป็นเวลานานในวันที่มีค่าจ้างสูง (เช่นพวกเขาเรียนรู้ที่จะทำตัวเป็นแบบจำลองนีโอคลาสสิกที่คาดการณ์ไว้) และคนขับรถคันใหม่ที่มีพฤติกรรมเหมือนคนหารายได้เป้าหมายมักจะเลิกขับรถแท็กซี่ ทั้งสองข้อค้นพบลึกซึ้งซึ่งช่วยอธิบายพฤติกรรมที่สังเกตได้ของไดรเวอร์ปัจจุบันเป็นไปได้เพียงเพราะขนาดของชุดข้อมูล พวกเขาไม่สามารถตรวจพบได้ในการศึกษาก่อนหน้านี้ว่าใช้กระดาษแผ่นเดินทางจากนักขับแท็กซี่จำนวนน้อยในช่วงเวลาสั้น ๆ (Camerer et al. 1997)
การศึกษาของ Farber ใกล้เคียงกับกรณีตัวอย่างที่ดีที่สุดสำหรับงานวิจัยที่ใช้แหล่งข้อมูลขนาดใหญ่เนื่องจากข้อมูลที่รวบรวมโดยเมืองนั้นใกล้เคียงกับข้อมูลที่ Farber รวบรวมไว้ (ความแตกต่างอย่างหนึ่งคือ Farber ต้องการข้อมูลทั้งหมด) ค่าจ้างรวมเคล็ดลับ - แต่ข้อมูลเมืองรวมเฉพาะเคล็ดลับที่จ่ายโดยบัตรเครดิต) อย่างไรก็ตามข้อมูลเพียงอย่างเดียวไม่เพียงพอ กุญแจสำคัญในการวิจัยของ Farber คือการนำคำถามที่น่าสนใจไปใช้กับข้อมูลซึ่งเป็นคำถามที่มีนัยสำคัญมากกว่าการตั้งค่าเฉพาะนี้
ตัวอย่างที่สองของการนับสิ่งมาจากการวิจัยโดย Gary King, Jennifer Pan และ Molly Roberts (2013) ในการเซ็นเซอร์ออนไลน์โดยรัฐบาลจีน อย่างไรก็ตามในกรณีนี้นักวิจัยต้องรวบรวมข้อมูลขนาดใหญ่ของตนเองและต้องจัดการกับข้อเท็จจริงที่ว่าข้อมูลของตนไม่สมบูรณ์
กษัตริย์และเพื่อนร่วมงานได้รับแรงบันดาลใจจากข้อเท็จจริงที่ว่าโพสต์สื่อสังคมออนไลน์ในประเทศจีนถูกตรวจสอบโดยเครื่องมือของรัฐที่ใหญ่โตซึ่งคิดว่ามีผู้คนนับหมื่นคน นักวิจัยและพลเมืองมีความรู้สึกเพียงเล็กน้อยว่า censors เหล่านี้ตัดสินใจว่าควรลบเนื้อหาใด นักวิชาการของประเทศจีนมีความคาดหวังที่ขัดแย้งกันเกี่ยวกับประเภทของโพสต์ที่มีแนวโน้มที่จะถูกลบมากที่สุด บางคนคิดว่า censors เน้นที่โพสต์ที่มีความสำคัญต่อรัฐในขณะที่บางคนคิดว่าพวกเขามุ่งเน้นไปที่โพสต์ที่สนับสนุนพฤติกรรมร่วมเช่นการประท้วง การค้นหาความคาดหวังเหล่านี้ที่ถูกต้องมีผลต่อการที่นักวิจัยเข้าใจจีนและรัฐบาลเผด็จการอื่น ๆ ที่เข้าร่วมในการเซ็นเซอร์ ดังนั้นกษัตริย์และเพื่อนร่วมงานจึงต้องการเปรียบเทียบโพสต์ที่เผยแพร่และลบภายหลังโดยมีโพสต์ที่เผยแพร่และไม่เคยลบออก
การจัดเก็บภาษีที่เกี่ยวข้องกับการโพสต์เหล่านี้ความสำเร็จทางวิศวกรรมที่น่าตื่นตาตื่นใจของการรวบรวมข้อมูลมากกว่า 1,000 สื่อสังคมจีนเว็บไซต์-แต่ละคนมีรูปแบบที่แตกต่างกันหน้าหาโพสต์ที่เกี่ยวข้องแล้ว revisiting โพสต์เหล่านี้เพื่อดูว่าถูกลบออกในภายหลัง นอกเหนือไปจากปัญหาทางวิศวกรรมปกติที่เกี่ยวข้องกับการขนาดใหญ่ที่รวบรวมข้อมูลเว็บของโครงการนี้มีความท้าทายเพิ่มที่ว่ามันจำเป็นจะต้องได้อย่างรวดเร็วเนื่องจากการโพสต์เซ็นเซอร์จำนวนมากถูกนำตัวลงในเวลาน้อยกว่า 24 ชั่วโมง ในคำอื่น ๆ ซอฟต์แวร์รวบรวมข้อมูลช้าจะพลาดจำนวนมากโพสต์ที่ได้รับการตรวจสอบ นอกจากนี้โปรแกรมรวบรวมข้อมูลต้องทำทุกการเก็บรวบรวมข้อมูลนี้ในขณะที่หลบหนีการตรวจสอบเกรงว่าเว็บไซต์สื่อสังคมปิดกั้นการเข้าถึงหรือการเปลี่ยนแปลงนโยบายของพวกเขาในการตอบสนองต่อการศึกษา
เมื่อถึงเวลาที่งานทางวิศวกรรมครั้งใหญ่เสร็จสมบูรณ์ King และเพื่อนร่วมงานได้รับประมาณ 11 ล้านโพสต์ในหัวข้อที่กำหนดไว้ 85 หัวข้อซึ่งแต่ละระดับมีความอ่อนไหว ตัวอย่างเช่นหัวข้อที่มีความละเอียดอ่อนสูงคือ Ai Weiwei ศิลปินผู้คัดค้าน หัวข้อความไวกลางคือการแข็งค่าและการลดค่าเงินของสกุลเงินจีนและหัวข้อที่มีความไวต่ำคือ World Cup จากทั้งหมด 11 ล้านข้อความมีผู้ตรวจสอบเซ็นเซอร์ประมาณ 2 ล้านคน ค่อนข้างแปลกใจที่กษัตริย์และเพื่อนร่วมงานพบว่าโพสต์ในหัวข้อที่มีความละเอียดอ่อนถูกตรวจสอบเพียงเล็กน้อยเท่านั้นบ่อยกว่าโพสต์ในหัวข้อที่มีความไวปานกลางและต่ำ กล่าวอีกนัยหนึ่งคาเซ็นเซอร์ของจีนมีแนวโน้มที่จะตรวจสอบโพสต์ที่กล่าวถึง Ai Weiwei เป็นโพสต์ที่กล่าวถึงฟุตบอลโลก ผลการวิจัยเหล่านี้ไม่สนับสนุนความคิดที่รัฐบาลให้ความสำคัญกับการโพสต์เนื้อหาทั้งหมดในหัวข้อที่ละเอียดอ่อน
การคำนวณอัตราการเซ็นเซอร์ที่เรียบง่ายตามหัวข้ออาจทำให้เข้าใจผิดอย่างไรก็ตาม ตัวอย่างเช่นรัฐบาลอาจตรวจโพสต์ที่สนับสนุน Ai Weiwei แต่ปล่อยให้โพสต์ที่สำคัญของเขา เพื่อให้เห็นความแตกต่างระหว่างข้อความมากขึ้นนักวิจัยจำเป็นต้องวัด ความเชื่อมั่น ของแต่ละโพสต์ อย่างไรก็ตามน่าเสียดายที่แม้จะมีการใช้งานมากนัก แต่วิธีการตรวจจับความรู้สึกโดยอัตโนมัติโดยใช้พจนานุกรมที่มีอยู่ก่อนแล้วยังไม่ค่อยดีนักในหลาย ๆ สถานการณ์ (คิดย้อนกลับไปถึงปัญหาที่เกิดขึ้นในช่วงอารมณ์ของวันที่ 11 กันยายน 2001 ที่อธิบายไว้ในส่วน 2.3.9) ดังนั้นคิงและเพื่อนร่วมงานจึงจำเป็นต้องมีป้ายชื่อ 11 ล้านโพสต์สื่อทางสังคมของตนเพื่อระบุว่าเป็น (1) วิจารณ์รัฐหรือ (2) สนับสนุนรัฐหรือ (3) รายงานที่ไม่เกี่ยวข้องหรือเป็นข้อเท็จจริงเกี่ยวกับเหตุการณ์ ดูเหมือนจะเป็นงานที่ใหญ่โต แต่พวกเขาแก้ปัญหาได้โดยใช้เคล็ดลับที่มีประสิทธิภาพซึ่งเป็นเรื่องธรรมดาในด้านวิทยาศาสตร์ข้อมูล แต่หายากในสาขาวิทยาศาสตร์ทางสังคม: การเรียนรู้ที่ได้รับการดูแล ดูรูป 2.5
ก่อนอื่นในขั้นตอนที่เรียกว่า preprocessing นักวิจัยได้แปลงโพสต์สื่อสังคมออนไลน์เป็น เมทริกซ์เอกสารระยะ โดยมีแถวหนึ่งสำหรับแต่ละเอกสารและหนึ่งคอลัมน์ที่บันทึกว่าโพสต์มีคำเฉพาะเจาะจงหรือไม่เช่นการประท้วงหรือการเข้าชม . จากนั้นกลุ่มผู้ช่วยวิจัยได้ระบุความรู้สึกของตัวอย่างโพสต์ไว้ด้วยมือ จากนั้นจึงใช้ข้อมูลที่ติดป้ายกำกับด้วยมือเพื่อสร้างโมเดลการเรียนรู้ด้วยเครื่องซึ่งสามารถสรุปความรู้สึกของโพสต์ตามลักษณะ ในที่สุดพวกเขาใช้แบบจำลองนี้เพื่อประเมินความเชื่อมั่นทั้งหมด 11 ล้านข้อความ
ดังนั้นแทนที่จะอ่านและติดฉลากด้วยตนเอง 11 ล้านข้อความซึ่งอาจเป็นไปไม่ได้ในเชิงตรรกะคิงและเพื่อนร่วมงานเขียนข้อความจำนวนเล็กน้อยและใช้การเรียนรู้ที่ได้รับการดูแลเพื่อประเมินความเชื่อมั่นของโพสต์ทั้งหมด หลังจากเสร็จสิ้นการวิเคราะห์นี้แล้วพวกเขาก็สามารถสรุปได้ว่าค่อนข้างน่าแปลกใจที่ความเป็นไปได้ที่การโพสต์จะถูกลบออกไม่ได้เกี่ยวข้องกับการที่รัฐมีความสำคัญหรือสนับสนุนรัฐ
ในที่สุดกษัตริย์และเพื่อนร่วมงานก็พบว่ามีการโพสต์เพียงสามประเภทเท่านั้นที่ถูกเซ็นเซอร์อย่างสม่ำเสมอ: ภาพลามกอนาจารคำติชมของผู้ตรวจสอบและผู้ที่มีศักยภาพในการดำเนินการโดยรวม (เช่นความเป็นไปได้ที่จะนำไปสู่การประท้วงขนาดใหญ่) การสังเกตจำนวนกระทู้ที่ถูกลบและโพสต์ที่ไม่ได้ถูกลบ King และเพื่อนร่วมงานก็สามารถเรียนรู้ว่า censors ทำงานอย่างไรเพียงแค่ดูและนับเท่านั้น นอกจากนี้การคาดการณ์รูปแบบที่จะเกิดขึ้นในหนังสือเล่มนี้วิธีการเรียนรู้ที่ได้รับการดูแลซึ่งพวกเขาใช้การติดฉลากผลลัพธ์บางอย่างและจากนั้นสร้างโมเดลการเรียนรู้ของเครื่องเพื่อให้ฉลากส่วนที่เหลือกลายเป็นเรื่องปกติธรรมดาในการวิจัยทางสังคมในยุคดิจิทัล . คุณจะเห็นภาพที่คล้ายคลึงกับรูปที่ 2.5 ในบทที่ 3 (การถามคำถาม) และ 5 (การสร้างความร่วมมือในกลุ่ม) นี่คือหนึ่งในไม่กี่แนวคิดที่ปรากฏในหลายบท
ตัวอย่างเช่นพฤติกรรมการทำงานของคนขับรถแท็กซี่ในนิวยอร์กและพฤติกรรมการเซ็นเซอร์สื่อสังคมออนไลน์ของรัฐบาลจีนแสดงให้เห็นว่าการนับแหล่งข้อมูลขนาดใหญ่ที่ค่อนข้างง่ายในบางกรณีอาจนำไปสู่การวิจัยที่น่าสนใจและสำคัญ อย่างไรก็ตามในทั้งสองกรณีนี้นักวิจัยต้องนำคำถามที่น่าสนใจมายังแหล่งข้อมูลขนาดใหญ่ ข้อมูลด้วยตัวเองไม่เพียงพอ