ไม่ว่าข้อมูลขนาดใหญ่ของคุณจะใหญ่แค่ไหนก็อาจไม่มีข้อมูลที่คุณต้องการ
แหล่งข้อมูลขนาดใหญ่ส่วนใหญ่ ไม่สมบูรณ์ ในแง่ที่ว่าพวกเขาไม่มีข้อมูลที่คุณต้องการสำหรับการวิจัยของคุณ นี่เป็นลักษณะทั่วไปของข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์อื่นนอกเหนือจากงานวิจัย นักวิทยาศาสตร์ทางสังคมหลายคนมีประสบการณ์ในการจัดการกับความไม่สมบูรณ์เช่นการสำรวจที่มีอยู่ซึ่งไม่ได้ถามคำถามที่จำเป็น แต่ปัญหาของความไม่สมบูรณ์มีแนวโน้มที่จะมากขึ้นในข้อมูลขนาดใหญ่ จากประสบการณ์ของผมข้อมูลขนาดใหญ่มีแนวโน้มที่จะหายไปสามประเภทข้อมูลที่เป็นประโยชน์สำหรับการวิจัยทางสังคม: ข้อมูลประชากรเกี่ยวกับผู้เข้าร่วมพฤติกรรมในแพลตฟอร์มอื่น ๆ และข้อมูลเพื่อดำเนินการโครงสร้างทางทฤษฎี
ปัญหาของข้อมูลที่ไม่สมบูรณ์ในการใช้งานทฤษฎีโครงสร้างเป็นปัญหาที่ยากที่สุดในการแก้ปัญหา จากประสบการณ์ของผมมักมองข้ามไป โครงสร้างทางทฤษฎี เป็นแนวคิดรวบยอดที่นักวิทยาศาสตร์ทางสังคมศึกษาและ ดำเนินการ ตามหลักการสร้างทฤษฎีหมายถึงการนำเสนอวิธีในการจับภาพข้อมูลดังกล่าวด้วยข้อมูลที่สามารถสังเกตได้ น่าเสียดายที่กระบวนการที่ทำให้เกิดเสียงง่ายๆนี้มักจะกลายเป็นเรื่องยากทีเดียว ตัวอย่างเช่นลองนึกดูลองทดลองใช้ข้ออ้างที่เห็นได้ชัดว่าผู้ที่ฉลาดกว่าจะมีรายได้มากขึ้น ในการทดสอบการอ้างสิทธิ์นี้คุณจะต้องวัด "ปัญญา" แต่ปัญญาคืออะไร? Gardner (2011) แย้งว่ามีจริงแปดรูปแบบที่แตกต่างกันของปัญญา และมีวิธีการที่สามารถวัดได้อย่างถูกต้องของรูปแบบเหล่านี้ของปัญญา? แม้จะมีงานจำนวนมหาศาลจากนักจิตวิทยาคำถามเหล่านี้ก็ยังไม่มีคำตอบที่แน่ชัด
ดังนั้นแม้การเรียกร้องค่อนข้างง่ายคนที่มีอัจฉริยะมากขึ้นมีรายได้มากขึ้นอาจเป็นเรื่องยากที่จะประเมินเชิงประจักษ์เพราะมันอาจเป็นเรื่องยากที่จะปฏิบัติตามโครงสร้างทางทฤษฎีในข้อมูล ตัวอย่างอื่น ๆ ของโครงสร้างทางทฤษฎีที่มีความสำคัญ แต่ยากต่อการดำเนินงานรวมถึง "บรรทัดฐาน" "ทุนทางสังคม" และ "ประชาธิปไตย" นักวิทยาศาสตร์ทางสังคมเรียกการเปรียบเทียบระหว่างโครงสร้างทางทฤษฎีกับ ความถูกต้องในการสร้าง ข้อมูล (Cronbach and Meehl 1955) เนื่องจากโครงสร้างแบบสั้นนี้แสดงให้เห็นว่าการสร้างความถูกต้องเป็นปัญหาที่นักวิทยาศาสตร์ทางสังคมได้ต่อสู้มาเป็นเวลานาน แต่จากประสบการณ์ของผมปัญหาในการสร้างความถูกต้องยิ่งยิ่งขึ้นเมื่อทำงานกับข้อมูลที่ไม่ได้สร้างขึ้นเพื่อวัตถุประสงค์ในการวิจัย (Lazer 2015)
เมื่อคุณประเมินผลการวิจัยวิธีหนึ่งที่รวดเร็วและมีประโยชน์ในการประเมินความถูกต้องของโครงสร้างคือการนำผลที่ได้ซึ่งมักแสดงออกมาในรูปของโครงสร้างและแสดงข้อมูลใหม่ในรูปของข้อมูลที่ใช้ ตัวอย่างเช่นพิจารณาการศึกษาสมมุติฐานสองข้อที่อ้างว่าแสดงให้เห็นว่าคนที่ฉลาดกว่ามีรายได้มากขึ้น ในการศึกษาครั้งแรกนักวิจัยพบว่าผู้ที่ทำคะแนนได้ดีในการทดสอบ Raven Progressive Matrices Test ซึ่งเป็นแบบทดสอบความรู้ด้านการวิเคราะห์ (Carpenter, Just, and Shell 1990) มีการรายงานรายได้ที่สูงขึ้นในการคืนภาษีของพวกเขา ในการวิจัยครั้งที่สองนักวิจัยพบว่าคนที่ใช้ Twitter ที่ใช้คำพูดยาว ๆ มักจะพูดถึงแบรนด์หรู ในทั้งสองกรณีนักวิจัยเหล่านี้สามารถอ้างได้ว่าพวกเขาได้แสดงให้เห็นว่าคนที่มีไหวพริบมีรายได้มากขึ้น อย่างไรก็ตามในการศึกษาครั้งแรกโครงสร้างทางทฤษฎีมีการใช้งานได้ดีจากข้อมูลในขณะที่ในกรณีที่สองไม่เป็นเช่นนั้น นอกจากนี้เนื่องจากตัวอย่างนี้แสดงให้เห็นว่าข้อมูลเพิ่มเติมไม่สามารถแก้ปัญหาได้โดยอัตโนมัติด้วยความถูกต้องของโครงสร้าง คุณควรสงสัยผลการศึกษาครั้งที่สองว่าเกี่ยวข้องกับการทวีตหนึ่งล้านข้อความหนึ่งพันล้านทวีตหรือหนึ่งพันล้านทวีต สำหรับนักวิจัยที่ไม่คุ้นเคยกับแนวคิดในการสร้างความถูกต้องตารางที่ 2.2 แสดงตัวอย่างบางส่วนของการศึกษาที่มีการใช้งานทฤษฎีโครงสร้างโดยใช้ข้อมูลการสืบค้นแบบดิจิตอล
แหล่งข้อมูล | ทฤษฎีการก่อสร้าง | อ้างอิง |
---|---|---|
บันทึกอีเมลจากมหาวิทยาลัย (ข้อมูลเมตาเท่านั้น) | ความสัมพันธ์ทางสังคม | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
โพสต์สื่อสังคมออนไลน์บน Weibo | ส่วนร่วมของพลเมือง | Zhang (2016) |
บันทึกอีเมลจาก บริษัท (ข้อมูลเมตาและข้อความแบบสมบูรณ์) | วัฒนธรรมที่เหมาะสมในองค์กร | Srivastava et al. (2017) |
แม้ว่าปัญหาเกี่ยวกับข้อมูลที่ไม่สมบูรณ์สำหรับการรวบรวมโครงสร้างทางทฤษฎีค่อนข้างยากที่จะแก้ปัญหา แต่ก็มีวิธีแก้ปัญหาทั่วไปสำหรับประเภทข้อมูลที่ไม่สมบูรณ์อื่น ๆ ได้แก่ ข้อมูลประชากรที่ไม่สมบูรณ์และข้อมูลที่ไม่สมบูรณ์เกี่ยวกับพฤติกรรมบนแพลตฟอร์มอื่น ๆ ทางออกแรกคือการรวบรวมข้อมูลที่คุณต้องการจริงๆ ฉันจะบอกคุณเกี่ยวกับเรื่องนี้ในบทที่ 3 เมื่อฉันบอกคุณเกี่ยวกับแบบสำรวจ การแก้ปัญหาหลักที่สองคือการทำในสิ่งที่นักวิทยาศาสตร์ข้อมูลเรียก ว่าการอนุมานกับผู้ใช้ และนักวิทยาศาสตร์ทางสังคมเรียกการ อภัยโทษ ในแนวทางนี้นักวิจัยใช้ข้อมูลที่พวกเขามีเกี่ยวกับบางคนเพื่ออนุมานถึงคุณลักษณะของคนอื่น ทางออกที่สามคือการรวมข้อมูลหลายแหล่ง กระบวนการนี้บางครั้งเรียกว่า record linkage คำอุปมาที่ฉันชอบสำหรับกระบวนการนี้เขียนขึ้นโดย Dunn (1946) ในวรรคแรกของบทความฉบับแรกที่เขียนเกี่ยวกับการเชื่อมโยงที่บันทึกไว้:
"แต่ละคนในโลกสร้างหนังสือแห่งชีวิต หนังสือเล่มนี้เริ่มต้นด้วยการคลอดและลงเอยด้วยความตาย หน้าของมันถูกสร้างขึ้นจากบันทึกของเหตุการณ์สำคัญในชีวิต การเชื่อมโยงระเบียนคือชื่อที่กำหนดให้กับกระบวนการรวบรวมหน้าเว็บของหนังสือเล่มนี้ลงในไดรฟ์ข้อมูล "
เมื่อ Dunn เขียนว่าเขาคิดว่าหนังสือแห่งชีวิตอาจรวมถึงเหตุการณ์สำคัญในชีวิตเช่นการเกิดการแต่งงานการหย่าร้างและการเสียชีวิต อย่างไรก็ตามตอนนี้ข้อมูลเกี่ยวกับคนจำนวนมากถูกบันทึกลงในหนังสือชีวิตอาจเป็นภาพที่มีรายละเอียดอย่างไม่น่าเชื่อหากหน้าเว็บที่แตกต่าง (เช่นร่องรอยดิจิตอล) ของเราสามารถถูกผูกไว้ด้วยกันได้ หนังสือแห่งชีวิตนี้อาจเป็นแหล่งข้อมูลที่ดีสำหรับนักวิจัย แต่ก็อาจเรียกได้ว่าเป็น ฐานข้อมูลการทำลาย (Ohm 2010) ซึ่งสามารถใช้กับวัตถุประสงค์ที่ผิดจรรยาบรรณได้ทุกประเภทตามที่อธิบายไว้ในบทที่ 6 (จริยธรรม)