2.3.2.3 ไม่ตัวแทน

สองแหล่งที่มาของการไม่มูลประชากรแตกต่างกันและการใช้งานที่แตกต่างกันรูปแบบ

ข้อมูลขนาดใหญ่มีแนวโน้มที่จะลำเอียงอย่างเป็นระบบในสองวิธีหลัก นี้ไม่จำเป็นต้องทำให้เกิดปัญหาสำหรับชนิดของการวิเคราะห์ทั้งหมด แต่สำหรับการวิเคราะห์บางคนก็อาจจะเป็นข้อบกพร่องที่สำคัญ

แหล่งแรกของระบบอคติคือคนที่ถูกจับโดยทั่วไปจะมีค่าเป็นจักรวาลที่สมบูรณ์ของทุกคนหรือตัวอย่างที่สุ่มจากประชากรที่เฉพาะเจาะจงใด ๆ ยกตัวอย่างเช่นชาวอเมริกันบนทวิตเตอร์ไม่ได้เป็นตัวอย่างที่สุ่มของชาวอเมริกัน (Hargittai 2015) แหล่งที่สองของระบบอคติคือหลายระบบข้อมูลขนาดใหญ่จับการกระทำและบางคนมีส่วนร่วมในการดำเนินการอื่น ๆ อีกมากมายกว่าคนอื่น ๆ ยกตัวอย่างเช่นบางคนบนทวิตเตอร์มีส่วนร่วมหลายร้อยเท่าทวีตมากกว่าคนอื่น ๆ ดังนั้นเหตุการณ์ที่เกิดขึ้นบนแพลตฟอร์มที่เฉพาะเจาะจงสามารถมากกว่าที่เคยหนักสะท้อนของกลุ่มย่อยบางกว่าแพลตฟอร์มของตัวเอง

โดยปกตินักวิจัยต้องการที่จะรู้มากเกี่ยวกับข้อมูลที่พวกเขามี แต่กำหนดลักษณะที่ไม่ใช่ตัวแทนของข้อมูลขนาดใหญ่จะเป็นประโยชน์เพื่อยังพลิกความคิดของคุณ นอกจากนี้คุณยังจำเป็นต้องรู้มากเกี่ยวกับข้อมูลที่คุณไม่ได้มี นี่คือความจริงโดยเฉพาะอย่างยิ่งเมื่อข้อมูลที่คุณไม่จำเป็นต้องมีระบบที่แตกต่างจากข้อมูลที่คุณมี ตัวอย่างเช่นถ้าคุณมีบันทึกการโทรจาก บริษัท โทรศัพท์มือถือในประเทศกำลังพัฒนาคุณควรคิดไม่เพียงเกี่ยวกับคนที่อยู่ในชุดของคุณ แต่ยังเกี่ยวกับคนที่อาจจะไม่ดีเกินไปที่จะเป็นเจ้าของโทรศัพท์มือถือ นอกจากนี้ในบทที่ 3 เราจะได้เรียนรู้เกี่ยวกับวิธีการถ่วงน้ำหนักสามารถช่วยให้นักวิจัยที่จะทำให้ประมาณการที่ดีขึ้นจากข้อมูลที่ไม่ใช่ตัวแทน