แหล่งที่มาของข้อมูลขนาดใหญ่สามารถจะเต็มไปด้วยขยะและสแปม
นักวิจัยบางคนเชื่อว่าแหล่งข้อมูลขนาดใหญ่โดยเฉพาะอย่างยิ่งแหล่งข้อมูลออนไลน์มีความเก่าแก่เนื่องจากถูกรวบรวมโดยอัตโนมัติ ในความเป็นจริงคนที่ทำงานกับแหล่งข้อมูลขนาดใหญ่รู้ว่าพวกเขา สกปรก บ่อยๆ กล่าวคือข้อมูลเหล่านี้มักประกอบด้วยข้อมูลที่ไม่สะท้อนถึงการกระทำที่เป็นประโยชน์ต่อนักวิจัยอย่างแท้จริง นักวิทยาศาสตร์ทางสังคมส่วนใหญ่คุ้นเคยกับกระบวนการทำความสะอาดข้อมูลการสำรวจทางสังคมในวงกว้าง แต่การทำความสะอาดแหล่งข้อมูลขนาดใหญ่ดูเหมือนจะยากขึ้น ฉันคิดว่าแหล่งที่มาที่ดีที่สุดของปัญหานี้ก็คือแหล่งข้อมูลขนาดใหญ่จำนวนมากเหล่านี้ไม่เคยถูกนำมาใช้เพื่อการวิจัยดังนั้นจึงไม่ได้เก็บรวบรวมจัดเก็บและจัดทำเป็นเอกสารในลักษณะที่ช่วยในการทำความสะอาดข้อมูล
อันตรายของข้อมูลการติดตามข้อมูลดิจิทัลที่สกปรกแสดงให้เห็นโดย Back and เพื่อนร่วมงาน (2010) การศึกษาเกี่ยวกับการตอบสนองทางอารมณ์ต่อการโจมตีเมื่อวันที่ 11 กันยายน 2544 ซึ่งผมได้กล่าวไว้ในช่วงสั้น ๆ ในบทนี้ นักวิจัยมักจะศึกษาการตอบสนองต่อเหตุการณ์โศกนาฏกรรมโดยใช้ข้อมูลย้อนหลังที่เก็บรวบรวมได้ในช่วงหลายเดือนหรือหลายปี แต่ Back และเพื่อนร่วมงานได้พบแหล่งข้อมูลดิจิทัลที่มีอยู่ตลอดเวลาซึ่งเป็นข้อความที่บันทึกโดยอัตโนมัติจาก 8500 คนอเมริกันเพจเจอร์และช่วยให้พวกเขาได้ศึกษาการตอบสนองทางอารมณ์ในช่วงเวลาที่ละเอียดมากขึ้น พวกเขาสร้างบรรทัดฐานทางอารมณ์แบบนาทีต่อนาทีโดยการเข้ารหัสเนื้อหาอารมณ์ของข้อความเพจเจอร์ด้วยเปอร์เซ็นต์ของคำที่เกี่ยวข้องกับ (1) ความเศร้า (เช่น "ร้องไห้" และ "ความเศร้าโศก"), (2) ความวิตกกังวล ( เช่น "กังวล" และ "กลัว") และ (3) ความโกรธ (เช่น "เกลียด" และ "สำคัญ") พวกเขาพบว่าความเศร้าและความวิตกกังวลผันผวนตลอดทั้งวันโดยไม่มีรูปแบบที่แข็งแกร่ง แต่นั่นทำให้ความโกรธเพิ่มขึ้นอย่างน่าประทับใจตลอดทั้งวัน งานวิจัยชิ้นนี้ดูเหมือนจะเป็นภาพประกอบที่ยอดเยี่ยมในเรื่องของแหล่งข้อมูลที่มีอยู่เสมอ: ถ้าใช้แหล่งข้อมูลแบบเดิมแล้วจะเป็นไปไม่ได้ที่จะได้รับช่วงเวลาที่มีความละเอียดสูงในการตอบสนองต่อเหตุการณ์ที่ไม่คาดคิด
เพียงหนึ่งปีหลังจากนั้น Cynthia Pury (2011) มองข้อมูลนี้อย่างระมัดระวัง เธอค้นพบว่ามีข้อความโกรธจำนวนมากที่สร้างขึ้นโดยเพจเจอร์ตัวเดียวและพวกเขาเหมือนกันทั้งหมด นี่คือสิ่งที่บรรดาข้อความที่โกรธตามที่คาดคะเนกล่าวไว้:
"เครื่อง Reboot NT [ชื่อ] ในตู้ [ชื่อ] คนที่ [ตั้ง]: สำคัญ: [วันที่และเวลา]"
ข้อความเหล่านี้ถูกระบุว่าโกรธเนื่องจากมีคำว่า "CRITICAL" ซึ่งอาจแสดงถึงความโกรธ แต่ในกรณีนี้ไม่ได้ การลบข้อความที่สร้างขึ้นโดยเครื่องตรวจจับอัตโนมัติตัวเดียวนี้จะช่วยลดความชัดเจนที่เพิ่มขึ้นในช่วงเวลาของวัน (รูปที่ 2.4) ในคำอื่น ๆ ผลหลักใน Back, Küfner, and Egloff (2010) เป็นสิ่งประดิษฐ์ของเครื่องเพจเจอร์หนึ่งเครื่อง ดังตัวอย่างนี้แสดงให้เห็นว่าการวิเคราะห์ข้อมูลที่ค่อนข้างซับซ้อนและยุ่งเหยิงค่อนข้างง่ายอาจทำให้เกิดความผิดพลาดร้ายแรงได้
แม้ว่าข้อมูลสกปรกที่สร้างขึ้นโดยไม่ได้ตั้งใจเช่นที่มาจากเครื่องเพจเจอร์ที่มีเสียงรบกวนสามารถตรวจพบได้โดยนักวิจัยที่มีเหตุผลพอสมควรนอกจากนี้ยังมีระบบออนไลน์ที่ดึงดูดผู้ส่งอีเมลขยะโดยเจตนา ผู้ส่งอีเมลขยะเหล่านี้สร้างข้อมูลปลอมอย่างจริงจังและมักมีสาเหตุมาจากการทำงานเพื่อผลกำไรอย่างหนักเพื่อไม่ให้สแปมปกปิด ตัวอย่างเช่นกิจกรรมทางการเมืองใน Twitter ดูเหมือนว่าจะมีสแปมที่มีความซับซ้อนอยู่บ้างอย่างน้อยหนึ่งเหตุผลด้วยเหตุที่สาเหตุทางการเมืองบางอย่างทำให้เกิดความนิยมมากขึ้นกว่าที่เป็นจริง (Ratkiewicz et al. 2011) น่าเสียดายที่การลบสแปมโดยเจตนาอาจเป็นเรื่องยาก
แน่นอนสิ่งที่ถือเป็นข้อมูลสกปรกสามารถขึ้นอยู่กับบางส่วนของคำถามการวิจัยได้ ตัวอย่างเช่นการแก้ไขหลาย ๆ วิกิพีเดียถูกสร้างขึ้นโดยบอทอัตโนมัติ (Geiger 2014) หากคุณสนใจในนิเวศวิทยาของวิกิพีเดียการแก้ไขที่สร้างขึ้นโดยผู้ดูแลระบบเหล่านี้มีความสำคัญ แต่ถ้าคุณสนใจว่ามนุษย์มีส่วนช่วยในวิกิพีเดียคุณควรยกเว้นการแก้ไขที่สร้างโดยผู้บุกรุก
ไม่มีเทคนิคทางสถิติหรือวิธีการเดียวที่สามารถมั่นใจได้ว่าคุณได้ล้างข้อมูลสกปรกของคุณไว้อย่างเพียงพอแล้ว ในตอนท้ายฉันคิดว่าวิธีที่ดีที่สุดในการหลีกเลี่ยงการถูกหลอกโดยข้อมูลที่สกปรกคือการทำความเข้าใจเกี่ยวกับการสร้างข้อมูลของคุณให้มากที่สุดเท่าที่จะเป็นไปได้