2.3.9 สกปรก

แหล่งที่มาของข้อมูลขนาดใหญ่สามารถจะเต็มไปด้วยขยะและสแปม

นักวิจัยบางคนเชื่อว่าแหล่งข้อมูลขนาดใหญ่โดยเฉพาะอย่างยิ่งแหล่งข้อมูลออนไลน์มีความเก่าแก่เนื่องจากถูกรวบรวมโดยอัตโนมัติ ในความเป็นจริงคนที่ทำงานกับแหล่งข้อมูลขนาดใหญ่รู้ว่าพวกเขา สกปรก บ่อยๆ กล่าวคือข้อมูลเหล่านี้มักประกอบด้วยข้อมูลที่ไม่สะท้อนถึงการกระทำที่เป็นประโยชน์ต่อนักวิจัยอย่างแท้จริง นักวิทยาศาสตร์ทางสังคมส่วนใหญ่คุ้นเคยกับกระบวนการทำความสะอาดข้อมูลการสำรวจทางสังคมในวงกว้าง แต่การทำความสะอาดแหล่งข้อมูลขนาดใหญ่ดูเหมือนจะยากขึ้น ฉันคิดว่าแหล่งที่มาที่ดีที่สุดของปัญหานี้ก็คือแหล่งข้อมูลขนาดใหญ่จำนวนมากเหล่านี้ไม่เคยถูกนำมาใช้เพื่อการวิจัยดังนั้นจึงไม่ได้เก็บรวบรวมจัดเก็บและจัดทำเป็นเอกสารในลักษณะที่ช่วยในการทำความสะอาดข้อมูล

อันตรายของข้อมูลการติดตามข้อมูลดิจิทัลที่สกปรกแสดงให้เห็นโดย Back and เพื่อนร่วมงาน (2010) การศึกษาเกี่ยวกับการตอบสนองทางอารมณ์ต่อการโจมตีเมื่อวันที่ 11 กันยายน 2544 ซึ่งผมได้กล่าวไว้ในช่วงสั้น ๆ ในบทนี้ นักวิจัยมักจะศึกษาการตอบสนองต่อเหตุการณ์โศกนาฏกรรมโดยใช้ข้อมูลย้อนหลังที่เก็บรวบรวมได้ในช่วงหลายเดือนหรือหลายปี แต่ Back และเพื่อนร่วมงานได้พบแหล่งข้อมูลดิจิทัลที่มีอยู่ตลอดเวลาซึ่งเป็นข้อความที่บันทึกโดยอัตโนมัติจาก 8500 คนอเมริกันเพจเจอร์และช่วยให้พวกเขาได้ศึกษาการตอบสนองทางอารมณ์ในช่วงเวลาที่ละเอียดมากขึ้น พวกเขาสร้างบรรทัดฐานทางอารมณ์แบบนาทีต่อนาทีโดยการเข้ารหัสเนื้อหาอารมณ์ของข้อความเพจเจอร์ด้วยเปอร์เซ็นต์ของคำที่เกี่ยวข้องกับ (1) ความเศร้า (เช่น "ร้องไห้" และ "ความเศร้าโศก"), (2) ความวิตกกังวล ( เช่น "กังวล" และ "กลัว") และ (3) ความโกรธ (เช่น "เกลียด" และ "สำคัญ") พวกเขาพบว่าความเศร้าและความวิตกกังวลผันผวนตลอดทั้งวันโดยไม่มีรูปแบบที่แข็งแกร่ง แต่นั่นทำให้ความโกรธเพิ่มขึ้นอย่างน่าประทับใจตลอดทั้งวัน งานวิจัยชิ้นนี้ดูเหมือนจะเป็นภาพประกอบที่ยอดเยี่ยมในเรื่องของแหล่งข้อมูลที่มีอยู่เสมอ: ถ้าใช้แหล่งข้อมูลแบบเดิมแล้วจะเป็นไปไม่ได้ที่จะได้รับช่วงเวลาที่มีความละเอียดสูงในการตอบสนองต่อเหตุการณ์ที่ไม่คาดคิด

เพียงหนึ่งปีหลังจากนั้น Cynthia Pury (2011) มองข้อมูลนี้อย่างระมัดระวัง เธอค้นพบว่ามีข้อความโกรธจำนวนมากที่สร้างขึ้นโดยเพจเจอร์ตัวเดียวและพวกเขาเหมือนกันทั้งหมด นี่คือสิ่งที่บรรดาข้อความที่โกรธตามที่คาดคะเนกล่าวไว้:

"เครื่อง Reboot NT [ชื่อ] ในตู้ [ชื่อ] คนที่ [ตั้ง]: สำคัญ: [วันที่และเวลา]"

ข้อความเหล่านี้ถูกระบุว่าโกรธเนื่องจากมีคำว่า "CRITICAL" ซึ่งอาจแสดงถึงความโกรธ แต่ในกรณีนี้ไม่ได้ การลบข้อความที่สร้างขึ้นโดยเครื่องตรวจจับอัตโนมัติตัวเดียวนี้จะช่วยลดความชัดเจนที่เพิ่มขึ้นในช่วงเวลาของวัน (รูปที่ 2.4) ในคำอื่น ๆ ผลหลักใน Back, Küfner, and Egloff (2010) เป็นสิ่งประดิษฐ์ของเครื่องเพจเจอร์หนึ่งเครื่อง ดังตัวอย่างนี้แสดงให้เห็นว่าการวิเคราะห์ข้อมูลที่ค่อนข้างซับซ้อนและยุ่งเหยิงค่อนข้างง่ายอาจทำให้เกิดความผิดพลาดร้ายแรงได้

ภาพ 2.4: แนวโน้มโดยประมาณในความโกรธในช่วงวันที่ 11 กันยายน 2544 ตาม 85,000 วิทยุติดตามตัวชาวอเมริกัน (Back, Küfner, และ Egloff 2010, 2011; Pury 2011) ในขั้นต้นกลับKüfnerและ Egloff (2010) รายงานรูปแบบการเพิ่มความโกรธตลอดทั้งวัน อย่างไรก็ตามข้อความโกรธที่เห็นได้ชัดเหล่านี้ส่วนใหญ่สร้างขึ้นโดยเครื่องเพจเจอร์เดียวที่ส่งข้อความต่อไปนี้ซ้ำ ๆ กัน: รีบูต NT machine [name] ในตู้ [name] ที่ [location]: CRITICAL: [date and time] เมื่อลบข้อความนี้ความโกรธที่เพิ่มขึ้นจะหายไป (Pury 2011; Back, Küfnerและ Egloff 2011) ดัดแปลงมาจาก Pury (2011) รูปที่ 1b

ภาพ 2.4: แนวโน้มโดยประมาณในความโกรธในช่วงวันที่ 11 กันยายน 2544 ตาม 85,000 วิทยุติดตามตัวชาวอเมริกัน (Back, Küfner, and Egloff 2010, 2011; Pury 2011) ในขั้นต้น Back, Küfner, and Egloff (2010) รายงานรูปแบบการเพิ่มความโกรธตลอดทั้งวัน อย่างไรก็ตามข้อความส่วนใหญ่ที่โกรธเห็นได้ชัดเหล่านี้ถูกสร้างขึ้นโดยเครื่องเพจเจอร์ตัวเดียวที่ส่งข้อความต่อไปนี้ออกมาเรื่อย ๆ : "Reboot NT machine [name] in cabinet [name] at [location]: CRITICAL: [date and time]" เมื่อลบข้อความนี้ความโกรธที่เพิ่มขึ้นจะหายไป (Pury 2011; Back, Küfner, and Egloff 2011) ดัดแปลงมาจาก Pury (2011) รูปที่ 1b

แม้ว่าข้อมูลสกปรกที่สร้างขึ้นโดยไม่ได้ตั้งใจเช่นที่มาจากเครื่องเพจเจอร์ที่มีเสียงรบกวนสามารถตรวจพบได้โดยนักวิจัยที่มีเหตุผลพอสมควรนอกจากนี้ยังมีระบบออนไลน์ที่ดึงดูดผู้ส่งอีเมลขยะโดยเจตนา ผู้ส่งอีเมลขยะเหล่านี้สร้างข้อมูลปลอมอย่างจริงจังและมักมีสาเหตุมาจากการทำงานเพื่อผลกำไรอย่างหนักเพื่อไม่ให้สแปมปกปิด ตัวอย่างเช่นกิจกรรมทางการเมืองใน Twitter ดูเหมือนว่าจะมีสแปมที่มีความซับซ้อนอยู่บ้างอย่างน้อยหนึ่งเหตุผลด้วยเหตุที่สาเหตุทางการเมืองบางอย่างทำให้เกิดความนิยมมากขึ้นกว่าที่เป็นจริง (Ratkiewicz et al. 2011) น่าเสียดายที่การลบสแปมโดยเจตนาอาจเป็นเรื่องยาก

แน่นอนสิ่งที่ถือเป็นข้อมูลสกปรกสามารถขึ้นอยู่กับบางส่วนของคำถามการวิจัยได้ ตัวอย่างเช่นการแก้ไขหลาย ๆ วิกิพีเดียถูกสร้างขึ้นโดยบอทอัตโนมัติ (Geiger 2014) หากคุณสนใจในนิเวศวิทยาของวิกิพีเดียการแก้ไขที่สร้างขึ้นโดยผู้ดูแลระบบเหล่านี้มีความสำคัญ แต่ถ้าคุณสนใจว่ามนุษย์มีส่วนช่วยในวิกิพีเดียคุณควรยกเว้นการแก้ไขที่สร้างโดยผู้บุกรุก

ไม่มีเทคนิคทางสถิติหรือวิธีการเดียวที่สามารถมั่นใจได้ว่าคุณได้ล้างข้อมูลสกปรกของคุณไว้อย่างเพียงพอแล้ว ในตอนท้ายฉันคิดว่าวิธีที่ดีที่สุดในการหลีกเลี่ยงการถูกหลอกโดยข้อมูลที่สกปรกคือการทำความเข้าใจเกี่ยวกับการสร้างข้อมูลของคุณให้มากที่สุดเท่าที่จะเป็นไปได้