2.3.2.6 สกปรก

แหล่งที่มาของข้อมูลขนาดใหญ่สามารถจะเต็มไปด้วยขยะและสแปม

นักวิจัยบางคนเชื่อว่าแหล่งที่มาของข้อมูลขนาดใหญ่โดยเฉพาะอย่างยิ่งผู้ที่มาจากแหล่งข้อมูลออนไลน์เป็นที่เก่าแก่เพราะพวกเขาจะเก็บไว้โดยอัตโนมัติ ในความเป็นจริงคนที่ได้ทำงานร่วมกับแหล่งที่มาของข้อมูลขนาดใหญ่รู้ว่าพวกเขาจะสกปรกบ่อย นั่นคือพวกเขามักมีข้อมูลที่ไม่ได้สะท้อนให้เห็นถึงการกระทำที่แท้จริงของความสนใจที่นักวิจัย สังคมนักวิทยาศาสตร์หลายคนมีความคุ้นเคยกับขั้นตอนของการทำความสะอาดขนาดใหญ่การสำรวจข้อมูลทางสังคม แต่การทำความสะอาดแหล่งที่มาของข้อมูลขนาดใหญ่เป็นเรื่องยากมากขึ้นด้วยเหตุผลสองประการคือ 1) พวกเขาไม่ได้สร้างขึ้นโดยนักวิจัยสำหรับนักวิจัยและ 2) นักวิจัยโดยทั่วไปมีความเข้าใจน้อยของวิธีการ พวกเขาสร้างขึ้น

อันตรายของข้อมูลดิจิตอลร่องรอยสกปรกจะแสดงโดยกลับไปและเพื่อนร่วมงาน (2010) การศึกษาการตอบสนองทางอารมณ์ต่อการโจมตีของวันที่ 11 กันยายน 2001 นักวิจัยมักจะศึกษาการตอบสนองต่อเหตุการณ์โศกนาฏกรรมโดยใช้ข้อมูลย้อนหลังที่เก็บรวบรวมในช่วงหลายเดือนหรือเป็นปี แต่กลับพบและเพื่อนร่วมงานตลอดเวลาในแหล่งที่มาของร่องรอย-ดิจิตอล timestamped, ข้อความที่บันทึกไว้โดยอัตโนมัติจาก 85,000 อเมริกันวิทยุติดตามตัวและเปิดใช้งานนี้นักวิจัยในการศึกษาการตอบสนองทางอารมณ์ในระยะเวลาปลีกย่อยมาก กลับและเพื่อนร่วมงานที่สร้างขึ้นนาทีโดยนาทีไทม์ไลน์ของอารมณ์ของ 11 กันยายนโดยการเข้ารหัสเนื้อหาอารมณ์ของข้อความเพจเจอร์โดยร้อยละของคำที่เกี่ยวข้องกับ (1) ความโศกเศร้า (เช่นร้องไห้เศร้าโศก), (2) ความวิตกกังวล (เช่น กังวลกลัว) และ (3) ความโกรธ (เช่นความเกลียดชังที่สำคัญ) พวกเขาพบว่าความโศกเศร้าและความวิตกกังวลความผันผวนตลอดทั้งวันโดยไม่ต้องมีรูปแบบที่แข็งแกร่ง แต่ที่มีการเพิ่มขึ้นโดดเด่นด้วยความโกรธตลอดทั้งวัน การวิจัยครั้งนี้น่าจะเป็นตัวอย่างที่ยอดเยี่ยมของอำนาจของเสมอกับแหล่งที่มาของข้อมูล: ใช้วิธีการมาตรฐานมันจะเป็นไปไม่ได้ที่จะมีระยะเวลาดังกล่าวมีความละเอียดสูงของการตอบสนองทันทีเพื่อเป็นเหตุการณ์ที่ไม่คาดคิด

เพียงหนึ่งปีต่อมา แต่ซินเทีย Pury (2011) มองไปที่ข้อมูลอย่างระมัดระวังมากขึ้น เธอค้นพบว่าจำนวนมากของข้อความคาดคะเนโกรธที่ถูกสร้างขึ้นโดยเพจเจอร์เดียวและพวกเขาก็เหมือนกันทั้งหมด นี่คือสิ่งที่ผู้ที่ข้อความโกรธที่คาดคะเนกล่าวว่า:

"เครื่อง Reboot NT [ชื่อ] ในตู้ [ชื่อ] คนที่ [ตั้ง]: สำคัญ: [วันที่และเวลา]"

ข้อความเหล่านี้ถูกระบุโกรธเพราะพวกเขารวมถึงคำว่า "วิกฤต" ซึ่งโดยทั่วไปอาจบ่งบอกถึงความโกรธ แต่ไม่ได้ในกรณีนี้ การลบข้อความที่สร้างขึ้นโดยอัตโนมัติวิทยุติดตามตัวเดียวนี้สมบูรณ์ลดการเพิ่มขึ้นอย่างเห็นได้ชัดในความโกรธในช่วงของวันที่ (รูปที่ 2.2) ในคำอื่น ๆ ผลหลักในการ Back, Küfner, and Egloff (2010) เป็นสิ่งประดิษฐ์ของหนึ่งเพจเจอร์ เป็นตัวอย่างนี้แสดงให้เห็นการวิเคราะห์ค่อนข้างง่ายของข้อมูลค่อนข้างซับซ้อนและยุ่งมีศักยภาพที่จะไปผิดอย่างจริงจัง

รูปที่ 2.2: แนวโน้มประมาณในความโกรธในช่วง 11 กันยายน 2001 ขึ้นอยู่กับวิทยุติดตามตัว 85,000 อเมริกัน (กลับ KUFNER และ Egloff 2010 Pury ปี 2011 กลับ KUFNER และ Egloff 2011) แต่เดิมกลับ KUFNER และ Egloff (2010) รายงานรูปแบบของความโกรธเพิ่มขึ้นตลอดทั้งวัน แต่ส่วนใหญ่ของข้อความเหล่านี้เห็นได้ชัดโกรธที่ถูกสร้างขึ้นโดยเพจเจอร์เดียวที่ซ้ำ ๆ ส่งข้อความต่อไปนี้: NT Reboot เครื่อง [ชื่อ] ในตู้ [ชื่อ] คนที่ [ตั้ง]: สำคัญ: [วันที่และเวลา] กับข้อความนี้ถูกลบออกที่เพิ่มขึ้นอย่างเห็นได้ชัดในความโกรธหายไป (Pury ปี 2011 กลับ KUFNER และ Egloff 2011) รูปนี้เป็นรูปที่ทำสำเนา 1B ใน Pury (2011) ก

รูปที่ 2.2: แนวโน้มประมาณในความโกรธในช่วง 11 กันยายน 2001 ขึ้นอยู่กับ 85,000 วิทยุติดตามตัวชาวอเมริกัน (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) แต่เดิม Back, Küfner, and Egloff (2010) รายงานรูปแบบของความโกรธเพิ่มขึ้นตลอดทั้งวัน แต่ส่วนใหญ่ของข้อความเหล่านี้เห็นได้ชัดโกรธที่ถูกสร้างขึ้นโดยเพจเจอร์เดียวที่ซ้ำ ๆ ส่งข้อความต่อไปนี้: "Reboot เครื่อง NT [ชื่อ] ในตู้ [ชื่อ] คนที่ [ตั้ง]: สำคัญ: [วันที่และเวลา]" กับข้อความนี้ถูกลบออกที่เพิ่มขึ้นอย่างเห็นได้ชัดในความโกรธหายไป (Pury 2011; Back, Küfner, and Egloff 2011) รูปนี้เป็นรูปที่ทำสำเนา 1B ใน Pury (2011)

ในขณะที่ข้อมูลสกปรกที่ถูกสร้างขึ้นโดยไม่ได้ตั้งใจเช่นจากที่หนึ่งที่มีเสียงดังเพจเจอร์-สามารถตรวจพบโดยนักวิจัยระมัดระวังพอสมควรนอกจากนี้ยังมีบางระบบออนไลน์ที่ดึงดูดความสนใจของผู้ส่งอีเมลขยะโดยเจตนา ส่งอีเมลขยะเหล่านี้อย่างแข็งขันสร้างข้อมูลปลอมและมักจะมีแรงจูงใจจากผลกำไรที่ทำงานหนักมากเพื่อให้สแปมของพวกเขาปกปิด ยกตัวอย่างเช่นกิจกรรมทางการเมืองบนทวิตเตอร์ดูเหมือนว่าจะมีอย่างน้อยบางส่วนสแปมที่มีความซับซ้อนพอสมควรโดยสาเหตุทางการเมืองจะทำโดยเจตนาที่จะมองไปที่นิยมมากขึ้นกว่าที่พวกเขาเกิดขึ้นจริง (Ratkiewicz et al. 2011) นักวิจัยที่ทำงานกับข้อมูลที่อาจมีเจตนาสแปมเผชิญกับความท้าทายของการโน้มน้าวใจผู้ชมของพวกเขาที่พวกเขาได้ตรวจพบและลบออกสแปมที่เกี่ยวข้อง

สุดท้ายสิ่งที่ถือว่าเป็นข้อมูลที่สกปรกสามารถขึ้นอยู่ในรูปแบบที่ลึกซึ้งตามคำถามวิจัยของคุณ ยกตัวอย่างเช่นการแก้ไขหลายวิกิพีเดียถูกสร้างขึ้นโดยอัตโนมัติบอท (Geiger 2014) หากคุณมีความสนใจในระบบนิเวศของวิกิพีเดียแล้วบอทเหล่านี้มีความสำคัญ แต่ถ้าคุณมีความสนใจในวิธีการที่มนุษย์นำไปสู่​​วิกิพีเดียแก้ไขเหล่านี้ทำโดยบอทเหล่านี้ควรได้รับการยกเว้น

วิธีที่ดีที่สุดที่จะหลีกเลี่ยงการถูกหลอกโดยข้อมูลที่สกปรกจะเข้าใจวิธีการที่ข้อมูลของคุณถูกสร้างขึ้นเพื่อดำเนินการวิเคราะห์สอบสวนที่เรียบง่ายเช่นการทำแผนการกระจายง่าย