2.3.2.4 ดริฟท์

ดริฟท์ของประชากรลอยการใช้งานและการดริฟท์ระบบทำให้ยากที่จะใช้แหล่งข้อมูลขนาดใหญ่เพื่อศึกษาแนวโน้มระยะยาว

หนึ่งในข้อได้เปรียบที่ดีของหลายแหล่งที่มาของข้อมูลขนาดใหญ่ที่พวกเขาเก็บรวบรวมข้อมูลในช่วงเวลา นักวิทยาศาสตร์สังคมเรียกชนิดของข้อมูลในช่วงเวลานี้ข้อมูลระยะยาว และธรรมชาติข้อมูลระยะยาวมีความสำคัญมากสำหรับการศึกษาการเปลี่ยนแปลง เพื่อที่จะได้อย่างน่าเชื่อถือในการวัดการเปลี่ยนแปลง แต่ระบบการวัดที่ตัวเองจะต้องมีเสถียรภาพ ในคำพูดของโอทิสสังคมวิทยาดัดลีย์ดันแคน "ถ้าคุณต้องการที่จะวัดการเปลี่ยนแปลงไม่ได้เปลี่ยนมาตรการ" (Fischer 2011)

แต่น่าเสียดายที่หลายระบบโดยเฉพาะอย่างยิ่งข้อมูลขนาดใหญ่ระบบธุรกิจที่สร้างและจับร่องรอย-ดิจิตอลเปลี่ยนแปลงอยู่ตลอดเวลาซึ่งเป็นกระบวนการที่ฉันจะเรียกดริฟท์ โดยเฉพาะอย่างยิ่งระบบเหล่านี้มีการเปลี่ยนแปลงในสามวิธีหลัก: ประชากรลอย (การเปลี่ยนแปลงในการที่จะใช้พวกเขา), ดริฟท์พฤติกรรม (การเปลี่ยนแปลงวิธีที่ผู้คนใช้พวกเขา) และดริฟท์ระบบ (การเปลี่ยนแปลงในระบบเอง) แหล่งที่สามของลอยหมายความว่ารูปแบบใด ๆ ในข้อมูลร่องรอยดิจิตอลอาจจะเกิดจากการเปลี่ยนแปลงที่สำคัญในโลกหรือมันอาจจะเกิดจากรูปแบบของการดริฟท์บางส่วน

แหล่งแรกของลอยประชากรดริฟท์แบบที่ใช้ระบบและการเปลี่ยนแปลงนี้บนเครื่องชั่งน้ำหนักเป็นเวลานานและเครื่องชั่งน้ำหนักเวลาสั้น ยกตัวอย่างเช่นจาก 2008 ที่จะนำเสนอที่อายุเฉลี่ยของผู้คนในสังคมสื่อได้เพิ่มขึ้น นอกจากนี้แนวโน้มระยะยาวคนที่ใช้ระบบในขณะใด ๆ แตกต่างกันไป ตัวอย่างเช่นในระหว่างการเลือกตั้งประธานาธิบดีสหรัฐในปี 2012 สัดส่วนของทวีตเกี่ยวกับการเมืองที่ถูกเขียนโดยผู้หญิงพลิกผันไปในแต่ละวัน (Diaz et al. 2016) ดังนั้นสิ่งที่อาจปรากฏว่าจะมีการเปลี่ยนแปลงในอารมณ์ของทวิตเตอร์กลอนอาจจริงเพียงมีการเปลี่ยนแปลงในที่มีการพูดคุยในช่วงเวลาใด

นอกจากนี้การเปลี่ยนแปลงในผู้ที่ใช้ระบบนี้ยังมีการเปลี่ยนแปลงวิธีการที่ระบบที่มีการใช้ ตัวอย่างเช่นในระหว่างการประท้วงครอบครอง Gezi ปาร์คในอิสตันบูล, ตุรกีประท้วงในปี 2013 การเปลี่ยนแปลงของการใช้แฮชแท็กประท้วงวิวัฒน์ นี่คือวิธีที่ Zeynep tufekci (2014) อธิบายดริฟท์ซึ่งเธอก็สามารถที่จะตรวจสอบเพราะเธอสังเกตพฤติกรรมบนทวิตเตอร์และบนพื้นดิน:

"สิ่งที่เกิดขึ้นก็คือว่าเร็วที่สุดเท่าที่การประท้วงกลายเป็นเรื่องเด่น, ผู้คนจำนวนมาก . . หยุดใช้แฮชแท็กยกเว้นเพื่อดึงดูดความสนใจเป็นปรากฏการณ์ใหม่ . .. ในขณะที่การประท้วงอย่างต่อเนื่องและทวีความรุนแรงมากยิ่ง hashtags เสียชีวิตลง สัมภาษณ์เปิดเผยสองเหตุผลนี้ ครั้งแรกเมื่อทุกคนรู้หัวข้อ hashtag ได้ในครั้งเดียวฟุ่มเฟือยและสิ้นเปลืองในลักษณะ จำกัด แพลตฟอร์มทวิตเตอร์ ประการที่สองแฮชแท็กได้เห็นเพียง แต่เป็นประโยชน์สำหรับการดึงดูดความสนใจกับหัวข้อใดไม่ได้สำหรับการพูดคุยเกี่ยวกับมัน. "

ดังนั้นนักวิจัยที่ได้รับการเรียนการประท้วงโดยการวิเคราะห์ทวีตกับแฮชแท็กที่เกี่ยวข้องกับการประท้วงจะมีความรู้สึกที่บิดเบี้ยวของสิ่งที่เกิดขึ้นเนื่องจากการดริฟท์พฤติกรรมนี้ ตัวอย่างเช่นพวกเขาอาจจะเชื่อว่าการอภิปรายของการประท้วงลดลงนานก่อนที่จะลดลงจริง

ชนิดที่สามของการดริฟท์เป็นระบบดริฟท์ ในกรณีนี้มันไม่ได้เป็นคนที่มีการเปลี่ยนแปลงหรือการเปลี่ยนแปลงพฤติกรรมของพวกเขา แต่ระบบเองเปลี่ยน ยกตัวอย่างเช่นในช่วงเวลาที่เพิ่มขึ้น Facebook ได้ จำกัด อยู่กับระยะเวลาของการอัพเดตสถานะ ดังนั้นใด ๆ การศึกษาระยะยาวของการปรับปรุงสถานะจะเป็นความเสี่ยงที่จะสิ่งประดิษฐ์ที่เกิดจากการเปลี่ยนแปลงนี้ ระบบการดริฟท์จะต้องเกี่ยวข้องกับปัญหาที่เรียกว่าอัลกอริทึมรบกวนซึ่งตอนนี้เราหัน