2.3.8

พฤติกรรมในระบบข้อมูลขนาดใหญ่ไม่ใช่เรื่องธรรมชาติ มันถูกขับเคลื่อนโดยเป้าหมายทางวิศวกรรมของระบบ

แม้ว่าหลายแหล่งข้อมูลขนาดใหญ่จะไม่มีการตอบสนองเนื่องจากผู้คนไม่ตระหนักถึงข้อมูลของตนในการบันทึก (ส่วน 2.3.3) นักวิจัยไม่ควรพิจารณาพฤติกรรมในระบบออนไลน์เหล่านี้ว่าเป็น "ธรรมชาติ" ในความเป็นจริงระบบดิจิทัลที่บันทึกพฤติกรรมเป็น ออกแบบมาเพื่อกระตุ้นพฤติกรรมบางอย่างเช่นการคลิกโฆษณาหรือโพสต์เนื้อหา วิธีการที่เป้าหมายของนักออกแบบระบบสามารถแนะนำรูปแบบในข้อมูลเรียกว่า อัลกอริธึม confounding การข่มขู่อัลกอริธึมเป็นสิ่งที่นักวิทยาศาสตร์ทางสังคมไม่รู้จักนัก แต่เป็นเรื่องสำคัญที่นักวิทยาศาสตร์ข้อมูลต้องระมัดระวัง และแตกต่างจากปัญหาอื่น ๆ ที่เกิดขึ้นกับร่องรอยของระบบดิจิทัลซึ่งทำให้ไม่สามารถมองเห็นได้

ตัวอย่างง่ายๆในการจำแนกอัลกอริทึมคือข้อเท็จจริงที่ว่าใน Facebook มีผู้ใช้จำนวนมากที่มีเพื่อนประมาณ 20 คนโดยที่ Johan Ugander และเพื่อนร่วมงาน (2011) ค้นพบ นักวิทยาศาสตร์วิเคราะห์ข้อมูลนี้โดยไม่ต้องเข้าใจว่า Facebook สามารถทำงานได้อย่างแน่นอนจะสร้างเรื่องราวมากมายเกี่ยวกับจำนวนสังคมที่มีขลังเป็นอย่างไร โชคดีที่ Ugander และเพื่อนร่วมงานของเขามีความเข้าใจอย่างมากเกี่ยวกับกระบวนการที่สร้างข้อมูลและพวกเขารู้ว่า Facebook สนับสนุนให้คนที่มีการเชื่อมต่อน้อยบน Facebook เพื่อสร้างเพื่อนมากขึ้นจนกว่าพวกเขาจะมาถึง 20 คน แม้ว่า Ugander และเพื่อนร่วมงานไม่ได้กล่าวอย่างนี้ในเอกสารนโยบายนี้ก็น่าจะถูกสร้างขึ้นโดย Facebook เพื่อกระตุ้นให้ผู้ใช้ใหม่ ๆ มีความกระตือรือร้นมากขึ้น หากไม่ทราบเกี่ยวกับนโยบายนี้ แต่คุณสามารถสรุปข้อสรุปที่ไม่ถูกต้องจากข้อมูลได้ง่าย กล่าวได้ว่าจำนวนผู้คนจำนวนมากที่มีเพื่อนประมาณ 20 คนบอกเราเกี่ยวกับ Facebook มากกว่าเรื่องพฤติกรรมของมนุษย์

ในตัวอย่างก่อนหน้านี้การรบกวนแบบอัลกอรึทึมทำให้เกิดผลแปลกใหม่ที่นักวิจัยที่มีความระมัดระวังอาจค้นพบและตรวจสอบต่อไป อย่างไรก็ตามมีขั้นตอนยุ่งยากซับซ้อนยิ่งขึ้นซึ่งเกิดขึ้นเมื่อนักออกแบบระบบออนไลน์ตระหนักถึงทฤษฎีทางสังคมแล้วจึงนำทฤษฎีเหล่านี้ไปใช้ในระบบของพวกเขา นักวิทยาศาสตร์สังคมเรียกการ แสดง นี้: เมื่อทฤษฎีเปลี่ยนโลกในแบบที่ทำให้โลกเข้ากับทฤษฎีมากขึ้น ในกรณีที่มีการรบกวนอัลกอริธึมอัลกอริธึมอัลกอริธึมทำให้ข้อมูลที่จับต้องได้ยากมาก

ตัวอย่างหนึ่งของรูปแบบที่สร้างขึ้นโดย performativity คือการเปลี่ยนผ่านในเครือข่ายสังคมออนไลน์ ในช่วงทศวรรษที่ 1970 และ 1980 นักวิจัยพบว่าถ้าคุณเป็นเพื่อนกับทั้ง Alice และ Bob แล้ว Alice และ Bob มักจะเป็นเพื่อนกันมากกว่าถ้าเป็นคนที่ได้รับการสุ่มตัวอย่างสองคน พบรูปแบบเดียวกันนี้ในกราฟทางสังคมบน Facebook (Ugander et al. 2011) ดังนั้นหนึ่งอาจสรุปได้ว่ารูปแบบของมิตรภาพบน Facebook ทำซ้ำรูปแบบของมิตรภาพแบบออฟไลน์อย่างน้อยในแง่ของความอ่อนไหว อย่างไรก็ตามขนาดของความแปรปรวนในกราฟทางสังคมของ Facebook ถูกขับเคลื่อนโดยบางส่วนด้วยการรบกวนตามขั้นตอนวิธี นั่นคือข้อมูลที่นักวิทยาศาสตร์ของ Facebook รู้เกี่ยวกับการวิจัยเชิงประจักษ์และทฤษฎีเกี่ยวกับความแปรปรวนและจากนั้นก็นำไปอบในงานของ Facebook Facebook มีคุณลักษณะ "คนที่คุณอาจรู้จัก" ซึ่งแนะนำเพื่อนใหม่ ๆ และวิธีหนึ่งที่ Facebook ตัดสินใจว่าใครจะแนะนำคุณคือความอ่อนไหว นั่นคือ Facebook มีแนวโน้มที่จะแนะนำให้คุณกลายเป็นเพื่อนกับเพื่อนของเพื่อนของคุณ คุณลักษณะนี้จึงมีผลต่อการเพิ่มความคมชัดใน Facebook สังคมกราฟ; กล่าวได้ว่าทฤษฎีการแปรเปลี่ยนจะนำพาโลกเข้ากับการคาดการณ์ของทฤษฎี (Zignani et al. 2014; Healy 2015) ดังนั้นเมื่อแหล่งข้อมูลขนาดใหญ่ดูเหมือนจะทำให้เกิดการคาดการณ์ทฤษฎีทางสังคมเราต้องแน่ใจว่าทฤษฎีนั้นเองไม่ได้ถูกอบเข้าไปในระบบทำงานอย่างไร

แทนที่จะคิดว่าแหล่งข้อมูลขนาดใหญ่เป็นคนที่สังเกตการณ์ในสภาพแวดล้อมทางธรรมชาติคำอุปมาที่ซับซ้อนมากขึ้นคือการเฝ้าสังเกตผู้คนในคาสิโน คาสิโนเป็นสภาพแวดล้อมทางวิศวกรรมที่ออกแบบมาเพื่อกระตุ้นพฤติกรรมบางอย่างและนักวิจัยก็ไม่เคยคาดหวังว่าพฤติกรรมในคาสิโนจะทำให้หน้าต่างที่ไม่ติดขัดกลายเป็นพฤติกรรมของมนุษย์ แน่นอนคุณสามารถเรียนรู้บางอย่างเกี่ยวกับพฤติกรรมของมนุษย์โดยการศึกษาคนในคาสิโน แต่ถ้าคุณละเลยข้อเท็จจริงที่ว่าข้อมูลถูกสร้างขึ้นในคาสิโนคุณอาจวาดข้อสรุปที่ไม่ถูกต้องบางอย่าง

แต่น่าเสียดายที่การจัดการกับการข่มขู่อัจฉริยะเป็นเรื่องยากโดยเฉพาะอย่างยิ่งเนื่องจากคุณลักษณะต่างๆของระบบออนไลน์เป็นกรรมสิทธิ์เอกสารที่ไม่ดีและมีการเปลี่ยนแปลงตลอดเวลา ตัวอย่างเช่นตามที่ฉันจะอธิบายในบทนี้แล้วการเข้าใจผิดอัลกอรึทึมเป็นคำอธิบายที่เป็นไปได้สำหรับการวิเคราะห์แนวโน้มของ Google แนวโน้มไข้หวัดใหญ่ (หมวดที่ 2.4.2) แต่การอ้างสิทธิ์นี้ยากที่จะประเมินได้เนื่องจากการทำงานด้านการค้นหาของ Google มีอยู่ เป็นเจ้าของ ลักษณะแบบไดนามิกของการรบกวนแบบอัลกอรึทึมเป็นรูปแบบหนึ่งของการล่องลอยของระบบ การขจัดอัลกอริทึมหมายความว่าเราควรระมัดระวังในการอ้างสิทธิ์ใด ๆ เกี่ยวกับพฤติกรรมของมนุษย์ที่มาจากระบบดิจิทัลแบบเดียวไม่ว่าจะใหญ่แค่ไหน