บางส่วนของข้อมูลที่ บริษัท และรัฐบาลมีความไว
บริษัท ประกันสุขภาพมีข้อมูลรายละเอียดเกี่ยวกับการดูแลรักษาทางการแพทย์ที่ได้รับจากลูกค้า ข้อมูลนี้สามารถใช้สำหรับการวิจัยที่สำคัญเกี่ยวกับสุขภาพ แต่ถ้าเป็นข้อมูลสาธารณะอาจทำให้เกิดอันตรายทางอารมณ์ (เช่นความลำบากใจ) หรือความเสียหายทางเศรษฐกิจ (เช่นการสูญเสียการจ้างงาน) แหล่งข้อมูลขนาดใหญ่อื่น ๆ อีกมากมายมีข้อมูลที่ ละเอียดอ่อน ซึ่งเป็นส่วนหนึ่งของเหตุผลว่าทำไมพวกเขามักไม่สามารถเข้าถึงได้
แต่น่าเสียดายที่การตัดสินใจว่าข้อมูลใดที่เป็นข้อมูลที่ละเอียดอ่อน (Ohm 2015) เป็นข้อมูลที่แสดงให้เห็นโดย Netflix Prize ตามที่ผมจะกล่าวถึงในบทที่ 5 ในปีพ. ศ. 2549 Netflix ได้เปิดตัวการให้คะแนนภาพยนตร์ 100 ล้านครั้งโดยเกือบ 500,000 คนและได้มีการเปิดการประชุมทางไกลซึ่งผู้คนจากทั่วโลกได้ส่งอัลกอริทึมต่างๆเพื่อปรับปรุงความสามารถในการแนะนำภาพยนตร์ของ Netflix ก่อนปล่อยข้อมูล Netflix จะลบข้อมูลที่ระบุตัวตนที่ชัดเจนเช่นชื่อ แต่เพียงสองสัปดาห์หลังจากข้อมูลได้รับการเผยแพร่ Arvind Narayanan และ Vitaly Shmatikov (2008) แสดงให้เห็นว่าสามารถเรียนรู้เกี่ยวกับการให้คะแนนภาพยนตร์โดยเฉพาะของบุคคลโดยใช้เคล็ดลับที่จะแสดงในบทที่ 6 แม้ว่าผู้โจมตีสามารถค้นพบ การให้คะแนนภาพยนตร์ของบุคคลนั้นดูเหมือนจะไม่มีความสำคัญใด ๆ ที่นี่ แม้ว่าข้อมูลดังกล่าวอาจเป็นความจริงโดยทั่วไปอย่างน้อย 500,000 คนในชุดข้อมูลการให้คะแนนภาพยนตร์มีความละเอียดอ่อน ในความเป็นจริงในการตอบสนองต่อการปล่อยตัวและการระบุข้อมูลอีกครั้งหญิงสาวเลสเบี้ยนที่ถูกสังหารเข้าร่วมการฟ้องร้องดำเนินคดีกับ Netflix ต่อไปนี้เป็นปัญหาที่แสดงในคดีนี้ (Singel 2009) :
"[M] ovie และข้อมูลการให้คะแนนมีข้อมูลเกี่ยวกับลักษณะ ... ที่เป็นส่วนตัวและอ่อนไหวมาก ข้อมูลภาพยนตร์ของสมาชิกเผยให้เห็นถึงความสนใจส่วนตัวของสมาชิก Netflix และ / หรือการต่อสู้กับปัญหาส่วนตัวที่หลากหลายรวมถึงเรื่องเพศความเจ็บป่วยทางจิตการกู้คืนจากโรคพิษสุราเรื้อรังการทำร้ายร่างกายการล่วงประเวณีและการข่มขืน "
ตัวอย่างนี้แสดงให้เห็นว่าอาจมีข้อมูลที่บางคนพิจารณาว่ามีความละเอียดอ่อนภายในของสิ่งที่ดูเหมือนจะเป็นฐานข้อมูลที่อ่อนโยน นอกจากนี้ยังแสดงให้เห็นว่าการป้องกันหลักที่นักวิจัยใช้ในการปกป้องข้อมูลที่มีความละเอียดอ่อนสามารถนำไปใช้ในทางที่ไม่น่าเชื่อได้ ความคิดทั้งสองนี้ได้รับการพัฒนาในรายละเอียดมากขึ้นในบทที่ 6
สิ่งสุดท้ายที่ต้องคำนึงถึงข้อมูลที่สำคัญคือการรวบรวมข้อมูลโดยปราศจากความยินยอมของผู้คนทำให้เกิดคำถามด้านจริยธรรมแม้ว่าจะไม่เกิดอันตรายใด ๆ ก็ตาม เช่นเดียวกับการเฝ้าดูคนที่กำลังอาบน้ำโดยไม่ได้รับความยินยอมจากผู้อื่นอาจถือเป็นการละเมิดความเป็นส่วนตัวของบุคคลนั้นการรวบรวมข้อมูลที่ละเอียดอ่อนและจำไว้ว่าการตัดสินใจว่าอะไรที่ละเอียดอ่อนปราศจากความยินยอมจะสร้างความกังวลเรื่องความเป็นส่วนตัวได้ ฉันจะกลับไปถามเกี่ยวกับความเป็นส่วนตัวในบทที่ 6
สรุปได้ว่าแหล่งข้อมูลขนาดใหญ่เช่นรัฐบาลและบันทึกการดำเนินธุรกิจมักไม่ได้ถูกสร้างขึ้นเพื่อวัตถุประสงค์ในการวิจัยทางสังคม แหล่งข้อมูลขนาดใหญ่ของวันนี้และแนวโน้มในวันพรุ่งนี้มีแนวโน้มที่จะมี 10 ลักษณะ คุณสมบัติหลายอย่างที่มักคิดว่าดีสำหรับการวิจัย - ใหญ่เสมอไปและไม่ใช่เชิงรุก - มาจากข้อเท็จจริงใน บริษัท ยุคดิจิตอลและรัฐบาลสามารถรวบรวมข้อมูลในระดับที่ไม่สามารถทำได้ก่อนหน้านี้ ไม่สามารถเข้าถึงได้ข้อมูลที่ไม่เป็นไปได้การล่องลอยคลาดเคลื่อนตามขั้นตอนไม่สามารถเข้าถึงได้สกปรกและมีความละเอียดอ่อนได้มาจากข้อเท็จจริงที่ว่าข้อมูลเหล่านี้ไม่ได้ถูกเก็บรวบรวมโดยนักวิจัยสำหรับนักวิจัย จนถึงตอนนี้ผมได้พูดถึงข้อมูลภาครัฐและธุรกิจด้วยกัน แต่ก็มีข้อแตกต่างกันอยู่บ้าง จากประสบการณ์ของผมข้อมูลของรัฐบาลมีแนวโน้มที่จะน้อยกว่าที่ไม่เป็นตัวแทนผู้ที่มีความเข้าใจผิดเกี่ยวกับขั้นตอนวิธีน้อยกว่าและล่องลอยน้อยลง อีกทางหนึ่งการจัดการทางธุรกิจมีแนวโน้มที่จะเพิ่มมากขึ้นเรื่อย ๆ การทำความเข้าใจเกี่ยวกับลักษณะทั่วไป 10 อย่างนี้เป็นขั้นตอนแรกที่เป็นประโยชน์ในการเรียนรู้จากแหล่งข้อมูลขนาดใหญ่ ตอนนี้เราหันมาใช้กลยุทธ์การวิจัยที่เราสามารถใช้กับข้อมูลนี้ได้