ในยุคอนาล็อกเก็บรวบรวมข้อมูลเกี่ยวกับพฤติกรรมที่ไม่สิ่งที่เมื่อ-มีราคาแพงและดังนั้นจึงค่อนข้างหายาก ตอนนี้ในยุคดิจิตอลพฤติกรรมของพันล้านคนมีการบันทึกจัดเก็บและวิ ยกตัวอย่างเช่นทุกครั้งที่คุณคลิกบนเว็บไซต์โทรบนโทรศัพท์มือถือของคุณหรือจ่ายสำหรับสิ่งที่มีบัตรเครดิตของคุณบันทึกดิจิตอลของพฤติกรรมของคุณจะถูกสร้างและจัดเก็บโดยธุรกิจ เนื่องจากข้อมูลเหล่านี้เป็นผลพลอยได้จากการกระทำของทุกวันของผู้คนที่พวกเขามักจะเรียกว่าร่องรอยดิจิตอล นอกเหนือไปจากร่องรอยเหล่านี้ที่จัดขึ้นโดยธุรกิจภาครัฐยังมีข้อมูลที่หลากหลายอย่างไม่น่าเชื่อเกี่ยวกับทั้งสองคนและธุรกิจข้อมูลซึ่งมักจะเป็นดิจิตอลและวิ ร่วมกันเหล่านี้บันทึกธุรกิจและรัฐบาลมักจะเรียกว่าข้อมูลขนาดใหญ่
น้ำท่วมที่เคยเพิ่มขึ้นของข้อมูลขนาดใหญ่หมายความว่าเราได้ย้ายจากโลกที่เป็นข้อมูลพฤติกรรมที่ขาดแคลนให้กับโลกที่ข้อมูลพฤติกรรมอุดมสมบูรณ์ แต่เนื่องจากข้อมูลเหล่านี้เป็นประเภทที่ค่อนข้างใหม่ในปริมาณที่โชคร้ายของการวิจัยการใช้พวกเขาดูเหมือนว่านักวิทยาศาสตร์สุ่มสี่สุ่มห้าไล่ข้อมูลที่มีอยู่ บทนี้แทนมีวิธีการหลักการเพื่อความเข้าใจแหล่งที่มาที่แตกต่างกันของข้อมูลและวิธีที่พวกเขาสามารถนำมาใช้ นี้ความเข้าใจที่ดียิ่งขึ้นควรจะช่วยให้คุณดีขึ้นตรงกับคำถามการวิจัยของคุณไปยังแหล่งที่เหมาะสมของข้อมูล หรือหากแหล่งที่มีอยู่เช่นขาดโน้มน้าวให้คุณในการเก็บรวบรวมข้อมูลของคุณเองโดยใช้ความคิดในบทที่ในอนาคต
ขั้นตอนแรกที่จะเรียนรู้จากข้อมูลขนาดใหญ่ก็คือการตระหนักว่ามันเป็นส่วนหนึ่งของหมวดหมู่ที่กว้างขึ้นของข้อมูลที่ได้รับใช้ในการวิจัยทางสังคมเป็นเวลาหลายปี: ข้อมูลการสังเกตการณ์ ประมาณข้อมูลการสังเกตคือข้อมูลใด ๆ ที่เป็นผลมาจากการสังเกตระบบสังคมโดยไม่แทรกแซงในทางใดทางหนึ่ง วิธีน้ำมันดิบที่จะคิดเกี่ยวกับมันว่าข้อมูลการสังเกตคือทุกอย่างที่ไม่เกี่ยวข้องกับการพูดคุยกับผู้คน (เช่นการสำรวจหัวข้อของบทที่ 3) หรือการเปลี่ยนแปลงสภาพแวดล้อมของผู้คน (เช่นการทดลองเรื่องของบทที่ 4) ดังนั้นนอกเหนือไปจากธุรกิจและรัฐบาลระเบียนข้อมูลสังเกตการณ์ยังรวมถึงสิ่งที่ต้องการข้อความของบทความในหนังสือพิมพ์และภาพถ่ายดาวเทียม
บทนี้มีสามส่วน ครั้งแรกในมาตรา 2.2 ผมอธิบายข้อมูลขนาดใหญ่ในรายละเอียดเพิ่มเติมและชี้แจงความแตกต่างพื้นฐานระหว่างมันและข้อมูลที่ได้รับโดยทั่วไปใช้สำหรับการวิจัยทางสังคมในอดีตที่ผ่านมา จากนั้นในมาตรา 2.3 ผมอธิบายสิบลักษณะทั่วไปของแหล่งที่มาของข้อมูลขนาดใหญ่ ทำความเข้าใจเกี่ยวกับลักษณะเหล่านี้ช่วยให้เราสามารถรู้ได้อย่างรวดเร็วจุดแข็งและจุดอ่อนของแหล่งที่มาที่มีอยู่และจะช่วยให้เราควบคุมแหล่งใหม่ที่จะถูกสร้างขึ้นในอนาคต สุดท้ายในมาตรา 2.4 ผมอธิบายสามกลยุทธ์การวิจัยหลักที่คุณสามารถใช้ในการเรียนรู้จากการสังเกตข้อมูล: สิ่งที่นับเป็นสิ่งที่คาดการณ์และใกล้เคียงกับการทดลอง