ในยุคอนาล็อกการเก็บรวบรวมข้อมูลเกี่ยวกับพฤติกรรม - ใครทำอะไรและเมื่อ - มีราคาแพงและดังนั้นจึงค่อนข้างหายาก ในยุคดิจิทัลพฤติกรรมของคนนับพันล้านคนจะถูกบันทึกเก็บรักษาและวิเคราะห์ได้ ตัวอย่างเช่นทุกครั้งที่คุณคลิกที่เว็บไซต์โทรออกจากโทรศัพท์มือถือของคุณหรือจ่ายเงินบางอย่างด้วยบัตรเครดิตระบบจะสร้างบันทึกข้อมูลดิจิทัลเกี่ยวกับพฤติกรรมของคุณและจัดเก็บโดยธุรกิจ เนื่องจากข้อมูลประเภทนี้เป็นผลพลอยได้จากการกระทำในชีวิตประจำวันของผู้คนจึงมักเรียกว่า ร่องรอยดิจิตอล นอกจากร่องรอยเหล่านี้ที่จัดทำขึ้นโดยภาคธุรกิจแล้วรัฐบาลยังมีข้อมูลที่หลากหลายอย่างไม่น่าเชื่อเกี่ยวกับทั้งบุคคลและธุรกิจ บันทึกข้อมูลทางธุรกิจและรัฐบาลเหล่านี้มักเรียกว่า ข้อมูลขนาดใหญ่
น้ำท่วมใหญ่ของข้อมูลขนาดใหญ่ที่เพิ่มมากขึ้นหมายความว่าเราได้ย้ายจากโลกที่ข้อมูลพฤติกรรมไม่ค่อยพบในโลกที่มีข้อมูลพฤติกรรมมากมาย ขั้นตอนแรกในการเรียนรู้จากข้อมูลขนาดใหญ่คือการตระหนักว่าเป็นส่วนหนึ่งของข้อมูลที่กว้างขึ้นซึ่งใช้ในการวิจัยทางสังคมเป็นเวลาหลายปี: ข้อมูลเชิงสังเกต ข้อมูลเชิงสังเกตคือข้อมูลใด ๆ ที่เป็นผลมาจากการสังเกตระบบสังคมโดยไม่แทรกแซงด้วยเหตุผลบางอย่าง วิธีคิดที่หยาบคายคือข้อมูลสังเกตุการณ์คือทุกสิ่งทุกอย่างที่ไม่เกี่ยวข้องกับการพูดคุยกับผู้คน (เช่นการสำรวจหัวข้อ 3) หรือการเปลี่ยนแปลงสภาพแวดล้อมของผู้คน (เช่นการทดลองบทที่ 4) ดังนั้นนอกเหนือจากบันทึกทางธุรกิจและรัฐบาลแล้วข้อมูลการสังเกตการณ์จะรวมถึงสิ่งต่างๆเช่นข้อความในบทความหนังสือพิมพ์และภาพถ่ายจากดาวเทียม
บทนี้มีสามส่วน ประการแรกในส่วน 2.2 ฉันอธิบายแหล่งข้อมูลขนาดใหญ่โดยละเอียดและชี้แจงความแตกต่างพื้นฐานระหว่างข้อมูลเหล่านี้กับข้อมูลที่มักใช้เพื่อการวิจัยทางสังคมในอดีต จากนั้นในส่วน 2.3 ฉันจะอธิบายถึงลักษณะทั่วไปสิบอย่างของแหล่งข้อมูลขนาดใหญ่ การทำความเข้าใจลักษณะเหล่านี้ทำให้คุณสามารถรับรู้จุดแข็งและจุดอ่อนของแหล่งข้อมูลที่มีอยู่ได้อย่างรวดเร็วและจะช่วยให้คุณสามารถใช้แหล่งข้อมูลใหม่ ๆ ที่จะพร้อมใช้งานได้ในอนาคต ท้ายสุดในส่วน 2.4 ผมอธิบายถึงสามกลยุทธ์หลักในการวิจัยที่คุณสามารถใช้เพื่อเรียนรู้จากข้อมูลเชิงสังเกต ได้แก่ การนับสิ่งต่างๆการคาดการณ์สิ่งต่างๆและการประมาณการทดลอง