แหล่งข้อมูลขนาดใหญ่มีอยู่ทั่วไป แต่การใช้ข้อมูลเหล่านี้เพื่อการวิจัยทางสังคมอาจยุ่งยาก จากประสบการณ์ของผมมีบางอย่างเช่น "ห้ามรับประทานอาหารกลางวันฟรี" สำหรับข้อมูล: ถ้าคุณไม่ได้เก็บรวบรวมข้อมูลไว้เป็นจำนวนมากคุณอาจจะต้องใช้เวลามากในการทำงานและคิดเกี่ยวกับเรื่องนี้ วิเคราะห์มัน
แหล่งข้อมูลขนาดใหญ่ของวันนี้และแนวโน้มในวันพรุ่งนี้จะมีลักษณะเป็น 10 ลักษณะ สามข้อนี้โดยทั่วไป (แต่ไม่บ่อย) เป็นประโยชน์สำหรับการวิจัย: ใหญ่เสมอและไม่ทำปฏิกิริยา เจ็ดปัญหาโดยทั่วไป (แต่ไม่บ่อย) เป็นปัญหาสำหรับการวิจัย: ไม่สมบูรณ์ไม่สามารถเข้าถึงได้ nonrepresentative ดริฟท์ algorithmically สับสนสกปรกและละเอียดอ่อน หลายลักษณะเหล่านี้เกิดขึ้นในที่สุดเพราะแหล่งข้อมูลขนาดใหญ่ไม่ได้ถูกสร้างขึ้นเพื่อวัตถุประสงค์ในการวิจัยทางสังคม
จากแนวคิดในบทนี้ผมคิดว่ามีสามวิธีหลักที่แหล่งข้อมูลขนาดใหญ่จะมีคุณค่ามากที่สุดสำหรับการวิจัยทางสังคม ประการแรกพวกเขาสามารถทำให้นักวิจัยตัดสินใจได้ระหว่างการคาดเดาทฤษฎีที่แข่งขันกัน ตัวอย่างของงานประเภทนี้ ได้แก่ Farber (2015) (New York Taxi drivers) และ King, Pan, and Roberts (2013) (การเซ็นเซอร์ในจีน) ประการที่สองแหล่งข้อมูลขนาดใหญ่สามารถช่วยให้มีการวัดผลนโยบายที่ดีขึ้นผ่านทางปัจจุบัน ตัวอย่างของงานประเภทนี้คือ Ginsberg et al. (2009) (Google แนวโน้มไข้หวัดใหญ่) สุดท้ายแหล่งข้อมูลขนาดใหญ่สามารถช่วยให้นักวิจัยสามารถประมาณค่าเชิงสาเหตุได้โดยไม่ต้องใช้การทดลอง ตัวอย่างของงานประเภทนี้ ได้แก่ Mas and Moretti (2009) (ผลกระทบต่อประสิทธิภาพการผลิต) และ Einav et al. (2015) (ผลของราคาเริ่มต้นในการประมูลที่อีเบย์) แต่ละวิธีเหล่านี้มีแนวโน้มที่จะต้องการให้นักวิจัยนำข้อมูลจำนวนมากเช่นความหมายของปริมาณที่มีความสำคัญต่อการประมาณหรือสองทฤษฎีที่ทำให้การคาดการณ์การแข่งขัน ดังนั้นฉันคิดว่าวิธีที่ดีที่สุดในการคิดเกี่ยวกับแหล่งข้อมูลขนาดใหญ่ที่สามารถช่วยให้นักวิจัยสามารถถามคำถามที่น่าสนใจและสำคัญได้
ก่อนสรุปผมคิดว่าควรพิจารณาว่าแหล่งข้อมูลขนาดใหญ่อาจมีผลต่อความสัมพันธ์ระหว่างข้อมูลและทฤษฎีอย่างมาก จนถึงตอนนี้บทนี้มีแนวทางการวิจัยเชิงประจักษ์ที่ใช้ทฤษฎี แต่แหล่งข้อมูลขนาดใหญ่ยังช่วยให้นักวิจัยสามารถทำ ทฤษฎีที่ขับเคลื่อนด้วยสังเกตุ นั่นคือผ่านการสะสมอย่างรอบคอบของข้อเท็จจริงเชิงประจักษ์รูปแบบและปริศนานักวิจัยสามารถสร้างทฤษฎีใหม่ได้ ทางเลือกนี้วิธีการแรกของข้อมูลเกี่ยวกับทฤษฎีไม่ใช่เรื่องใหม่และได้มีการกล่าวถึงอย่างหนักแน่นโดย Barney Glaser และ Anselm Strauss (1967) ด้วยการเรียกร้องให้มี เหตุผล อย่างไรก็ตามวิธีนี้เป็นข้อมูลแรกไม่ได้หมายความว่า "จุดจบของทฤษฎี" ตามที่ได้มีการกล่าวอ้างในวารสารศาสตร์บางฉบับที่เกี่ยวกับการวิจัยในยุคดิจิทัล (Anderson 2008) แต่เนื่องจากสภาพแวดล้อมของข้อมูลเปลี่ยนแปลงไปเราควรคาดหวังให้มีการปรับสมดุลความสัมพันธ์ระหว่างข้อมูลและทฤษฎีใหม่ ในโลกที่การเก็บข้อมูลมีราคาแพงทำให้การเก็บรวบรวมข้อมูลที่ทฤษฎีแนะนำเป็นประโยชน์มากที่สุดเท่านั้น แต่ในโลกที่มีข้อมูลจำนวนมหาศาลมีให้บริการฟรีแล้วคุณควรลองใช้วิธีการข้อมูลก่อน (Goldberg 2015) ด้วย
ดังที่ได้กล่าวไว้ในบทนี้นักวิจัยสามารถเรียนรู้ได้มากโดยการเฝ้าดูผู้คน ในสามบทถัดไปเราจะอธิบายวิธีที่เราสามารถเรียนรู้สิ่งที่ต่างกันได้มากขึ้นหากเราปรับข้อมูลและโต้ตอบกับผู้คนได้โดยตรงโดยถามคำถาม (บทที่ 3) การทดลองใช้ (บทที่ 4) และแม้กระทั่งเกี่ยวกับพวกเขา ในกระบวนการวิจัยโดยตรง (บทที่ 5)