ชุดข้อมูลขนาดใหญ่เป็นหมายถึงการสิ้นสุด; พวกเขาจะไม่สิ้นสุดในตัวเอง
คุณลักษณะที่กล่าวถึงกันอย่างกว้างขวางที่สุดของแหล่งข้อมูลขนาดใหญ่คือพวกเขาเป็น BIG เอกสารจำนวนมากเช่นเริ่มจากการพูดถึงและบางครั้งก็โอ้อวดเกี่ยวกับข้อมูลที่พวกเขาวิเคราะห์ ตัวอย่างเช่นบทความที่เผยแพร่ใน Science ศึกษาเกี่ยวกับแนวโน้มการใช้คำใน Google เอกสาร Corpus รวมถึงสิ่งต่อไปนี้ (Michel et al. 2011) :
"คลังข้อมูลของเรามีมากกว่า 500 พันล้านคำในภาษาอังกฤษ (361 พันล้าน) ฝรั่งเศส (45 พันล้าน) สเปน (45 พันล้าน) เยอรมัน (37 พันล้าน) จีน (13 พันล้าน) รัสเซีย (35 พันล้าน) และฮีบรู (2 พันล้าน) ผลงานที่เก่าแก่ที่สุดถูกตีพิมพ์ในปี ค.ศ. 1500 ทศวรรษแรกมีเพียงหนังสือสองสามเล่มต่อปีซึ่งประกอบด้วยหนังสือหลายแสนคำ จนถึงปีพ. ศ. 1800 corpus เติบโตขึ้นเป็น 98 ล้านคำต่อปี โดย 1900, 1.8 พันล้าน; และโดยปี 2000 11 พันล้าน Corpus ไม่สามารถอ่านได้โดยมนุษย์ ถ้าคุณพยายามอ่านเฉพาะรายการภาษาอังกฤษจากปี 2000 เพียงอย่างเดียวในอัตราที่เหมาะสม 200 คำ / นาทีโดยไม่หยุดชะงักสำหรับอาหารหรือนอนหลับก็จะใช้เวลา 80 ปี ลำดับของตัวอักษรยาวกว่าจีโนมมนุษย์ถึง 1000 เท่า: ถ้าคุณเขียนออกมาเป็นเส้นตรงมันจะไปถึงดวงจันทร์และย้อนกลับไป 10 ครั้ง "
ขนาดของข้อมูลนี้เป็นสิ่งที่น่าประทับใจและเราโชคดีที่ทีมงาน Google หนังสือได้เผยแพร่ข้อมูลเหล่านี้ต่อสาธารณชน (ในความเป็นจริงกิจกรรมบางอย่างในตอนท้ายของบทนี้ใช้ประโยชน์จากข้อมูลนี้) แต่เมื่อใดก็ตามที่คุณเห็นบางอย่างเช่นนี้คุณควรถาม: ข้อมูลทั้งหมดที่ทำจริงๆหรือไม่? พวกเขาสามารถทำวิจัยเดียวกันได้หรือไม่หากข้อมูลสามารถเข้าถึงดวงจันทร์และย้อนกลับได้เพียงครั้งเดียว? จะทำอย่างไรถ้าข้อมูลสามารถเข้าถึงได้เฉพาะด้านบนของ Mount Everest หรือด้านบนสุดของหอไอเฟล?
ในกรณีนี้ผลการวิจัยของพวกเขาก็มีข้อค้นพบบางอย่างที่ต้องใช้คำในช่วงเวลาที่ยาวนาน ตัวอย่างเช่นสิ่งหนึ่งที่พวกเขาสำรวจคือวิวัฒนาการของไวยากรณ์โดยเฉพาะอย่างยิ่งการเปลี่ยนแปลงในอัตราการผันคำกริยาที่ไม่สม่ำเสมอ เนื่องจากคำกริยาที่ผิดปกติบางอย่างหายากมากข้อมูลจำนวนมากจึงจำเป็นต้องตรวจจับการเปลี่ยนแปลงตามเวลา อย่างไรก็ตามบ่อยครั้งนักวิจัยดูเหมือนจะถือว่าขนาดของแหล่งข้อมูลขนาดใหญ่เป็นจุดสิ้นสุด "ดูว่าข้อมูลที่ฉันสามารถบดบังได้มากน้อยแค่ไหน" มากกว่าวิธีการทางวิทยาศาสตร์บางอย่างที่สำคัญกว่า
จากประสบการณ์ของผมการศึกษาเหตุการณ์ที่ไม่ค่อยพบเป็นหนึ่งในสามจุดสิ้นสุดทางวิทยาศาสตร์โดยเฉพาะที่ชุดข้อมูลขนาดใหญ่มีแนวโน้มที่จะเปิดใช้งาน ข้อที่สองคือการศึกษาความไม่เหมือนกันซึ่งสามารถอธิบายได้จากผลการวิจัยของ Raj Chetty และคณะ (2014) เกี่ยวกับการเคลื่อนไหวทางสังคมในสหรัฐอเมริกา ในอดีตนักวิจัยหลายคนได้ศึกษาความคล่องตัวทางสังคมโดยการเปรียบเทียบผลลัพธ์ชีวิตของพ่อแม่และเด็ก การค้นพบที่สอดคล้องกันจากเอกสารนี้ก็คือพ่อแม่ที่ได้รับผลประโยชน์มักจะมีลูกเป็นพิเศษ แต่ความแข็งแกร่งของความสัมพันธ์นี้แตกต่างกันไปในแต่ละช่วงเวลาและทั่วทั้งประเทศ (Hout and DiPrete 2006) เมื่อไม่นานมานี้ Chetty และเพื่อนร่วมงานก็สามารถใช้บันทึกภาษีจาก 40 ล้านคนเพื่อประเมินความแตกต่างระหว่างการเคลื่อนย้ายข้ามชาติระหว่างภูมิภาคต่างๆในสหรัฐอเมริกา (รูปที่ 2.1) พวกเขาพบตัวอย่างเช่นความเป็นไปได้ที่เด็ก ๆ จะได้รับรายได้สูงสุดจากครอบครัวที่มีรายได้ต่ำสุดประมาณ 13% ในซานโฮเซ่แคลิฟอร์เนีย แต่เพียงประมาณ 4% ในชาร์ลอตต์นอร์ทแคโรไลนา ถ้าคุณดูภาพ 2.1 สักครู่คุณอาจเริ่มแปลกใจว่าทำไมความเคลื่อนไหวในยุคต่อ ๆ ไปจึงสูงกว่าในบางพื้นที่ Chetty และเพื่อนร่วมงานมีคำถามเหมือนกันและพบว่าพื้นที่ที่มีการเคลื่อนไหวสูงมีการแบ่งแยกที่อยู่อาศัยน้อยลงความเหลื่อมล้ำของรายได้น้อยกว่าโรงเรียนประถมศึกษาที่ดีกว่าทุนทางสังคมมากขึ้นและความมั่นคงในครอบครัวมากขึ้น แน่นอนความสัมพันธ์เหล่านี้เพียงอย่างเดียวไม่ได้แสดงให้เห็นว่าปัจจัยเหล่านี้ทำให้เกิดการเคลื่อนไหวที่สูงขึ้น แต่พวกเขาแนะนำกลไกที่เป็นไปได้ที่สามารถสำรวจในการทำงานต่อไปซึ่งเป็นสิ่งที่ Chetty และเพื่อนร่วมงานได้ทำในการทำงานต่อไป แจ้งให้ทราบว่าขนาดของข้อมูลมีความสำคัญมากในโครงการนี้อย่างไร หาก Chetty และเพื่อนร่วมงานใช้บันทึกภาษี 40,000 คนมากกว่า 40 ล้านคนพวกเขาจะไม่สามารถประเมินความแตกต่างของภูมิภาคได้และพวกเขาจะไม่สามารถทำวิจัยต่อไปเพื่อหากลไกที่สร้างความแตกต่างนี้ได้
นอกจากนี้ในการศึกษาเหตุการณ์ที่หาได้ยากและการศึกษาความหลากหลายของข้อมูลชุดข้อมูลขนาดใหญ่ยังช่วยให้นักวิจัยสามารถตรวจจับความแตกต่างได้เล็กน้อย ในความเป็นจริงการเน้นข้อมูลขนาดใหญ่ในอุตสาหกรรมเป็นเรื่องเกี่ยวกับความแตกต่างเล็ก ๆ เหล่านี้: การตรวจสอบความแตกต่างระหว่าง 1% ถึง 1.1% อัตราการคลิกผ่านของโฆษณาสามารถแปลเป็นรายได้เสริมเป็นล้านดอลลาร์ ในการตั้งค่าทางวิทยาศาสตร์บางอย่างความแตกต่างเล็ก ๆ น้อย ๆ เช่นอาจไม่สำคัญอย่างยิ่งแม้ว่าจะมีนัยสำคัญทางสถิติ (Prentice and Miller 1992) แต่ในการตั้งค่านโยบายบางอย่างพวกเขาอาจมีความสำคัญเมื่อมองในภาพรวม ตัวอย่างเช่นถ้ามีการแทรกแซงด้านสาธารณสุขสองครั้งและมีประสิทธิภาพมากกว่าที่อื่น ๆ เล็กน้อยการเลือกการแทรกแซงที่มีประสิทธิผลมากขึ้นอาจช่วยให้ชีวิตของคุณเพิ่มขึ้นอีกนับพันคน
แม้ว่าลักษณะทั่วไปเป็นคุณสมบัติที่ดีเมื่อใช้อย่างถูกต้องฉันสังเกตว่าบางครั้งอาจทำให้เกิดข้อผิดพลาดในแนวความคิด ด้วยเหตุผลบางประการการให้ความสนใจดูเหมือนจะทำให้นักวิจัยไม่สนใจว่าข้อมูลของพวกเขาถูกสร้างขึ้นอย่างไร แม้ว่าความละเลยจะลดความจำเป็นที่จะต้องกังวลเกี่ยวกับข้อผิดพลาดแบบสุ่ม แต่ก็ เพิ่ม ความจำเป็นที่จะต้องกังวลเกี่ยวกับข้อผิดพลาดของระบบซึ่งเป็นข้อผิดพลาดประเภทต่างๆที่ฉันจะอธิบายด้านล่างที่เกิดขึ้นจากความลำเอียงในการสร้างข้อมูล นักวิจัยได้ใช้ข้อความที่สร้างขึ้นเมื่อวันที่ 11 กันยายน 2544 เพื่อสร้างเส้นอารมณ์ที่มีความละเอียดสูงในการตอบสนองต่อการโจมตีของผู้ก่อการร้าย (Back, Küfner, and Egloff 2010) เนื่องจากนักวิจัยมีข้อความจำนวนมากพวกเขาจึงไม่จำเป็นต้องกังวลว่ารูปแบบที่พวกเขาสังเกตเห็นหรือไม่นั้นจะเพิ่มความโกรธในช่วงเวลาของวันได้อย่างไรโดยการเปลี่ยนแปลงแบบสุ่ม มีข้อมูลจำนวนมากและรูปแบบได้ชัดเจนมากจนการทดสอบสถิติทางสถิติทั้งหมดชี้ให้เห็นว่านี่เป็นรูปแบบจริง แต่การทดสอบทางสถิติเหล่านี้ไม่มีข้อมูลเกี่ยวกับการสร้างข้อมูล ในความเป็นจริงพบว่าหลายรูปแบบมีสาเหตุมาจากบอตเดียวที่สร้างข้อความที่ไม่มีความหมายมากขึ้นตลอดทั้งวัน การลบบอร์หนึ่งรายนี้ได้ทำลายบางส่วนของผลการค้นพบที่สำคัญในกระดาษ (Pury 2011; Back, Küfner, and Egloff 2011) ค่อนข้างง่ายนักวิจัยที่ไม่คิดเกี่ยวกับข้อผิดพลาดที่เป็นระบบต้องเผชิญกับความเสี่ยงในการใช้ชุดข้อมูลขนาดใหญ่ของพวกเขาเพื่อให้ได้ประมาณปริมาณที่ไม่สำคัญเช่นเนื้อหาทางอารมณ์ของข้อความที่ไม่มีความหมายที่ผลิตโดยบอตอัตโนมัติ
สรุปได้ว่าชุดข้อมูลขนาดใหญ่ไม่ใช่จุดสิ้นสุดของตัวเอง แต่สามารถใช้งานวิจัยบางประเภทได้รวมถึงการศึกษาเหตุการณ์ที่หายากการประมาณค่าความไม่สม่ำเสมอและการตรวจสอบความแตกต่างเล็ก ๆ ชุดข้อมูลขนาดใหญ่ก็ดูเหมือนจะทำให้นักวิจัยบางคนไม่สนใจว่าข้อมูลของพวกเขาถูกสร้างขึ้นซึ่งจะทำให้พวกเขาได้รับการประมาณการที่แม่นยำของปริมาณที่ไม่สำคัญ