ข้อมูลที่ไม่ใช่ข้อมูลเชิงประจักษ์ไม่ดีต่อการ generalizations แบบไม่อยู่ในกลุ่มตัวอย่าง แต่อาจมีประโยชน์มากสำหรับการเปรียบเทียบภายในตัวอย่าง
นักวิทยาศาสตร์ทางสังคมบางคนคุ้นเคยกับการทำงานกับข้อมูลที่มาจากตัวอย่างสุ่มตัวอย่างที่น่าจะเป็นจากประชากรที่กำหนดไว้อย่างชัดเจนเช่นผู้ใหญ่ทุกคนในประเทศใดประเทศหนึ่ง ข้อมูลประเภทนี้เรียกว่าข้อมูล ตัวแทน เนื่องจากตัวอย่าง "แสดง" ประชากรที่มีขนาดใหญ่ นักวิจัยจำนวนมากได้รับข้อมูลจากตัวแทนและบางส่วนข้อมูลตัวแทนก็ตรงกันกับวิทยาศาสตร์ที่เข้มงวดในขณะที่ข้อมูลที่ไม่เป็นตัวแทนหมายถึงความไม่แน่นอน ที่มากที่สุด skeptics บางคนดูเหมือนจะเชื่อว่าไม่มีอะไรที่สามารถเรียนรู้จากข้อมูล nonrepresentative ถ้าเป็นจริงสิ่งนี้ดูเหมือนจะ จำกัด สิ่งที่สามารถเรียนรู้ได้จากแหล่งข้อมูลขนาดใหญ่เนื่องจากหลายแห่งไม่ได้เป็นตัวแทน โชคดีที่ผู้คลางแค้นเหล่านี้มีเพียงบางส่วนเท่านั้น มีเป้าหมายการวิจัยบางอย่างซึ่งข้อมูล nonrepresentative ไม่เหมาะอย่างชัดเจน แต่มีข้อมูลอื่นที่อาจเป็นประโยชน์จริง
เพื่อทำความเข้าใจความแตกต่างนี้ลองพิจารณาคลาสสิกทางวิทยาศาสตร์: การศึกษาของ John Snow เกี่ยวกับการระบาดของอหิวาตกโรค 1853-54 ในกรุงลอนดอน ในขณะนั้นแพทย์หลายคนเชื่อว่าอหิวาตกโรคเกิดจาก "อากาศเลวร้าย" แต่หิมะเชื่อว่าเป็นโรคติดเชื้ออาจแพร่กระจายไปตามน้ำดื่มที่มีการระบายน้ำทิ้ง เพื่อทดสอบความคิดนี้ Snow ได้ใช้ประโยชน์จากสิ่งที่ตอนนี้เราเรียกว่าการทดสอบตามธรรมชาติ เขาเปรียบเทียบอัตราอหิวาตกโรคของครัวเรือนที่ทำหน้าที่โดย บริษัท น้ำสองแห่งคือ Lambeth และ Southwark & Vauxhall บริษัท เหล่านี้ทำหน้าที่คล้ายคลึงกันในครัวเรือน แต่แตกต่างกันในลักษณะที่สำคัญอย่างหนึ่ง: ในปีพ. ศ. 2392 - เมื่อไม่กี่ปีก่อนการระบาดเริ่มขึ้น - แลมเบ ธ ย้ายจุดรับน้ำจากแหล่งระบายน้ำทิ้งหลักในลอนดอนขณะที่ Southwark & Vauxhall ทิ้งท่อไอดีจากท้ายน้ำ การระบายน้ำเสีย เมื่อ Snow เปรียบเทียบอัตราการตายจากอหิวาตกโรคในครัวเรือนที่ให้บริการโดยทั้งสอง บริษัท เขาพบว่าลูกค้าของ Southwark & Vauxhall ซึ่งเป็น บริษัท ที่ให้บริการน้ำเสียที่เสียด้วยน้ำเสียมีแนวโน้มที่จะเสียชีวิตจากอหิวาตกโรคถึง 10 เท่า ผลการวิจัยนี้แสดงหลักฐานทางวิทยาศาสตร์ที่ชัดเจนเกี่ยวกับการถกเถียงของ Snow เกี่ยวกับสาเหตุของโรคอหิวาต์แม้ว่าจะไม่ได้ขึ้นอยู่กับตัวอย่างที่เป็นตัวแทนของผู้คนในลอนดอน
ข้อมูลจากทั้งสอง บริษัท นี้จะไม่เหมาะสำหรับการตอบคำถามอื่น ๆ : ความแพร่หลายของโรคอหิวาตกโรคในกรุงลอนดอนในช่วงการระบาดของโรค? สำหรับคำถามที่สองนั้นเป็นสิ่งสำคัญเช่นกันก็จะดีกว่ามากที่จะมีตัวอย่างที่เป็นตัวแทนของผู้คนจากลอนดอน
ในฐานะที่เป็นงานของ Snow แสดงให้เห็นว่ามีคำถามทางวิทยาศาสตร์บางอย่างที่ข้อมูล nonrepresentative สามารถมีประสิทธิภาพมากและมีคนอื่น ๆ ที่ไม่เหมาะสม วิธีการหนึ่งที่ทำให้เข้าใจคำถามทั้งสองแบบนี้คือคำถามบางอย่างเกี่ยวกับการเปรียบเทียบภายในตัวอย่างและบางส่วนเกี่ยวกับการ generalizations ที่ไม่เป็นไปตามตัวอย่าง ความแตกต่างนี้สามารถอธิบายเพิ่มเติมได้จากการศึกษาทางระบาดวิทยาอีกแบบหนึ่งคือการศึกษาของแพทย์อังกฤษซึ่งมีบทบาทสำคัญในการแสดงให้เห็นว่าการสูบบุหรี่เป็นสาเหตุของโรคมะเร็ง ในการศึกษานี้ Richard Doll และ A. Bradford Hill ตามหมอชายประมาณ 25,000 คนเป็นเวลาหลายปีและเปรียบเทียบอัตราตายตามปริมาณที่สูบบุหรี่เมื่อเริ่มการศึกษา ตุ๊กตาและฮิลล์ (1954) พบว่าความสัมพันธ์ระหว่างการได้รับสารตอบสนองที่รุนแรง: ยิ่งคนสูบบุหรี่มากขึ้นก็ยิ่งมีแนวโน้มที่จะตายจากโรคมะเร็งปอด แน่นอนว่าการประเมินความชุกของโรคมะเร็งปอดในหมู่ประชาชนชาวอังกฤษทั้งหมดจะขึ้นอยู่กับกลุ่มแพทย์ชาย แต่การเปรียบเทียบภายในตัวอย่างยังคงเป็นหลักฐานว่าการสูบบุหรี่เป็นสาเหตุของโรคมะเร็งปอด
ตอนนี้ฉันได้แสดงให้เห็นถึงความแตกต่างระหว่างการเปรียบเทียบภายในตัวอย่างและการ generalizations แบบไม่อยู่ในกลุ่มตัวอย่างข้อควรระวังสองประการ ประการแรกมีคำถามที่เป็นธรรมชาติเกี่ยวกับขอบเขตที่ความสัมพันธ์ที่มีอยู่ในกลุ่มตัวอย่างของหมออังกฤษชายจะอยู่ในกลุ่มตัวอย่างหญิงอังกฤษหมอหรือแรงงานชายชาวอังกฤษหรือโรงงานหญิงเยอรมันหรือกลุ่มอื่น ๆ อีกมากมาย คำถามเหล่านี้เป็นเรื่องที่น่าสนใจและมีความสำคัญ แต่แตกต่างจากคำถามเกี่ยวกับขอบเขตที่เราสามารถสรุปจากกลุ่มตัวอย่างไปสู่กลุ่มประชากรได้ แจ้งให้ทราบเช่นว่าคุณอาจสงสัยว่าความสัมพันธ์ระหว่างการสูบบุหรี่กับมะเร็งที่พบในแพทย์อังกฤษชายอาจจะคล้ายกันในกลุ่มอื่น ๆ เหล่านี้ ความสามารถในการทำเช่นนี้ไม่ได้มาจากข้อเท็จจริงที่ว่าอังกฤษหมออังกฤษสุ่มตัวอย่างจากประชากรใด ๆ ที่น่าจะเป็น probabilistic; ค่อนข้างจะมาจากความเข้าใจของกลไกที่เชื่อมโยงการสูบบุหรี่และมะเร็ง แต่คำถามเกี่ยวกับรูปแบบของการ ขนส่งที่ พบในกลุ่มหนึ่งไปยังอีกกลุ่มหนึ่งส่วนใหญ่เป็นปัญหาที่ไม่เป็น (Pearl and Bareinboim 2014; Pearl 2015)
เมื่อมาถึงจุดนี้คนขี้ระแวงอาจชี้ให้เห็นว่ารูปแบบทางสังคมส่วนใหญ่อาจมีความสามารถในการขนส่งข้ามกลุ่มมากกว่าความสัมพันธ์ระหว่างการสูบบุหรี่กับมะเร็ง และฉันเห็นด้วย ขอบเขตที่เราควรคาดหวังว่ารูปแบบที่จะขนส่งเป็นที่สุดคำถามทางวิทยาศาสตร์ที่ต้องตัดสินใจบนพื้นฐานของทฤษฎีและหลักฐาน ไม่ควรสันนิษฐานโดยอัตโนมัติว่ารูปแบบจะสามารถเคลื่อนย้ายได้ แต่ไม่ควรถือว่าเป็นไปได้ว่าจะไม่สามารถเคลื่อนย้ายได้ คำถามที่เป็นนามธรรมเหล่านี้เกี่ยวกับการขนส่งสินค้าจะเป็นที่คุ้นเคยกับคุณหากคุณได้ติดตามการอภิปรายเกี่ยวกับจำนวนนักวิจัยที่สามารถเรียนรู้เกี่ยวกับพฤติกรรมของมนุษย์โดยการศึกษานักศึกษาปริญญาตรี (Sears 1986, [@henrich_most_2010] ) แม้จะมีการอภิปรายเหล่านี้ แต่ก็จะไม่มีเหตุผลที่จะบอกว่านักวิจัยไม่สามารถเรียนรู้อะไรจากการศึกษานักศึกษาระดับปริญญาตรี
ข้อควรระวังประการที่สองคือนักวิจัยส่วนใหญ่ที่มีข้อมูลที่ไม่เป็นตัวแทนไม่ระมัดระวังเท่าหิมะหรือตุ๊กตาและฮิลล์ ดังนั้นเพื่อแสดงให้เห็นถึงสิ่งที่ผิดพลาดเมื่อนักวิจัยพยายามที่จะทำให้เป็นแบบอย่างจากตัวอย่างจากข้อมูลที่ไม่เป็นแบบอย่างฉันต้องการจะบอกคุณเกี่ยวกับการศึกษาการเลือกตั้งรัฐสภาเยอรมันในปี 2009 โดย Andranik Tumasjan และเพื่อนร่วมงาน (2010) เมื่อวิเคราะห์มากกว่า 100,000 ทวีตพบว่าสัดส่วนของทวีตที่กล่าวถึงพรรคการเมืองนั้นตรงกับสัดส่วนของคะแนนเสียงที่พรรคได้รับในการเลือกตั้งรัฐสภา (รูปที่ 2.3) กล่าวได้ว่าข้อมูล Twitter ซึ่งโดยนัยนั้นฟรีอาจแทนที่การสำรวจความคิดเห็นสาธารณะแบบเดิมซึ่งมีราคาแพงเนื่องจากมีการเน้นข้อมูลตัวแทน
จากสิ่งที่คุณอาจทราบเกี่ยวกับ Twitter แล้วคุณควรจะสงสัยเกี่ยวกับผลการค้นหานี้โดยทันที ชาวเยอรมันใน Twitter ในปี 2009 ไม่ใช่ตัวอย่างสุ่มตัวอย่างที่น่าจะเป็นของผู้มีสิทธิเลือกตั้งชาวเยอรมันและผู้สนับสนุนบางส่วนอาจทวีตเกี่ยวกับการเมืองบ่อยกว่าผู้สนับสนุนพรรคอื่น ๆ ดังนั้นจึงดูเหมือนว่าน่าแปลกใจที่ทุกอคติที่เป็นไปได้ที่คุณอาจจินตนาการจะยกเลิกอย่างใดเพื่อให้ข้อมูลนี้จะสะท้อนโดยตรงของผู้มีสิทธิเลือกตั้งชาวเยอรมัน ในความเป็นจริงผลใน Tumasjan et al. (2010) กลายเป็นเรื่องที่ดีเกินจริง เอกสารติดตามผลโดย Andreas Jungherr, Pascal Jürgensและ Harald Schoen (2012) ชี้ให้เห็นว่าการวิเคราะห์ต้นฉบับได้ยกเว้นพรรคการเมืองที่ได้รับการกล่าวถึงมากที่สุดใน Twitter: พรรคโจรสลัดพรรคเล็ก ๆ ที่ต่อสู้กับกฎระเบียบของรัฐบาล ของอินเทอร์เน็ต เมื่อพรรค Pirate ถูกรวมไว้ในการวิเคราะห์ Twitter กล่าวถึงจะกลายเป็นตัวทำนายที่น่ากลัวของผลการเลือกตั้ง (รูปที่ 2.3) ตัวอย่างเช่นนี้แสดงให้เห็นว่าการใช้แหล่งข้อมูลขนาดใหญ่ที่ไม่เป็นตัวแทนในการทำ generalizations แบบไม่อยู่ในกลุ่มตัวอย่างอาจผิดพลาดได้มาก นอกจากนี้คุณควรสังเกตด้วยว่าข้อเท็จจริงที่ว่ามี 100,000 ทวีตไม่เกี่ยวข้องโดยทั่วไปข้อมูลข้อมูลที่ไม่เป็นตัวแทนจำนวนมากยังไม่เป็นตัวแทนซึ่งเป็นธีมที่ฉันจะกลับไปในบทที่ 3 เมื่อฉันพูดถึงการสำรวจ
สรุปได้ว่าแหล่งข้อมูลขนาดใหญ่จำนวนมากไม่ได้เป็นตัวอย่างที่เป็นตัวแทนจากประชากรที่กำหนดไว้อย่างชัดเจน สำหรับคำถามที่ต้องมีการ generalizing ผลลัพธ์จากตัวอย่างไปยังประชากรที่ถูกดึงออกมานี่เป็นปัญหาที่ร้ายแรง แต่สำหรับคำถามเกี่ยวกับการเปรียบเทียบภายในตัวอย่างข้อมูล nonrepresentative สามารถมีประสิทธิภาพตราบเท่าที่นักวิจัยมีความชัดเจนเกี่ยวกับลักษณะของตัวอย่างของพวกเขาและสนับสนุนการอ้างสิทธิ์เกี่ยวกับการขนส่งด้วยหลักฐานทางทฤษฎีหรือเชิงประจักษ์ ในความเป็นจริงความหวังของฉันคือแหล่งข้อมูลขนาดใหญ่จะช่วยให้นักวิจัยสามารถทำการเปรียบเทียบในตัวอย่างได้มากขึ้นในหลายกลุ่มที่ไม่เป็นตัวแทนและคาดเดาของฉันว่าการคาดการณ์จากหลายกลุ่มจะทำมากกว่าเพื่อพัฒนางานวิจัยทางสังคมมากกว่าการประเมินเพียงครั้งเดียวจากการสุ่มตัวอย่างที่น่าจะเป็นไปได้ ตัวอย่าง.