ข้อสังเกตประการหนึ่งที่ไม่รวมอยู่ในบทนี้คือชาติพันธุ์วัตร สำหรับข้อมูลเพิ่มเติมเกี่ยวกับชาติพันธุ์วิทยาใน Boellstorff et al. (2012) ดิจิตอลดู Boellstorff et al. (2012) และสำหรับข้อมูลเพิ่มเติมเกี่ยวกับชาติพันธุ์วิทยาในพื้นที่ดิจิตอลและกายภาพแบบผสมดูได้จาก Lane (2016)
ไม่มีคำจำกัดความเดียวของคำว่า "ข้อมูลขนาดใหญ่" แต่คำจำกัดความหลายเรื่องดูเหมือนจะมุ่งเน้นไปที่ "3 Vs: ปริมาณความหลากหลายและความเร็ว" (เช่น Japec et al. (2015) ) ดู De Mauro et al. (2015) เพื่อทบทวนข้อกำหนด
การรวมข้อมูลการบริหารราชการในประเภทข้อมูลขนาดใหญ่ของฉันเป็นเรื่องผิดปกติเล็กน้อยแม้ว่าคนอื่น ๆ จะทำเช่นนี้เช่น Legewie (2015) , Connelly et al. (2016) และ Einav and Levin (2014) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคุณค่าของข้อมูลการบริหารราชการเพื่อการวิจัยโปรดดูที่ Card et al. (2010) , Adminstrative Data Taskforce (2012) และ Grusky, Smeeding, and Snipp (2015)
สำหรับมุมมองของการวิจัยด้านการบริหารจากภายในระบบสถิติของรัฐบาลโดยเฉพาะอย่างยิ่งสำมะโนประชากรของสหรัฐให้ดู Jarmin and O'Hara (2016) สำหรับการรักษาหนังสือที่มีความยาวเป็นประวัติการณ์ในการวิจัยเกี่ยวกับสถิติทางการบริหารที่สถิติสวีเดนโปรดดู Wallgren and Wallgren (2007)
ในบทนี้ฉันได้เปรียบเทียบการสำรวจแบบเดิม ๆ เช่น General Social Survey (GSS) กับแหล่งข้อมูลสื่อสังคมออนไลน์เช่น Twitter สำหรับการเปรียบเทียบอย่างละเอียดและรอบคอบระหว่างแบบสำรวจและข้อมูลสื่อสังคมโปรดดู Schober et al. (2016)
10 ลักษณะของข้อมูลขนาดใหญ่ได้รับการอธิบายในรูปแบบที่แตกต่างกันโดยผู้มีความหลากหลายของผู้เขียนที่แตกต่างกัน การเขียนที่มีอิทธิพลต่อความคิดของฉันในประเด็นเหล่านี้ ได้แก่ Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) และ Goldstone and Lupyan (2016)
ตลอดบทนี้ฉันใช้คำว่า digital traces ซึ่งฉันคิดว่าค่อนข้างเป็นกลาง อีกคำหนึ่งที่เป็นที่นิยมสำหรับดิจิตอลร่องรอยคือ รอยเท้าดิจิทัล (Golder and Macy 2014) แต่เมื่อ Hal Abelson, Ken Ledeen และ Harry Lewis (2008) ชี้ให้เห็นว่าคำที่เหมาะสมกว่านั้นน่าจะเป็น ลายนิ้วมือแบบดิจิตอล เมื่อคุณสร้างรอยเท้าคุณจะตระหนักถึงสิ่งที่เกิดขึ้นและรอยเท้าของคุณจะไม่สามารถอ้างอิงถึงตัวคุณได้ สิ่งนี้ไม่เป็นความจริงสำหรับร่องรอยดิจิทัลของคุณ ในความเป็นจริงคุณจะออกจากร่องรอยตลอดเวลาเกี่ยวกับสิ่งที่คุณมีความรู้น้อยมาก และถึงแม้จะมีร่องรอยเหล่านี้ไม่ได้มีชื่อของคุณ แต่ก็มักจะเชื่อมโยงกับคุณ กล่าวอีกนัยหนึ่งก็คือลายนิ้วมือ: มองไม่เห็นและระบุตัวตน
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเหตุผลที่ชุดข้อมูลขนาดใหญ่ทำให้การทดสอบทางสถิติเป็นปัญหาโปรดดูที่ M. Lin, Lucas, and Shmueli (2013) และ McFarland and McFarland (2015) ประเด็นเหล่านี้ควรทำให้นักวิจัยมุ่งเน้นไปที่ความสำคัญเชิงปฏิบัติแทนที่จะเป็นนัยสำคัญทางสถิติ
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่ Raj Chetty และเพื่อนร่วมงานได้รับการเข้าถึงบันทึกภาษีโปรดดูที่ Mervis (2014)
ชุดข้อมูลขนาดใหญ่ยังสามารถสร้างปัญหาเกี่ยวกับการคำนวณซึ่งส่วนใหญ่เกินกว่าขีดความสามารถของคอมพิวเตอร์เครื่องเดียว ดังนั้นนักวิจัยที่ทำการคำนวณในชุดข้อมูลขนาดใหญ่มักแพร่กระจายงานไปยังคอมพิวเตอร์จำนวนมากซึ่งบางครั้งกระบวนการนี้เรียกว่า การเขียนโปรแกรมแบบขนาน สำหรับคำแนะนำเกี่ยวกับการเขียนโปรแกรมแบบขนานโดยเฉพาะภาษาที่เรียกว่า Hadoop ดู Vo and Silvia (2016)
เมื่อคำนึงถึงข้อมูลที่มีอยู่ตลอดเวลาสิ่งสำคัญคือต้องพิจารณาว่าคุณกำลังเปรียบเทียบผู้คนเดียวกันเมื่อเวลาผ่านไปหรือไม่หรือไม่ว่าคุณกำลังเปรียบเทียบกลุ่มคนที่เปลี่ยนไปหรือไม่ ดูตัวอย่าง Diaz et al. (2016)
หนังสือคลาสสิกเกี่ยวกับมาตรการ nonreactive คือ Webb et al. (1966) ตัวอย่างในหนังสือเล่มนี้มาจากยุคดิจิทัล แต่พวกเขายังคงส่องสว่างอยู่ สำหรับตัวอย่างของคนที่เปลี่ยนพฤติกรรมของตนเนื่องจากมีการเฝ้าระวังในระดับสูงดู Penney (2016) และ Brayne (2014)
ปฏิกิริยามีความเกี่ยวข้องกับสิ่งที่นักวิจัยต้องการเรียกร้อง (Orne 1962; Zizzo 2010) และผล Hawthorne (Adair 1984; Levitt and List 2011)
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเชื่อมโยงบันทึกดู Dunn (1946) และ Fellegi and Sunter (1969) (historical) และ Larsen and Winkler (2014) (modern) นอกจากนี้ยังมีการพัฒนาวิทยาการคอมพิวเตอร์ในรูปแบบต่างๆเช่นการคัดลอกข้อมูลการระบุอินสแตนซ์การจับคู่ชื่อการตรวจสอบซ้ำและการตรวจสอบระเบียนที่ซ้ำกัน (Elmagarmid, Ipeirotis, and Verykios 2007) นอกจากนี้ยังมีแนวทางการรักษาความเป็นส่วนตัวในการบันทึกการเชื่อมโยงซึ่งไม่จำเป็นต้องมีการส่งข้อมูลระบุตัวบุคคล (Schnell 2013) เฟสบุ๊คยังได้พัฒนากระบวนการเชื่อมโยงระเบียนของพวกเขากับพฤติกรรมการลงคะแนนเสียง นี้ทำเพื่อประเมินการทดลองที่ฉันจะบอกคุณเกี่ยวกับในบทที่ 4 (Bond et al. 2012; Jones et al. 2013)
ดูรายละเอียดเพิ่มเติมได้จากบทที่ 3 ของ Shadish, Cook, and Campbell (2001)
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเข้าสู่ระบบบันทึกการค้นหา AOL โปรดดูที่ Ohm (2010) ฉันให้คำแนะนำเกี่ยวกับการเป็นพันธมิตรกับ บริษัท และรัฐบาลในบทที่ 4 เมื่อฉันอธิบายการทดลอง จำนวนผู้เขียนได้แสดงความกังวลเกี่ยวกับงานวิจัยที่ต้องอาศัยข้อมูลที่ไม่สามารถเข้าถึงได้ดู Huberman (2012) และ boyd and Crawford (2012)
วิธีหนึ่งที่ดีสำหรับนักวิจัยของมหาวิทยาลัยที่จะได้รับการเข้าถึงข้อมูลคือการทำงานใน บริษัท ที่เป็นนักศึกษาฝึกงานหรือเยี่ยมชมนักวิจัย นอกเหนือไปจากการเปิดใช้งานการเข้าถึงข้อมูลกระบวนการนี้ยังจะช่วยให้นักวิจัยเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการที่ข้อมูลถูกสร้างขึ้นซึ่งเป็นสิ่งสำคัญสำหรับการวิเคราะห์
ในแง่ของการเข้าถึงข้อมูลของรัฐบาล Mervis (2014) กล่าวถึงวิธีการที่ Raj Chetty และเพื่อนร่วมงานสามารถเข้าถึงบันทึกภาษีที่ใช้ในการวิจัยเกี่ยวกับการเคลื่อนไหวทางสังคมได้
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับประวัติศาสตร์ของ "representativeness" เป็นแนวคิดให้ดู Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) และ Kruskal and Mosteller (1980)
สรุปการทำงานของ Snow และผลงานของ Doll and Hill เป็นเรื่องย่อ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับงานของ Snow ในเรื่อง cholera ดู Freedman (1991) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการศึกษาของแพทย์ชาวอังกฤษโปรดดูที่ Doll et al. (2004) และ Keating (2014)
นักวิจัยหลายคนจะต้องแปลกใจว่าแม้ว่าตุ๊กตาและฮิลล์ได้รวบรวมข้อมูลจากแพทย์หญิงและจากแพทย์อายุต่ำกว่า 35 ปี แต่ก็ตั้งใจไม่ใช้ข้อมูลนี้ในการวิเคราะห์ครั้งแรก ขณะที่พวกเขาโต้เถียงว่า: "เนื่องจากโรคมะเร็งปอดมีน้อยมากในผู้หญิงและผู้ชายอายุต่ำกว่า 35 ปีตัวเลขที่เป็นประโยชน์น่าจะไม่ได้รับในกลุ่มเหล่านี้เป็นเวลาหลายปีข้างหน้า ในรายงานเบื้องต้นนี้เราได้จำกัดความสนใจของเราสำหรับผู้ชายอายุ 35 ปีขึ้นไป " Rothman, Gallacher, and Hatch (2013) ซึ่งมีชื่อที่เร้าใจว่า" ทำไมต้องเป็นตัวแทนที่ควรหลีกเลี่ยง "ให้ข้อโต้แย้งทั่วไปเกี่ยวกับคุณค่าของ โดยเจตนาสร้างข้อมูล nonrepresentative
Nonrepresentativeness เป็นปัญหาสำคัญสำหรับนักวิจัยและรัฐบาลต่างๆที่ต้องการสร้างแถลงการณ์เกี่ยวกับประชากรทั้งหมด นี่เป็นเรื่องที่ไม่ค่อยมีความห่วงใยสำหรับ บริษัท ซึ่งมักมุ่งเน้นไปที่ผู้ใช้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการที่เนเธอร์แลนด์สถิติพิจารณาเรื่อง nonrepresentativeness ของธุรกิจขนาดใหญ่ข้อมูลดู Buelens et al. (2014)
สำหรับตัวอย่างของนักวิจัยที่แสดงความกังวลเกี่ยวกับลักษณะที่ไม่ใช่ตัวแทนของแหล่งข้อมูลขนาดใหญ่ดู boyd and Crawford (2012) K. Lewis (2015b) และ Hargittai (2015)
สำหรับการเปรียบเทียบรายละเอียดเพิ่มเติมเกี่ยวกับเป้าหมายของการสำรวจทางสังคมและการวิจัยด้านระบาดวิทยาโปรดดู Keiding and Louis (2016)
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับความพยายามที่จะใช้ Twitter เพื่อทำให้เป็นตัวอย่างเกี่ยวกับผู้มีสิทธิเลือกตั้งโดยเฉพาะกรณีจากการเลือกตั้งเยอรมันในปีพ. ศ. 2552 โปรดดูที่ Jungherr (2013) และ Jungherr (2015) หลังจากงานของ Tumasjan et al. (2010) นักวิจัยทั่วโลกได้ใช้วิธีการแบบแฟนซีเช่นการใช้การวิเคราะห์ความเชื่อมั่นเพื่อแยกความแตกต่างระหว่างการกล่าวถึงเชิงบวกและเชิงลบของทั้งสองฝ่ายเพื่อปรับปรุงความสามารถของข้อมูล Twitter ในการคาดการณ์การเลือกตั้งที่แตกต่างกัน (Gayo-Avello 2013; Jungherr 2015, chap. 7.) นี่เป็นวิธีที่ Huberty (2015) ได้สรุปผลของการพยายามที่จะคาดการณ์การเลือกตั้งเหล่านี้:
"ทุกวิธีการคาดการณ์ที่เป็นที่รู้จักจากสื่อสังคมออนไลน์ล้มเหลวเมื่อต้องเผชิญกับความต้องการในการคาดการณ์การเลือกตั้งในอนาคตอันใกล้ ความล้มเหลวเหล่านี้ดูเหมือนจะเป็นเพราะคุณสมบัติพื้นฐานของสื่อสังคมออนไลน์มากกว่าความยากลำบากด้านระเบียบวิธีหรือขั้นตอนวิธี ในระยะสั้นสื่อทางสังคมไม่ได้และอาจไม่เคยจะมีเสถียรภาพเป็นกลางภาพตัวแทนของการเลือกตั้ง; และตัวอย่างความสะดวกสบายของสื่อทางสังคมไม่มีข้อมูลเพียงพอที่จะแก้ไขปัญหาเหล่านี้โพสต์ hoc.
ในบทที่ 3 ฉันจะอธิบายการสุ่มตัวอย่างและการประมาณค่าในรายละเอียดมากขึ้น แม้ว่าจะมีข้อมูลที่ไม่เป็นตัวแทน แต่ในบางเงื่อนไขอาจมีการถ่วงน้ำหนักเพื่อให้ได้ข้อมูลประมาณการที่ดี
ลอยระบบเป็นเรื่องยากที่จะมองเห็นจากภายนอก อย่างไรก็ตามโครงการ MovieLens (กล่าวถึงในบทที่ 4) ได้รับการดำเนินการมานานกว่า 15 ปีโดยกลุ่มวิจัยทางวิชาการ ดังนั้นพวกเขาจึงสามารถจัดทำเอกสารและแบ่งปันข้อมูลเกี่ยวกับวิธีที่ระบบมีการพัฒนาตลอดเวลาและวิธีการนี้อาจส่งผลกระทบต่อการวิเคราะห์ (Harper and Konstan 2015)
นักวิชาการบางคนได้ให้ความสนใจกับการล่องลอยใน Twitter: Liu, Kliman-Silver, and Mislove (2014) และ Tufekci (2014)
วิธีหนึ่งในการจัดการกับการเลื่อนลอยของประชากรคือการสร้างแผงของผู้ใช้ซึ่งจะช่วยให้นักวิจัยศึกษาคนเดียวกันเมื่อเวลาผ่านไปดู Diaz et al. (2016)
ครั้งแรกที่ฉันได้ยินคำว่า "algorithmically confounded" ที่ใช้โดย Jon Kleinberg ในการพูดคุย แต่น่าเสียดายที่ฉันจำไม่ได้ว่าเวลาหรือสถานที่ที่ได้รับการพูดคุย ครั้งแรกที่ฉันเห็นคำที่พิมพ์อยู่ใน Anderson et al. (2015) ซึ่งเป็นการอภิปรายที่น่าสนใจว่าอัลกอริทึมที่ใช้โดยไซต์หาคู่อาจทำให้ความสามารถของนักวิจัยในการใช้ข้อมูลจากเว็บไซต์เหล่านี้มีความซับซ้อนมากขึ้นเพื่อศึกษาถึงความชอบทางสังคม ความกังวลนี้ถูกยกขึ้นโดย K. Lewis (2015a) เพื่อตอบสนอง Anderson et al. (2014)
นอกเหนือจาก Facebook แล้ว Twitter ยังแนะนำให้ผู้ใช้ติดตามสิ่งต่างๆตามแนวคิด triadic closure ด้วยเช่นกัน ดู Su, Sharma, and Goel (2016) ดังนั้นการปิดบัญชี triadic ใน Twitter เป็นการรวมกันของแนวโน้มของมนุษย์บางอย่างที่มีต่อการปิด triadic และแนวโน้มขั้นตอนวิธีบางอย่างเพื่อส่งเสริมการปิด triadic
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับแนวคิดการแสดง - โดยเฉพาะอย่างยิ่งความคิดที่ว่าทฤษฎีทางสังคมศาสตร์บางอย่างเป็น "เครื่องมือไม่ใช่กล้อง" (กล่าวคือทำให้รูปร่างของโลกกว้างกว่าการบรรยาย) - เห็น Mackenzie (2008)
หน่วยงานทางสถิติของรัฐเรียกข้อมูลทำความสะอาด ข้อมูลสถิติการแก้ไข De Waal, Puts, and Daas (2014) อธิบายถึงเทคนิคการแก้ไขข้อมูลทางสถิติที่พัฒนาขึ้นสำหรับข้อมูลการสำรวจและตรวจสอบขอบเขตที่ใช้กับแหล่งข้อมูลขนาดใหญ่และ Puts, Daas, and Waal (2015) นำเสนอแนวคิดบางอย่างสำหรับ ผู้ชมทั่วไปมากขึ้น
สำหรับภาพรวมของบอทสังคมโปรดดูที่ Ferrara et al. (2016) สำหรับตัวอย่างบางส่วนของการศึกษาเกี่ยวกับการหาสแปมใน Twitter โปรดดูที่ Clark et al. (2016) และ Chu et al. (2012) สุดท้าย Subrahmanian et al. (2016) อธิบายถึงผลลัพธ์ของ DARPA Twitter Bot Challenge ซึ่งเป็นความร่วมมือระดับโลกที่ออกแบบมาเพื่อเปรียบเทียบวิธีการตรวจหาบอทบน Twitter
Ohm (2015) ทำการวิจัยก่อนหน้านี้เกี่ยวกับแนวคิดเรื่องข้อมูลที่ละเอียดอ่อนและมีการทดสอบหลายปัจจัย ปัจจัยสี่ประการที่เขาเสนอคือขนาดของอันตรายความน่าจะเป็นของการเป็นอันตรายความสัมพันธ์ที่เป็นความลับและความเสี่ยงนั้นสะท้อนถึงความกังวลเกี่ยวกับหลักธรรมาภิบาลหรือไม่
การศึกษาเกี่ยวกับรถแท็กซี่ของฟาร์เบอร์ในรัฐนิวยอร์กขึ้นอยู่กับการศึกษาก่อนหน้านี้ของ Camerer et al. (1997) ที่ใช้สามตัวอย่างสะดวกสบายที่แตกต่างกันของแผ่นกระดาษเดินทาง การศึกษาก่อนหน้านี้พบว่าคนขับรถดูเหมือนจะเป็นกลุ่มเป้าหมาย: พวกเขาทำงานน้อยลงในวันที่ค่าจ้างของพวกเขาสูงขึ้น
ในงานต่อมาคิงและเพื่อนร่วมงานได้สำรวจการเซ็นเซอร์ออนไลน์ในประเทศจีน (King, Pan, and Roberts 2014, [@king_how_2016] ) สำหรับวิธีการที่เกี่ยวข้องในการวัดการเซ็นเซอร์ออนไลน์ในประเทศจีนให้ดูที่ Bamman, O'Connor, and Smith (2012) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทางสถิติเช่นเดียวกับที่ใช้ใน King, Pan, and Roberts (2013) ในการประมาณความเชื่อมั่นใน 11 ล้านโพสต์ให้ดูที่ Hopkins and King (2010) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้ที่ได้รับการดูแลดู James et al. (2013) (น้อยเทคนิค) และ Hastie, Tibshirani, and Friedman (2009) (เทคนิคเพิ่มเติม)
การคาดการณ์เป็นส่วนใหญ่ของข้อมูลอุตสาหกรรม (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) การคาดการณ์ประเภทหนึ่งที่มักทำโดยนักวิจัยทางสังคมคือการคาดการณ์ตามข้อมูลประชากร ดูตัวอย่างเช่น Raftery et al. (2012)
Google เทรนด์ไข้หวัดใหญ่ไม่ใช่โครงการแรกที่ใช้ข้อมูลการค้นหาเพื่อเผยแพร่ความชุกของไข้หวัดใหญ่ตอนนี้ ในความเป็นจริงนักวิจัยในสหรัฐอเมริกา (Polgreen et al. 2008; Ginsberg et al. 2009) และสวีเดน (Hulth, Rydevik, and Linde 2009) พบว่าข้อความค้นหาบางอย่าง (เช่น "ไข้หวัดใหญ่") ทำนายการเฝ้าระวังด้านสาธารณสุขแห่งชาติ ข้อมูลก่อนที่จะเผยแพร่ ต่อจากนั้นหลายโครงการอื่น ๆ ได้พยายามใช้ข้อมูลการสืบค้นกลับแบบดิจิตอลสำหรับการเฝ้าระวังโรค ดู Althouse et al. (2015) เพื่อรับการตรวจทาน
นอกเหนือจากการใช้ข้อมูลการติดตามข้อมูลดิจิตอลเพื่อทำนายผลลัพธ์ด้านสุขภาพแล้วยังมีการใช้ข้อมูล Twitter จำนวนมากเพื่อคาดการณ์ผลการเลือกตั้ง Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (บทที่ 7) และ Huberty (2015) การปรับตัวชี้วัดทางเศรษฐกิจเช่นผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) เป็นเรื่องปกติในธนาคารกลางดู Bańbura et al. (2013) ตารางที่ 2.8 มีตัวอย่างบางส่วนของการศึกษาที่ใช้แบบดิจิตอลร่องรอยเพื่อทำนายเหตุการณ์บางอย่างในโลก
การติดตามข้อมูลดิจิทัล | ผล | การอ้างอิง |
---|---|---|
พูดเบาและรวดเร็ว | รายได้บ็อกซ์ออฟฟิศของภาพยนตร์ในสหรัฐฯ | Asur and Huberman (2010) |
บันทึกการค้นหา | การขายภาพยนตร์เพลงหนังสือและวิดีโอเกมในสหรัฐฯ | Goel et al. (2010) |
พูดเบาและรวดเร็ว | ค่าเฉลี่ยอุตสาหกรรมดาวโจนส์ (ตลาดหุ้นสหรัฐฯ) | Bollen, Mao, and Zeng (2011) |
สื่อสังคมออนไลน์และบันทึกการค้นหา | สำรวจความเชื่อมั่นของนักลงทุนและตลาดหุ้นในประเทศสหรัฐอเมริกาสหราชอาณาจักรแคนาดาและจีน | Mao et al. (2015) |
บันทึกการค้นหา | ความชุกของโรคไข้เลือดออกในสิงคโปร์และกรุงเทพฯ | Althouse, Ng, and Cummings (2011) |
ในที่สุดจอน Kleinberg และเพื่อนร่วมงาน (2015) ได้ชี้ให้เห็นว่าปัญหาการคาดการณ์แบ่งออกเป็นสองหมวดหมู่ที่แตกต่างกันอย่างละเอียดและนักวิทยาศาสตร์ทางสังคมมีแนวโน้มที่จะมุ่งเน้นไปที่ประเด็นหนึ่งและไม่สนใจเรื่องอื่น ๆ ลองจินตนาการถึงผู้กำหนดนโยบายคนหนึ่งฉันจะโทรหาแอนนาของเธอซึ่งกำลังเผชิญกับภัยแล้งและต้องตัดสินใจว่าจะจ้างหมอผีเพื่อทำเต้นรำฝนเพื่อเพิ่มโอกาสที่ฝนจะตก ผู้กำหนดนโยบายคนอื่น ๆ ฉันจะเรียกเธอว่าเบ็ตตีต้องตัดสินใจว่าจะใช้ร่มเพื่อทำงานเพื่อหลีกเลี่ยงการเปียกในขณะเดินทางกลับบ้าน ทั้งแอนนาและเบ็ตตีสามารถตัดสินใจได้ดีขึ้นถ้าเข้าใจสภาพอากาศ แต่พวกเขาจำเป็นต้องรู้สิ่งต่างๆ แอนนาต้องเข้าใจว่าการเต้นรำฝนก่อให้เกิดฝนหรือไม่ เบ็ตตีในทางกลับกันไม่จำเป็นต้องเข้าใจอะไรเกี่ยวกับสาเหตุ; เธอต้องการแค่การคาดการณ์ที่ถูกต้อง นักวิจัยทางสังคมมักจะมุ่งเน้นไปที่ปัญหาเช่นเดียวกับที่แอนนาเผชิญซึ่ง Kleinberg และเพื่อนร่วมงานเรียกร้องให้มีปัญหาเกี่ยวกับนโยบาย "rain dance-like" เนื่องจากเกี่ยวข้องกับคำถามเรื่อง causality คำถามเช่นคำถามของ Betty ซึ่ง Kleinberg และเพื่อนร่วมงานเรียกร้องปัญหานโยบายเกี่ยวกับร่มเหมือนกันอาจมีความสำคัญมากเช่นกัน แต่ได้รับความสนใจจากนักวิจัยทางสังคมน้อยมาก
วารสาร PS Political Science มีการจัดสัมมนาเรื่องข้อมูลขนาดใหญ่การอนุมานสาเหตุและทฤษฎีทางการและ Clark and Golder (2015) ได้สรุปผลการบริจาคแต่ละครั้ง การ ดำเนินการของสถาบันวิจัยวิทยาศาสตร์แห่งชาติของสหรัฐอเมริกา มีการประชุมเชิงวิชาการเกี่ยวกับการอนุมานสาเหตุและข้อมูลขนาดใหญ่และ Shiffrin (2016) สรุปผลงานแต่ละข้อ สำหรับวิธีการเรียนรู้ด้วยเครื่องที่พยายามค้นหาการทดลองตามธรรมชาติภายในแหล่งข้อมูลขนาดใหญ่ให้ดูที่ Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) และ Sharma, Hofman, and Watts (2016)
ในแง่ของการทดลองตามธรรมชาติ Dunning (2012) เป็นการนำเสนอการบำบัดด้วยหนังสือเป็นเวลานานและมีตัวอย่างมากมาย สำหรับมุมมองที่ไม่เชื่อในการทดลองตามธรรมชาติดู Rosenzweig and Wolpin (2000) (economics) หรือ Sekhon and Titiunik (2012) (science science) Deaton (2010) และ Heckman and Urzúa (2010) ยืนยันว่าการมุ่งเน้นไปที่การทดลองตามธรรมชาติสามารถนำไปสู่การวิจัยเพื่อให้ความสำคัญกับการประเมินผลกระทบที่ไม่สำคัญ; Imbens (2010) นับข้อโต้แย้งเหล่านี้ด้วยมุมมองที่มองโลกในแง่ดีมากกว่าคุณค่าของการทดลองตามธรรมชาติ
เมื่ออธิบายถึงวิธีการที่นักวิจัยสามารถไปจากการประเมินผลของการร่างขึ้นเพื่อให้มีผลต่อการให้บริการได้ผมอธิบายเทคนิคที่เรียกว่า ตัวแปรของเครื่องมือ Imbens and Rubin (2015) ในบทที่ 23 และ 24 ให้คำแนะนำและใช้การจับสลากร่างเป็นตัวอย่าง ผลกระทบของการรับราชการทหารในบางครั้งเรียกว่าคอมมิวนิสต์โดยเฉลี่ยสาเหตุ (CAcE) และบางครั้งผลการรักษาโดยเฉลี่ยในท้องถิ่น (LATE) Sovey and Green (2011) , Angrist and Krueger (2001) และ Bollen (2012) เสนอความคิดเห็นเกี่ยวกับการใช้ตัวแปรที่มีประโยชน์ในด้านการเมืองศาสตร์เศรษฐศาสตร์และสังคมวิทยาและ Sovey and Green (2011) ให้ "รายการตรวจสอบของผู้อ่าน" สำหรับ การประเมินผลการศึกษาโดยใช้ตัวแปรของเครื่องมือ
ปรากฎว่าการจับสลากร่างปี 2513 ไม่ได้เป็นแบบสุ่มอย่างถูกต้อง มีการเบี่ยงเบนเล็กน้อยจากการสุ่มแบบสุ่ม (Fienberg 1971) Berinsky and Chatfield (2015) ระบุว่าการเบี่ยงเบนเล็ก ๆ นี้ไม่สำคัญอย่างยิ่งและพูดถึงความสำคัญของการสุ่มเลือกที่ถูกต้อง
ในแง่ของการจับคู่ดู Stuart (2010) สำหรับการทบทวนในแง่ดีและ Sekhon (2009) สำหรับการทบทวนในแง่ร้าย สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการจับคู่เป็นชนิดของการตัดแต่งกิ่งดู Ho et al. (2007) การหาคู่ต่อสู้ที่สมบูรณ์แบบเดียวสำหรับแต่ละคนมักเป็นเรื่องยากและนี่เป็นข้อเสนอที่ซับซ้อน ประการแรกเมื่อไม่มีการแข่งขันที่แน่นอนนักวิจัยจำเป็นต้องตัดสินใจว่าจะวัดระยะห่างระหว่างสองหน่วยและถ้าระยะทางใกล้พอ ความซับซ้อนที่สองเกิดขึ้นถ้านักวิจัยต้องการที่จะใช้การจับคู่หลาย ๆ กรณีในแต่ละกลุ่มในการรักษาเพราะว่านี่อาจนำไปสู่การประมาณค่าที่แม่นยำมากขึ้น ทั้งสองประเด็นนี้รวมถึงข้อมูลอื่น ๆ ได้อธิบายไว้อย่างละเอียดในบทที่ 18 ของ Imbens and Rubin (2015) ดูส่วนที่ 2 ( ??? )
ดู Dehejia and Wahba (1999) สำหรับตัวอย่างที่วิธีการจับคู่สามารถสร้างการประมาณค่าที่คล้ายคลึงกับการทดลองที่ได้รับการสุ่มตัวอย่าง แต่โปรดดูที่ Arceneaux, Gerber, and Green (2006) และ Arceneaux, Gerber, and Green (2010) สำหรับตัวอย่างที่วิธีการจับคู่ไม่สามารถทำซ้ำเกณฑ์การทดลองได้
Rosenbaum (2015) และ Hernán and Robins (2016) มีคำแนะนำอื่น ๆ สำหรับการค้นพบการเปรียบเทียบที่มีประโยชน์ภายในแหล่งข้อมูลขนาดใหญ่