ความเห็นเพิ่มเติม

ในส่วนนี้จะถูกออกแบบมาเพื่อใช้เป็นข้อมูลอ้างอิงมากกว่าที่จะอ่านเป็นเรื่องเล่า

  • บทนำ (มาตรา 2.1)

ชนิดหนึ่งสังเกตว่าจะไม่รวมอยู่ในบทนี้เป็นกลุ่มชาติพันธุ์ สำหรับข้อมูลเพิ่มเติมเกี่ยวชาติพันธุ์ในพื้นที่ดิจิตอลดู Boellstorff et al. (2012) และสำหรับข้อมูลเพิ่มเติมเกี่ยวกับกลุ่มชาติพันธุ์ในพื้นที่ดิจิตอลและทางกายภาพผสมดู Lane (2016)

  • ข้อมูลขนาดใหญ่ (มาตรา 2.2)

เมื่อคุณกำลัง repurposing ข้อมูลที่มีสองเทคนิคทางจิตที่สามารถช่วยให้คุณเข้าใจปัญหาที่เป็นไปได้ที่คุณอาจพบ ครั้งแรกที่คุณสามารถลองจินตนาการชุดข้อมูลที่เหมาะสำหรับปัญหาของคุณและเปรียบเทียบกับชุดที่คุณกำลังใช้ วิธีที่พวกเขามีความคล้ายคลึงและวิธีการที่พวกเขาแตกต่างกันอย่างไร หากคุณไม่ได้เก็บรวบรวมข้อมูลของคุณเองมีแนวโน้มที่จะมีความแตกต่างระหว่างสิ่งที่คุณต้องการและสิ่งที่คุณมี แต่คุณต้องตัดสินใจว่าความแตกต่างเหล่านี้จะเล็กหรือใหญ่

ประการที่สองจำไว้ว่าคนที่สร้างขึ้นและเก็บรวบรวมข้อมูลของคุณด้วยเหตุผลบางอย่าง คุณควรพยายามที่จะเข้าใจเหตุผลของพวกเขา ชนิดของการวิศวกรรมย้อนกลับนี้สามารถช่วยให้คุณระบุปัญหาที่เป็นไปได้และอคติในข้อมูล repurposed ของคุณ

ไม่มีความหมายเดียวของฉันทามติ "ข้อมูลขนาดใหญ่" แต่ความหมายมากดูเหมือนจะมุ่งเน้นไปที่ 3 Vs: ปริมาณความหลากหลายและความเร็ว (เช่น Japec et al. (2015) ) แทนที่จะมุ่งเน้นไปในลักษณะของข้อมูลความหมายของฉันมุ่งเน้นเพิ่มเติมเกี่ยวกับเหตุผลที่ข้อมูลที่ถูกสร้างขึ้น

รวมของฉันของข้อมูลการบริหารของรัฐบาลภายในหมวดหมู่ของข้อมูลขนาดใหญ่เป็นบิตผิดปกติ คนอื่น ๆ ที่ได้ทำกรณีนี้รวมถึง Legewie (2015) , Connelly et al. (2016) และ Einav and Levin (2014) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคุณค่าของข้อมูลการบริหารของรัฐบาลสำหรับการวิจัยให้ดู Card et al. (2010) , Taskforce (2012) และ Grusky, Smeeding, and Snipp (2015)

สำหรับมุมมองของการวิจัยการบริหารจัดการจากภายในรัฐบาลระบบทางสถิติโดยเฉพาะอย่างยิ่งสำนักสำรวจสำมะโนประชากรของสหรัฐเห็น Jarmin and O'Hara (2016) สำหรับการรักษาความยาวหนังสือบันทึกการวิจัยการบริหารที่สถิติสวีเดนดู Wallgren and Wallgren (2007)

ในบทที่ผมสั้นเมื่อเทียบกับการสำรวจแบบดั้งเดิมเช่นการสำรวจสังคมทั่วไป (GSS) เพื่อเป็นแหล่งข้อมูลสื่อสังคมเช่น Twitter สำหรับการเปรียบเทียบอย่างละเอียดและระมัดระวังในระหว่างการสำรวจข้อมูลแบบดั้งเดิมและสื่อสังคมเห็น Schober et al. (2016)

  • ลักษณะทั่วไปของข้อมูลขนาดใหญ่ (2.3)

นี้ 10 ลักษณะของข้อมูลขนาดใหญ่ได้รับการอธิบายในความหลากหลายของวิธีการที่แตกต่างกันด้วยความหลากหลายของผู้เขียนที่แตกต่างกัน การเขียนที่มีอิทธิพลต่อความคิดของฉันในประเด็นเหล่านี้รวมถึง: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) และ Goldstone and Lupyan (2016)

ตลอดบทนี้ผมเคยใช้ร่องรอยดิจิตอลระยะซึ่งผมคิดว่าเป็นเรื่องค่อนข้างเป็นกลาง อีกคำที่นิยมสำหรับร่องรอยดิจิตอลรอยเท้าดิจิตอล (Golder and Macy 2014) แต่เป็นฮาล Abelson เคน Ledeen และแฮร์รี่ลูอิส (2008) ชี้ให้เห็นเป็นระยะที่เหมาะสมมากขึ้นอาจจะเป็นลายนิ้วมือดิจิตอล เมื่อคุณสร้างรอยเท้าคุณจะตระหนักถึงสิ่งที่เกิดขึ้นและรอยเท้าของคุณไม่สามารถโดยทั่วไปจะโยงไปถึงคุณเป็นการส่วนตัว เช่นเดียวกับที่ไม่เป็นความจริงสำหรับร่องรอยดิจิตอลของคุณ ในความเป็นจริงคุณจะทิ้งร่องรอยตลอดเวลาเกี่ยวกับการที่คุณมีความรู้น้อยมาก และแม้ว่าร่องรอยเหล่านี้ไม่ได้มีชื่อของพวกเขาพวกเขามักจะสามารถเชื่อมโยงกลับไปที่คุณ ในคำอื่น ๆ ที่พวกเขามีมากขึ้นเช่นลายนิ้วมือ: มองไม่เห็นและระบุตัวบุคคล

ใหญ่

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเหตุผลที่ชุดข้อมูลขนาดใหญ่, การแสดงผลการทดสอบทางสถิติที่มีปัญหาให้ดู Lin, Lucas, and Shmueli (2013) และ McFarland and McFarland (2015) ปัญหาเหล​​่านี้จะนำไปสู่​​นักวิจัยที่จะมุ่งเน้นความสำคัญในทางปฏิบัติมากกว่านัยสำคัญทางสถิติ

ตลอดเวลาใน

เมื่อพิจารณาตลอดเวลาในข้อมูลก็เป็นสิ่งสำคัญที่จะต้องพิจารณาว่าคุณกำลังเปรียบเทียบคนเดียวกันแน่นอนในช่วงเวลาหรือไม่ว่าคุณกำลังเปรียบเทียบกับบางกลุ่มที่เปลี่ยนแปลงไปของผู้คน; ดูตัวอย่าง Diaz et al. (2016)

ไม่เกิดปฏิกิริยา

หนังสือคลาสสิกเกี่ยวกับมาตรการที่ไม่ใช่ปฏิกิริยาเป็น Webb et al. (1966) ตัวอย่างในหนังสือวันก่อนที่ยุคดิจิตอล แต่พวกเขายังคงส่องสว่าง สำหรับตัวอย่างของคนเปลี่ยนแปลงพฤติกรรมของพวกเขาเพราะการปรากฏตัวของการเฝ้าระวังมวลเห็น Penney (2016) และ Brayne (2014)

ไม่สมบูรณ์

สำหรับข้อมูลเพิ่มเติมเกี่ยวบันทึกการเชื่อมโยงให้ดู Dunn (1946) และ Fellegi and Sunter (1969) (ประวัติศาสตร์) และ Larsen and Winkler (2014) (ปัจจุบัน) ที่คล้ายกันเดินเข้ามานอกจากนี้ยังได้รับการพัฒนาในด้านวิทยาศาสตร์คอมพิวเตอร์ภายใต้ชื่อเช่นการคัดลอกข้อมูลบัตรประจำตัวเช่นชื่อที่ตรงกับการตรวจสอบซ้ำและซ้ำกันตรวจสอบการบันทึก (Elmagarmid, Ipeirotis, and Verykios 2007) นอกจากนี้ยังมีความเป็นส่วนตัวการรักษาวิธีการบันทึกการเชื่อมโยงซึ่งไม่จำเป็นต้องส่งของระบุตัวบุคคลข้อมูล (Schnell 2013) Facebook นอกจากนี้ยังได้มีการพัฒนาดำเนินการเชื่อมโยงบันทึกของพวกเขากับพฤติกรรมการออกเสียงลงคะแนน นี้ทำเพื่อประเมินผลการทดลองที่ฉันจะบอกคุณเกี่ยวกับในบทที่ 4 (Bond et al. 2012; Jones et al. 2013)

สำหรับข้อมูลเพิ่มเติมเกี่ยวสร้างความถูกต้องให้ดู Shadish, Cook, and Campbell (2001) , บทที่ 3

ไม่สามารถเข้าถึงได้

สำหรับข้อมูลเพิ่มเติมเกี่ยว AOL บันทึกการค้นหาน้ำท่วมดู Ohm (2010) ผมให้คำแนะนำเกี่ยวกับการเป็นพันธมิตรกับ บริษัท และรัฐบาลในบทที่ 4 เมื่อผมอธิบายการทดลอง จำนวนของผู้เขียนได้แสดงความกังวลเกี่ยวกับการวิจัยที่อาศัยข้อมูลที่ไม่สามารถเข้าถึงได้เห็น Huberman (2012) และ boyd and Crawford (2012)

วิธีหนึ่งที่ดีสำหรับนักวิจัยของมหาวิทยาลัยที่จะได้รับการเข้าถึงข้อมูลคือการทำงานใน บริษัท ที่เป็นนักศึกษาฝึกงานหรือเยี่ยมชมนักวิจัย นอกเหนือไปจากการเปิดใช้งานการเข้าถึงข้อมูลกระบวนการนี​​้ยังจะช่วยให้นักวิจัยเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการที่ข้อมูลถูกสร้างขึ้นซึ่งเป็นสิ่งสำคัญสำหรับการวิเคราะห์

ที่ไม่ใช่ตัวแทน

Non-มูลเป็นปัญหาสำคัญสำหรับนักวิจัยและรัฐบาลที่มีความประสงค์ที่จะทำให้งบที่เกี่ยวกับประชากรทั้งหมด นี้จะน้อยกว่าความกังวลสำหรับ บริษัท ที่มีความสำคัญโดยทั่วไปเกี่ยวกับผู้ใช้ของพวกเขา สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการสถิติเนเธอร์แลนด์พิจารณาปัญหาของการไม่เป็นตัวแทนของข้อมูลธุรกิจขนาดใหญ่ให้ดู Buelens et al. (2014)

ในบทที่ 3 ผมจะอธิบายการสุ่มตัวอย่างและการประมาณค่าในรายละเอียดมากขึ้น แม้ว่าข้อมูลที่ไม่ใช่ตัวแทนภายใต้เงื่อนไขบางอย่างที่พวกเขาสามารถถ่วงน้ำหนักในการผลิตประมาณการที่ดี

การเลื่อนลอย

ระบบการดริฟท์เป็นเรื่องยากมากที่จะเห็นจากภายนอก อย่างไรก็ตามโครงการ MovieLens (กล่าวถึงในบทที่ 4) ได้รับการทำงานเป็นเวลากว่า 15 ปีโดยกลุ่มวิจัยทางวิชาการ ดังนั้นพวกเขามีเอกสารและข้อมูลเกี่ยวกับวิธีการที่ระบบมีการพัฒนาอยู่ตลอดเวลาและวิธีการนี้อาจส่งผลต่อการวิเคราะห์ร่วมกัน (Harper and Konstan 2015)

นักวิชาการจำนวนมากได้มุ่งเน้นในการดริฟท์ในทวิตเตอร์: Liu, Kliman-Silver, and Mislove (2014) และ Tufekci (2014)

อายอัลกอริทึม

แรกที่ผมได้ยินคำว่า "อัลกอริทึมอับอาย" ใช้โดยจอน Kleinberg ในการพูดคุย ความคิดหลักที่อยู่เบื้องหลัง Performativity คือบางทฤษฎีวิทยาศาสตร์สังคมเป็น "เครื่องมือไม่ได้กล้อง" (Mackenzie 2008) นั่นคือพวกเขาจริงรูปร่างของโลกมากกว่าแค่จับมัน

สกปรก

หน่วยงานสถิติของรัฐเรียกทำความสะอาดข้อมูลการแก้ไขข้อมูลทางสถิติ. De Waal, Puts, and Daas (2014) อธิบายเทคนิคการแก้ไขข้อมูลทางสถิติที่พัฒนาขึ้นสำหรับข้อมูลการสำรวจและตรวจสอบที่มีขอบเขตที่พวกเขามีผลบังคับใช้กับแหล่งข้อมูลขนาดใหญ่และ Puts, Daas, and Waal (2015) นำเสนอบางส่วนของความคิดเดียวกันสำหรับผู้ชมทั่วไปมากขึ้น

สำหรับตัวอย่างของการศึกษาบางส่วนมุ่งเน้นไปที่สแปมในทวิตเตอร์, Clark et al. (2016) และ Chu et al. (2012) สุดท้าย Subrahmanian et al. (2016) อธิบายผลของการท้าทาย Bot DARPA ทวิตเตอร์

รู้สึกไว

Ohm (2015) ความคิดเห็นวิจัยก่อนหน้านี้ในความคิดของข้อมูลที่สำคัญและมีการทดสอบหลายปัจจัย ปัจจัยสี่ที่เขาเสนอคือความน่าจะเป็นของอันตราย; น่าจะเป็นของอันตราย; การปรากฏตัวของความสัมพันธ์ที่เป็นความลับ และไม่ว่าจะมีความเสี่ยงสะท้อนให้เห็นถึงความกังวล majoritarian

  • นับสิ่ง (มาตรา 2.4.1)

การศึกษาฟาร์ของรถแท็กซี่ในนิวยอร์กก็ขึ้นอยู่กับการศึกษาก่อนหน้านี้โดย Camerer et al. (1997) ที่ใช้สามตัวอย่างความสะดวกสบายของการเดินทางที่แตกต่างกันในรูปแบบกระดาษแผ่นกระดาษที่ใช้โดยไดรเวอร์ที่จะเดินทางบันทึกเวลาเริ่มต้นเวลาสิ้นสุดและของว่าง การศึกษาก่อนหน้านี้พบว่าคนขับดูเหมือนจะเป็นเป้าหมายรายได้ที่พวกเขาทำงานน้อยลงในวันที่ค่าจ้างของพวกเขาสูงขึ้น

Kossinets and Watts (2009) ได้รับการมุ่งเน้นไปที่ต้นกำเนิดของ homophily ในเครือข่ายทางสังคม ดู Wimmer and Lewis (2010) สำหรับวิธีการที่แตกต่างกันในการแก้ไขปัญหาเดียวกันซึ่งใช้ข้อมูลจาก Facebook

ในการทำงานต่อมาพระบาทสมเด็จพระเจ้าอยู่หัวและเพื่อนร่วมงานได้สำรวจเพิ่มเติมเซ็นเซอร์ออนไลน์ในประเทศจีน (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) สำหรับวิธีการที่เกี่ยวข้องกับการวัดการเซ็นเซอร์ออนไลน์ในประเทศจีนดู Bamman, O'Connor, and Smith (2012) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทางสถิติอย่างหนึ่งที่ใช้ใน King, Pan, and Roberts (2013) เพื่อประเมินความเชื่อมั่นของ 11 ล้านโพสต์ให้ดู Hopkins and King (2010) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้ภายใต้การดูแลให้ดู James et al. (2013) (น้อยทางด้านเทคนิค) และ Hastie, Tibshirani, and Friedman (2009) (เทคนิคเพิ่มเติม)

  • พยากรณ์ (มาตรา 2.4.2)

การพยากรณ์เป็นส่วนใหญ่ของวิทยาศาสตร์ข้อมูลอุตสาหกรรม (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) ประเภทหนึ่งของการคาดการณ์ที่ทำกันทั่วไปโดยนักวิจัยทางสังคมจะคาดการณ์ประชากรตัวอย่าง Raftery et al. (2012)

Google แนวโน้มไข้หวัดใหญ่ไม่ได้เป็นโครงการแรกที่จะใช้ข้อมูลการค้นหาความชุกโรคไข้หวัดใหญ่ nowcast ในความเป็นจริงนักวิจัยในประเทศสหรัฐอเมริกา (Polgreen et al. 2008; Ginsberg et al. 2009) และสวีเดน (Hulth, Rydevik, and Linde 2009) พบว่าคำค้นหาบาง (เช่น "ไข้หวัด") คาดการณ์การเฝ้าระวังสุขภาพของประชาชนในระดับชาติ ข้อมูลก่อนที่จะได้รับการปล่อยตัว ต่อมาหลายโครงการอื่น ๆ อีกมากมายได้พยายามที่จะใช้ข้อมูลการติดตามดิจิตอลสำหรับการตรวจสอบเฝ้าระวังโรคให้ดู Althouse et al. (2015) สำหรับความคิดเห็น

นอกเหนือจากการใช้ข้อมูลดิจิตอลร่องรอยที่จะคาดการณ์ผลลัพธ์ทางสุขภาพที่มียังได้รับเป็นจำนวนมากของการทำงานโดยใช้ข้อมูลทวิตเตอร์ในการทำนายผลการเลือกตั้ง การแสดงความคิดเห็นดู Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) และ Huberty (2015)

โดยใช้ข้อมูลการค้นหาเพื่อทำนายความชุกโรคไข้หวัดใหญ่และการใช้ข้อมูลที่ทวิตเตอร์ที่จะคาดการณ์การเลือกตั้งเป็นตัวอย่างของการใช้ทั้งสองประเภทของการตรวจสอบดิจิตอลบางส่วนที่จะทำนายชนิดของเหตุการณ์บางอย่างในโลก มีจำนวนมหาศาลของการศึกษาที่มีโครงสร้างทั่วไปนี้ ตารางที่ 2.5 รวมถึงตัวอย่างอื่น ๆ ไม่กี่

ตารางที่ 2.5: รายชื่อบางส่วนของการศึกษาใช้บางร่องรอยดิจิตอลที่จะคาดการณ์เหตุการณ์บางอย่าง
ร่องรอยดิจิตอล ผล การอ้างอิง
พูดเบาและรวดเร็ว กล่องสำนักงานสรรพากรของภาพยนตร์ในสหรัฐอเมริกา Asur and Huberman (2010)
บันทึกการค้นหา ขายภาพยนตร์, เพลง, หนังสือ, และวิดีโอเกมในสหรัฐ Goel et al. (2010)
พูดเบาและรวดเร็ว ดัชนีเฉลี่ยอุตสาหกรรมดาวโจนส์ (ตลาดหุ้นสหรัฐ) Bollen, Mao, and Zeng (2011)
  • การทดลองที่ใกล้เคียง (มาตรา 2.4.3)

วารสาร PS รัฐศาสตร์มีการประชุมสัมมนาเกี่ยวกับข้อมูลขนาดใหญ่, การอนุมานสาเหตุและทฤษฎีที่เป็นทางการและ Clark and Golder (2015) สรุปผลงานแต่ละ การดำเนินการวารสารของสถาบันวิทยาศาสตร์แห่งชาติของสหรัฐอเมริกามีการประชุมสัมมนาเกี่ยวกับการอนุมานสาเหตุและข้อมูลขนาดใหญ่และ Shiffrin (2016) สรุปผลงานแต่ละ

ในแง่ของการทดลองธรรมชาติ Dunning (2012) ให้การรักษาที่มีความยาวหนังสือที่ดี สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้เวียดนามร่างหวยเป็นการทดลองธรรมชาติดู Berinsky and Chatfield (2015) สำหรับวิธีการเรียนรู้ของเครื่องที่พยายามที่จะค้นพบโดยอัตโนมัติทดลองธรรมชาติภายในของแหล่งที่มาของข้อมูลขนาดใหญ่ดู Jensen et al. (2008) และ Sharma, Hofman, and Watts (2015)

ในแง่ของการจับคู่สำหรับการตรวจสอบในแง่ดีให้ดู Stuart (2010) และสำหรับความคิดเห็นในแง่ร้ายเห็น Sekhon (2009) สำหรับข้อมูลเพิ่มเติมเกี่ยวการจับคู่เป็นชนิดของการตัดแต่งกิ่งให้ดู Ho et al. (2007) สำหรับหนังสือที่ให้การรักษาที่ดีของการจับคู่ดู Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) และ Imbens and Rubin (2015)