การเชื่อมโยงของคุณเพื่อสำรวจร่องรอยดิจิตอลอาจจะเป็นเหมือนขอให้ทุกคนคำถามของคุณตลอดเวลา
ถามโดยทั่วไปมาในสองประเภทหลัก: การสำรวจสำมะโนประชากรและตัวอย่าง การสำรวจกลุ่มตัวอย่างที่คุณเข้าถึงจำนวนเล็ก ๆ ของคนสามารถมีความยืดหยุ่น, ทันเวลาและค่อนข้างถูก อย่างไรก็ตามการสำรวจกลุ่มตัวอย่างเพราะพวกเขาจะขึ้นอยู่กับตัวอย่างที่มักจะถูก จำกัด ในการแก้ปัญหาของพวกเขา กับการสำรวจกลุ่มตัวอย่างก็มักจะยากที่จะทำให้การประมาณการเกี่ยวกับพื้นที่ทางภูมิศาสตร์ที่เฉพาะเจาะจงหรือสำหรับกลุ่มประชากรที่เฉพาะเจาะจง สำมะโนประชากรในที่อื่น ๆ พยายามที่จะสัมภาษณ์ทุกคนในประชากร พวกเขามีความละเอียดมาก แต่พวกเขามีราคาแพงโดยทั่วไปในโฟกัสแคบ (พวกเขามีเพียงจำนวนน้อยของคำถาม) และไม่ได้ทันเวลา (พวกเขาเกิดขึ้นในช่วงเวลาที่คงเช่นทุก 10 ปี) (Kish 1979) ตอนนี้คิดว่านักวิจัยสามารถรวมลักษณะที่ดีที่สุดของการสำรวจสำมะโนประชากรและตัวอย่าง; คิดว่านักวิจัยสามารถถามทุกคำถามให้กับทุกคนทุกวัน
เห็นได้ชัดอย่างต่อเนื่องนี้แพร่หลายตลอดเวลาในการสำรวจเป็นชนิดของวิทยาศาสตร์แฟนตาซีสังคม แต่ก็ปรากฏว่าเราสามารถเริ่มต้นประมาณนี้โดยการรวมคำถามจากการสำรวจจำนวนเล็ก ๆ ของคนที่มีร่องรอยดิจิตอลจากหลาย ๆ คน ผมเรียกประเภทของการรวมกันนี้ขอขยาย ถ้าทำดีก็อาจช่วยให้เราให้ประมาณการที่มีในท้องถิ่นมากขึ้น (สำหรับพื้นที่ทางภูมิศาสตร์ที่มีขนาดเล็ก) ที่ละเอียดยิ่งขึ้น (สำหรับกลุ่มประชากรเฉพาะ) และทันเวลามากขึ้น
ตัวอย่างหนึ่งของการขอขยายมาจากการทำงานของโจชัว Blumenstock ใครอยากจะเก็บรวบรวมข้อมูลที่จะช่วยให้การพัฒนาคู่มือในประเทศที่ยากจน โดยเฉพาะอย่างยิ่ง Blumenstock ต้องการที่จะสร้างระบบการวัดความมั่งคั่งและความเป็นอยู่ที่ดีที่รวมความสมบูรณ์ของการสำรวจสำมะโนประชากรที่มีความยืดหยุ่นและความถี่ของการสำรวจที่ (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) ในความเป็นจริงผมเคยอธิบายไว้แล้วในเวลาสั้น ๆ การทำงาน Blumenstock ในบทที่ 1
ในการเริ่มต้น Blumenstock ร่วมมือกับผู้ให้บริการโทรศัพท์มือถือที่ใหญ่ที่สุดในประเทศรวันดา บริษัท ได้บันทึกรายการเขาไม่ระบุชื่อจากประมาณ 1.5 ล้านลูกค้าครอบคลุมพฤติกรรมจากปี 2005 และปี 2009 บันทึกมีข้อมูลเกี่ยวกับการโทรแต่ละครั้งและข้อความเช่นเวลาเริ่มต้นของระยะเวลาและสถานที่ทางภูมิศาสตร์โดยประมาณของการโทรและผู้รับ ก่อนที่เราจะเริ่มต้นพูดคุยเกี่ยวกับปัญหาทางสถิติจะมีมูลค่าการชี้ให้เห็นว่าขั้นตอนแรกนี้อาจจะเป็นหนึ่งที่ยากที่สุด ตามที่อธิบายไว้ในบทที่ 2 ส่วนใหญ่ข้อมูลร่องรอยดิจิตอลจะไม่สามารถเข้าถึงที่นักวิจัย และหลาย บริษัท กำลังแก้ตัวลังเลที่จะแบ่งปันข้อมูลของพวกเขาเพราะมันเป็นส่วนตัว ที่เป็นลูกค้าของพวกเขาอาจจะไม่ได้คาดหวังว่าบันทึกของพวกเขาจะใช้ร่วมกันในกลุ่มกับนักวิจัย ในกรณีนี้นักวิจัยได้เอาขั้นตอนระมัดระวังในการปิดบังข้อมูลและการทำงานของพวกเขาได้รับการดูแลโดยบุคคลที่สาม (เช่นคณะกรรมการของพวกเขา) แต่แม้จะมีความพยายามเหล่านี้ข้อมูลเหล่านี้อาจจะยังสามารถระบุและพวกเขามีแนวโน้มที่มีข้อมูลที่สำคัญ (Mayer, Mutchler, and Mitchell 2016; Landau 2016) ผมจะกลับไปที่คำถามจริยธรรมเหล่านี้ในบทที่ 6
จำได้ว่า Blumenstock ก็ให้ความสนใจในการวัดความมั่งคั่งและความเป็นอยู่ที่ดี แต่ลักษณะเหล่านี้ไม่ได้โดยตรงในบันทึกการโทร ในคำอื่น ๆ เหล่านี้บันทึกการโทรไม่สมบูรณ์สำหรับการวิจัยนี้เป็นลักษณะทั่วไปของร่องรอยดิจิตอลที่ถูกกล่าวถึงในรายละเอียดในบทที่ 2 แต่ก็ดูเหมือนว่าบันทึกการโทรอาจจะมีข้อมูลบางอย่างเกี่ยวกับความมั่งคั่งและความเป็นอยู่ที่ดี ดังนั้นวิธีหนึ่งในการถามคำถาม Blumenstock อาจจะ: มันเป็นไปได้ที่จะคาดการณ์ว่าคนที่จะตอบสนองต่อการสำรวจบนพื้นฐานของข้อมูลร่องรอยดิจิตอลของพวกเขา? ถ้าเป็นเช่นนั้นโดยขอให้คนไม่กี่คนที่เราสามารถคาดเดาคำตอบของคนอื่น
ในการประเมินนี้สังเกตุ Blumenstock และการวิจัยผู้ช่วยจากคิกาลีสถาบันวิทยาศาสตร์และเทคโนโลยีที่เรียกว่ากลุ่มตัวอย่างเกี่ยวกับพันลูกค้าโทรศัพท์มือถือ นักวิจัยอธิบายเป้าหมายของโครงการที่จะเข้าร่วมการถามความยินยอมของพวกเขาที่จะเชื่อมโยงการตอบแบบสำรวจในการบันทึกการโทรแล้วถามพวกเขาชุดคำถามเพื่อวัดความมั่งคั่งและความเป็นอยู่ที่ดีของพวกเขาเช่น "คุณเป็นเจ้าของ วิทยุ? "และ" คุณเป็นเจ้าของจักรยาน? "(ดูรูปที่ 3.11 สำหรับรายการบางส่วน) ผู้เข้าร่วมทั้งหมดในการสำรวจได้รับการชดเชยทางการเงิน
ถัดไป Blumenstock ใช้ขั้นตอนที่สองขั้นตอนที่พบบ่อยในข้อมูลวิทยาศาสตร์วิศวกรรมคุณลักษณะตามด้วยการเรียนรู้ภายใต้การดูแล ครั้งแรกในขั้นตอนคุณลักษณะวิศวกรรมสำหรับทุกคนที่ถูกสัมภาษณ์ Blumenstock แปลงบันทึกการโทรเข้ามาในชุดของลักษณะที่เกี่ยวกับแต่ละบุคคล; นักวิทยาศาสตร์ข้อมูลที่อาจจะเรียกลักษณะเหล่านี้ "คุณสมบัติ" และนักวิทยาศาสตร์ทางสังคมจะเรียกพวกเขาว่า "ตัวแปร." ตัวอย่างเช่นสำหรับแต่ละบุคคล Blumenstock คำนวณจำนวนวันที่มีกิจกรรมจำนวนของคนที่แตกต่างกันเป็นคนที่ได้รับในการติดต่อกับจำนวนเงินที่ เงินที่ใช้ในเวลาออกอากาศและอื่น ๆ วิกฤตวิศวกรรมคุณลักษณะที่ดีต้องมีความรู้ของการตั้งค่าการวิจัย ตัวอย่างเช่นถ้ามันเป็นสิ่งสำคัญที่จะแยกแยะระหว่างโทรในประเทศและต่างประเทศ (เราอาจจะคาดหวังว่าคนที่โทรต่างประเทศที่จะรวย) แล้วนี้จะต้องทำในขั้นตอนคุณลักษณะวิศวกรรม นักวิจัยที่มีความเข้าใจน้อยของประเทศรวันดาอาจจะไม่รวมถึงคุณลักษณะนี้และจากนั้นคาดการณ์ผลการดำเนินงานของรูปแบบที่จะประสบ
ถัดไปในขั้นตอนการเรียนรู้ภายใต้การดูแล Blumenstock สร้างแบบจำลองทางสถิติที่จะคาดการณ์คำตอบแบบสำรวจในแต่ละคนขึ้นอยู่กับคุณสมบัติของพวกเขา ในกรณีนี้ใช้ Blumenstock ถดถอยโลจิสติกับ 10 เท่าการตรวจสอบข้าม แต่เขาจะได้ใช้ความหลากหลายของวิธีการทางสถิติหรือเครื่องเรียนรู้อื่น ๆ
ดังนั้นวิธีการที่ดีไม่มันทำงานอย่างไร เป็น Blumenstock สามารถในการทำนายคำตอบสำหรับคำถามในแบบสำรวจเช่น "คุณเป็นเจ้าของวิทยุ?" และ "คุณเป็นเจ้าของจักรยาน?" ใช้คุณสมบัติที่ได้มาจากบันทึกการโทร? การเรียงลำดับของ ความถูกต้องของการคาดการณ์อยู่ในระดับสูงสำหรับลักษณะบางอย่าง (รูปที่ 3.11) แต่มันเป็นสิ่งสำคัญเสมอเพื่อเปรียบเทียบวิธีการทำนายที่ซับซ้อนกับทางเลือกที่ง่าย ในกรณีนี้ทางเลือกที่ง่ายคือการทำนายว่าทุกคนจะให้คำตอบที่พบบ่อยที่สุด ยกตัวอย่างเช่น 97.3% รายงานการเป็นเจ้าของวิทยุดังนั้นหาก Blumenstock ได้คาดการณ์ไว้ว่าทุกคนจะรายงานเป็นเจ้าของวิทยุเขาจะมีความถูกต้องของ 97.3% ซึ่งเป็นที่น่าแปลกใจคล้ายกับประสิทธิภาพการทำงานของขั้นตอนที่ซับซ้อนมากขึ้นของเขา (ในความถูกต้อง 97.6%) ในคำอื่น ๆ ข้อมูลทั้งหมดแฟนซีและการสร้างแบบจำลองที่เพิ่มขึ้นความถูกต้องของคำทำนายจาก 97.3% เป็น 97.6% แต่สำหรับคำถามอื่น ๆ เช่น "คุณเป็นเจ้าของจักรยาน?", การคาดการณ์เพิ่มขึ้นจาก 54.4% เป็น 67.6% โดยทั่วไปรูปที่ 3.12 แสดงให้เห็นว่าลักษณะบาง Blumenstock ไม่ดีขึ้นมากกว่าเพียงแค่การทำนายพื้นฐานที่เรียบง่าย แต่สำหรับลักษณะอื่น ๆ ที่มีการปรับปรุงบางอย่าง
ณ จุดนี้คุณอาจจะคิดว่าผลลัพธ์เหล่านี้เป็นบิตที่น่าผิดหวัง แต่เพียงหนึ่งปีต่อมา Blumenstock และสองเพื่อนร่วมงานของกาเบรียล Cadamuro และโรเบิร์ต On-ตีพิมพ์บทความทางวิทยาศาสตร์ที่มีผลอย่างมีนัยสำคัญที่ดีกว่า (Blumenstock, Cadamuro, and On 2015) . มีสองเหตุผลทางเทคนิคที่สำคัญในการปรับปรุง: 1) พวกเขาใช้วิธีการที่ซับซ้อนมากขึ้น (เช่นแนวทางใหม่ในการมีวิศวกรรมและรูปแบบการเรียนรู้ของเครื่องที่มีความซับซ้อนมากขึ้น) และ 2) มากกว่าความพยายามที่จะสรุปการตอบสนองต่อคำถามการสำรวจของแต่ละบุคคล (เช่น "คุณเป็นเจ้าของวิทยุ?") พวกเขาพยายามที่จะสรุปดัชนีคอมโพสิตมากมาย
Blumenstock และเพื่อนร่วมงานแสดงให้เห็นถึงประสิทธิภาพการทำงานของแนวทางของพวกเขาในสองวิธี ก่อนที่พวกเขาพบว่าสำหรับคนที่อยู่ในตัวอย่างของพวกเขาพวกเขาอาจจะได้งานที่ดีงามของการทำนายความมั่งคั่งของพวกเขาจากบันทึกการโทร (รูปที่ 3.14) ประการที่สองและไม่เคยมีความสำคัญมาก Blumenstock และเพื่อนร่วมงานที่แสดงให้เห็นว่าขั้นตอนของพวกเขาสามารถผลิตประมาณการที่มีคุณภาพสูงของการกระจายทางภูมิศาสตร์ของความมั่งคั่งในประเทศรวันดา โดยเฉพาะอย่างยิ่งพวกเขาใช้รูปแบบการเรียนรู้เครื่องของพวกเขาซึ่งได้รับการฝึกฝนในตัวอย่างของพวกเขาเกี่ยวกับ 1,000 คนในการทำนายความมั่งคั่งของทั้งหมด 1.5 ล้านคนที่อยู่ในบันทึกการโทร เพิ่มเติมกับข้อมูลเชิงพื้นที่ที่ฝังตัวอยู่ในข้อมูลการโทร (จำได้ว่าข้อมูลที่โทรรวมถึงสถานที่ตั้งของหอโทรศัพท์มือถือที่ใกล้ที่สุดสำหรับการโทรแต่ละ), การวิจัยก็สามารถที่จะประเมินสถานที่ตัวอย่างของการอยู่อาศัยของแต่ละคน ใส่ทั้งสองร่วมกันประมาณการการวิจัยการผลิตการประมาณการของการกระจายทางภูมิศาสตร์ที่มากมายสมาชิกที่ความละเอียดเชิงพื้นที่ดีมาก ตัวอย่างเช่นพวกเขาสามารถประมาณการความมั่งคั่งโดยเฉลี่ยในแต่ละรวันดา 2148 เซลล์ (หน่วยการบริหารที่เล็กที่สุดในประเทศ) เหล่านี้ค่ามากมายที่คาดการณ์ได้ดังนั้นเม็ดพวกเขาเป็นเรื่องยากที่จะตรวจสอบ ดังนั้นนักวิจัยรวมผลของพวกเขาในการผลิตประมาณการของความมั่งคั่งเฉลี่ยของประเทศรวันดา 30 อำเภอ เหล่านี้ประมาณการระดับอำเภอมีความสัมพันธ์อย่างยิ่งที่จะประมาณการจากการสำรวจแบบดั้งเดิมทองมาตรฐานรวันดาประชากรและการอนามัยการสำรวจ (รูปที่ 3.14) ถึงแม้ว่าการประมาณการจากแหล่งทั้งสองมีความคล้ายคลึงประมาณการจาก Blumenstock และเพื่อนร่วมงานได้ประมาณ 50 ครั้งที่ถูกกว่าและเร็วขึ้น 10 เท่า (เมื่อค่าใช้จ่ายในวัดในแง่ของต้นทุนผันแปร) นี้ลดลงอย่างมากในค่าใช้จ่ายหมายความว่ามากกว่าการทำงานทุกไม่กี่ปีที่ผ่านมาเป็นมาตรฐานของประชากรและการอนามัยสำรวจ-ไฮบริดขนาดเล็กของการสำรวจรวมกับข้อมูลการติดตามดิจิตอลขนาดใหญ่อาจจะมีการเรียกใช้ทุกเดือน
ในการสรุปของ Blumenstock ขยายถามวิธีการรวมข้อมูลจากการสำรวจกับข้อมูลดิจิตอลร่องรอยการผลิตประมาณการเทียบเคียงกับมาตรฐานทองคำประมาณการการสำรวจ ตัวอย่างนี้โดยเฉพาะอย่างยิ่งยังชี้แจงบางส่วนของการแลกเปลี่ยนระหว่างขอขยายและวิธีการสำรวจแบบดั้งเดิม ครั้งแรกที่ขยายถามประมาณการได้ทันเวลามากขึ้นอย่างมีนัยสำคัญราคาถูกและละเอียดมากขึ้น แต่ในทางกลับกันในเวลานี้มีไม่ได้เป็นทฤษฎีพื้นฐานที่แข็งแกร่งสำหรับชนิดของการขอขยายนี้ นั่นคือหนึ่งในตัวอย่างนี้ไม่ได้แสดงเมื่อมันจะทำงานและเมื่อมันจะไม่ได้ นอกจากนี้ขอให้ขยายวิธีการยังไม่ได้มีวิธีการที่ดีในการวัดปริมาณความไม่แน่นอนทั่วประมาณการ แต่ขอให้มีการเชื่อมต่อขยายลึกถึงสามพื้นที่ขนาดใหญ่ในสถิติรูปแบบตามการโพสต์การแบ่งชั้น (Little 1993) , การใส่ร้าย (Rubin 2004) , และการประมาณพื้นที่ขนาดเล็ก (Rao and Molina 2015) และอื่นดังนั้นผมจึงคาดหวังว่าจะมีความคืบหน้า เป็นอย่างรวดเร็ว
ขอขยายตามสูตรพื้นฐานที่สามารถนำมาปรับให้เหมาะสมกับสถานการณ์เฉพาะของคุณ มีสองส่วนผสมและขั้นตอนที่สองเป็น ทั้งสองส่วนผสม ได้แก่ 1) ชุดข้อมูลร่องรอยดิจิตอลที่กว้าง แต่บาง (นั่นคือมันมีหลาย ๆ คน แต่ไม่ได้ข้อมูลที่คุณต้องการเกี่ยวกับแต่ละคน) และ 2) การสำรวจที่แคบ แต่หนา (นั่นคือมันมี เพียงไม่กี่คน แต่ก็มีข้อมูลที่คุณจำเป็นต้องเกี่ยวกับคนเหล่านั้น) จากนั้นมีสองขั้นตอน ครั้งแรกสำหรับคนที่อยู่ในแหล่งข้อมูลทั้งสองสร้างรูปแบบการเรียนรู้เครื่องที่ใช้ข้อมูลดิจิตอลร่องรอยที่จะคาดการณ์คำตอบแบบสำรวจ ต่อไปใช้ว่ารูปแบบการเรียนรู้ของเครื่องที่จะใส่ร้ายคำตอบที่สำรวจความคิดเห็นของทุกคนในการติดตามข้อมูลดิจิตอล ดังนั้นหากมีคำถามบางอย่างที่คุณต้องการที่จะขอให้ผู้คนจำนวนมากมองหาข้อมูลร่องรอยดิจิตอลจากคนเหล่านั้นที่อาจจะใช้ในการทำนายคำตอบของพวกเขา
เปรียบเทียบ Blumenstock ของความพยายามครั้งแรกและครั้งที่สองที่ปัญหาที่เกิดขึ้นนอกจากนี้ยังแสดงให้เห็นถึงบทเรียนที่สำคัญเกี่ยวกับการเปลี่ยนแปลงจากยุคที่สองกับวิธีการยุคที่สามที่จะสำรวจวิจัย: จุดเริ่มต้นยังไม่จบ นั่นคือหลายครั้งวิธีแรกจะไม่ดีที่สุด แต่ถ้านักวิจัยที่ทำงานอย่างต่อเนื่องสิ่งที่ได้รับดีกว่า โดยทั่วไปเมื่อมีการประเมินแนวทางใหม่ในการวิจัยทางสังคมในยุคดิจิตอลมันเป็นสิ่งสำคัญที่จะทำให้ทั้งสองการประเมินผลที่แตกต่างกัน: 1) วิธีที่ดีที่จะทำงานนี้ในขณะนี้และ 2) วิธีที่ดีที่คุณคิดว่านี่อาจจะทำงานในอนาคตเป็นภูมิทัศน์ข้อมูล การเปลี่ยนแปลงและการเป็นนักวิจัยอุทิศความสนใจมากขึ้นในการแก้ไขปัญหา ถึงแม้ว่านักวิจัยได้รับการฝึกฝนเพื่อให้ชนิดแรกของการประเมินผล (วิธีที่ดีคืองานชิ้นนี้โดยเฉพาะอย่างยิ่งของการวิจัย) ที่สองมักจะเป็นสิ่งสำคัญมาก