2.4.3.2 การจับคู่

จับคู่กับการสร้างความยุติธรรมโดยการตัดแต่งกิ่งออกไปกรณี

เปรียบเทียบยุติธรรมได้มาจากทั้งควบคุมแบบสุ่มทดลองหรือการทดลองธรรมชาติ แต่มีหลาย ๆ สถานการณ์ที่คุณไม่สามารถเรียกใช้การทดสอบที่เหมาะและธรรมชาติไม่ได้ให้การทดลองธรรมชาติ ในการตั้งค่าเหล่านี้วิธีที่ดีที่สุดในการสร้างเปรียบเทียบยุติธรรมคือการจับคู่ ในการจับคู่นักวิจัยที่มีลักษณะผ่านข้อมูลที่ไม่ใช่การทดลองเพื่อสร้างคู่ของคนที่มีความคล้ายคลึงกันยกเว้นว่าใครได้รับการรักษาและหนึ่งไม่ได้ ในกระบวนการของการจับคู่นักวิจัยเป็นจริงยังมีการตัดแต่งกิ่ง; นั่นคือการทิ้งกรณีที่ไม่มีการเปรียบเทียบที่เห็นได้ชัด ดังนั้นวิธีการนี​​้จะเรียกว่าถูกต้องมากขึ้นการจับคู่และการตัดแต่งกิ่ง แต่ฉันจะยึดติดอยู่กับระยะดั้งเดิม: การจับคู่

เป็นตัวอย่างที่สวยงามของอำนาจของกลยุทธ์กับแหล่งข้อมูลที่ไม่ตรงกับการทดลองขนาดใหญ่มาจากงานวิจัยเกี่ยวกับพฤติกรรมของผู้บริโภคโดย Liran Einav และเพื่อนร่วมงาน (2015) Einav และเพื่อนร่วมงานที่มีความสนใจในการประมูลที่เกิดขึ้นบนอีเบย์และในการอธิบายการทำงานของพวกเขาผมจะมุ่งเน้นในด้านหนึ่งโดยเฉพาะ: ผลของการประมูลราคาเริ่มต้นการประมูลต่อผลลัพธ์เช่นราคาขายหรือความน่าจะเป็นของการขายที่

วิธีที่ไร้เดียงสาที่สุดที่จะตอบคำถามเกี่ยวกับผลกระทบของราคาเริ่มต้นในราคาขายจะเป็นเพียงแค่การคำนวณราคาขั้นสุดท้ายสำหรับการประมูลด้วยราคาเริ่มต้นที่แตกต่างกัน วิธีการนี​​้น่าจะดีกว่าถ้าคุณเพียงต้องการที่จะทำนายราคาขายของรายการนั้น ๆ ที่ได้รับการวางบนอีเบย์ด้วยราคาเริ่มต้นที่กำหนด แต่ถ้าคำถามของคุณคือสิ่งที่เป็นผลกระทบของราคาเริ่มต้นต่อผลลัพธ์ตลาดวิธีการนี้จะไม่ทำงานเพราะมันไม่ได้ขึ้นอยู่กับการเปรียบเทียบความยุติธรรม; การประมูลด้วยราคาเริ่มต้นต่ำกว่าอาจจะค่อนข้างแตกต่างจากการประมูลด้วยราคาเริ่มต้นที่สูงขึ้น (เช่นพวกเขาอาจจะสำหรับชนิดของสินค้าหรือรวมถึงชนิดที่แตกต่างกันของผู้ขาย)

หากคุณมีความกังวลอยู่แล้วเกี่ยวกับการเปรียบเทียบยุติธรรมคุณอาจข้ามวิธีการที่ไร้เดียงสาและพิจารณาเรียกใช้การทดสอบข้อมูลที่คุณจะขายเฉพาะรายการพูดกอล์ฟคลับกับชุดที่คงที่ของการประมูลพารามิเตอร์พูดจัดส่งฟรีประมูล เปิดเป็นเวลาสองสัปดาห์ ฯลฯ แต่ด้วยราคาเริ่มต้นการตั้งค่าแบบสุ่ม โดยการเปรียบเทียบผลการตลาดผลการทดสอบข้อมูลนี้จะมีวัดที่ชัดเจนของผลกระทบของราคาเริ่มต้นในราคาขาย แต่วัดนี้เท่านั้นที่จะนำไปใช้กับผลิตภัณฑ์หนึ่งโดยเฉพาะและการตั้งค่าของพารามิเตอร์การประมูล ผลอาจจะแตกต่างกันตัวอย่างเช่นสำหรับประเภทที่แตกต่างกันของผลิตภัณฑ์ โดยไม่ต้องทฤษฎีแข็งแรงก็เป็นเรื่องยากที่จะคาดการณ์ได้จากการทดลองครั้งนี้ครั้งเดียวเต็มรูปแบบของการทดลองเป็นไปได้ที่จะได้รับการเรียกใช้ นอกจากนี้การทดลองที่มีราคาแพงพอสมควรว่ามันจะเป็นไปไม่ได้ที่จะเรียกใช้เพียงพอของพวกเขาขึ้นมาเพื่อให้ครอบคลุมพื้นที่ทั้งพารามิเตอร์ของผลิตภัณฑ์และประเภทการประมูล

ในทางตรงกันข้ามกับวิธีการที่ไร้เดียงสาและวิธีการทดลอง Einav และเพื่อนร่วมงานใช้แนวทางที่สาม: การจับคู่ เคล็ดลับสำคัญของกลยุทธ์ของพวกเขาคือการค้นพบสิ่งที่คล้ายกันในการทดลองที่ได้เกิดขึ้นแล้วบนอีเบย์ ยกตัวอย่างเช่นรูปที่ 2.6 แสดงให้เห็นบางส่วนของรายชื่อ 31 สำหรับตรงกอล์ฟคลับเดียวกัน-A Taylormade Burner 09 ไดร์เวอร์การขายโดยตรง seller- เดียวกัน "budgetgolfer" อย่างไรก็ตามรายชื่อเหล่านี้มีลักษณะที่แตกต่างกันเล็กน้อย สิบเอ็ดของพวกเขาให้คนขับสำหรับราคาคงที่ $ 124.99 ในขณะที่อีก 20 มีการประมูลที่มีวันที่สิ้นสุดที่แตกต่างกัน นอกจากนี้ยังมีรายชื่อจะเรียกเก็บค่าธรรมเนียมการจัดส่งสินค้าที่แตกต่างกันอย่างใดอย่างหนึ่งหรือ $ 7.99 $ 9.99 ในคำอื่น ๆ มันเป็นเหมือน "budgetgolfer" กำลังทำงานสำหรับการทดลองนักวิจัย

รายชื่อของ Taylormade Burner 09 คนขับรถถูกขายด้วย "budgetgolfer" เป็นหนึ่งในตัวอย่างของชุดจับคู่ของรายการที่รายการเดียวกันที่แน่นอนจะถูกขายโดยผู้ขายเดียวกันแน่นอน แต่ทุกครั้งที่มีลักษณะแตกต่างกันเล็กน้อย ภายในล็อกขนาดใหญ่ของอีเบย์มีอักษรหลายร้อยหลายพันชุดจับคู่ที่เกี่ยวข้องกับการนับล้านรายชื่อ ดังนั้นแทนที่จะเปรียบเทียบราคาสุดท้ายสำหรับการประมูลทั้งหมดภายในราคาเริ่มต้นที่กำหนด Einav และเพื่อนร่วมงานทำการเปรียบเทียบภายในชุดจับคู่ เพื่อที่จะรวมผลที่ได้จากการเปรียบเทียบภายในเหล่านี้หลายร้อยหลายพันชุดจับคู่ Einav และเพื่อนร่วมงานอีกครั้งแสดงราคาเริ่มต้นและราคาสุดท้ายในแง่ของค่าอ้างอิงของแต่ละรายการ (เช่นราคาขายเฉลี่ย) ตัวอย่างเช่นถ้า Taylormade Burner 09 ไดร์เวอร์มีค่าอ้างอิง $ 100 (ขึ้นอยู่กับยอดขายของ บริษัท ) แล้วราคาเริ่มต้นที่ $ 10 จะได้รับการแสดงเป็น 0.1 และราคาสุดท้ายของ $ 120 จะได้รับการแสดงเป็น 1.2

รูปที่ 2.6: ตัวอย่างของการจับคู่ชุด นี้เป็นที่แน่นอนกอล์ฟคลับเดียวกัน (เป็น Taylormade Burner 09 คนขับ) การขายโดยบุคคลคนเดียวกันแน่นอน (budgetgolfer) แต่บางส่วนของการขายเหล่านี้ได้ดำเนินการเงื่อนไขที่แตกต่าง (เช่นราคาเริ่มต้นที่แตกต่างกัน) รูปที่นำมาจาก Einav et al, (2015)

รูปที่ 2.6: ตัวอย่างของการจับคู่ชุด นี้เป็นที่แน่นอนกอล์ฟคลับเดียวกัน (เป็น Taylormade Burner 09 คนขับ) การขายโดยบุคคลที่แน่นอนเดียวกัน ( "budgetgolfer") แต่บางส่วนของการขายเหล่านี้ได้ดำเนินการเงื่อนไขที่แตกต่าง (เช่นราคาเริ่มต้นที่แตกต่างกัน) รูปที่นำมาจาก Einav et al. (2015)

จำได้ว่า Einav และเพื่อนร่วมงานมีความสนใจในผลกระทบของราคาเริ่มเน้นผลลัพธ์การประมูล ครั้งแรกที่ใช้การถดถอยเชิงเส้นที่พวกเขาคาดว่าราคาเริ่มต้นที่สูงขึ้นลดความน่าจะเป็นของการขายและที่ราคาเริ่มต้นที่สูงกว่าการเพิ่มขึ้นของราคาขายสุดท้ายเงื่อนไขในการขายที่เกิดขึ้น ด้วยตัวเองประมาณการซึ่งเหล่านี้จะเฉลี่ยมากกว่าผลิตภัณฑ์ทั้งหมดและถือว่าความสัมพันธ์เชิงเส้นระหว่างราคาเริ่มต้นและสุดท้ายผลลัพธ์จะไม่ทั้งหมดที่น่าสนใจว่า แต่ Einav และเพื่อนร่วมงานยังใช้ขนาดใหญ่ของข้อมูลของพวกเขาที่จะประเมินความหลากหลายของผลการวิจัยที่ลึกซึ้งยิ่งขึ้น แรก Einav และเพื่อนร่วมงานทำประมาณการเหล่านี้แยกต่างหากสำหรับรายการของราคาที่แตกต่างกันและโดยไม่ต้องใช้การถดถอยเชิงเส้น พวกเขาพบว่าในขณะที่ความสัมพันธ์ระหว่างราคาเริ่มต้นและความน่าจะเป็นของการขายที่เป็นเส้นตรงความสัมพันธ์ระหว่างราคาเริ่มต้นและราคาที่ขายเป็นอย่างชัดเจนไม่เชิงเส้น (รูปที่ 2.7) โดยเฉพาะอย่างยิ่งสำหรับการเริ่มต้นราคาระหว่าง 0.05 และ 0.85, ราคาเริ่มต้นที่มีผลกระทบน้อยมากเกี่ยวกับราคาขายพบว่าเสร็จสมบูรณ์พลาดในการวิเคราะห์ที่เคยคิดว่ามีความสัมพันธ์เชิงเส้น

รูปที่ 2.7: ความสัมพันธ์ระหว่างราคาประมูลเริ่มต้นและความน่าจะเป็นของการขาย (แผงซ้าย) และราคาขาย (ด้านขวา) มีประมาณความสัมพันธ์เชิงเส้นระหว่างราคาเริ่มต้นและความน่าจะเป็นของการขาย แต่มีความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างราคาเริ่มต้นและราคาขาย; สำหรับการเริ่มต้นราคาระหว่าง 0.05 และ 0.85, ราคาเริ่มต้นที่มีผลกระทบน้อยมากเกี่ยวกับราคาขาย ในทั้งสองกรณีความสัมพันธ์ที่มีพื้นเป็นอิสระของมูลค่ารายการ กราฟเหล่านี้ทำซ้ำ 4a รูปและ 4B Einav et al, (2015)

รูปที่ 2.7: ความสัมพันธ์ระหว่างราคาประมูลเริ่มต้นและความน่าจะเป็นของการขาย (แผงซ้าย) และราคาขาย (ด้านขวา) มีประมาณความสัมพันธ์เชิงเส้นระหว่างราคาเริ่มต้นและความน่าจะเป็นของการขาย แต่มีความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างราคาเริ่มต้นและราคาขาย; สำหรับการเริ่มต้นราคาระหว่าง 0.05 และ 0.85, ราคาเริ่มต้นที่มีผลกระทบน้อยมากเกี่ยวกับราคาขาย ในทั้งสองกรณีความสัมพันธ์ที่มีพื้นเป็นอิสระของมูลค่ารายการ กราฟเหล่านี้ทำซ้ำ 4a รูปและ 4B Einav et al. (2015)

ประการที่สองมากกว่าค่าเฉลี่ยมากกว่ารายการทั้งหมด Einav และเพื่อนร่วมงานยังใช้ขนาดใหญ่ของข้อมูลของพวกเขาที่จะประเมินผลกระทบของราคาเริ่มต้น 23 ประเภทที่แตกต่างกันของรายการ (เช่นอุปกรณ์สัตว์เลี้ยงอิเล็กทรอนิกส์และของที่ระลึกกีฬา) (รูปที่ 2.8) ประมาณการเหล่านี้แสดงให้เห็นว่าโดดเด่นมากขึ้นรายการเช่นราคาที่ระลึกเริ่มต้นมีผลขนาดเล็กน่าจะเป็นของการขายและผลขนาดใหญ่บนราคาขายสุดท้าย นอกจากนี้สำหรับรายการเช่น commodified มากขึ้นเป็นดีวีดีและวิดีโอราคาเริ่มต้นที่มีเกือบผลกระทบต่อราคาสุดท้ายไม่มี ในคำอื่น ๆ เฉลี่ยที่รวมผลตั้งแต่วันที่ 23 ประเภทที่แตกต่างกันของรายการซ่อนข้อมูลสำคัญเกี่ยวกับความแตกต่างระหว่างรายการเหล่านี้

รูปที่ 2.8: ผลการศึกษาพบประมาณการจากแต่ละประเภทรายบุคคล จุดแข็งในการประมาณการสำหรับทุกประเภทพูกันตารางที่ 11 (Einav et al. 2015 ตารางที่ 11) ประมาณการเหล่านี้แสดงให้เห็นว่าโดดเด่นมากขึ้นรายการเช่นของที่ระลึกที่ราคาเริ่มมีผลขนาดเล็กน่าจะเป็นของการขาย (แกน x) และผลกระทบที่มีขนาดใหญ่บนราคาขายสุดท้าย (แกน y)

รูปที่ 2.8: ผลการศึกษาพบประมาณการจากแต่ละประเภทรายบุคคล จุดแข็งในการประมาณการสำหรับทุกประเภทด้วยกันสำรอง (Einav et al. 2015, Table 11) ประมาณการเหล่านี้แสดงให้เห็นว่าโดดเด่นมากขึ้นรายการเช่นของที่ระลึกที่ราคาเริ่มมีผลขนาดเล็กน่าจะเป็นของการขาย (แกน x) และผลกระทบที่มีขนาดใหญ่บนราคาขายสุดท้าย (แกน y)

แม้ว่าคุณจะไม่ได้รับความสนใจเป็นพิเศษในการประมูลบนอีเบย์, คุณต้องชื่นชมวิธีการที่รูปที่ 2.7 และรูปที่ 2.8 เสนอความเข้าใจที่ดียิ่งขึ้นของอีเบย์กว่าคาดการณ์ของการถดถอยเชิงเส้นที่เรียบง่ายที่ถือว่าความสัมพันธ์เชิงเส้นและรวมหมวดหมู่ที่แตกต่างกันหลายรายการ ประมาณการที่ลึกซึ้งยิ่งขึ้นเหล่านี้แสดงให้เห็นถึงพลังของการจับคู่ในข้อมูลขนาดใหญ่; ประมาณการเหล่านี้จะเป็นไปไม่ได้โดยไม่ต้องจำนวนมหาศาลของการทดลองภาคสนามซึ่งจะได้รับราคาแพง

แน่นอนว่าเราควรจะมีความเชื่อมั่นน้อยลงในผลการศึกษาการจับคู่ใด ๆ โดยเฉพาะอย่างยิ่งกว่าที่เราจะอยู่ในผลของการทดลองเปรียบเทียบ เมื่อมีการประเมินผลจากการศึกษาการจับคู่ใดมีสองความกังวลที่สำคัญ อันดับแรกเราต้องจำไว้ว่าเราสามารถตรวจสอบเปรียบเทียบยุติธรรมในสิ่งที่ถูกนำมาใช้สำหรับการจับคู่ ในผลหลักของพวกเขา, Einav และเพื่อนร่วมงานไม่แน่นอนเกี่ยวกับการจับคู่สี่ลักษณะ: จำนวนผู้ขาย ID, ประเภทรายการชื่อรายการและคำบรรยาย หากรายการที่แตกต่างกันในรูปแบบที่ไม่ได้ถูกนำมาใช้สำหรับการจับคู่ที่สามารถสร้างการเปรียบเทียบที่ไม่เป็นธรรม ตัวอย่างเช่นถ้า "budgetgolfer" ลดราคาสำหรับ Taylormade Burner 09 ขับรถในช่วงฤดู​​หนาว (เมื่อไม้กอล์ฟเป็นที่นิยมน้อยกว่า) แล้วมันจะปรากฏว่าต่ำกว่าราคาเริ่มต้นที่นำไปสู่​​การลดราคาครั้งสุดท้ายในเมื่อความจริงนี้จะเป็นสิ่งประดิษฐ์ของฤดูกาล การเปลี่ยนแปลงในความต้องการ โดยทั่วไปวิธีที่ดีที่สุดเพื่อแก้ไขปัญหานี้ดูเหมือนว่าจะพยายามชนิดที่แตกต่างของการจับคู่ ยกตัวอย่างเช่น Einav และเพื่อนร่วมงานทำซ้ำวิเคราะห์ของพวกเขาที่จับคู่ชุดรวมรายการขายภายในหนึ่งปีภายในหนึ่งเดือนและ contemporaneously ทำให้หน้าต่างเวลาที่เข้มงวดมากขึ้นลดจำนวนของชุดจับคู่ แต่จะช่วยลดความกังวลเกี่ยวกับการเปลี่ยนแปลงตามฤดูกาล โชคดีที่พวกเขาพบว่าผลลัพธ์ที่ได้จะไม่เปลี่ยนแปลงจากการเปลี่ยนแปลงเหล่านี้ในเกณฑ์ที่ตรงกัน ในวรรณคดีที่ตรงกับประเภทของความกังวลนี้มักจะแสดงในรูปของ observables และ unobservables แต่ความคิดที่สำคัญคือจริงๆที่นักวิจัยเป็นเพียงการสร้างการเปรียบเทียบยุติธรรมเกี่ยวกับคุณสมบัติที่ใช้ในการจับคู่

ความกังวลหลักที่สองเมื่อตีความผลลัพธ์ที่ตรงกับที่พวกเขาจะนำไปใช้ข้อมูลจับคู่; พวกเขาไม่ได้นำไปใช้กับกรณีที่ไม่สามารถจับคู่ ยกตัวอย่างเช่นโดยการ จำกัด การวิจัยของพวกเขากับรายการที่มีหลายรายการ Einav และเพื่อนร่วมงานจะเน้นการขายมืออาชีพและกึ่งมืออาชีพ ดังนั้นเมื่อการตีความเปรียบเทียบเหล่านี้เราต้องจำไว้ว่าพวกเขาจะนำไปใช้ย่อยของอีเบย์นี้

จับคู่เป็นกลยุทธ์ที่มีประสิทธิภาพสำหรับการค้นหารถเป็นธรรมในชุดข้อมูลขนาดใหญ่ นักวิทยาศาสตร์ทางสังคมมากมายจับคู่รู้สึกเหมือนสองที่ดีที่สุดในการทดลอง แต่ที่เป็นความเชื่อที่ว่าควรจะปรับปรุงให้เล็กน้อย ตรงกันในข้อมูลขนาดใหญ่อาจจะดีกว่าจำนวนเล็ก ๆ ของการทดลองภาคสนามเมื่อ: 1) ความแตกต่างในลักษณะเป็นสิ่งสำคัญและ 2) มี observables ที่ดีสำหรับการจับคู่ ตารางที่ 2.4 มีบางส่วนตัวอย่างอื่น ๆ ของวิธีการจับคู่สามารถใช้กับแหล่งที่มาของข้อมูลขนาดใหญ่

ตารางที่ 2.4: ตัวอย่างของการศึกษาที่ใช้การจับคู่ที่จะหารถที่เป็นธรรมภายในร่องรอยดิจิตอล
มุ่งเน้นเนื้อหาสาระ แหล่งที่มาของข้อมูลขนาดใหญ่ การอ้างอิง
ผลกระทบของการยิงตำรวจเกี่ยวกับความรุนแรง บันทึกและค้นหยุด Legewie (2016)
ผลของ 11 กันยายน 2001 ในครอบครัวและเพื่อนบ้าน บันทึกการออกเสียงลงคะแนนและบันทึกการบริจาค Hersh (2013)
การติดเชื้อทางสังคม การสื่อสารและการยอมรับข้อมูลผลิตภัณฑ์ Aral, Muchnik, and Sundararajan (2009)

ในการสรุปวิธีไร้เดียงสาที่จะประเมินผลกระทบสาเหตุจากข้อมูลที่ไม่ใช่การทดลองจะมีอันตราย อย่างไรก็ตามกลยุทธ์สำหรับการทำประมาณการสาเหตุนอนพร้อมต่อเนื่องจากการที่แข็งแกร่งที่จะกำจัดจุดอ่อนและนักวิจัยสามารถค้นพบการเปรียบเทียบยุติธรรมภายในข้อมูลที่ไม่ใช่การทดลอง การเจริญเติบโตของตลอดเวลาในระบบข้อมูลขนาดใหญ่เพิ่มความสามารถของเราในการใช้อย่างมีประสิทธิภาพที่มีอยู่สองวิธี: การทดลองในธรรมชาติและการจับคู่