2.4.3.2 Matching

Відповідні створити справедливі порівняння обрізаючи геть випадків.

Ярмарок порівняння може прийти або з рандомізованих контрольованих експериментів або природних експериментів. Але, є багато ситуацій, коли ви не можете запустити ідеальний експеримент і природа не надав природний експеримент. У цих умовах, кращий спосіб створити справедливе порівняння відповідності. Відповідно, дослідник переглядає неексперіментальних даних для створення пари людей, які схожі за винятком того, що один отримав лікування, і ніхто не має. У процесі узгодження, дослідники на насправді також обрізку; тобто, відкидаючи випадки, коли немає ніяких очевидних порівняння. Таким чином, цей метод буде більш точно називається зіставленням-і-обрізку, але я буду дотримуватися традиційного терміна: узгодження.

Прекрасний приклад сили узгодження стратегії з масивними неексперіментальних джерелами даних відбуваються з дослідження поведінки споживачів з допомогою Liran ейнаїм і його колеги (2015) . Ейнаїм і його колеги були зацікавлені в аукціонах, що проходять на eBay, і в описі своєї роботи, я зупинюся на одному конкретному аспекті: ефект аукціону стартова ціна на результати, такі як ціна продажу або ймовірності продажу аукціону.

Найнаївніший спосіб відповісти на питання про вплив стартової ціни на ціну продажу було б просто обчислити остаточну ціну для аукціонів з різними цінами, які починаються часткою. Такий підхід був би добре, якщо ви просто хочете, щоб передбачити ціну продажу даного пункту, який був поставлений на eBay із заданою стартовою ціною. Але, якщо ваше запитання , що є наслідком початкової ціни на ринкових результатів такий підхід не буде працювати , оскільки він не грунтується на справедливих порівнянь; аукціони з більш низькими цінами, які починаються часткою може сильно відрізнятися від аукціонів з більш високими цінами, які починаються часткою (наприклад, вони можуть бути для різних видів товарів чи включати в себе різні типи продавців).

Якщо ви вже стурбовані зробити справедливі порівняння, ви можете пропустити наївний підхід і розглянути можливість запуску польовий експеримент, в якому ви б продати конкретний пункт, скажімо, гольф-клуб-з фіксованим набором аукціонних параметрів, скажімо, безкоштовна доставка, аукціон відкритий протягом двох тижнів, і т.д., але з довільно встановлювати стартові ціни. Порівнюючи отримані результати на ринку, це польовий експеримент буде пропонувати дуже чітке вимір впливу початкової ціни на ціну продажу. Але це вимір буде застосовуватися тільки до одного конкретного продукту і набір параметрів аукціону. Результати можуть бути різними, наприклад, для різних видів продукції. Без сильної теорії, важко екстраполювати з цього одного експерименту повний спектр можливих експериментів, які могли б працювати. Крім того, польові експерименти є досить дорогими, що було б нездійсненне запустити їх в достатній кількості, щоб прикрити весь простір параметрів продуктів і типів аукціонів.

На відміну від простий підхід і експериментальний підхід, ейнаїм і його колеги беруть третій підхід: співставлення. Основна хитрість їх стратегії полягає в тому, щоб виявити речі, схожі на польових експериментів, які вже відбулися на eBay. Наприклад, на малюнку 2.6 показані деякі з 31 списків для точно такий же гольф-клуб-A Taylormade пальника 09 Драйвер продаються точно таким же "budgetgolfer продавцом-». Проте, ці списки мають трохи різні характеристики. Одинадцять з них пропонують водієві для фіксованою ціною $ 124,99, в той час як інші 20 аукціонів з різними датами кінця. Крім того, списки мають різні збори доставки, або $ 7,99 або $ 9.99. Іншими словами, це наче "budgetgolfer" працює експерименти для дослідників.

Пропозиції про Taylormade пальника 09 драйвера продаються "budgetgolfer" є одним із прикладів узгодженого набору списків, де точно такий же елемент продаються точно такий же товар, але кожен раз з дещо іншими характеристиками. У масивних колод eBay є буквально сотні тисяч підібраних наборів, що включають мільйони списків. Таким чином, замість того, щоб порівнювати остаточну ціну для всіх аукціонів в рамках даної стартовою ціною, ейнаїм і його колеги роблять порівняння в рамках узгоджених наборів. Для того, щоб об'єднати результати від порівнянь в межах цих сотень тисяч підібраних наборів, ейнаїм і його колеги знову висловити стартову ціну і остаточну ціну з точки зору еталонного значення кожного елемента (наприклад, його середня ціна продажу). Наприклад, якщо Taylormade пальника 09 Драйвер має опорне значення $ 100 (на основі її продажів), то стартова ціна $ 10 буде виражатися як 0.1 і остаточна ціна $ 120 буде виражатися в 1.2.

Малюнок 2.6: Приклад узгодженого набору. Це точно такий же гольф-клуб (а Taylormade пальника 09 Driver) продаються точно така ж людина (budgetgolfer), але деякі з цих продажів були виконані різні умови (наприклад, різні стартові ціни). Малюнок взятий з ейнаїм і співавт. (2015).

Малюнок 2.6: Приклад узгодженого набору. Це точно такий же гольф-клуб (а Taylormade пальника 09 Driver) продаються точно тим же людиною ( "budgetgolfer"), але деякі з цих продажів були виконані різні умови (наприклад, різні стартові ціни). Малюнок взятий з Einav et al. (2015) і Einav et al. (2015) .

Нагадаємо, що ейнаїм і його колеги були зацікавлені в ефекті стартова ціна на результати аукціону. По-перше, за допомогою лінійної регресії за їхніми оцінками, більш високі ціни на стартові зменшити ймовірність продажу, і що більш високі ціни на стартові збільшують кінцеву ціну продажу, умовне на продаж відбувається. Самі по собі ці оцінки, які-усереднені всі продукти і припускають лінійну залежність між початковою ціною і кінцеві результати, не все, що цікаво. Але, ейнаїм і його колеги також використовувати масивний розмір своїх даних, щоб оцінити різноманітність більш тонких висновків. По-перше, ейнаїм і його колеги зробили ці оцінки окремо для найменувань різних цін і без використання лінійної регресії. Вони виявили, що в той час як співвідношення між ціною і початковою ймовірністю продажу лінійна, співвідношення між початковою ціною продажу і ціною явно нелінійна (рис 2.7). Зокрема, для початку ціни в діапазоні від 0,05 до 0,85, стартова ціна має дуже незначний вплив на ціну продажу, знаходження, яка була завершена пропустили в аналізі, який передбачається лінійна залежність.

Малюнок 2.7: Зв'язок між аукціону стартова ціна і можливість продажу (ліва панель) і ціною продажу (права панель). Існує приблизно лінійна залежність між ціною початку і ймовірність продажу, але є нелінійне співвідношення між ціною і початковою ціною продажу; для початку ціни в діапазоні від 0,05 до 0,85, стартова ціна має дуже незначний вплив на ціну продажу. В обох випадках відносини в основному залежить від вартості товару. Ці графіки відтворюють фіг.4 і 4В ейнаїм і співавт. (2015).

Малюнок 2.7: Зв'язок між аукціону стартова ціна і можливість продажу (ліва панель) і ціною продажу (права панель). Існує приблизно лінійна залежність між ціною початку і ймовірність продажу, але є нелінійне співвідношення між ціною і початковою ціною продажу; для початку ціни в діапазоні від 0,05 до 0,85, стартова ціна має дуже незначний вплив на ціну продажу. В обох випадках відносини в основному залежить від вартості товару. Ці графіки відтворюють фіг.4 і 4В Einav et al. (2015) і Einav et al. (2015) .

По-друге, замість усереднення по всіх пунктів, ейнаїм і його колеги також використовувати масовий масштаб своїх даних, щоб оцінити вплив початкової ціни на 23 різних категорій предметів (наприклад, товарів для домашніх тварин, електроніки та спортивних пам'ятних речей) (Малюнок 2.8). Ці оцінки показують, що для більш відмінних елементів, таких, як ціна пам'ятних речей старту має менший вплив на ймовірність продажу і більший вплив на кінцеву ціну продажу. Крім того, для більш коммодіфіцірованной елементи, такі як DVD-диски та відео-стартова ціна практично не впливає на кінцеву ціну. Іншими словами, в середньому, що поєднує в собі результати з 23 різних категорій предметів приховує важливу інформацію про відмінності між цими предметами.

Малюнок 2.8: Результати показали оцінки з кожної категорії окремо; тверда точка в оцінці для всіх категорій об'єднані разом, Таблиця 11 (ейнаїм і ін. 2015 року, таблиця 11). Ці оцінки показують, що для більш відмінних елементів, таких як пам'ятні речі, стартова ціна має менший вплив на ймовірність продажу (вісь х) і більший вплив на кінцеву ціну продажу (вісь).

Малюнок 2.8: Результати показали оцінки з кожної категорії окремо; тверда точка в оцінці для всіх категорій об'єднаних разом (Einav et al. 2015, Table 11) і (Einav et al. 2015, Table 11) . Ці оцінки показують, що для більш відмінних елементів, таких як пам'ятні речі, стартова ціна має менший вплив на ймовірність продажу (вісь х) і більший вплив на кінцеву ціну продажу (вісь).

Навіть якщо ви не особливо зацікавлені в аукціонах на eBay, ви повинні захоплюватися таким чином, що Малюнок 2.7 і Малюнок 2.8 пропонують багатшими розуміння eBay, ніж прості оцінки лінійної регресії, які беруть на себе лінійні відносини і поєднують в собі безліч різних категорій елементів. Ці більш тонкі оцінки ілюструють силу відповідності в масивних даних; ці оцінки були б неможливі без величезного числа польових експериментів, яка була б занадто дорого.

Звичайно, ми повинні мати менше впевненості в результатах будь-якого конкретного дослідження відповідності, ніж ми були б в результатах порівнянного експерименту. При оцінці результатів з будь-якого узгоджувального дослідження, є дві важливі проблеми. По-перше, ми повинні пам'ятати, що ми можемо тільки забезпечити справедливі порівняння на речі, які були використані для порівняння. В їх основні результати, ейнаїм і його колеги так і точну відповідність на чотири характеристики: продавець ідентифікаційний номер, категорії товару, назва пункту, і субтитрів. Якщо елементи були різними способами, які не були використані для зіставлення, які могли б створити несправедливе порівняння. Наприклад, якщо "budgetgolfer" знизив ціни на Taylormade пальника 09 Driver в зимовий період (коли гольф-клуби менш популярні), то це може здатися, що більш низькі ціни на стартові призводять до зниження остаточних цін, коли насправді це було б артефакт сезонного зміна попиту. Загалом, кращий підхід до цієї проблеми, здається, намагається багато різних видів відповідності. Наприклад, ейнаїм і його колеги повторюють їх аналіз, де збігається набори були включені пункти продажу протягом одного року, протягом одного місяця і одночасно. Створення тимчасового вікна тугіше зменшує кількість підібраних наборів, але зменшує занепокоєння з приводу сезонних змін. На щастя, вони вважають, що результати не змінюються цими змінами у відповідних критеріїв. У узгоджувального літературі цей тип занепокоєння зазвичай виражається в термінах спостережуваних і спостережених, але ключова ідея дійсно , що дослідники створюють тільки справедливі порівняння про особливості використовуваних в узгодженні.

Другою серйозною проблемою при інтерпретації відповідних результатів є те, що вони застосовуються тільки до збігається даними; вони не застосовуються до випадків, які не можуть бути узгоджені. Наприклад, обмежуючи свої дослідження предметів, які мали кілька списків ейнаїм і його колеги з акцентом на професійних і напівпрофесійних продавців. Таким чином, при інтерпретації цих порівнянь ми повинні пам'ятати, що вони застосовуються тільки до цього подмножеству eBay.

Збіг це потужна стратегія для знаходження справедливого порівняння в великих наборах даних. Для багатьох соціологів, узгодження відчуває, як другий кращий в експериментах, але це переконання, що слід переглянути, злегка. Збіг у масивних даних може бути краще, ніж невелике число польових експериментів, коли: 1) гетерогенність ефектів має важливе значення, і 2) існують хороші спостерігаються для порівняння. У таблиці 2.4 представлені деякі інші приклади того, як зіставлення може бути використаний з великими джерелами даних.

Таблиця 2.4: Приклади досліджень, які використовують зіставлення, щоб знайти справедливі порівняння в цифрових слідів.
Основна спрямованість Великий джерело даних цитування
Вплив зйомок на поліцейського насильства Стоп-і-FRISK записи Legewie (2016)
Ефект від 11 вересня 2001 року на членів сім'ї і сусідів записи голосу і пожертвування Hersh (2013)
соціальний зарази Зв'язок і прийняття продукту даних Aral, Muchnik, and Sundararajan (2009)

На закінчення, наївні підходи до оцінки причинно-наслідкових ефектів від неексперіментальних даних небезпечні. Проте, стратегії для створення причинних оцінки, що лежать уздовж континууму від самого сильного до самого слабкого, і дослідники можуть виявити справедливі порівняння всередині неексперіментальних даних. Зростання завжди на, великих систем даних збільшує нашу здатність ефективно використовувати два існуючих методу: природні експерименти і узгодження.