2.4.3.2 Matching

Odpovídající vytvořit spravedlivé srovnání o prořezávání pryč případů.

Spravedlivé srovnání mohou pocházet buď z randomizované kontrolované experimentů nebo přírodními experimenty. Ale existuje mnoho situací, kdy nelze spustit ideální experiment a příroda nejsou poskytovány přirozený experiment. V těchto nastaveních je nejlepší způsob, jak vytvořit spravedlivé srovnání je odpovídající. V párování, výzkumník dívá přes non-experimentálními daty pro vytvoření dvojice lidí, kteří jsou podobné, s výjimkou, že jeden přijal léčbu a jeden nemá. V procesu párování, vědci jsou vlastně také prořezávání; to znamená, odhazovat případy, kdy nejsou k dispozici žádné zjevné srovnání. Proto tato metoda by se přesněji nazývá párování-and-prořezávání, ale budu držet tradičního výrazu: shodu.

Krásný příklad síly odpovídající strategie s masivními neexperimentálních datových zdrojů pocházejí z výzkumu chování spotřebitele prostřednictvím Liran Einav a kolegové (2015) . Einav a jeho kolegové se zajímali o aukcích, které se konají na eBay a při popisování jejich práci, budu soustředit na jeden konkrétní aspekt: ​​Vliv vyvolávací cena v aukci výsledky, jako je například kupní ceny nebo pravděpodobnost prodeje.

Nejvíce naivní způsob, jak odpovědět na otázku o vlivu na prodejní ceny vyvolávací cenou by bylo jednoduše vypočítat konečnou cenu v aukcích s různými výchozími cenami. Tento přístup by bylo v pořádku, pokud si prostě chcete předpovídat prodejní cenu daného předmětu, který byl kladen na eBay s danou vyvolávací cenou. Ale pokud vaše otázka je, jaký je vliv vyvolávací cena na výsledky trhu tento přístup nebude fungovat, protože není založen na reálných srovnání; aukce s nižšími cenami výchozími může být zcela odlišný od dražby s vyššími cenami výchozími (např, mohou být pro různé druhy zboží nebo obsahují různé typy prodejců).

Pokud jste již obavy o tom, spravedlivé srovnání, můžete přeskočit naivní přístup a uvažovat o spuštění pole experiment, kde se bude prodávat jako zvláštní bod-říci, golfový klub-s pevnou sadou aukčních parametrech-říci, doprava zdarma, aukce otevřené po dobu dvou týdnů, atd., ale s náhodně nastavena vyvolávací ceny. Porovnáním výsledné tržní výsledky, bylo toto pole experiment by nabídla velmi jasnou měření vlivu začíná cenu na prodejní ceny. Ale toto měření by se vztahovalo pouze na jednu konkrétní výrobek a soubor aukčních parametrů. Výsledky se mohou lišit, například pro různé typy produktů. Bez silné teorii, že je obtížné provést extrapolaci z tohoto jediného pokusu o úplný rozsah možných experimentů, které by mohly být po záběhu. Dále, polní pokusy jsou dostatečně drahé, že by bylo nemožné provozovat dost z nich tak, aby pokrýval celou prostoru parametrů výrobků a typů aukcí.

Na rozdíl od naivní přístup a experimentální přístup, Einav a kolegové se třetí přístup: shodu. Hlavní trik jejich strategie je objevovat věci podobné polních pokusů, které se již staly na eBay. Například Obrázek 2.6 ukazuje některé z 31 výpisů za přesně stejnou golfové hole-a TaylorMade Burner 09 Driver-, které se prodávají podle přesně stejný seller- "budgetgolfer". Nicméně, tyto seznamy mají mírně odlišné vlastnosti. Jedenáct z nich nabízejí řidiči za fixní cenu $ 124,99, zatímco zbylých 20 jsou aukce s různými koncovými daty. Také výpisy mají různé přepravní poplatky, a to buď $ 7,99 nebo 9,99 $. Jinými slovy, je to, jako kdyby "budgetgolfer" běží experimenty pro výzkumné pracovníky.

Výpisy z Taylormade hořáku 09 ovladače prodává "budgetgolfer" jsou jedním příkladem odpovídající nastavení výpisů, kde je přesně stejné položky prodávány podle přesně stejné prodejce, ale pokaždé s mírně odlišnými vlastnostmi. V rámci masivních klád eBay tam jsou doslova stovky tisíc sladěných souprav zahrnujících miliony výpisů. Tak, spíše než porovnávání konečnou cenu pro všechny aukcích v daném vyvolávací cenou, Einav a jeho kolegové provést srovnání uvnitř uzavřeno sad. Aby bylo možné kombinovat výsledky z srovnání v rámci těchto statisíců sladěných sad, Einav a jeho kolegové re-vyjádřit vyvolávací cena a konečnou cenu, pokud jde o referenční hodnotě každé položky (např, jeho průměrná prodejní cena). Například, v případě, že hořák 09 Taylormade řidič má referenční hodnotu $ 100 (na základě prodeje), pak cenu od $ 10 by byl vyjádřen jako 0,1 a konečná cena $ 120 by být vyjádřen jako 1,2.

Obrázek 2.6: Příklad ucelenou sadu. Je to ten samý golfový klub (a TaylorMade Burner 09 Driver) se prodává přesně stejnou osobou (budgetgolfer), ale některé z těchto prodejů byly provedeny různé podmínky (např odlišný Vyvolávací cena). Obrázek převzat z Einav et al. (2015).

Obrázek 2.6: Příklad ucelenou sadu. Je to ten samý golfový klub (a TaylorMade Burner 09 Driver) se prodává přesně stejnou osobou ( "budgetgolfer"), ale některé z těchto prodejů byly provedeny různé podmínky (např odlišný Vyvolávací cena). Obrázek převzat z Einav et al. (2015) .

Připomeňme si, že Einav a jeho kolegové se zajímali o vlivu startovací cenu v aukci výsledky. Za prvé, pomocí lineární regrese oni Odhaduje se, že vyšší ceny začínají snižovat pravděpodobnost prodeje, a že vyšší ceny výchozí navýšit konečnou prodejní cenu, podmíněný na prodej vyskytující. Samy o sobě tyto odhady-která se zprůměrují na všechny produkty a předpokládá lineární vztah mezi vyvolávací cenou a konečné výsledky, není všechno tak zajímavé. Ale Einav a jeho kolegové také použít masivní velikost jejich dat pro odhad řadu jemnějších nálezů. Za prvé, Einav a jeho kolegové tyto odhady odděleně pro položky rozdílnými cenami a bez použití lineární regrese. Zjistili, že když je poměr mezi cenou a počáteční pravděpodobnost prodeje je lineární vztah mezi vyvolávací cenou a prodejní cenou je zjevně nelineární (obrázek 2.7). Zejména pro začínající cen mezi 0,05 a 0,85, vyvolávací cena má velmi malý dopad na prodejní ceny, zjištění, že byla dokončena chyběl v analýze, která se předpokládat lineární vztah.

Obrázek 2.7: Vztah mezi Vyvolávací cena a pravděpodobnost prodeje (levý panel) a prodejní cenou (pravý panel). K dispozici je zhruba lineární závislost mezi počáteční cenou a pravděpodobnost prodeje, ale tam je nelineární vztah mezi počáteční cenou a prodejní cenou; pro začínající cen mezi 0,05 a 0,85, vyvolávací cena má velmi malý dopad na prodejní ceny. V obou případech, vztahy jsou v podstatě nezávislé na hodnotě položky. Tyto grafy reprodukovat obr 4a a 4b Einav et al. (2015).

Obrázek 2.7: Vztah mezi Vyvolávací cena a pravděpodobnost prodeje (levý panel) a prodejní cenou (pravý panel). K dispozici je zhruba lineární závislost mezi počáteční cenou a pravděpodobnost prodeje, ale tam je nelineární vztah mezi počáteční cenou a prodejní cenou; pro začínající cen mezi 0,05 a 0,85, vyvolávací cena má velmi malý dopad na prodejní ceny. V obou případech, vztahy jsou v podstatě nezávislé na hodnotě položky. Tyto grafy reprodukovat obr 4a a 4b Einav et al. (2015) .

Za druhé, spíše než průměrně přes všechny položky, Einav a jeho kolegové také používat obrovský rozsah jejich dat odhadnout dopad vyvolávací cenou 23 různých druhů zásilek (např chovatelských potřeb, elektroniky a sportovní memorabilia) (Obrázek 2.8). Tyto odhady ukazují, že více výrazných předmětů, jako jsou například memorabilia-start cena má menší vliv na pravděpodobnost prodeje a větší vliv na konečné prodejní ceny. Dále, pro více commodified položky-, jako jsou DVD a video-startovací cenou nemá téměř žádný vliv na konečnou cenu. Jinými slovy, v průměru, který kombinuje výsledky z 23 různých druhů zásilek skrývá důležité informace o rozdílech mezi těmito.

Obrázek 2.8: Výsledky ukázaly odhady z každé kategorie zvlášť; Pevná látka tečka v odhadu pro všechny kategorie, které jsou seskupeny, Tabulka 11 (Einav et al. 2015, tabulka 11). Tyto odhady ukazují, že více charakteristických bodů, jako je například memorabilia-start cena má menší vliv na pravděpodobnost prodeje (osa x) a větší vliv na konečné prodejní ceny (osa y).

Obrázek 2.8: Výsledky ukázaly odhady z každé kategorie zvlášť; Pevná látka tečka v odhadu pro všechny kategorie shromážděných dohromady (Einav et al. 2015, Table 11) . Tyto odhady ukazují, že více charakteristických bodů, jako je například memorabilia-start cena má menší vliv na pravděpodobnost prodeje (osa x) a větší vliv na konečné prodejní ceny (osa y).

Dokonce i když nejsou příliš zájem o aukcích na eBay, musíte obdivovat způsob, jakým Obrázek 2.7 a Obrázek 2.8 nabízejí bohatší pochopení eBay než jednoduché lineární regresní odhady, které předpokládají lineární vztahy a kombinují mnoho různých druhů zásilek. Tyto jemnější odhady ilustrují sílu odpovídající masivní dat; Tyto odhady by nebylo možné bez obrovského počtu polních pokusů, což by bylo nepřiměřeně nákladné.

Samozřejmě, že bychom měli mít méně důvěry ve výsledcích jakéhokoliv konkrétního studia odpovídající než bychom ve výsledcích srovnatelné experimentu. Při posuzování výsledků z libovolného odpovídající studie, existují dva vážné obavy. Za prvé, musíme mít na paměti, že můžeme zajistit jen spravedlivé srovnání na věci, které byly použity pro párování. Ve svých hlavních výsledků, Einav a jeho kolegové se přesný odpovídající na čtyři charakteristiky: Prodávající číslo, kategorie položka, název položky, a titulků. V případě, že předměty byly různé způsoby, které nebyly použity pro vyrovnání, které by mohly vést k nepřiměřenému srovnání. Například, jestliže "budgetgolfer" snížení cen za TaylorMade Burner 09 Driver v zimě (při golfové kluby jsou méně populární), pak by se mohlo zdát, že nižší ceny začínají vést ke snížení konečné ceny, i když ve skutečnosti to bude artefakt sezónní variace v poptávce. Obecně platí, že nejlepší přístup k tomuto problému se zdá, že se snaží mnoho různých druhů párování. Například Einav a jeho kolegové opakovat jejich analýzu, kde uzavřeno sety obsahují položky na prodej během jednoho roku, během jednoho měsíce a současně. Tvorba časové okno těsnější snižuje počet shodných sad, ale snižuje obavy o sezónnost. Naštěstí se zjistí, že výsledky jsou nezměněny těmito změnami v odpovídajících kritérií. V odpovídající literatuře, tento druh zájmu je obvykle vyjádřena rozpoznatelnosti a unobservables, ale klíč myšlenka je ve skutečnosti, že výzkumní pracovníci se vytváří pouze spravedlivé srovnání na funkcích používaných v párování.

Druhým závažným problémem při interpretaci odpovídající výsledky, je, že se použije pouze s odpovídajícími daty; které se nevztahují na případy, které nemohly být uzavřeno. Například tím, že omezí svůj výzkum s položkami, které měly více zápisů Einav a jeho kolegové jsou zaměřené na profesionálních a poloprofesionálních prodejců. Proto, když interpretaci těchto srovnání nesmíme zapomínat, že se vztahují pouze na této podskupiny eBay.

Shoda je silný strategie pro nalezení spravedlivé srovnání ve velkých datových sadách. Pro mnoho společenských vědců, párování se cítí jako druhý nejlepší pokusů, ale to je víra, že by měly být revidovány, nepatrně. Odpovídající v masivních dat může být lepší, než u malého počtu polních pokusů, když: je důležité 1) heterogenita účinky a 2) existují dobré observables pro párování. Tabulka 2.4 poskytuje některé další příklady, jak může být použit odpovídající s velkými datovými zdroji.

Tabulka 2.4: Příklady studií, které používají ve stejném designu nalézt spravedlivé srovnání s digitálními stopami.
věcného zaměření Velký zdroj dat Citace
Vliv střeleb o policejní násilí Stop-and-prohledat záznamy Legewie (2016)
Vliv 11. září 2001 na rodiny a sousedů Hlasovací záznamy a záznamy darování Hersh (2013)
sociální nákaza Komunikace a přijetí údaji o výrobku Aral, Muchnik, and Sundararajan (2009)

Závěrem lze říci, naivní přístupy k odhadu kauzální efekty z non-experimentálních dat jsou nebezpečné. Nicméně strategie pro výrobu příčinné odhady ležící podél kontinua od nejsilnější do nejslabší, a výzkumníci mohou objevit spravedlivé srovnání v rámci non-experimentálními daty. Růst neustále zapnutý, velkých datových systémů zvyšuje naši schopnost efektivně využívat dvě stávající metody: přírodní experimenty a zohledňování potřeb.