2.4.3.2 potrivire

De potrivire a crea comparații echitabile prin tăiere departe de cazuri.

comparații echitabile pot proveni fie din experimente controlate randomizate sau experimente naturale. Însă, există multe situații în care nu se poate rula experimentul ideal dacă și natura nu a furnizat un experiment natural. În aceste setări, cel mai bun mod de a crea o comparație corectă este de potrivire. În potrivire, cercetătorul se uită prin date non-experimentale pentru a crea perechi de oameni care sunt similare cu excepția faptului că unul a primit tratament și nu are. În procesul de potrivire, cercetatorii sunt , de fapt , de asemenea , de tăiere; adică, aruncând cazurile în care nu există nici o comparație evidentă. Astfel, această metodă ar fi mai precis numite de potrivire și de tăiere, dar voi stick cu termenul tradițional: potrivire.

Un frumos exemplu al puterii de potrivire a strategiilor cu surse de date masive de bază non-experimentale provin din cercetarea asupra comportamentului consumatorilor prin Liran Einav si colegii (2015) . Einav si colegii sai au fost interesate în licitațiile care au loc pe eBay, iar în descrierea munca lor, mă voi concentra pe un singur aspect particular: efectul licitației prețul de pornire pe rezultatele de licitație, cum ar fi prețul de vânzare sau probabilitatea unei vânzări.

Modul cel mai naiv să se răspundă la întrebarea cu privire la efectul prețului de pornire la prețul de vânzare ar fi pur și simplu pentru a calcula prețul final pentru licitațiile cu prețuri diferite de pornire. Această abordare ar fi bine dacă doriți pur și simplu pentru a prezice prețul de vânzare al unui anumit articol care a fost pus pe eBay, cu un preț de pornire dat. Dar, în cazul în care întrebarea dumneavoastră este ceea ce este efectul prețului de pornire asupra rezultatelor de pe piață , această abordare nu va funcționa , deoarece nu se bazează pe comparații echitabile; licitațiile cu prețuri inițiale mai mici pot fi destul de diferite de la licitațiile cu prețuri inițiale mai mari (de exemplu, acestea ar putea fi pentru diferite tipuri de mărfuri sau includ diferite tipuri de vânzători).

Dacă sunteți deja preocupat de a face comparații corecte, s-ar putea sări abordarea naiv și să executați un experiment pe teren în cazul în care v-ar vinde un anumit element-spun, un club cu teren de golf un set fix de licitații parametri-spun, transport gratuit, licitatie deschis timp de două săptămâni, etc, dar cu un set aleator preturi incepand. Prin compararea rezultatelor de pe piață care rezultă, acest experiment pe teren ar oferi o măsurare foarte clară a efectului prețului de pornire la prețul de vânzare. Însă, această măsurătoare s-ar aplica numai la un singur anumit produs și un set de parametri de licitație. Rezultatele pot fi diferite, de exemplu, pentru diferite tipuri de produse. Fără a teorie puternică, este dificil să se extrapoleze acest singur experiment gama completă de posibile experimente care ar fi fost rulat. În plus, experimente de teren sunt suficient de scumpe încât ar fi irealizabil pentru a rula suficient de ei până să acopere întregul spațiu parametru al produselor și a tipurilor de licitație.

Spre deosebire de abordarea naivă și abordarea experimentală, Einav și colegii să ia oa treia abordare: potrivire. Principalul truc al strategiei lor este de a descoperi lucruri similare cu experimente de teren care s-au intamplat deja pe eBay. De exemplu, Figura 2.6 prezintă unele dintre cele 31 de listări pentru exact același club de golf-un TaylorMade arzător 09 driver-vândut de exact aceeași seller- "budgetgolfer". Cu toate acestea, aceste înregistrări au caracteristici ușor diferite. Unsprezece dintre ele oferă șoferului un preț fix de $ 124,99, în timp ce celelalte 20 sunt licitatiile cu diferite date de încheiere. De asemenea, listele au diferite taxe de transport, fie $ 7.99 sau $ 9,99. Cu alte cuvinte, este ca și în cazul în care "budgetgolfer" se execută experimente pentru cercetători.

Listări ale TaylorMade Burner 09 conducător auto vândute de "budgetgolfer" sunt un exemplu de un set de potrivire listări, în cazul în care același articol exact este vândut de către același vânzător exact, dar de fiecare dată, cu puțin caracteristici diferite. În jurnalele masive de eBay, există literalmente sute de mii de seturi potrivite implică milioane de listări. Astfel, mai degrabă decât comparând prețul final pentru toate licitațiile din cadrul unui preț de pornire dat, Einav si colegii sai fac comparatii in cadrul seturilor potrivite. Pentru a putea combina rezultatele de comparații în cadrul acestor sute de mii de seturi de potrivire, Einav si colegii re-exprima prețul de pornire și prețul final, în ceea ce privește valoarea de referință a fiecărui element (de exemplu, prețul mediu de vânzare). De exemplu, în cazul în care TaylorMade arzător 09 Conducătorul auto are valoare de referință de 100 $ (pe baza vânzărilor sale), apoi un preț de pornire de 10 $ ar fi exprimat sub forma de 0,1 și prețul final de $ 120 ar fi exprimat ca 1.2.

Figura 2.6: Un exemplu al unui set de potrivire. Aceasta este exact același club de golf (un driver TaylorMade arzător 09) fiind vândute de către aceeași persoană exactă (budgetgolfer), dar unele dintre aceste vânzări au fost efectuate condiții diferite (de exemplu, prețul de pornire diferite). Figura preluată din Einav și colab. (2015).

Figura 2.6: Un exemplu al unui set de potrivire. Aceasta este exact același club de golf (un driver TaylorMade arzător 09) fiind vândute de exact aceeași persoană ( "budgetgolfer"), dar unele dintre aceste vânzări au fost efectuate condiții diferite (de exemplu, prețul de pornire diferite). Figura preluată din Einav et al. (2015) .

Să ne amintim că Einav și colegii au fost interesați de efectul prețului de pornire pe rezultatele licitatiei. În primul rând, folosind regresie liniară au estimat că prețurile inițiale mai mari, reduce probabilitatea de o vânzare, și că prețurile inițiale mai mari crește prețul final de vânzare, condiționată de o vânzare are loc. Prin ele însele, aceste estimări care sunt în medie în toate produsele și să își asume o relație liniară între prețul de pornire și finale nu-rezultate sunt toate interesante. Dar, Einav si colegii folosesc, de asemenea, dimensiunea masivă a datelor lor pentru a estima o varietate de descoperiri mai subtile. În primul rând, Einav si colegii sai au efectuat aceste estimări separat pentru elementele de prețuri diferite și fără a utiliza regresie liniară. Ei au descoperit că, în timp ce relația dintre prețul de pornire și probabilitatea de vânzare este liniară, relația dintre prețul de pornire și prețul de vânzare este în mod clar non-liniar (figura 2.7). În special, pentru a începe prețurile între 0,05 și 0,85, prețul de pornire are un impact foarte mic asupra prețului de vânzare, o constatare care a fost finalizat ratat în analiza pe care și-a asumat-o relație liniară.

Figura 2.7: Relația dintre licitație prețul de pornire și probabilitatea unei vânzări (panou stânga) și prețul de vânzare (panoul din dreapta). Există aproximativ o relație liniară între prețul de pornire și probabilitatea de vânzare, dar există o relație non-liniară între prețul de pornire și prețul de vânzare; pentru a începe prețurile între 0,05 și 0,85, prețul de pornire are un impact foarte mic asupra prețului de vânzare. În ambele cazuri, relațiile sunt practic independente de valoare element. Aceste grafice reproduc figura 4a și 4b Einav și colab. (2015).

Figura 2.7: Relația dintre licitație prețul de pornire și probabilitatea unei vânzări (panou stânga) și prețul de vânzare (panoul din dreapta). Există aproximativ o relație liniară între prețul de pornire și probabilitatea de vânzare, dar există o relație non-liniară între prețul de pornire și prețul de vânzare; pentru a începe prețurile între 0,05 și 0,85, prețul de pornire are un impact foarte mic asupra prețului de vânzare. În ambele cazuri, relațiile sunt practic independente de valoare element. Aceste grafice reproduc figura 4a și 4b Einav et al. (2015) .

În al doilea rând, mai degrabă decât în ​​medie față de toate elementele, Einav si colegii utiliza, de asemenea, scara masiva a datelor lor pentru a estima impactul prețului de pornire pentru 23 de categorii diferite de articole (de exemplu, consumabile pentru animale de companie, electronice și sport memorabilia) (Figura 2.8). Aceste estimări arată că, pentru mai multe elemente distincte, cum ar fi prețul de pornire suvenirele are un efect mai mic asupra probabilității unei vânzări și un efect mai mare asupra prețului final de vânzare. În plus, pentru elemente, cum ar fi DVD-uri mai multe comodificată și video prețul de pornire nu are aproape nici un impact asupra prețului final. Cu alte cuvinte, o medie care combină rezultatele de la 23 de categorii diferite de articole ascunde informații importante despre diferențele dintre aceste elemente.

Figura 2.8: Rezultatele au aratat estimări din fiecare categorie în parte; punctul solid în estimarea pentru toate categoriile reunite, Tabelul 11 ​​(Einav și colab. 2015, Tabelul 11). Aceste estimări arată că, pentru mai multe elemente distincte, cum ar fi memorabilia-prețul de pornire are un efect mai mic asupra probabilității unei vânzări (axa x) și un efect mai mare asupra prețului final de vânzare (axa y).

Figura 2.8: Rezultatele au aratat estimări din fiecare categorie în parte; punctul solid în estimarea pentru toate categoriile reunite (Einav et al. 2015, Table 11) . Aceste estimări arată că, pentru mai multe elemente distincte, cum ar fi memorabilia-prețul de pornire are un efect mai mic asupra probabilității unei vânzări (axa x) și un efect mai mare asupra prețului final de vânzare (axa y).

Chiar dacă nu sunteți interesat în mod special licitațiile de pe eBay, trebuie să admiri modul în care Figura 2.7 și Figura 2.8 Oferta o înțelegere mai bogată a eBay decât estimările de regresie liniară simplă care presupun relații liniare și combină mai multe categorii diferite de articole. Aceste estimări mai subtile ilustrează puterea de potrivire a datelor masive; aceste estimări ar fi fost imposibilă fără un număr enorm de experimente pe teren, ceea ce ar fi fost prohibitiv de costisitoare.

Desigur, ar trebui să avem mai puțină încredere în rezultatele oricărui studiu special de potrivire decât am fi în rezultatele unui experiment comparabil. Atunci când se evaluează rezultatele de la orice studiu de potrivire, există două aspecte importante. În primul rând, trebuie să ne amintim că ne putem asigura doar comparații echitabile cu privire la lucrurile care au fost folosite pentru potrivirea. În rezultatele lor principale, Einav si colegii sai au exact de potrivire pe patru caracteristici: vânzător numărul de identificare, categorie element, element de titlu și subtitlu. În cazul în care elementele au fost diferite în moduri care nu au fost utilizate pentru potrivire, care ar putea crea o comparație greșită. De exemplu, în cazul în care "budgetgolfer" a redus prețurile pentru TaylorMade arzător 09 Driver de iarna (atunci când cluburile de golf sunt mai puțin populare), atunci s-ar putea părea că prețurile de pornire mai mici duc la scăderea prețurilor finale, atunci când, de fapt, acest lucru ar fi un artefact de sezon variaţia cererii. În general, cea mai bună abordare a acestei probleme pare a fi încercarea de multe tipuri diferite de potrivire. De exemplu, Einav si colegii repeta analiza lor în cazul în care seturile de potrivire includ elemente pe vânzare în termen de un an, în termen de o lună, și contemporaneitate. Ceea ce face fereastra de timp mai stricte scade numărul de seturi de potrivire, dar reduce preocupările legate de variațiile sezoniere. Din fericire, ei constată că rezultatele sunt neschimbate de aceste modificări criterii potrivite. În literatura de specialitate se potrivesc, acest tip de preocupare este de obicei exprimat în termeni observabili și unobservables, dar ideea cheie este cu adevărat că cercetătorii creează doar comparații echitabile privind caracteristicile utilizate în potrivirea.

Cea de a doua preocupare majoră atunci când se interpretează rezultatele care se potrivesc este că acestea se aplică numai datelor potrivite; acestea nu se aplică în cazurile în care nu au putut fi compensate. De exemplu, prin limitarea lor de cercetare la articole care au avut mai multe listări Einav si colegii sunt concentrandu-se pe vanzatori profesionale și semi-profesionale. Astfel, atunci când interpretează aceste comparații trebuie să ne amintim că ele se aplică numai la acest subset de eBay.

Potrivire este o strategie puternică pentru identificarea unei comparații echitabile în seturi mari de date. La mulți oameni de știință sociale, de potrivire se simte ca a doua cea mai bună pentru experimente, dar aceasta este o credință care ar trebui revizuită, ușor. Potrivire în date masive ar putea fi mai bun decât un număr mic de experimente de câmp, atunci când: 1) neomogene efecte este importantă și 2) există observabilelor bune pentru potrivire. Tabelul 2.4 oferă câteva alte exemple de modul în care se potrivesc pot fi utilizate cu surse de date mari.

Tabelul 2.4: Exemple de studii care folosesc de potrivire pentru a găsi comparații echitabile în termen de urme digitale.
se concentreze pe fond Sursa de date de mare Citare
Efectul de impuscaturi cu privire la violența poliției Stop-and-zbengui înregistrări Legewie (2016)
Efect 11 septembrie 2001 privind familiile și vecinii înregistrările de vot și înregistrările de donație Hersh (2013)
contagiune socială Comunicare și de adoptare a datelor de produs Aral, Muchnik, and Sundararajan (2009)

In concluzie, abordările naive pentru estimarea efectelor cauzale de date non-experimentale sunt periculoase. Cu toate acestea, strategii pentru a face estimări cauzale situate de-a lungul unui proces continuu de la cel mai puternic la cel mai slab, și cercetătorii pot descoperi comparații echitabile în datele de bază non-experimentale. Creșterea numărului de sisteme mereu, datele mai mari, mărește capacitatea de a utiliza în mod eficient două metode existente: experimente naturale și de potrivire.