2.4.3.2 Matching

Coincidència de crear comparacions justes mitjançant la poda de distància casos.

comparacions justes poden provenir tant d'experiments controlats aleatoris o experiments naturals. No obstant això, hi ha moltes situacions en què no es pot executar l'experiment ideal i la naturalesa no ha proporcionat un experiment natural. En aquesta configuració, la millor manera de crear una comparació justa és coincident. En concordança, l'investigador es veu a través de dades no experimentals per crear parells de les persones que són similars excepte que un ha rebut el tractament i un no té. En el procés d'adaptació, els investigadors estan de fet també la poda; és a dir, descartant els casos on no hi ha comparació òbvia. Per tant, aquest mètode es diu més precisió a joc-i-poda, però em quedo amb el terme tradicional: a joc.

Un bell exemple de la potència de recerca d'estratègies amb les fonts de dades no experimentals massius provenen de la investigació sobre el comportament dels consumidors de Liran Einav i els seus col·legues (2015) . Einav i els seus col·legues estaven interessats en les subhastes que tenen lloc a eBay, i en la descripció del seu treball, em centraré en un aspecte particular: l'efecte del preu de sortida de la subhasta en els resultats de subhastes, com ara el preu de venda o la probabilitat d'una venda.

La forma més ingènua de respondre a la pregunta sobre l'efecte del preu de sortida a la venda el preu seria simplement calcular el preu final de les subhastes amb diferents preus de sortida. Aquest enfocament estaria bé si simplement vol predir el preu de venda d'un article donat que s'havia posat a eBay amb un preu de sortida donat. Però, si la seva pregunta és quin és l'efecte del preu de sortida en els resultats del mercat aquest enfocament no funcionarà perquè no es basa en comparacions justes; les subhastes amb preus de sortida més baixos poden ser molt diferents de les subhastes amb preus de sortida superiors (per exemple, podrien ser de diferents tipus de béns o incloure diferents tipus de venedors).

Si ja està preocupat per fer comparacions justes, és possible ometre l'enfocament ingenu i considerar l'execució d'un experiment de camp on vostè vol vendre un determinat element, per exemple, un club amb camp d'un conjunt fix de subhastes paràmetres dir, l'enviament lliure, la subhasta oberta durant dues setmanes, etc., però amb preus a partir establir a l'atzar. En comparar els resultats del mercat resultants, aquest experiment de camp oferiria un mesurament molt clara de l'efecte del preu de sortida a la venda preu. No obstant això, aquesta mesura només s'aplicaria a un producte en particular i un conjunt de paràmetres de la subhasta. Els resultats poden ser diferents, per exemple, per a diferents tipus de productes. Sense teoria fort, és difícil extrapolar a partir d'aquest experiment únic tota la gamma de possibles experiments que podrien haver estat dirigit. A més, els experiments de camp són prou car que seria inviable per a funcionar prou d'ells per cobrir tot l'espai dels paràmetres dels productes i tipus de subhastes.

En contrast amb l'enfocament ingenu i l'enfocament experimental, Einav i els seus col·legues prenen un tercer enfocament: a joc. El truc principal de la seva estratègia és descobrir coses similars als experiments de camp que ja han passat a eBay. Per exemple, la Figura 2.6 mostra alguns dels 31 llistats de exactament el mateix tipus club, un camp de TaylorMade-09 Controlador de ser venuda per exactament el mateix "budgetgolfer" venedor-. No obstant això, aquests elements tenen característiques lleugerament diferents. Onze d'ells ofereixen al conductor per un preu fix de $ 124,99, mentre que els altres 20 són les subhastes amb diferents dates de finalització. A més, els anuncis tenen diferents tarifes d'enviament, ja sigui $ 7,99 o 9,99 $. En altres paraules, és com si "budgetgolfer" s'està executant experiments dels investigadors.

Els llistats de la TaylorMade conductor 09 que es venen per "budgetgolfer" són un exemple d'un conjunt combinat de màquines, on el mateix article s'està venent pel mateix venedor exacta, però cada vegada amb característiques lleugerament diferents. Dins dels enormes troncs d'eBay hi ha literalment centenars de milers de conjunts aparellats que impliquen milions de llistats. Per tant, en lloc de comparar el preu final per a totes les subhastes dins d'un preu de sortida donat, Einav i els seus col·legues fan comparacions dins de conjunts aparellats. Per tal de combinar els resultats de les comparacions dins d'aquests centenars de milers de conjunts aparellats, Einav i els seus col·legues re-expressar el preu de sortida i el preu final en termes del valor de referència de cada element (per exemple, el seu preu mitjà de venda). Per exemple, si el TaylorMade Burner 09 conductor té un valor de referència de $ 100 (sobre la base de les seves vendes), a continuació, un preu inicial de $ 10 s'expressa com el 0,1 i el preu final de $ 120 s'expressaria com 1.2.

Figura 2.6: Un exemple d'un joc complet. Aquest és el mateix club de golf exacta (Conductor TaylorMade Burner 09) sent venut per la mateixa persona (budgetgolfer), però algunes d'aquestes vendes es van realitzar diferents condicions (per exemple, diferent preu inicial). Figura presa de Einav et al. (2015).

Figura 2.6: Un exemple d'un joc complet. Aquest és el mateix club de golf exacta (Conductor TaylorMade Burner 09) sent venut per la mateixa persona ( "budgetgolfer"), però algunes d'aquestes vendes es van realitzar diferents condicions (per exemple, diferent preu inicial). Figura presa de Einav et al. (2015) .

Recordem que Einav i els seus col·legues estaven interessats en l'efecte del preu d'inici en els resultats de la subhasta. En primer lloc, l'ús de regressió lineal s'estima que els preus inicials més elevades disminueixen la probabilitat d'una venda, i que els preus de partida més altes augmenten el preu de venda final, condicionat a una venda que es produeixin. Per si mateixos, aquests càlculs -que fan mitjana sobre tots els productes i assumeixen una relació lineal entre el preu inicial i final no-resultats són tan interessant. Però, Einav i els seus col·legues utilitzen també l'enorme grandària de les seves dades per estimar una varietat de resultats més subtils. En primer lloc, Einav i col·legues van fer aquestes estimacions per separat per als articles de diferents preus i sense l'ús de regressió lineal. Ells van trobar que, si bé la relació entre el preu de sortida i la probabilitat d'una venda és lineal, la relació entre el preu inicial i el preu de venda és clarament no lineal (Figura 2.7). En particular, per a l'inici dels preus d'entre 0,05 i 0,85, el preu de sortida té molt poc impacte en el preu de venda, una troballa que es va completar perdut en l'anàlisi que havia assumit una relació lineal.

Figura 2.7: Relació entre el preu de la subhasta d'inici i la probabilitat d'una venda (panell esquerre) i el preu de venda (panell dret). Hi ha més o menys una relació lineal entre el preu inicial i la probabilitat de venda, sinó que existeix una relació no lineal entre el preu inicial i el preu de venda; per a l'inici de preus entre 0,05 i 0,85, el preu de sortida té molt poc impacte en el preu de venda. En tots dos casos, les relacions són bàsicament independents de valor de l'article. Aquests gràfics es reprodueixen Fig 4a i 4b Einav et al. (2015).

Figura 2.7: Relació entre el preu de la subhasta d'inici i la probabilitat d'una venda (panell esquerre) i el preu de venda (panell dret). Hi ha més o menys una relació lineal entre el preu inicial i la probabilitat de venda, sinó que existeix una relació no lineal entre el preu inicial i el preu de venda; per a l'inici de preus entre 0,05 i 0,85, el preu de sortida té molt poc impacte en el preu de venda. En tots dos casos, les relacions són bàsicament independents de valor de l'article. Aquests gràfics es reprodueixen Fig 4a i 4b Einav et al. (2015) .

En segon lloc, en comptes de mostrar una mitjana sobre tots els articles, Einav i els seus col·legues utilitzen també la gran grandària de les seves dades per estimar l'impacte del preu de sortida de 23 categories diferents d'elements (per exemple, aliments per a mascotes, electrònica i articles esportius de col·lecció) (Figura 2.8). Aquestes estimacions mostren que per més distintius elements, com ara el preu records d'inici té un menor efecte sobre la probabilitat d'una venda i un major efecte sobre el preu de venda final. A més, per als articles més mercantilitzades-com ara DVD i vídeo en el preu d'inici gairebé no té impacte en el preu final. En altres paraules, una mitjana que combina els resultats de 23 categories diferents d'articles oculta informació important sobre les diferències entre aquests elements.

Figura 2.8: Els resultats van mostrar estimacions de cada categoria individual; el punt sòlid en l'estimació per a totes les categories van agrupar, Taula 11 (Einav et al. 2015, Taula 11). Aquestes estimacions mostren que per més distintius elements, com ara objectes d'interès, el preu d'inici té un menor efecte sobre la probabilitat d'una venda (eix x) i un major efecte sobre el preu de venda final (eix i).

Figura 2.8: Els resultats van mostrar estimacions de cada categoria individual; el punt sòlid en l'estimació per a totes les categories agrupats junts (Einav et al. 2015, Table 11) . Aquestes estimacions mostren que per més distintius elements, com ara objectes d'interès, el preu d'inici té un menor efecte sobre la probabilitat d'una venda (eix x) i un major efecte sobre el preu de venda final (eix i).

Encara que no està particularment interessat en les subhastes a eBay, cal admirar la forma en què la Figura 2.7 i Figura 2.8 ofereix una comprensió més rica d'eBay que simples càlculs de regressió lineal que assumeixen les relacions lineals i combinen diferents categories d'articles. Aquestes estimacions més subtils il·lustren el poder de fer coincidir en massiu de dades; aquestes estimacions no haguessin estat possibles sense un enorme nombre d'experiments de camp, la qual cosa hauria estat prohibitivamente car.

Per descomptat, hem de tenir menys confiança en els resultats de qualsevol estudi concret de coincidència del que faria en els resultats d'un experiment similar. En avaluar els resultats de qualsevol estudi a joc, hi ha dues preocupacions importants. En primer lloc, hem de recordar que només podem garantir comparacions justes sobre les coses que es van utilitzar per la coincidència. En els seus principals resultats, Einav i col·legues no coincidència exacta en quatre característiques: Número d'Identificació venedor, article Categoria, Títol de l'article, i subtítols. Si els articles són diferents en formes que no van ser utilitzats per la coincidència, que podrien provocar una comparació injusta. Per exemple, si "budgetgolfer" baixat els preus per TaylorMade Burner 09 Conductor a l'hivern (quan pals de golf són menys populars), llavors podria semblar que els preus inicials més baixos condueixen a baixar els preus finals, quan en realitat això seria un artefacte de la temporada variació de la demanda. En general, el millor enfocament per a aquest problema sembla estar tractant de molts tipus diferents de joc. Per exemple, Einav i els seus col·legues repeteixen la seva anàlisi en conjunts aparellats inclouen articles a la venda aquí a un any, un mes, i contemporàniament. Fer la finestra de temps més estreta disminueix el nombre de conjunts aparellats, però redueix les preocupacions sobre la variació estacional. Afortunadament, es troben que els resultats no s'han modificat per aquests canvis en els criteris de correspondència. A la bibliografia corresponent, aquest tipus d'interès s'expressa generalment en termes d'observables i no observables, però la idea clau és veritat que els investigadors només estan creant comparacions justes sobre les característiques utilitzades en joc.

La segona preocupació important en la interpretació dels resultats de cerca és que només s'apliquen a les dades combinats; que no s'apliquen als casos que no van poder ser igualades. Per exemple, en limitar la seva investigació als elements que tenien múltiples llistats Einav i els seus col·legues s'estan centrant en els venedors professionals i semi-professionals. Per tant, a l'interpretar aquestes comparacions cal recordar que només s'apliquen a aquest subconjunt d'eBay.

Matching és una estratègia poderosa per trobar comparacions justes en grans conjunts de dades. Per a molts científics socials, a joc se sent com el segon millor dels experiments, sinó que és la creença que ha de ser revisat, lleugerament. Coincident en massiu de dades podria ser millor que un petit nombre d'experiments de camp quan: 1) l'heterogeneïtat dels efectes és important i 2) no són bons per als observables a joc. Taula 2.4 proporciona alguns altres exemples de com es pot utilitzar amb fonts de dades grans a joc.

Taula 2.4: Exemples d'estudis que fan servir a joc per trobar comparacions justes dins de les empremtes digitals.
enfocament substantiu font de dades gran citació
Efecte de trets sobre la violència policial Aturar i registrar els registres Legewie (2016)
Efecte de l'11 de setembre de 2001, sobre les famílies i els veïns registres de votació i arxius de les donacions Hersh (2013)
contagi social La comunicació i l'adopció de productes de dades Aral, Muchnik, and Sundararajan (2009)

En conclusió, els enfocaments ingenus a l'estimació dels efectes causals a partir de dades experimentals no són perillosos. No obstant això, les estratègies per fer estimacions causals s'estén al llarg d'un continu que va de fort al més feble, i els investigadors poden descobrir comparacions justes dins de les dades no experimentals. El creixement dels sistemes de dades, sempre-en grans augmenta la nostra capacitat d'utilitzar amb eficàcia dos mètodes existents: experiments naturals i coincident.