2.4.3.2 Matching

Matchande skapa rättvisa jämförelser genom beskärning bort fall.

Rättvisa jämförelser kan komma från antingen randomiserade kontrollerade experiment eller naturliga experiment. Men det finns många situationer där du inte kan köra den ideala experiment och naturen har inte gett en naturlig experiment. I dessa inställningar, det bästa sättet att skapa en rättvis jämförelse är matchning. I matchning ser forskaren genom icke-experimentella data för att skapa par av människor som är liknande förutom att man har fått behandling och en har inte. I processen för matchning, forskare faktiskt också beskärning; det vill säga, kasta fall där det inte finns några uppenbara jämförelse. Således, denna metod skulle vara mer korrekt kallas matchning-and-beskärning, men jag ska hålla med den traditionella benämningen: matchning.

Ett vackert exempel på kraften i matchande strategier med massiva icke-experimentella datakällor kommer från forskningen om konsumentbeteende av Liran Einav och kollegor (2015) . Einav och kollegor var intresserade av auktioner som äger rum på eBay, och beskriva sitt arbete, kommer jag att fokusera på en särskild aspekt: ​​effekten av utropspris på auktionsresultat, såsom försäljningspriset eller sannolikheten för en försäljning.

Den mest naiva sättet att svara på frågan om effekten av utgångspriset på försäljningspriset skulle vara att helt enkelt beräkna det slutliga priset för auktioner med olika utgångspriser. Detta tillvägagångssätt skulle vara bra om du bara vill förutsäga försäljningspriset för en viss vara som hade lagts på eBay med en given startpris. Men, om din fråga är vad är effekten av utropspris på marknadsresultat denna strategi kommer inte att fungera eftersom den inte grundar sig på rättvisa jämförelser; auktioner med lägre utgångspriser kan vara helt annorlunda från auktioner med högre utgångspriser (t.ex. kan de vara för olika typer av varor eller innefatta olika typer av säljare).

Om du redan är orolig för att göra rättvisa jämförelser, kan du hoppa över den naiva inställning och överväga att köra ett fältförsök där man skulle sälja ett visst objekt, säger en golfklubba-med en fast uppsättning av auktionsparametrar-säga, fri frakt, auktion öppen för två veckor, etc.-men med slumpmässigt inställd börjar priser. Genom att jämföra de erhållna resultaten på marknaden, skulle detta fältexperiment har en mycket tydligt mått på effekten av utropspris på försäljningspriset. Men skulle denna mätning endast gälla en viss produkt och en uppsättning auktionsparametrar. Resultaten kan vara olika, till exempel, för olika typer av produkter. Utan stark teori, är det svårt att extrapolera från denna enda experiment hela skalan av möjliga experiment som kunde ha körts. Vidare, fältförsök är tillräckligt dyrt att det skulle vara omöjligt att köra tillräckligt av dem för att täcka hela parameterrymden av produkter och auktionstyper.

I motsats till den naiva inställning och experimentell metod, Einav och kollegor ta en tredje metod: matchning. Den främsta knep av deras strategi är att upptäcka saker som liknar fältförsök som redan har hänt på eBay. Till exempel, Figur 2.6 visar några av de 31 listor för exakt samma golf club-en Taylormade Burner 09 Driver-säljs med exakt samma seller- "budgetgolfer". Emellertid har dessa listor har något olika egenskaper. Elva av dem erbjuder föraren för ett fast pris på $ 124,99, medan de övriga 20 är auktioner med olika slutdatum. Även de listor har olika fraktavgifter, antingen $ 7,99 eller $ 9,99. Med andra ord är det som om "budgetgolfer" kör experiment för forskarna.

De listor med Taylormade Burner 09 Driver säljs av "budgetgolfer" är ett exempel på en matchad uppsättning av listor, där exakt samma objekt som säljs av exakt samma säljare, men varje gång med lite olika egenskaper. Inom den massiva stockar av eBay det finns bokstavligen hundratusentals matchade uppsättningar med miljontals listor. I stället för att jämföra det slutliga priset för alla auktioner inom en given utgångspriset, Einav och kollegor göra jämförelser inom matchade uppsättningar. För att kombinera resultaten från jämförelserna inom dessa hundratusentals matchade uppsättningar, Einav och kollegor åter uttrycka utgångspriset och slutligt pris i termer av referensvärdet för varje objekt (t.ex. dess genomsnittliga försäljningspriset). Till exempel, om Taylormade Burner 09 Driver har ett referensvärde på $ 100 (baserat på försäljningen), då ett utropspris på $ 10 skulle uttryckas som 0,1 och slutpris på $ 120 skulle uttryckas som 1,2.

Figur 2.6: Ett exempel på en matchad uppsättning. Detta är exakt samma golfklubb (en Taylormade Burner 09 Driver) säljs av exakt samma person (budgetgolfer), men en del av denna försäljning genomfördes olika förhållanden (t ex olika utgångspris). Figur tagen från Einav et al. (2015).

Figur 2.6: Ett exempel på en matchad uppsättning. Detta är exakt samma golfklubb (en Taylormade Burner 09 Driver) säljs av exakt samma person ( "budgetgolfer"), men en del av denna försäljning genomfördes olika förhållanden (t ex olika utgångspris). Figur tagen från Einav et al. (2015) .

Minns att Einav och kollegor var intresserade av effekten av utgångspris på auktionsresultat. Först med hjälp av linjär regression de uppskattade att högre utgångspriser minskar sannolikheten för en försäljning, och att högre utgångspriserna öka det slutliga försäljningspriset, villkorad av en försäljning inträffar. Själva, dessa uppskattningar-som genomsnitt för alla produkter och antar ett linjärt förhållande mellan utropspris och slutresultat, är inte så intressant. Men Einav och kollegor använder också den massiva storleken på sina data för att uppskatta en mängd mer subtila iakttagelser. Först Einav och kollegor gjorde dessa uppskattningar separat för föremål av olika priser och utan användning av linjär regression. De fann att medan förhållandet mellan utgångspris och sannolikheten för en försäljning är linjär, är förhållandet mellan utgångspriset och försäljningspris klart icke-linjär (figur 2,7). I synnerhet, för att starta priserna mellan 0,05 och 0,85, har utgångspriset mycket liten inverkan på försäljningspriset, ett konstaterande som avslutades missade i den analys som hade antagit ett linjärt förhållande.

Figur 2.7: Förhållandet mellan auktionsutgångspris och sannolikheten för en försäljning (till vänster) och försäljningspris (högra panelen). Det är ungefär ett linjärt förhållande mellan utgångspris och sannolikhet för försäljning, men det finns ett icke-linjärt förhållande mellan utgångspris och försäljningspris; för att starta priserna mellan 0,05 och 0,85, har utgångspriset mycket liten inverkan på försäljningspriset. I båda fallen, de relationer är i grunden oberoende av objektvärde. Diagrammen återger Fig 4a och 4b Einav et al. (2015).

Figur 2.7: Förhållandet mellan auktionsutgångspris och sannolikheten för en försäljning (till vänster) och försäljningspris (högra panelen). Det är ungefär ett linjärt förhållande mellan utgångspris och sannolikhet för försäljning, men det finns ett icke-linjärt förhållande mellan utgångspris och försäljningspris; för att starta priserna mellan 0,05 och 0,85, har utgångspriset mycket liten inverkan på försäljningspriset. I båda fallen, de relationer är i grunden oberoende av objektvärde. Diagrammen återger Fig 4a och 4b Einav et al. (2015) .

För det andra, snarare än i genomsnitt över alla artiklar, Einav och kollegor använder också den massiva omfattningen av deras uppgifter för att uppskatta effekterna av utgångs priset för 23 olika kategorier av objekt (t.ex. sällskapsdjur leveranser, elektronik och sportmemorabilia) (Figur 2.8). Dessa uppskattningar visar att mer distinkta objekt-såsom minnes-utgångspris har en mindre effekt på sannolikheten för en försäljning och en större effekt på det slutliga försäljningspriset. Vidare, för mer kommodifieras objekt-såsom DVD och video-startpriset har nästan ingen inverkan på det slutliga priset. Med andra ord, i genomsnitt som kombinerar resultat från 23 olika kategorier av objekt döljer viktig information om skillnaderna mellan dessa poster.

Figur 2.8: Resultaten visade uppskattningar från varje kategori för sig; den fasta punkten i beräkningen för alla kategorier slås samman, tabell 11 (Einav et al. 2015, tabell 11). Dessa uppskattningar visar att mer distinkta objekt-såsom minnes-startpriset har en mindre effekt på sannolikheten för en försäljning (x-axeln) och en större effekt på det slutliga priset försäljning (y-axel).

Figur 2.8: Resultaten visade uppskattningar från varje kategori för sig; den fasta punkten i beräkningen för alla kategorier poolade tillsammans (Einav et al. 2015, Table 11) . Dessa uppskattningar visar att mer distinkta objekt-såsom minnes-startpriset har en mindre effekt på sannolikheten för en försäljning (x-axeln) och en större effekt på det slutliga priset försäljning (y-axel).

Även om du inte är särskilt intresserad av auktioner på eBay, måste du beundra det sätt som figur 2.7 och figur 2.8 erbjuder en rikare förståelse för eBay än enkla linjära regressions uppskattningar som antar linjära relationer och kombinera många olika typer av objekt. Dessa mer subtila uppskattningar visar kraften i att matcha i massiv data; dessa uppskattningar skulle ha varit omöjligt utan ett enormt antal fältförsök, som skulle ha varit oöverkomligt dyra.

Naturligtvis skulle vi ha mindre förtroende för resultaten av en viss matchning studie än vi skulle i resultaten av en jämförbar experiment. Vid bedömningen av resultaten från varje matchande studie, finns det två viktiga frågor. Först måste vi komma ihåg att vi bara kan garantera rättvisa jämförelser på saker som användes för matchning. I sina viktigaste resultaten, gjorde Einav och kollegor exakt matchning på fyra egenskaper: säljaren ID-nummer, produktkategori, punkt titel och underrubrik. Om objekten var annorlunda på ett sätt som inte användes för matchning, som kan skapa en orättvis jämförelse. Till exempel, om "budgetgolfer" sänkt priserna för Taylormade Burner 09 Driver på vintern (när golfklubbor är mindre populära), så kan det visas att lägre utgångspriser leder till lägre slutpriser, när i själva verket skulle vara en artefakt av säsongs variation i efterfrågan. I allmänhet, det bästa tillvägagångssättet för detta problem verkar försöker många olika typer av matchning. Till exempel Einav och kollegor upprepar sin analys där matchade uppsättningar inkluderar objekt till försäljning inom ett år, inom en månad, och samtidigt. Vilket gör det tidsfönster snävare minskar antalet matchade uppsättningar, men minskar oron säsongsvariation. Lyckligtvis är att resultat är oförändrade av dessa förändringar i matchande kriterier. I matchande litteratur, är denna typ av oro brukar uttryckas i termer av observabler och unobservables, men grundidén är verkligen att forskare bara skapar rättvisa jämförelser på funktioner som används i matchningen.

Den andra stora bekymmer när man tolkar matchande resultat är att de endast gäller matchade data; de inte tillämpas i de fall som inte kunde matchas. Till exempel genom att begränsa sin forskning till poster som hade flera listor Einav och kollegor fokuserar på professionella och semiprofessionella säljare. Således, när man tolkar dessa jämförelser måste vi komma ihåg att de endast gäller för denna undergrupp av eBay.

Matchning är en kraftfull strategi för att finna rättvisa jämförelser i stora datamängder. För många samhällsvetare, matchning känns näst bästa experiment, men det är en tro som bör ses över, något. Matchning i massiva data kan vara bättre än ett litet antal fältförsök när: 1) heterogenitet effekter är viktig och 2) det finns goda upptäckt för matchning. Tabell 2,4 erbjuder några andra exempel på hur matchning kan användas med stora datakällor.

Tabell 2.4: Exempel på studier som använder matchning för att hitta rättvisa jämförelser inom digitala spår.
materiell fokus Big datakälla Citat
Effekt av skottlossning på polisvåld Stop-och-Frisk register Legewie (2016)
Effekt den 11 september 2001 om familjer och grannar omröstnings och donation register Hersh (2013)
social smitta Kommunikation och produkt adoption uppgifter Aral, Muchnik, and Sundararajan (2009)

Sammanfattningsvis naiva tillvägagångssätt för att uppskatta kausala effekter från icke-experimentella data är farliga. Däremot kan strategier för att göra orsaks uppskattningar ligger längs ett kontinuum från starkast till svagast och forskare upptäcka rättvisa jämförelser inom icke-experimentella data. Tillväxten av ständigt på, stora datasystem ökar vår förmåga att effektivt använda två befintliga metoder: naturliga experiment och matchning.