2.4.3.2 Matching

Wat ooreenstem met die skep billike vergelykings deur weg te snoei gevalle.

Fair vergelykings kan kom van óf gerandomiseerde beheerde eksperimente of natuurlike eksperimente. Maar, daar is baie gevalle waar jy die ideale eksperiment nie kan loop en die natuur het nie voorsien 'n natuurlike eksperiment. In hierdie instellings, die beste manier om te skep 'n regverdige vergelyking ooreenstem. In ooreenstem, die navorser kyk deur nie-eksperimentele data om pare van mense wat dieselfde is, behalwe dat 'n mens die behandeling ontvang het te skep en 'n mens nie. In die proses van opname, is navorsers eintlik ook snoei; dit is, wegdoen gevalle waar daar geen voor die hand liggend vergelyking. So, hierdie metode sal meer akkuraat genoem bypassende-en-snoei, maar ek sal vashou aan die tradisionele term: ooreenstem.

'N Pragtige voorbeeld van die krag van wat ooreenstem met die strategieë met massiewe nie-eksperimentele data bronne kom uit die navorsing oor verbruikersgedrag deur Liran Einav en kollegas (2015) . Einav en kollegas was geïnteresseerd in veilings plaasvind op eBay, en in die beskrywing van hul werk, sal ek fokus op 'n bepaalde aspek: die effek van 'n veiling aanvang van die prys op veiling uitkomste, soos die verkoopprys of die waarskynlikheid van 'n verkoop.

Die mees naïewe manier om die vraag oor die effek van aanvang van die prys te koop prys beantwoord sou wees om eenvoudig bereken die finale prys vir veilings met verskillende beginspan pryse. Hierdie benadering sal goed wees as jy net wil die verkoopprys van 'n gegewe item wat op eBay gesit met 'n gegewe aanvang van die prys voorspel. Maar, as jou vraag is wat is die effek van aanvang van die prys op uitkomste mark hierdie benadering sal nie werk nie, want dit is nie gebaseer op billike vergelykings; die veilings met 'n laer begin pryse kan heel anders as veilings met 'n hoër begin pryse (bv, kan hulle vir verskillende tipes van goedere of sluit verskillende soorte verkopers) wees.

As jy reeds 'bekommerd oor die maak van billike vergelykings, kan jy die naïewe benadering te slaan en te oorweeg bestuur van 'n veld eksperiment waar jy sal verkoop 'n spesifieke item-sê, 'n gholfstok-met 'n vaste stel veiling parameters-sê, gratis gestuur, veiling oop vir twee weke, ens-maar met lukraak opgestel begin pryse. Deur die gevolglike uitkomste mark, sou hierdie veld eksperiment 'n baie duidelike meting van die effek van aanvang van die prys te koop prys. Maar, sou hierdie meting slegs van toepassing op 'n spesifieke produk en stel 'n veiling parameters. Die resultate kan anders wees, byvoorbeeld, vir verskillende tipes van produkte. Sonder 'n sterk teorie, is dit moeilik om te ekstrapoleer uit hierdie enkele eksperiment die volle omvang van die moontlike eksperimente wat kon gewees het hardloop. Verdere, veldeksperimente genoeg duur dat dit infeasible genoeg van hulle aanloop tot die hele parameter ruimte van produkte en tipes veiling dek sou wees.

In teenstelling met die naïewe benadering en die eksperimentele benadering, Einav en kollegas 'n derde benadering: ooreenstem. Die belangrikste truuk van hul strategie is om dinge soortgelyk aan veldeksperimente wat reeds op eBay gebeur ontdek. Byvoorbeeld, Figuur 2.6 toon 'n paar van die 31 inskrywings vir presies dieselfde gholf-klub 'n Taylor Made Burner 09 Driver-verkoop deur presies dieselfde verkoper "budgetgolfer". Maar hierdie inskrywing effens verskillende eienskappe. Elf van hulle bied die bestuurder vir 'n vaste prys van $ 124,99, terwyl die ander 20 is veilings met verskillende einddatum. Ook, die volledige lys het verskillende gestuur fooie, óf $ 7,99 of $ 9,99. Met ander woorde, dit is asof "budgetgolfer" loop eksperimente vir die navorsers.

Die volledige lys van die Taylor Made Burner 09 Driver verkoop deur "budgetgolfer" is 'n voorbeeld van 'n ooreenstem stel volledige lys, waar presies dieselfde item word verkoop deur presies dieselfde verkoper, maar elke keer met 'n effens verskillende eienskappe. Binne die massiewe stompe van eBay daar letterlik honderde duisende ooreenstem stelle wat miljoene inskrywings. Dus, eerder as om te vergelyk die finale prys vir alle veilings binne 'n gegewe aanvang van die prys, Einav en kollegas te maak vergelykings binne ooreenstem stelle. Ten einde resultate te kombineer van die vergelykings binne hierdie honderde duisende ooreenstem stelle, Einav en kollegas weer druk die aanvang van die prys en finale prys in terme van die verwysing waarde van elke item (bv, die gemiddelde verkoop prys). Byvoorbeeld, as die Taylor Made Burner 09 bestuurder het 'n verwysing waarde van $ 100 (op grond van sy verkope), dan 'n aanvang van die prys van $ 10 sou word uitgedruk as 0,1 en finale prys van $ 120 sal uitgedruk word as 1.2.

Figuur 2.6: 'n Voorbeeld van 'n pas stel. Dit is presies dieselfde gholfklub (a Taylor Made Burner 09 Driver) verkoop deur presies dieselfde persoon (budgetgolfer), maar 'n paar van hierdie verkope is uitgevoer verskillende toestande (bv verskillende aanvang van die prys). Figuur uit Einav et al. (2015).

Figuur 2.6: 'n Voorbeeld van 'n pas stel. Dit is presies dieselfde gholfklub (a Taylor Made Burner 09 Driver) verkoop deur presies dieselfde persoon ( "budgetgolfer"), maar 'n paar van hierdie verkope is uitgevoer verskillende toestande (bv, verskillende aanvang van die prys). Figuur uit Einav et al. (2015) .

Onthou dat Einav en kollegas was geïnteresseerd in die effek van begin prys op veiling uitkomste. In die eerste plek met behulp van lineêre regressie hulle beraam dat hoër begin pryse te verminder die waarskynlikheid van 'n verkoop, en wat hoër begin pryse te verhoog die finale verkoopprys, op voorwaarde dat 'n verkoping plaasvind. Deur hulself, hierdie ramings-wat gemiddeld meer as al die produkte en aanvaar 'n lineêre verwantskap tussen aanvang van die prys en finale uitkomste-is nie alles wat interessant. Maar, Einav en kollegas ook die massiewe omvang van hul data te gebruik om 'n verskeidenheid van meer subtiele bevindinge te skat. In die eerste plek Einav en kollegas het hierdie skat afsonderlik vir items van verskillende pryse en sonder die gebruik van lineêre regressie. Hulle het bevind dat terwyl die verhouding tussen begin prys en waarskynlikheid van 'n verkoop is lineêre, die verhouding tussen aanvang van die prys en verkoop prys is duidelik nie-lineêre (Figuur 2.7). In die besonder, vir die begin van pryse tussen 0.05 en 0.85, die aanvang van die prys het weinig impak op verkoopprys, 'n bevinding wat voltooi gemis in die analise wat 'n lineêre verwantskap het aanvaar.

Figuur 2.7: Verband tussen 'n veiling begin prys en waarskynlikheid van 'n verkoop (links paneel) en verkoopprys (regs paneel). Daar is min of meer 'n lineêre verwantskap tussen begin prys en waarskynlikheid verkoop, maar daar is 'n nie-lineêre verwantskap tussen begin prys en verkoop prys; vir die begin van pryse tussen 0.05 en 0.85, die aanvang van die prys het weinig impak op verkoopprys. In beide gevalle, die verhoudings is basies onafhanklike item waarde. Hierdie grafieke reproduseer Fig 4a en 4b Einav et al. (2015).

Figuur 2.7: Verband tussen 'n veiling begin prys en waarskynlikheid van 'n verkoop (links paneel) en verkoopprys (regs paneel). Daar is min of meer 'n lineêre verwantskap tussen begin prys en waarskynlikheid verkoop, maar daar is 'n nie-lineêre verwantskap tussen begin prys en verkoop prys; vir die begin van pryse tussen 0.05 en 0.85, die aanvang van die prys het weinig impak op verkoopprys. In beide gevalle, die verhoudings is basies onafhanklike item waarde. Hierdie grafieke reproduseer Fig 4a en 4b Einav et al. (2015) .

Tweede, eerder as gemiddeld oor al die items, Einav en kollegas ook die massiewe skaal van hul data om die impak van aanvang van die prys vir 23 verskillende kategorieë van items (bv, troeteldiere, elektronika, en sport memorabilia) (Figuur 2.8) te skat. Hierdie ramings toon dat meer kenmerkende items-soos memorabilia-start prys het 'n kleiner uitwerking op die waarskynlikheid van 'n verkoop en 'n groter invloed op die finale verkoopprys. Verdere, vir meer kommoditeit items-soos DVD's en video-die begin prys het feitlik geen invloed op die finale prys. Met ander woorde, 'n gemiddelde wat resultate kombineer van 23 verskillende kategorieë van items verberg belangrike inligting oor die verskille tussen hierdie items.

Figuur 2.8: Resultate toon skattings van elke kategorie afsonderlik; die soliede dot in die raming vir alle kategorieë saamgevoeg saam, Table 11 (Einav et al. 2015, Table 11). Hierdie ramings toon dat meer kenmerkende items-soos memorabilia-die begin prys het 'n kleiner uitwerking op die waarskynlikheid van 'n verkoop (x-as) en 'n groter invloed op die finale verkoopprys (y-as).

Figuur 2.8: Resultate toon skattings van elke kategorie afsonderlik; die soliede dot in die raming vir alle kategorieë saam gepoel (Einav et al. 2015, Table 11) . Hierdie ramings toon dat meer kenmerkende items-soos memorabilia-die begin prys het 'n kleiner uitwerking op die waarskynlikheid van 'n verkoop (x-as) en 'n groter invloed op die finale verkoopprys (y-as).

Selfs al is jy nie besonder geïnteresseerd in veilings op eBay, moet jy die manier waarop Figuur 2.7 en Figuur 2.8 bied 'n ryker begrip van eBay as eenvoudige lineêre regressie skat dat lineêre verbande te neem en kombineer baie verskillende kategorieë van items te bewonder. Hierdie meer subtiele skattings illustreer die krag van wat ooreenstem met die in massiewe data; hierdie ramings sou onmoontlik gewees het sonder 'n enorme aantal veldeksperimente, wat onbetaalbaar sou gewees het.

Natuurlik moet ons minder vertroue in die resultate van 'n bepaalde bypassende studie as wat ons sou in die resultate van 'n vergelykbare eksperiment het. By die beoordeling van die resultate van enige bypassende studie, is daar twee belangrike kommer. In die eerste plek moet ons onthou dat ons net kan verseker billike vergelykings op dinge wat gebruik word vir wat ooreenstem. In hul belangrikste resultate, het Einav en kollegas presiese ooreenstem op vier eienskappe: verkoper ID-nommer, item kategorie, item titel en subtitel. As die items was verskillende maniere wat nie gebruik is vir passing, wat 'n onregverdige vergelyking kon skep. Byvoorbeeld, as "budgetgolfer" verlaag pryse vir Taylor Made Burner 09 Driver in die winter (wanneer gholfstokke is minder gewild), dan is dit kan voorkom asof laer begin pryse lei tot finale pryse te verlaag, terwyl dit in werklikheid sou dit 'n juweel van seisoenale wees variasie in die vraag. In die algemeen, blyk die beste benadering tot hierdie probleem te probeer baie verskillende soorte ooreenstem. Byvoorbeeld, Einav en kollegas herhaal hul ontleding waar pas stelle sluit items te koop binne een jaar, binne een maand, en gelyktydig. Die maak van die tyd venster strenger verminder die aantal ooreenstem stelle, maar verminder kommer oor seisoenale variasie. Gelukkig vind hulle dat die resultate is onveranderd deur hierdie veranderinge in wat ooreenstem met die kriteria. In die komende literatuur, is hierdie tipe van kommer gewoonlik uitgedruk in terme van waarneembares en unobservables, maar die sleutel idee is regtig dat navorsers net regverdig vergelykings op die gebruik in bypassende eienskappe skep.

Die tweede groot kommer by die verklaring wat ooreenstem met die resultate is dat hulle slegs van toepassing op wat ooreenstem met data; hulle nie van toepassing op die sake wat nie kan ooreenstem. Byvoorbeeld, deur hul navorsing te beperk tot items wat verskeie aanbiedings Einav en kollegas is die fokus op professionele en semi-professionele handelaars het. Dus, wanneer die interpretasie van hierdie vergelykings ons moet onthou dat hulle slegs van toepassing op hierdie subset van eBay.

Matching is 'n kragtige strategie vir die vind van billike vergelykings in groot datastelle. Vir baie sosiale wetenskaplikes, wat ooreenstem voel soos naasbeste eksperimente, maar dit is 'n oortuiging dat moet hersien word, effens. Matching in massiewe data kan beter as 'n klein aantal veldeksperimente wees wanneer: 1) heterogeniteit in effekte is belangrik en 2) daar is 'n goeie waarneembares vir ooreenstem. Table 2.4 bied 'n paar ander voorbeelde van hoe ooreenstem gebruik kan word met 'n groot data bronne.

Tabel 2.4: Voorbeelde van studies wat ooreenstem te gebruik om billike vergelykings te vind binne digitale spore.
substantiewe fokus Big databron Citation
Effek van skietery op polisiegeweld Stop-en-dartelen rekords Legewie (2016)
Effek van September 11, 2001 op families en bure stem rekords en donasie rekords Hersh (2013)
sosiale besmetting Kommunikasie en produk aanneming data Aral, Muchnik, and Sundararajan (2009)

Ten slotte, naïef benaderings tot die beraming van oorsaaklike uitwerking van nie-eksperimentele data is gevaarlik. Maar strategieë vir die maak van oorsaaklike skattings lê langs 'n kontinuum vanaf sterkste aan swakste, en navorsers kan billike vergelykings binne nie-eksperimentele data te ontdek. Die groei van altyd-op, 'n groot data stelsels verhoog ons vermoë om effektief te kan gebruik twee bestaande metodes: natuurlike eksperimente en bypassende.