2.4.3.2 Matching

Sobivad luua õiglane võrdlusi pügamine ära juhtudel.

Fair võrdlusi võib pärineda kas randomiseeritud kontrollitud eksperimente või füüsiline eksperimente. Aga seal on palju olukordi, kus sa ei saa joosta ideaalne eksperiment ja looduse ei andnud loomulik eksperiment. Nendel seaded, parim viis luua õiglase võrdluse sobitamine. Sobitamine uurija näeb läbi mitte-katseandmed luua paari inimest, mis on sarnased välja, et üks on saanud ravi ja üks ei ole. Protsessis sobitamise on teadlased tegelikult ka pügamine; see tähendab, visates juhul, kui ei ole ilmne võrdluses. Seega on see meetod oleks täpsemalt nn matching-ja-pügamine, kuid ma jään traditsioonilise mõiste: sobitamine.

Ilus näide võimu sobitamine strateegiad massiivse katsetega mitte andmeallikate pärit uuringuid tarbijate käitumist Liran Einav ja tema kolleegid (2015) . Einav ja kolleegid olid huvitatud oksjonid toimuvad eBay ja kirjeldab nende tööd, ma keskenduda ühele konkreetsele aspektile: mõju alghinna oksjoni tulemusi, näiteks müügihinna või tõenäosus müüki.

Kõige naiivne viis vastata küsimusele toime alghinnaga müüki hind oleks lihtsalt arvutada lõpphind oksjonid erinevate alghinnad. Selline lähenemine oleks tore, kui soovite lihtsalt ennustada müügihind antud objekt, mis oli pandud eBay etteantud alghinnast. Aga, kui teie küsimus on, milline on mõju alghind on turutulemuste selline lähenemine ei tööta, sest see ei põhine õiglane võrdlusi; oksjonid madalama alghinnad võib olla üsna erinev oksjonid kõrgema alghinnad (nt nad võivad olla eri tüüpi kauba või sisaldada erinevaid müüjad).

Kui oled juba mures õiglaselt võrrelda, siis võiks vahele naiivsust ja kaaluge valdkonnas katse, kus oleks müüa eriteema-öelda, golfikepp-fikseeritud komplekti oksjoni parameetrid-öelda, kohaletoimetamisega, Enampakkumise avatud kaks nädalat jne-kuid juhuslikult seatud alustades hinnaga. Võrreldes tulemuseks turutulemuste korral selles valdkonnas katset pakuks väga selge mõõtmise mõju alghind on müügil hinnaga. Aga selline mõõtmine kohaldatakse ainult ühe konkreetse toote ja seada enampakkumise parameetrid. Tulemused võivad olla erinevad, näiteks erinevat tüüpi tooteid. Ilma tugeva teooria, see on raske järeldusi teha seda ühe eksperimendi kõiki võimalikke katseid, mis oleks võinud joosta. Lisaks eksperimente on piisavalt kallis, et see oleks võimatu joosta piisavalt neid üles, et katta kogu parameeter ruumi toodete ja oksjoni tüüpi.

Erinevalt naiivsust ja eksperimentaalse lähenemise Einav ja tema kolleegid võtavad kolmanda lähenemist: sobitamine. Peamine trikk oma strateegia on leida sarnaseid asju eksperimente, mis on juba juhtunud eBay. Näiteks Joonis 2.6 näitab mõningaid 31. nimekirjad täpselt sama Golfiklubi-a Taylormade Burner 09 Juhi müüdavaid täpselt sama müüja, "budgetgolfer". Kuid need nimekirjad on veidi erinevad omadused. Üksteist neist pakuvad juht fikseeritud hinnaga $ 124,99, samas kui ülejäänud 20 on oksjonitel erinevad lõpu kuupäev. Samuti nimekirjad on erinevad laevandus tasud, kas $ 7,99 või $ 9,99. Teisisõnu, see on sama, kui "budgetgolfer" töötab eksperimendid uurijatele.

Nimekirjad on Taylormade Burner 09 Driver müüdavaid "budgetgolfer" on üks näide sobitada komplekt nimekirjad, kus täpselt sama kirje on müüdud täpselt sama müüja, kuid iga kord veidi erinevad omadused. Jooksul tohutu palke eBay on sadu tuhandeid sobitada komplekti, mis hõlmab miljoneid nimekirjad. Seega, selle asemel võrreldakse lõpphind kõik oksjonid etteantud alghinnaga, Einav ja kolleegidega teha võrdlusi sobitada komplekti. Selleks, et ühendada tulemusi võrrelda neis sadu tuhandeid sobitada komplekti, Einav ja kolleegidega uuesti väljendada alghind ja lõplik hind poolest kontrollväärtusest iga objekti (nt selle keskmine müügihind). Näiteks kui Taylormade Burner 09 Driver on kontrollväärtusest 100 $ (põhineb tema müük), siis alghinnaga 10 $ oleks väljendatud 0.1 ja lõplik hind 120 $ oleks väljendatud 1.2.

Joonis 2.6: Näide sobitatud komplekti. See on täpselt sama Golfiklubi (a Taylormade Burner 09 Driver) on müüdud täpselt sama isik (budgetgolfer), kuid mõned neist müük viidi läbi erinevatel tingimustel (näiteks erinevad alghind). Joonis võetud Einav et al. (2015).

Joonis 2.6: Näide sobitatud komplekti. See on täpselt sama Golfiklubi (a Taylormade Burner 09 Driver) on müüdud täpselt sama isik ( "budgetgolfer"), kuid mõned neist müük viidi läbi erinevates tingimustes (nt erinevad alghind). Joonis võetud Einav et al. (2015) .

Tuletame meelde, et Einav ja kolleegid olid huvitatud mõju alghind enampakkumisel tulemusi. Esiteks, kasutades lineaarset regressiooni nad hinnanguliselt suurem alghinnad väheneb tõenäosus müük, ja et suurem alghinnad suurendada lõplik müügihind, tingimusel, müük toimub. Ise need kalkulatsioonid-, mis on keskmistatud kõik tooted ja eeldada lineaarset seost alghinnaga ja lõpptulemusi-ei ole sugugi nii huvitav. Aga Einav ja kolleegidega kasutada ka tohutu suurus nende andmeid, et hinnata erinevaid peenem järeldusi. Esiteks Einav ja tema kolleegid teinud need hinnangud eraldi esemeid erinevate hindadega ja ilma, kasutades lineaarset regressiooni. Nad leidsid, et kuigi suhet alghind ja tõenäosus müük on lineaarne, suhe alghinnaga ja müügihind on selgelt mittelineaarset (joonis 2.7). Eelkõige alustamiseks hinnaga 0,05 ja 0,85 alghind on väga väike mõju müügihinnale, kui tuvastatakse, et valminud vastamata analüüsi, mis oli eeldada lineaarset seost.

Joonis 2.7: seos Oksjoni alghind ja tõenäosus müük (vasak paneel) ja müügihind (paremal pool). Seal on umbes lineaarset seost alghind ja tõenäosus müük, kuid on olemas mitte-lineaarset seost alghind ja müügihind; alustades hinnaga 0,05 ja 0,85 alghind on väga väike mõju müügihind. Mõlemal juhul suhted on põhimõtteliselt sõltumatu objekti väärtust. Need graafikud reprodutseerida joonis 4a ja 4b Einav jt. (2015).

Joonis 2.7: seos Oksjoni alghind ja tõenäosus müük (vasak paneel) ja müügihind (paremal pool). Seal on umbes lineaarset seost alghind ja tõenäosus müük, kuid on olemas mitte-lineaarset seost alghind ja müügihind; alustades hinnaga 0,05 ja 0,85 alghind on väga väike mõju müügihind. Mõlemal juhul suhted on põhimõtteliselt sõltumatu objekti väärtust. Need graafikud reprodutseerida joonis 4a ja 4b Einav et al. (2015) .

Teiseks, selle asemel et keskmiselt üle kõik esemed, Einav ja kolleegidega kasutada ka massiliselt oma andmeid, et hinnata mõju alghinnaks 23 erinevat liiki objekte (näiteks Lemmikloomatarbed, elektroonika ja sport mälestusesemed) (joonis 2.8). Need hinnangud näitavad, et enam eristatavat eset-nagu mälestusesemed-alghind on väiksem mõju tõenäosus müük ja suurema mõju lõplik müügihind. Lisaks rohkem tarbekaubaks esemeid-näiteks DVD ja video-start hind on peaaegu mingit mõju lõpphinnale. Teisisõnu, keskmine, mis ühendab tulemused 23 erinevat liiki objekte peidab olulist infot erinevusi nende esemetega.

Joonis 2.8: Tulemused näitasid hinnanguid iga kategooria individuaalselt; täispunkt ennustatud kõigis kategooriates koondata, tabel 11 (Einav et al. 2015 Tabel 11). Need hinnangud näitavad, et enam eristatavat eset-nagu mälestusesemed-start hind on väiksem mõju tõenäosus müük (x-telg) ja suurema mõju lõplik müügihind (y-telg).

Joonis 2.8: Tulemused näitasid hinnanguid iga kategooria individuaalselt; täispunkt ennustatud kõigis kategooriates koondata (Einav et al. 2015, Table 11) . Need hinnangud näitavad, et enam eristatavat eset-nagu mälestusesemed-start hind on väiksem mõju tõenäosus müük (x-telg) ja suurema mõju lõplik müügihind (y-telg).

Isegi kui sa ei ole eriti huvitatud oksjonid eBay, pead imetleda nii, et joonis 2.7 ja joonis 2.8 pakkumisi rikkamaks arusaam eBay kui lihtne lineaarne regressioon hinnanguid, et lineaarset suhteid ja ühendada paljude erinevate kategooriate objekte. Need peenem hinnangud näitavad võimu sobitamine massiivne andmete Nende hinnangul oleks olnud võimatu ilma tohutu hulk eksperimente, mis oleks olnud ülemäära kallis.

Muidugi, meil peaks olema vähem usaldust tulemusi mingit erilist sobitamise uuring kui meile on tulemused võrreldavad eksperiment. Hinnates tuleneb ühtegi sobivat uuringus on kaks olulist muret. Esiteks, me peame meeles pidama, et me saame ainult tagada õiglane võrdlus asju, mida kasutati sobitamine. Nende peamised tulemused, Einav ja kolleegid ei täpse sobitamine neli omadused: müüja ID number kategoorias, pealkirjadest ja subtiitrite. Kui esemed olid erinevad viisil, mis ei kasutatud sobing, mis võivad tekitada ebaausat võrreldes. Näiteks, kui "budgetgolfer" alandas hindu Taylormade Burner 09 Driver talvel (kui golfikepid on vähem populaarne), siis võiks tunduda, et väiksema trahvi hinnad vähendavad lõpphinnas, kui tegelikult oleks see artefakt hooajatöö erinev nõudlus. Üldiselt on parim lahendus sellele probleemile tundub olevat püüdnud palju erinevaid sobitamine. Näiteks Einav ja tema kolleegid korrata oma analüüsi, kus sobitada komplektides esemed müüki ühe aasta jooksul ühe kuu jooksul, ja samaaegselt. Making ajaaknas tihedam väheneb arv sobitada komplekti, kuid vähendab muret hooajaline. Õnneks nad leiavad, et tulemused on muutumatul kujul need muutused vastavad kriteeriumid. Aastal sobitamise kirjandust, selline mure on tavaliselt väljendatakse märgatavust ja unobservables, kuid põhiline idee on tõesti, et teadlased on alles loomisel õiglane võrdlusi funktsioone kasutada sobitamine.

Teine suur probleem, kui ta tõlgendab sobitamine tulemusi on see, et neid kohaldatakse üksnes sobitada andmed; nad ei kehti juhtudel, mis ei olnud omavahel. Näiteks, piirates nende uurimistöö objekte, mis oli mitu nimekirjad Einav ja tema kolleegid keskenduvad professionaalsed ja semi-professionaalne müüjad. Seega, kui ta tõlgendab neid võrdlusi me peame meeles pidama, et nad kehtivad vaid alagrupis eBay.

Matching on võimas strateegia leida õiglast võrdlust suurte andmekogumite. Et paljud ühiskonnateadlased, sobitamine tundub paremuselt teine ​​eksperimente, kuid see on usk, et tuleks läbi vaadata, veidi. Matching massiivne andmed võivad olla parem kui väike hulk eksperimente, kui: 1) heterogeensus mõju on oluline, ja 2) on olemas head märgatavust jaoks sobitamine. Tabel 2.4 annab mõned muud näited, kuidas sobitamine võib kasutada suurte allikatega.

Tabel 2.4 Näited uuringutest, mis kasutavad sobiva leida õiglane võrdlusi digitaalse jälgi.
sisuline fookuses Big andmeallika Viide
Mõju tulistamine politsei vägivalla Stopp-ja-Frisk arvestust Legewie (2016)
Effect 11. september 2001, perekonna ja naabrite hääletamisprotokolle ja annetuse andmed Hersh (2013)
Sotsiaalne nakatuda Side ja toodete vastuvõtmisel andmeid Aral, Muchnik, and Sundararajan (2009)

Kokkuvõttes naiivne lähenemisviise hinnata põhjuslikku mõju mitte-katseandmed on ohtlik. On aga teha põhjuslikku hinnanguid lamades kontiinumis tugevaim nõrgemad ja teadlased võivad leida õiglane võrrelda mitte-katseandmed. Kasv alati-, suured infosüsteemid suurendab meie võimet tõhusalt kasutada kahte olemasolevaid meetodeid: looduslikud eksperimendid ja sobitamine.