2.4.3.2 Sutampantys

Sutampantys sukurti sąžiningas palyginti pagal genėjimo toli atvejus.

Tikrosios palyginimai gali ateiti iš bet atsitiktinių imčių kontroliuojamų eksperimentų ar gamtos eksperimentams. Tačiau, yra daug situacijų, kai jūs negalite paleisti idealus eksperimentą ir gamta nepateikė natūralų eksperimentą. Be šių nustatymų, geriausias būdas sukurti teisingas palyginimas atitikimo. Be atitikimo, mokslininkas atrodo per ne eksperimentinių duomenų sudaryti poras žmonių, kurie yra panašūs, išskyrus, kad vienas gavo gydymą ir vienas neturi. Atsižvelgiant į derinimo procesą, tyrėjai iš tikrųjų taip pat genėjimo; tai yra, išpilant atvejus, kai nėra akivaizdu, palyginimas. Taigi, šis metodas būtų tiksliau vadinamas atitikimo-and-genėjimo, bet aš klijuoti su tradiciniu terminu: atitiktį.

Gražus pavyzdys atitikimo strategijas su masyvi neeksperimentinė duomenų šaltinių galia ateina iš vartotojų elgsenos Liran Einav ir kolegų tyrimo (2015) . Einav ir kolegos domino aukcionuose vykstančių eBay, ir aprašant savo darbą, aš sutelkti dėmesį į vieną konkretų aspektą: aukciono pradinė kaina poveikį aukciono rezultatus, kaip antai pardavimo kainos arba pardavimo tikimybė.

Patys naivus būdas atsakyti į klausimą apie pradinė kaina apie pardavimo kainos poveikis būtų tiesiog apskaičiuoti galutinę kainą aukcionuose su skirtingais pradinių kainų. Toks požiūris būtų gerai, jei jūs tiesiog norite prognozuoti pardavimo kainą tam tikrą elementą, kuris buvo įdėti į tinklapį eBay su tam tikra pradinė kaina. Tačiau, jei jūsų klausimas yra tai, ką yra pradinė kaina rinkos rezultatų šį metodą neveiks, nes jis nėra pagrįstas sąžiningomis palyginimų poveikis; aukcionai mažesnes pradines kainos gali labai skirtis nuo aukcionuose su aukštojo pradinių kainų (pvz, jie gali būti įvairių tipų prekių arba įtraukti įvairių tipų pardavėjų).

Jei jau esate susirūpinęs priėmimo tikrąsias palyginti, galbūt praleisti naivus požiūris ir mano veikia lauko eksperimentą kur galėtumėte parduoti specifinis elementas-pasakyti, golfo klubo su fiksuota rinkinį aukciono parametrų-pasakyti, nemokamas pristatymas, aukcionas atvira dvi savaites, ir tt-bet su atsitiktinai nustatyti pradedant kainas. Lyginant gautus rinkos rezultatus, šis laukas eksperimentas būtų pasiūlyti labai aiškų matuojama pradinė kaina nuo pardavimo kainos poveikis. Bet tai matavimas būtų taikoma tik vienos konkrečios prekės ir nustatyti aukciono parametrų. Rezultatai gali būti skirtingi, pavyzdžiui, skirtingų rūšių produktų. Be stiprios teorijos, sunku ekstrapoliuoti iš šio vieno eksperimento visą spektrą galimų eksperimentų, kad būtų buvę galima paleisti. Be to, lauko bandymai yra pakankamai brangi, kad būtų neįmanoma paleisti pakankamai jų iki apimti visą erdvės parametrų produktų ir aukciono tipų.

Priešingai nei naivus požiūris ir eksperimentinės požiūrio, Einav ir kolegų trečią požiūrį: atitiktį. Pagrindinis triukas jų strategijos yra atrasti dalykų, panašių į lauko eksperimentų, kurie jau įvyko eBay. Pavyzdžiui, 2,6 pav kai 31 aukcionai lygiai taip pat golfo klubo-A Taylormade Degiklio 09 Vairuotoją yra parduodamos lygiai taip pat seller- "budgetgolfer". Tačiau šie sąrašai turi šiek tiek skirtingas savybes. Vienuolika iš jų siūlo už fiksuotą kainą $ 124,99 vairuotojas, o kiti 20 yra aukcionus su skirtingais pabaigos datas. Be to, aukcionai turėti skirtingus pristatymo mokesčius, arba $ 7,99 arba 9,99 $. Kitaip tariant, tai yra tarsi "budgetgolfer" veikia eksperimentus mokslininkai.

Šio Taylormade Burner 09 Vairuotojo skelbimas bus parduodami "budgetgolfer" yra vienas pavyzdys, suderinta rinkinį aukcionai, kur tą patį prekė yra parduotų tą patį pardavėją, bet kiekvieną kartą, su šiek tiek skirtingas charakteristikas. Per masinius rąstų eBay yra šimtai tūkstančių suderintų rinkinių, susijusių milijonus aukcione. Taigi, o ne lyginant galutinę kainą visiems aukcionuose per tam tikrą atskaitos kainą, Einav ir kolegos lyginti per suderintų rinkinių. Siekiant sujungti rezultatus iš palyginimų per šių tūkstančių suderintų rinkinių šimtais, Einav ir kolegos iš naujo pareikšti pradinė kaina ir galutinę kainą, kalbant apie pamatinę vertę kiekvieno elemento (pvz, jo vidutinė pardavimo kaina). Pavyzdžiui, jei Taylormade Degiklis 09 varomosios jėgos, tam tikrą pamatinę vertę 100 $ (remiantis jos pardavimo), tada pradinė kaina $ 10, bus išreikštas kaip 0,1 ir galutinis kaina 120 $, bus išreikštas kaip 1,2.

2.6 pav Kuris iš suderinta rinkinys pavyzdys. Tai lygiai toks pats golfo klubo (A Taylormade Degiklio 09 Driver), buvo parduota tą patį asmenį (budgetgolfer), tačiau kai kurie iš šių pardavimų buvo atlikti skirtingas sąlygas (pvz, skiriasi pradinė kaina). Skaičius paimtas iš Einav et al. (2015).

2.6 pav Kuris iš suderinta rinkinys pavyzdys. Tai lygiai toks pats golfo klubo (A Taylormade Degiklio 09 Driver), buvo parduota tą patį asmenį ( "budgetgolfer"), tačiau kai kurie iš šių pardavimų buvo atlikti skirtingas sąlygas (pavyzdžiui, skiriasi pradinė kaina). Skaičius paimtas iš Einav et al. (2015) .

Prisiminkite, kad Einav ir jo kolegos buvo suinteresuoti pradinė kaina poveikį aukciono rezultatus. Pirma, naudojant tiesinę regresiją jie apskaičiavo, kad didesnes pradines kainos sumažinti pardavimo tikimybę, ir kad aukštojo pradinės kainos padidins galutinę pardavimo kainą, su sąlyga, pardavimas vyksta. Patys, tie įverčiai-kurie vidurkį visus produktus ir prisiimti tiesinė priklausomybė tarp pradinės kainos ir galutinių rezultatų, yra ne visi, kad įdomus. Bet Einav ir jo kolegos taip pat naudoti masiškai dydį savo duomenis įvertinti keletą subtilesnių išvadas įvairovė. Pirma, Einav ir jo kolegos padarė šias sąmatas atskirai daiktų skirtingomis kainomis ir nenaudojant tiesinę regresiją. Jie nustatė, kad nors tarp starto kaina ir tikimybės pardavimo santykiai yra linijinė, tarp pradinės kainos ir pardavimo kainos santykis yra aiškiai netiesinė (2.7 pav.) Visų pirma, pradedant kainas tarp 0,05 ir 0,85, pradinė kaina turi labai mažai įtakos pardavimo kainai, konstatuoti, kad buvo baigtas praleistų į analizę, kad prisiėmė tiesinė priklausomybė.

2.7 pav SANTYKIS Aukciono pradinė kaina ir tikimybės pardavimo (kairiajame skydelyje) ir pardavimo kainos (dešinėje skydelio). Yra maždaug tiesinė priklausomybė tarp starto kaina ir tikimybė parduoti, bet yra ne tiesinė priklausomybė tarp starto kainos ir pardavimo kainos; pradžios kainas tarp 0,05 ir 0,85, pradinė kaina turi labai mažai įtakos pardavimo kainai. Abiem atvejais santykiai iš esmės yra nepriklausomi nuo prekės vertės. Šie grafikai atgaminti 4a pav ir 4b Einav ir kt. (2015).

2.7 pav SANTYKIS Aukciono pradinė kaina ir tikimybės pardavimo (kairiajame skydelyje) ir pardavimo kainos (dešinėje skydelio). Yra maždaug tiesinė priklausomybė tarp starto kaina ir tikimybė parduoti, bet yra ne tiesinė priklausomybė tarp starto kainos ir pardavimo kainos; pradžios kainas tarp 0,05 ir 0,85, pradinė kaina turi labai mažai įtakos pardavimo kainai. Abiem atvejais santykiai iš esmės yra nepriklausomi nuo prekės vertės. Šie grafikai atgaminti 4a pav ir 4b Einav et al. (2015) .

Antra, o ne vidutiniškai per visus elementus, Einav ir jo kolegos taip pat naudoti masiškai savo duomenis įvertinti Pradinė kaina poveikį 23 skirtingų kategorijų daiktus (pvz naminių reikmenys, elektronikos ir sporto relikvijų) (2.8 pav.) Šie skaičiavimai rodo, kad daugiau išskirtinių daiktų, tokių kaip relikvijų-pradinė kaina turi mažesnį poveikį pardavimo tikimybės ir didesnio poveikio galutinės pardavimo kainos. Be to, daugiau prekinami daiktai-pavyzdžiui, DVD ir vaizdo starto kainą beveik neturi įtakos galutinei kainai. Kitaip tariant, vidutinis, kuris jungia rezultatų 23 skirtingų kategorijų daiktus slepia svarbią informaciją apie tarp šių elementų skirtumai.

2.8 pav rezultatai parodė sąmatas iš kiekvienos kategorijos atskirai; kietas taškas į visų kategorijų sąmatą apjungti, lentelė (2015, Einav et al., 11 lentelė) 11. Šie skaičiavimai rodo, kad daugiau išskirtinių daiktų, pavyzdžiui, relikvijų-starto kaina turi mažesnį poveikį pardavimo (X ašis) ir didesnio poveikio galutinės pardavimo kainos (Y ašis) tikimybė.

2.8 pav rezultatai parodė sąmatas iš kiekvienos kategorijos atskirai; kieta taškas į visų kategorijų sujungtų kartu įvertinimo (Einav et al. 2015, Table 11) . Šie skaičiavimai rodo, kad daugiau išskirtinių daiktų, pavyzdžiui, relikvijų-starto kaina turi mažesnį poveikį pardavimo (X ašis) ir didesnio poveikio galutinės pardavimo kainos (Y ašis) tikimybė.

Net jei esate ne itin domina aukcionai eBay, turite grožėtis taip, kad 2.7 paveiksle ir išsiaiškinti 2,8 pasiūlymus turtingesnė supratimas eBay nei paprastų tiesinės regresijos skaičiavimais, kad prisiima linijinius ryšius ir derinti įvairių kategorijų objektų. Šie subtilesnių vertinimai iliustruoja atitikimo masiškai duomenų galią; šie vertinimai būtų buvę neįmanoma be milžiniško skaičiaus eksperimentų, kuri būtų buvusi pernelyg brangi.

Žinoma, mes turėtume mažiau pasitikėjimas kiekvienu konkrečiu atitikimo tyrimo rezultatais, nei mes norėtume į panašaus eksperimento rezultatus. Vertinant rezultatus iš bet atitikimo tyrimą, yra du svarbūs aspektai. Pirma, mes turime prisiminti, kad mes galime užtikrinti tik sąžiningas palyginimams dalykų, kurie buvo naudojami palyginimui. Jų pagrindiniai rezultatai, Einav ir kolegos nebuvo tiksli atitikimo keturis požymius: pardavėjas tapatybės dokumento numeris, Elementą Kategorija, objekto pavadinimas, ir subtitrų. Jei elementai skyrėsi tokiais būdais, kurie nebuvo naudojami palyginimui, kad galėtų sukurti nesąžiningą palyginimas. Pavyzdžiui, jei "budgetgolfer" sumažino kainas Taylormade Burner 09 vairuotojas žiemą (kai golfo klubai yra mažiau populiarus), tada jis gali pasirodyti, kad mažesnės pradinės kainos reiškia mažesnes galutines kainas, kai iš tiesų tai būtų sezoninių artefaktas variacija paklausa. Apskritai, geriausias požiūris į šią problemą, atrodo, bando daug įvairių rūšių arba tos pačios. Pavyzdžiui, Einav ir kolegos pakartoti jų analizę, kurioje suderintos rinkiniai apima elementus pardavimo per vienerius metus per vieną mėnesį, o tuo pačiu metu. Padaryti laikas langas griežtesnė sumažina suderintų rinkinių skaičių, tačiau sumažina susirūpinimą sezoninius svyravimus. Laimei, jie mano, kad rezultatai yra nepakitęs šių pokyčių atitikimo kriterijus. Be atitikimo literatūros, tai kelia susirūpinimą tipas paprastai išreiškiamas stebimiems ir unobservables, tačiau svarbiausia idėja yra tikrai, kad mokslininkai tik sukurti sąžiningas palyginimams funkcijų naudojamų atitikimo.

Antras didelis rūpestis, kai interpretuojant atitinkančius rezultatus, kad jie taikomi tik suderintų duomenų; jie netaikomi tais atvejais, kurie negalėjo būti derinama. Pavyzdžiui, apribojant jų tyrimus daiktų, kurie turėjo keletą objektų Einav ir kolegos sutelkiant dėmesį į profesionalių ir pusiau profesionalių pardavėjų. Taigi, aiškinant šiuos palyginimus, turime prisiminti, kad jie taikomi tik šioje eBay pogrupyje.

Sutampantys yra galingas strategiją rasti tikrąsias palyginti dideliais duomenų rinkiniais. Daugeliui socialinių mokslininkų, suderinimas jaučiasi antras geriausias eksperimentams, tačiau tai yra įsitikinimas, kad reikėtų peržiūrėti, šiek tiek. Sutampantys masyvi duomenų gali būti geriau nei nedaugeliui lauko eksperimentų, kai: 1) heterogeniškumas poveikis yra svarbus ir 2) yra gerų stebimiems dėl atitikimo. 2.4 lentelėje pateikiami kai kurių kitų pavyzdžių, kaip atitikimo gali būti naudojamas su dideliais duomenų šaltiniais.

2.4 lentelė: pavyzdžiai tyrimų, kurie naudoja atitikimo rasti tikrąsias palyginti per skaitmeninių pėdsakų.
materialinė dėmesys Didelis duomenų šaltinis citata
Poveikis šaudymai policijos smurto Stop-and-Frisk įrašus Legewie (2016)
Poveikis rugsėjo 11, 2001 šeimoms ir kaimynams balsavimo dokumentai ir dovanojimo įrašai Hersh (2013)
socialinė užkratas Bendravimas ir produktų priėmimas duomenys Aral, Muchnik, and Sundararajan (2009)

Taigi, naivus požiūris į vertinimo priežastinius efektus ne iš eksperimentinių duomenų yra pavojinga. Tačiau strategijos priėmimo priežastinius sąmatas gulėti išilgai kontinuumą iš stipriausių į silpniausius, ir mokslininkai gali atrasti tikrąsias palyginti per ne eksperimentiniais duomenimis. Iš visada ant, didelių duomenų sistemų augimas didina mūsų gebėjimą efektyviai naudoti du esamus metodus: natūralių eksperimentų ir derinimas.