Matching meitsje earlike ferlikings troch snoeien fuort gefallen.
Fair ferlikings kin komme út beide willekeurich kontrolearren eksperiminten of natuerlike eksperiminten. Mar, der binne in protte situaasjes dêr't jo kinne net rinne de ideale eksperimint en natuer hat net foarsjoen in natuerlike eksperimint. Yn dizze ynstellings, de bêste manier te meitsjen in earlike ferliking is oerienkommende. Yn oerienkommende, de ûndersiker sjocht troch net-eksperimintele gegevens te meitsjen pearen fan minsken dy't sa'n útsein dat men hat krigen de behanneling en men hat net. Yn it proses fan bypassende, ûndersikers binne eins ek snoeien; dat is, ûnacht gefallen dêr't der gjin dúdlik ferliking. Sa, dy metoade soe mear sekuer neamd matching-en-pruning, mar ik stok mei de tradisjonele termyn: matching.
In moai foarbyld fan 'e macht fan oerienkommende strategyen mei massive net-eksperimintele gegevens boarnen komme út it ûndersyk op konsumintegedrach troch Liran Einav en kollega (2015) . Einav en kollega wienen ynteressearre yn ferkeapings nimmen plak op eBay, en yn beskriuwen harren wurk, ik rjochtsje op ien bepaald aspekt: de wurking fan de feiling begjint priis op feiling útkomsten, lykas de ferkeap priis of de kâns fan in ferkeap.
De meast naïve manier te beäntwurdzjen de fraach oer it effekt fan begjinpunt priis op koop priis soe wêze om gewoan berekkene de definitive priis foar ferkeapings mei ferskillende begjinpunt prizen. Dizze oanpak soe wêze moaie as jo gewoan wolle foarsizze de ferkeap priis fan in jûn item dat hie set op eBay mei in jûn begjinpunt priis. Mar, as jo fraach is wat is it effekt fan begjinnende priis op merk útkomsten dizze oanpak sil net wurkje omdat it is net basearre op earlike ferlikings; de ferkeapings mei legere begjinpunt prizen miskien hiel oars út ferkeapings mei hegere begjinpunt prizen (bygelyks, se kin wêze foar oare typen fan guod of binne ferskate soarten fan ferkeapers).
As jo binne al noed oer it meitsjen fan earlike ferlikings, jo kinne skip de naïve oanpak en rekken rint in fjild eksperimint dêr't jo soe ferkeapje in spesifike item-sizze, in golf klup-mei in fêst set fan feiling parameters-sizze, frije skipfeart, feiling iepen foar twa wiken, ensfh-mar mei willekeurich set begjint prizen. By it fergelykjen fan de resultaat merk útkomsten, dit fjild eksperimint soe biede in hiel dúdlik mjitting fan it effekt fan begjinnende priis op koop priis. Mar, dizze mjitting soe allinne fan tapassing op ien bepaald produkt en set fan feiling parameters. De resultaten kinne wêze oars, bygelyks, foar ferskillende soarten produkten. Sûnder sterke teory, is it dreech te ekstrapolearret men út dizze single eksperimint it folsleine oanbod fan mooglike eksperiminten dat koe hawwe rinne. Fierder, fjild eksperiminten binne genôch djoer dat it soe wêze infeasible te rinne genôch fan har op om it hiele parameter romte fan produkten en feiling typen.
Yn tsjinstelling ta de naïve oanpak en de eksperimintele oanpak, Einav en kollega nimme in tredde oanpak: matching. De wichtichste trúk fan harren strategy is te ûntdekken dingen ek nei fjild eksperiminten dy't al bard op eBay. Bygelyks, Figure 2,6 jout wat fan de 31 listings foar krekt deselde golf klup-a Taylormade Brander 09 Driver-wurdt ferkocht troch krekt deselde seller- "budgetgolfer". Mar, dy listings hawwe wat ferskate skaaimerken. Alve fan harren biede it stjoerprogramma foar in fêste priis fan $ 124,99, wylst de oare 20 binne ferkeapings mei ferskillende ein dates. Ek, de listings hawwe ferskate skipfeart fergoedings, itsij $ 7.99 of $ 9.99. Yn oare wurden, it is as "budgetgolfer" rint eksperiminten foar de ûndersikers.
De listings fan de Taylormade Brander 09 Driver wurdt ferkocht troch "budgetgolfer" binne ien foarbyld fan in matched set fan listings, dêr't de krekte itselde item wurdt ferkocht troch de eksakte deselde verkoper, mar eltse kear mei wat oare skaaimerken. Binnen it massive logs fan eBay binne der letterlik hûnderttûzenen matched sets wêrby't miljoenen listings. Sa, ynstee fergelykjen de definitive priis foar alle ferkeapings binnen in jûn begjinpunt priis, Einav en kollega meitsje ferlikings binnen matched sets. Om te kombinearjen resultaten út de fergelikingen binnen dizze hûnderttûzenen matched sets, Einav en kollega re-express it begjinpunt priis en lêste priis op it mêd fan de referinsjewearde wearde fan elk item (bygelyks, de gemiddelde ferkeap priis). Bygelyks, as de Taylormade Brander 09 Driver hat in referinsjewearde wearde fan $ 100 (basearre op syn ferkeap), dan in begjinpunt priis fan $ 10 soe ta utering komme as 0.1 en lêste priis fan $ 120 soe wurde útdrukt as 1.2.
Bring dat Einav en kollega wienen ynteressearre yn it effekt fan start priis op feiling útkomsten. Earst, mei help fan lineêre regresje se rûsd dat hegere begjinpunt prizen ôfnimme de kâns fan in keap, en dat hegere begjinpunt prizen ferheegje de definitive ferkeap priis, betingst op in ferkeap foarkommende. By harsels, dy rûzings-dy't averaged oer alle produkten en út in liniearre relaasje tusken begjinpunt priis en lêste útkomsten-binne net allegearre dy't nijsgjirrich. Mar, Einav en kollega ek brûke it massive grutte fan harren gegevens te skatten in ferskaat fan mear skerpere befinings. Earst, Einav en kollega makke dy rûzings apart foar items fan ferskate prizen en sûnder help fan lineêre regresje. Se fûn dat wylst de relaasje tusken start priis en kâns fan in ferkeap is lineêre, de relaasje tusken begjinpunt priis en ferkeap priis is dúdlik net-lineêre (Figure 2.7). Yn it bysûnder, foar begjinnende prizen tusken 0.05 en 0.85, it begjinpunt priis hat hiel bytsje ynfloed op ferkeap priis, in útkomst dat wie klear mist yn de analyze dat hie oannommen in liniearre relaasje.
Twadde, earder as trochstrings oer alle items, Einav en kollega ek brûke it massive skaal fan harren gegevens te skatten de gefolgen fan begjinnende priis foar 23 ferskillende kategoryen fan sa'n objekt (bgl, pet foarrieden, elektroanika, en sport Bears) (Figure 2.8). Dy rûzings sjen litte dat foar mear ûnderskiedende items-lykas Memorabilia-start priis hat in lytser effekt op de kâns fan in ferkeap en in grutter effekt op de definitive ferkeap priis. Fierder, foar mear commodified items-lykas DVDs en fideo-de start priis hat hast gjin ynfloed op de definitive priis. Yn oare wurden, in trochsneed dat kombinearret resultaten út 23 ferskillende kategoryen fan items ferberget wichtige ynformaasje oer de ferskillen tusken dizze items.
Ek as jo net benammen ynteressearre yn ferkeapings op eBay, jo hawwe te bewûnderjen de wei dy't Figure 2.7 en Figure 2.8 biede in rikere begryp fan eBay as ienfâldige lineêr regresje rûzingen dy't oannimme lineêre relaasjes en kombinearje in protte ferskillende kategoryen fan items. Dy mear subtile rûzings yllustrearje de macht mei oerienkommende yn massive gegevens; dy rûzings soe west hawwe ûnmooglik sûnder in hiel soad fan fjild eksperiminten, dat soe west ha prohibitively djoer.
Fansels, wy moatte hawwe minder betrouwen yn de resultaten fan in bysûndere oerienkommende stúdzje as wy soe yn 'e útkomsten fan in ferlykbere eksperimint. By it beoardieljen fan de útkomsten fan in oerienkommende stúdzje, binne der twa wichtige soargen. Earst, wy moatte betinke dat wy kinne allinne soargje earlike ferlikings op dingen dy't waarden brûkt foar oerienkommende. Yn harren wichtichste resultaten, Einav en kollega woe krekte oerienkommende op fjouwer skaaimerken: verkoper ID tal, item kategory, item titel, en ûndertitel. As de items wienen oars yn wizen dat waarden net brûkt foar oerienkommende, dat koe meitsje in ûnearlik ferliking. Bygelyks, as "budgetgolfer" ferlege prizen foar Taylormade Brander 09 Driver yn de winter (wannear't golf klups binne minder populêr), dan koe ferskynt dat legere begjinpunt prizen liede ta legere lêste prizen, doe't yn feite dat soe wêze in Artifact fan seasonal fariaasje yn fraach. Yn it algemien, de bêste oanpak foar dit probleem liket te besykje in protte ferskillende soarten fan oerienkommende. Bygelyks, Einav en kollega werhelje harren analyze dêr't matched sets binne objekt op ferkeap binnen ien jier, binnen ien moanne, en contemporaneously. Making de tiid finster strakkere sakket it tal fan matched sets, mar fermindert soargen oer seasonal fariaasje. Gelokkich, sy fine dat de resultaten binne net feroare troch dizze feroarings yn oerienkommende kritearia. Yn de oerienkommende literatuer, dit soarte fan soarch wurdt ornaris útdrukt yn termen fan observables en unobservables, mar de kaai idee is echt dat ûndersikers wurde allinnich it meitsjen fan earlike ferlikings op de funksjes brûkt wurde yn oerienkommende.
De twadde grutte soarch as tolken oerienkommende resultaten is dat se allinnich fan tapassing op matched data; se net fan tapassing op 'e gefallen dat koe net wurde matched. Bygelyks, troch beheinen harren ûndersyk nei items dat hie meardere listings Einav en kollega binne rjochte op profesjonele en semi-profesjonele ferkeapers. Sa, as it ynterpretearjen dy fergelikings wy moatte betinke dat se allinne fan tapassing op dizze bepaald berik fan eBay.
Matching is in krêftige strategy foar finen earlike ferlikings yn grutte datasets. Om in soad sosjale wittenskippers, oerienkommende fielt as twadde-bêste oan eksperiminten, mar dat is in leauwe dat moatte wurde bysteld, in bytsje. Matching in massive gegevens miskien better as in lyts tal fan fjild eksperiminten as: 1) heterogeneity yn effekten is wichtich en 2) der binne goede observables foar oerienkommende. Tabel 2.4 jout in tal oare foarbylden fan hoe't oerienkommende kin brûkt wurde mei grutte gegevens boarnen.
ynhâldlike fokus | Big gegevens boarne | Citation |
---|---|---|
Effekt fan Shootings op plysje geweld | Stop-en-frisk records | Legewie (2016) |
Effekt fan 11 septimber, 2001 op famyljes en buorlju | stimmen records en donaasje records | Hersh (2013) |
Sosjaal contagion | Kommunikaasje en produkt fêststelling gegevens | Aral, Muchnik, and Sundararajan (2009) |
Yn konklúzje, naïve oanpakken om in rûzing kausale effekten fan net-eksperimintele gegevens binne gefaarlik. Mar, strategyen foar it meitsjen kausale rûzingen lizzen lâns in kontinuümhypoteze fan sterkste nei swakste, en ûndersikers kinne ûntdekke earlike ferlikings binnen net-eksperimintele gegevens. De groei fan altyd-op, grutte gegevens systemen fergruttet ús fermogen om effektyf brûken twa besteande metoaden: natuerlike eksperiminten en bypassende.