2.4.3.2 Matching

Odgovarajući stvoriti fer usporedbe od orezivanja dalje slučajeva.

Sajam poređenja mogu doći iz bilo randomizovanih eksperimente ili prirodnih eksperimenata. Ali, postoje mnoge situacije u kojima ne možete pokrenuti idealan eksperiment i priroda nije dala prirodni eksperiment. U ovim postavkama, najbolji način da se stvori fer odnosu odgovara. U matching, istraživač gleda kroz ne-eksperimentalni podaci za stvaranje parova ljudi koje su slične, osim da je jedan je dobio tretman i jedan nije. U procesu uparivanja, istraživači su zapravo i orezivanja; koji je, odbacujući slučajevima kada ne postoje očigledne usporedbu. Stoga, ova metoda bi se preciznije zove niveliranje i-orezivanje, ali ja ću se držati sa tradicionalnim pojam: podudaranje.

Prekrasan primjer moći odgovaraju strategija sa masivnim neeksperimentalne izvora podataka dolazi iz istraživanja o ponašanju potrošača Liran Einav i kolege (2015) . Einav i kolege su bili zainteresovani na aukcijama odvija na eBay-u, i opisujući njihov rad, ja ću se fokusirati na jedan poseban aspekt: ​​efekat dražbi po početnoj cijeni na ishode aukciji, kao što je prodajna cijena ili vjerojatnost prodaje.

Najviše naivan način da se odgovori na pitanje o efektu početnu cijenu prodaje cijena bi bila da se jednostavno izračunati konačnu cijenu za aukcije sa različitim cijenama početne. Ovaj pristup bi bilo u redu ako jednostavno želite predvidjeti prodajne cijene određene stavke koje su stavili na eBay-u sa datom početnu cijenu. Ali, ako je vaše pitanje je šta je efekat početna cena na ishode na tržištu ovaj pristup neće raditi jer se ne zasniva na fer usporedbe; aukcijama sa nižim cijenama već može biti sasvim drugačije od aukcije sa višim cijenama početne (npr, oni mogu biti za različite vrste roba ili uključuju različite vrste prodavaca).

Ako ste već zabrinuti što fer usporedbe, možda ćete preskočite naivan pristup i uzeti u obzir radi polje eksperiment gdje bi prodati određenu stavku recimo, golf klub-sa fiksnom skup aukcije parametara recimo, free shipping, aukcija otvoren za dvije sedmice, itd ali s nasumično postavljena počevši cijene. Upoređujući rezultat ishoda na tržištu, ovo polje eksperiment će ponuditi vrlo jasan mjerenje efekta početna cijena na prodajne cijene. Ali, ovo mjerenje se odnose samo na jedan određeni proizvod i postaviti aukcije parametara. Rezultati mogu biti različiti, na primjer, za različite vrste proizvoda. Bez jake teorija, teško je ekstrapolacija od ovog jedinstvenog eksperimenta cijeli niz mogućih eksperimenata koji bi mogli su pokrenuti. Nadalje, eksperimenti na terenu su dovoljno skupo da bi bilo neizvodljivo pokrenuti dovoljno ih da pokriju cijelu parametar prostor proizvoda i aukcije vrste.

Za razliku od naivan pristup i eksperimentalnog pristupa, Einav i kolege da Treći pristup: podudaranje. Glavni trik njihova strategija je da otkrije stvari slični eksperimenti na terenu koje su već dogodilo na eBay. Na primjer, slika 2.6 prikazuje neke od 31 oglasi za isti Golf Club-a Taylormade Burner 09 vozača koji se prodaje isti seller- "budgetgolfer". Međutim, ovi popisi imaju malo drugačije karakteristike. Jedanaest od njih nude vozača za fiksnu cijenu od 124,99 $, dok je preostalih 20 su na aukciji s različitim kraj datuma. Također, popisi imaju različite naknade shipping, ili 7,99 $ ili 9,99 $. Drugim riječima, to je kao da "budgetgolfer" radi eksperimente za istraživače.

U oglasa na Taylormade Burner 09 vozača koji se prodaje "budgetgolfer" su jedan primjer uparen skupa oglasa, gdje je isti predmet prodaje po istom prodavaču, ali svaki put sa malo različitim karakteristikama. U masivne dnevnike eBay postoje doslovno stotine hiljada poklapaju skupova uključuju milijune oglasa. Tako, radije nego u odnosu na konačnu cijenu za sve aukcije u određenom početnoj cijeni, Einav i kolege napraviti usporedbe unutar podudaraju setovima. Kako bi se kombinirati rezultate iz poređenja u ovim stotine hiljada poklapaju setova, Einav i kolege ponovno izražavaju početna cijena i konačna cijena u odnosu na referentne vrijednosti svake stavke (npr, prosječna prodajna cijena). Na primjer, ako je Taylormade Burner 09 vozača ima referentne vrijednosti od 100 $ (na osnovu svoje prodaje), zatim po početnoj cijeni od 10 $ će biti izražena kao 0,1 i konačnu cijenu od 120 $ će biti izražena kao 1.2.

Slika 2.6: Primjer podudaraju seta. To je isti golf klub (a Taylormade plamenika 09 vozača) koji se prodaje na istom osoba (budgetgolfer), ali neke od tih prodaja je izvršena različitim uvjetima (npr, različiti početna cijena). Slika preuzeta iz Einav et al. (2015.).

Slika 2.6: Primjer podudaraju seta. To je isti golf klub (a Taylormade plamenika 09 vozača) koji se prodaje istu osobu ( "budgetgolfer"), ali neki od tih prodaja je izvršena različitim uvjetima (npr, različiti početna cijena). Slika preuzeta iz Einav et al. (2015) .

Sjetite se da Einav i kolege su bili zainteresirani za efekat Početna cena na aukciji ishoda. Prvo, pomoću linearne regresije su Procjenjuje se da više cijene polazna smanjiti vjerojatnost prodaje, i da više cijene polazna povećati konačnu cijenu prodaje, uslovno na prodaju javlja. Do sebe, te procjene-koje su u prosjeku više od sve proizvode i pretpostaviti linearan odnos između početne cijene i konačni ishodi-nisu sve to zanimljivo. Ali, Einav i kolege također koriste masivne veličine njihovih podataka za procjenu raznih suptilnije nalaza. Prvo, Einav i kolege su te procjene posebno za stavke različite cijene i bez upotrebe linearne regresije. Otkrili su da, iako je odnos između Početna cena i vjerojatnost prodaje je linearna, odnos između početne cijene i prodajne cijene je jasno nelinearna (Slika 2.7). Konkretno, za pokretanje cijene između 0,05 i 0,85, početna cijena ima vrlo malo utjecaja na prodajne cijene, zaključak da je završena propustio u analizi koja je preuzela linearni odnos.

Slika 2.7: Odnos između Početna cena na aukciji i vjerojatnost prodaje (lijevo panel) i prodajna cijena (desni panel). Postoji otprilike linearni odnos između Početna cena i vjerojatnost prodaje, ali je ne-linearni odnos između start cijene i prodajne cijene; za pokretanje cijene između 0,05 i 0,85, početna cijena ima vrlo malo utjecaja na prodajnu cijenu. U oba slučaja, odnosi su u osnovi nezavisna stavke vrijednosti. Ovi grafikoni reprodukciju slika 4a i 4b Einav et al. (2015.).

Slika 2.7: Odnos između Početna cena na aukciji i vjerojatnost prodaje (lijevo panel) i prodajna cijena (desni panel). Postoji otprilike linearni odnos između Početna cena i vjerojatnost prodaje, ali je ne-linearni odnos između start cijene i prodajne cijene; za pokretanje cijene između 0,05 i 0,85, početna cijena ima vrlo malo utjecaja na prodajnu cijenu. U oba slučaja, odnosi su u osnovi nezavisna stavke vrijednosti. Ovi grafikoni reprodukciju slika 4a i 4b Einav et al. (2015) .

Drugo, umjesto da u prosjeku više od svih stvari, Einav i kolege također koriste masovnosti njihovih podataka za procjenu utjecaja početna cijena za 23 različite kategorije stavki (npr životinjske potrepštine, elektronike, i sportske uspomene) (Slika 2.8). Ove procjene pokazuju da je za više prepoznatljivim stavke kao što su uspomene-start cijenu ima manji utjecaj na vjerojatnost prodaje i veći utjecaj na konačnu cijenu prodaje. Nadalje, za više-robe stavke kao što su DVD i video-početak cijenu gotovo da nema utjecaja na konačnu cijenu. Drugim riječima, u prosjeku koji kombinira rezultate iz 23 različitih kategorija artikala skriva važne informacije o razlikama između ovih stavki.

Slika 2.8: Rezultati su pokazali procjene iz svake kategorije pojedinačno; čvrsta točka u procjeni za sve kategorije skupili zajedno, Tabela 11 (Einav et al. 2015, Tabela 11). Ove procjene pokazuju da je za više prepoznatljivim stavke kao što su uspomene-početak cijenu ima manji utjecaj na vjerojatnost prodaje (x-osi) i veći utjecaj na konačnu cijenu prodaje (y-osi).

Slika 2.8: Rezultati su pokazali procjene iz svake kategorije pojedinačno; čvrsta točka u procjeni za sve kategorije udružili zajedno (Einav et al. 2015, Table 11) . Ove procjene pokazuju da je za više prepoznatljivim stavke kao što su uspomene-početak cijenu ima manji utjecaj na vjerojatnost prodaje (x-osi) i veći utjecaj na konačnu cijenu prodaje (y-osi).

Čak i ako niste posebno zainteresirani za aukcije na eBay-u, morate diviti način na koji Slika 2.7 i Slika 2.8 ponuda bogatije razumijevanje eBay od jednostavne linearne procjene regresije da preuzme linearne veze i kombinirati različite kategorije stavki. Ove suptilnije procjene ilustriraju moć odgovaraju u masivne podataka; ove procjene bi bilo nemoguće bez ogroman broj eksperimenata na terenu, što bi bilo preskupo.

Naravno, treba imati manje povjerenja u rezultate bilo koje usklađivanje studija nego što bi u rezultate uporedive eksperimenta. Prilikom procjene rezultata iz bilo koje usklađivanje studija, postoje dva važna pitanja. Prvo, moramo imati na umu da možemo osigurati samo fer usporedbe o stvarima koje su se koristile za usklađivanje. U njihove glavne rezultate, Einav i kolege nisu točne odgovaraju na četiri karakteristike: prodavca ID broj, kategoriju stavke, naslov stavka, i prevodi. Ako su predmeti bili različite na načine koji nisu koristili za usklađivanje, koji bi mogli stvoriti nelojalnu usporedbu. Na primjer, ako je "budgetgolfer" snizio cijene za Taylormade plamenika 09 vozača u zimi (kad golf klubova koji su manje popularni), onda bi to moglo izgledati da niže početne cijene dovesti do niže konačne cijene, kada je, u stvari, to bi bilo artefakt od sezonskih varijacije u potražnji. U principu, najbolji pristup ovom problemu čini se da pokušavate mnogo različitih vrsta uparivanje. Na primjer, Einav i kolege ponoviti njihova analiza, gdje uskladiti skupove uključuju stvari na prodaju u roku od jedne godine, u roku od mjesec dana, i istovremeno. Izrada prozora put čvršće smanjuje broj podudara setova, ali smanjuje zabrinutost zbog sezonskih varijacija. Srećom, smatraju da su rezultati nepromijenjeni ovim promjenama u odgovaraju kriterijima. U odgovarajući literaturi, ovaj tip zabrinutost obično se izražava u smislu uočljivosti i unobservables, ali ključna ideja je stvarno da istraživači stvaraju samo fer usporedbe na koje se koriste u odgovarajući.

Drugi veliki problem kada se tumače podudaranje rezultata je da se primjenjuju samo na poklapaju podataka; oni se ne odnose na slučajeve koji se ne mogu uskladiti. Na primjer, ograničavanjem svoja istraživanja na stavke koje su imale više oglasa Einav i kolege se fokusiraju na profesionalnim i polu-profesionalnih prodavaca. Stoga, prilikom tumačenja ovih poređenja moramo imati na umu da su oni odnose samo na ovaj podskup eBay.

Matching je moćna strategija za pronalaženje fer usporedbe u velikim skupovima podataka. Za mnoge sociolozi, odgovarajući izgleda kao drugi najbolji za eksperimente, ali to je uvjerenje da treba revidirati, blago. Matching u masivnim podataka može biti bolje nego mali broj eksperimenata na terenu kada: 1) heterogenost u efekata je važno i 2) postoje dobre uočljivosti za uparivanje. Tabela 2.4 daje neke druge primjere kako odgovara mogu se koristiti sa velikim izvorima podataka.

Tabela 2.4: Primjeri studija koje koriste odgovarajući da fer usporedbe unutar digitalne tragove.
suštinska fokus Veliki izvor podataka citiranje
Utjecaj pucnjava na policijskog nasilja Stop-and-Frisk Records Legewie (2016)
Utjecaj od 11. septembra 2001. godine o obitelji i susjedima glasanje evidencije i donacija Records Hersh (2013)
Socijalni zaraze Komunikacija i usvajanje proizvoda podataka Aral, Muchnik, and Sundararajan (2009)

U zaključku, naivan pristup za procjenu kauzalne efekata iz ne-eksperimentalni podaci su opasni. Međutim, strategija za izradu uzročna procjene leži duž kontinuuma od najjačih na najslabije, a istraživači mogu otkriti fer poređenja u ne-eksperimentalnih podataka. Rast uvijek-na, velike sisteme podaci povećava našu sposobnost da efikasno koriste dva postojećih metoda: prirodne eksperimente i usklađivanje.