Odgovarajući stvoriti fer usporedbe koju obrezivanje daleko slučajeva.
Sajam usporedbe može doći iz bilo randomiziranih kontroliranih pokusa ili prirodnih eksperimenata. No, postoje mnoge situacije u kojima se ne može pokrenuti idealnu eksperiment i priroda nije dala prirodni eksperiment. U tim postavkama, najbolji način za stvaranje fer usporedba je podudaranje. U podudaranja, istraživač gleda kroz ne-eksperimentalnih podataka za stvaranje para ljudi koji su slični osim što je netko dobio terapiju, a jedan nije. U procesu podudaranja, istraživači su zapravo također obrezivanje; to jest, odbacujući slučajeve u kojima ne postoje očiti usporedbu. Dakle, ova metoda će se preciznije zove Podešavanje-i-obrezivanje, ali ja ću se držati s tradicionalnim pojam: podudaranja.
Lijep primjer snage podudaranje strategije s masivnim nisu eksperimentalne izvora podataka dolazi iz istraživanja o ponašanju potrošača Liran Einav i suradnika (2015) . Einav i kolege su bili zainteresirani za aukcije odvijaju na eBayu, a opisujući svoj posao, ja ću se usredotočiti na jedan određeni aspekt: učinkom aukciju početnoj cijeni na aukciji ishoda, kao što su prodajne cijene ili vjerojatnosti prodaju.
Najviše naivan način da se odgovori na pitanje o utjecaju početne cijene na prodajnu cijenu da bi se jednostavno izračunati konačnu cijenu za aukcije s različitim početnim cijenama. Ovaj pristup će biti u redu ako jednostavno želite predvidjeti prodajnu cijenu u određenom stavke koje su stavili na eBay s određenom početnom cijenom. No, ako je vaš pitanje je što je učinak početna cijena na ishode tržišta takav pristup neće raditi jer se ne temelji na fer usporedbe; aukcije s nižim početnim cijenama može biti sasvim drugačiji od aukcijama s višim početnim cijenama (npr, oni mogu biti za različite vrste robe, ili su različite vrste prodavača).
Ako ste se već brine o tome da fer usporedbe, možda preskočiti naivan pristup i razmislite o pokretanju polje eksperiment u kojem će prodati određeni predmet, recimo, golf klub-s fiksnim skupom aukcija parametara, recimo, free shipping, aukcija otvoren za dva tjedna, itd-ali s nasumično postavljena počevši cijene. Usporedbom dobivenih rezultata na tržištu, ovo polje eksperiment bi ponuditi vrlo jasan mjerenje učinka početne cijene na prodajne cijene. Ali, to mjerenje će se primijeniti samo na jedan određeni proizvod i postaviti aukciju parametara. Rezultati mogu biti različite, na primjer, za različite vrste proizvoda. Bez jake teoriji, to je teško ekstrapolirati iz tog jednog eksperimenta puni raspon mogućih eksperimenata koji se mogao pokrenuti. Nadalje, poljskim pokusima su dovoljno skupo da bi bilo neisplativim pokrenuti dosta njih se pokriti cijeli raspon parametara proizvoda i tipova aukcija.
Za razliku od naivne pristupa i eksperimentalnog pristupa, Einav i kolege uzeti treći pristup: podudaranja. Glavni trik njihove strategije je otkriti stvari slične poljskih pokusa koji su se već dogodili na eBay. Na primjer, slika 2.6 prikazuje neke od 31 oglasi za točno isti golf klub-a Taylormade plamenika 09 Vozač-prodan po istom Prodavatelj "budgetgolfer". Međutim, ovi oglasi su malo različite karakteristike. Jedanaest od njih ponuditi program za fiksnu cijenu od 124,99 $, dok je preostalih 20 su aukcije s različitim krajnjim datumima. Također, oglasi imaju različite utovar naknade, bilo 7,99 $ ili $ 9.99. Drugim riječima, to je kao da je "budgetgolfer" radi eksperimente za istraživača.
U oglasi ovog Taylormade plamenika 09 vozača koji se prodaje pod "budgetgolfer" su jedan primjer odgovarajući set oglasi, gdje je isti predmet se prodaju po identičnim prodavatelja, ali svaki put sa malo drukčijim karakteristikama. Unutar masivnih trupaca eBay postoje doslovno stotine tisuća podudarne setovi uključuju milijune oglasi. Dakle, umjesto da se uspoređuju konačnu cijenu za sve aukcije u određenom početnu cijenu, Einav i kolege bi usporedbe unutar podudaraju setovima. Kako bi se kombinirale rezultate usporedbe unutar tih stotina tisuća podudarne setovi, Einav i kolege ponovno izraziti početnu cijenu i konačnu cijenu u odnosu na referentne vrijednosti svake stavke (primjerice, njegova prosječna prodajna cijena). Na primjer, ako je Taylormade Plamenik 09 Vozač ima referentnu vrijednost od $ 100 (na temelju njegove prodaje), a zatim po početnoj cijeni od 10 $ će biti izražena kao 0,1, a konačna cijena 120 $ će biti izražena kao 1.2.
Sjetite se da Einav i kolege bili zainteresirani za učinak početnu cijenu na aukciji ishoda. Prvo, pomoću linearne regresije su procijenili da više početne cijene smanjiti vjerojatnost prodaje i da više polazne cijene povećati konačnu prodajnu cijenu, pod uvjetom da se prodaju događa. Po sebi, te procjene-koje su u prosjeku na sve proizvode i pretpostaviti linearnu vezu između početne cijene i konačnih rezultata-nisu sve što je zanimljivo. No, Einav i njegovi kolege također koristiti masivne veličine njihovih podataka za procjenu raznih suptilnijim nalaza. Prvo, Einav i kolege napravili ove procjene odvojeno za predmete različite cijene i bez linearnom regresijom. Otkrili su da, dok je odnos između start cijene i vjerojatnosti prodaju je linearni odnos između početne cijene i prodajne cijene jasno je nelinearna (Slika 2.7). Konkretno, za početak cijene između 0,05 i 0,85, početna cijena ima vrlo mali utjecaj na prodajne cijene, nalaz koji je završen propustili u analizi koja je preuzela linearni odnos.
Drugo, umjesto da u prosjeku više od svih stavki, Einav i njegovi kolege također koristiti masovno njihovih podataka za procjenu utjecaja početnoj cijeni za 23 različitih kategorija predmeta (primjerice, kućne potrepštine, elektronike, i sportski suvenirnica) (Slika 2.8). Te procjene pokazuju da više razlikovnih predmeta-kao što su memorabilije-start cijena ima manji utjecaj na vjerojatnost prodaje i većeg učinka na konačne prodajne cijene. Nadalje, više pretvara u robu predmeti-kao što su DVD i video cijenu start nema gotovo nikakav utjecaj na konačnu cijenu. Drugim riječima, u prosjeku koji objedinjuje rezultate iz 23 različitih kategorija predmeta skriva važne informacije o razlikama između tih predmeta.
Čak i ako niste posebno zainteresirani za aukcije na eBay, morate diviti način na koji slika 2.7 i na slici 2.8 ponudu bogatiji razumijevanje eBay od jednostavne linearne regresije procjenama koje pretpostavljaju linearnih odnosa i kombiniraju različite kategorije proizvoda. Ove suptilnije procjene pokazuju moć podudaranje u masivnim podataka; Ove procjene, ne bi bio moguć bez ogromnog broja terenskih eksperimenata, a koji bi bio preskup.
Naravno, mi bi trebali imati manje povjerenja u rezultatima bilo kojeg odgovarajući studij nego što bismo u rezultatima usporedive eksperimenta. Prilikom procjene rezultata iz bilo kojeg odgovarajući studiji, postoje dvije važne zabrinutost. Kao prvo, moramo se sjetiti da možemo osigurati samo poštene usporedbe na stvari koje su se koristile za podudaranje. U svojim glavnim rezultatima, Einav i kolege točno je odgovarajući na četiri karakteristike: prodavatelj ID broj, kategoriju predmet, naslov predmet, i titl. Ako su predmeti bili različiti na načine koji nisu bili korišteni za usklađivanje, koje mogu prouzročiti nepravednu usporedbu. Na primjer, ako "budgetgolfer" spustiti cijene za Taylormade plamenika 09 vozača u zimi (kad je golf klubovi su manje popularni), onda bi to moglo izgledati da niže početne cijene dovesti do niže konačne cijene, kada je u činjenici da će to biti artefakt sezonski varijacije u potražnji. Općenito, najbolji pristup ovom problemu čini se da je težak mnoge različite vrste podudaranja. Na primjer, Einav i kolege ponoviti svoju analizu u kojoj se podudaraju setovi uključuju stavke na prodaju u roku od jedne godine, u roku od mjesec dana, i istovremeno. Izrada prozora vrijeme nategnuti smanjuje broj usklađenih setova, ali smanjuje zabrinutost zbog sezonske varijacije. Srećom, smatraju da su rezultati nepromijenjeni tim promjenama odgovarajućih kriterija. U odgovarajući literaturi, ova vrsta skrbi obično se izražava u smislu opservable i unobservables, ali ključ ideja je zapravo da su istraživači stvara samo poštene usporedbe na značajke koriste u podudaranju.
Drugi veliki problem u tumačenju podudaranje rezultata je da oni odnose samo na podudarne podatke; ne primjenjuju se na slučajeve koji se ne može usporediti. Na primjer, ograničavanjem svoje istraživanje na stavke koje su imale više unosa Einav i kolege su usmjerene na stručnim i polu-profesionalnih prodavača. Prema tome, pri tumačenju ove usporedbe moramo se sjetiti da su oni odnose samo na ovoj podgrupi eBay.
Matching je snažan strategije za pronalaženje pravedne usporedbe u velikim skupovima podataka. Za mnoge društvenih znanstvenika, slaganje osjeća kao drugi najbolji na eksperimentima, no to je uvjerenje da treba revidirati, malo. Odgovarajući u masivnim podataka moglo biti bolje od malog broja poljskih pokusa u sljedećim slučajevima: 1) heterogenost u efekata je važno i 2) postoje dobri matrane za usklađivanje. Tablica 2.4 daje neke druge primjere kako odgovara mogu se koristiti s velikim izvorima podataka.
materijalno fokus | Veliki izvor podataka | Citat |
---|---|---|
Utjecaj pucnjava na policijskog nasilja | Stop-and-Frisk zapise | Legewie (2016) |
Učinak 11. rujna 2001. o obitelji i susjeda | glasovanja evidencije i donacija zapisi | Hersh (2013) |
Socijalna zaraza | Komunikacija i usvajanje Podaci o proizvodu | Aral, Muchnik, and Sundararajan (2009) |
U zaključku, naivni pristupi procjeni uzročne posljedice od ne-eksperimentalnih podataka su opasni. Međutim, strategije za stvaranje uzročne procjene leže duž kontinuuma od najjačih na najslabije, a znanstvenici mogu otkriti fer usporedbe unutar ne-eksperimentalnim podacima. Rast uvijek na, velikim sustavima podataka povećava našu sposobnost da učinkovito korištenje dva postojeća metode: prirodne eksperimente i odgovara.