Matching radīt godīgas salīdzinājumus ar atzarošana prom gadījumus.
Fair salīdzinājumi var nākt no nu randomizētos kontrolētos eksperimentos vai dabas eksperimentiem. Bet ir daudzi gadījumi, kad jūs nevarat palaist ideālu eksperimentu un daba nav paredzēti dabas eksperimentu. Šajās vietās, labākais veids, kā veidot taisnīgu salīdzinājumu, ir atbilstošas. Saskaņojot, pētnieks skatās caur non-eksperimentu datiem, lai izveidotu pārus cilvēkiem, kas ir līdzīgi, izņemot, ka viens ir saņēmis ārstēšanu, un viens nav. Šajā procesā tiek izlīdzināta, pētnieki faktiski arī atzarošanas; tas ir, izmetot gadījumi, kad nav skaidrs salīdzinājums. Tādējādi šī metode būtu precīzāk sauc saskaņošana-un-apgriešanu, bet es stick ar tradicionālo apzīmējumu: iekārtošanu.
Skaists piemērs varas atbilstošas stratēģijas, ar masveida nav eksperimentālo datu avotiem nāk no pētījumiem par patērētāju uzvedību, ko Liran Einav un kolēģiem (2015) . Einav un kolēģi bija ieinteresēti izsolēs, kas notiek uz eBay, un raksturojot savu darbu, es ņemšu koncentrēties uz vienu konkrētu aspektu: iedarbības izsoles sākuma cenu par izsoles rezultātiem, piemēram, pārdošanas cenu vai varbūtību, pārdošanas.
Visvairāk naivi veids, kā atbildēt uz jautājumu par ietekmi sākuma cenas uz pārdošanas cenas būtu vienkārši aprēķināt galīgo cenu izsolēs ar dažādiem sākuma cenām. Šī pieeja būtu labi, ja jūs vienkārši vēlaties, lai prognozētu pārdošanas cenu konkrētajā posteni, kas tika likts uz eBay ar noteiktu sākuma cenu. Bet, ja jūsu jautājums ir, kāda ir ietekme sākuma cenu par tirgus rezultātiem šo pieeju nedarbosies, jo tas nav balstīts uz godīgiem salīdzināšanu; izsoles ar zemāku sākuma cenu varētu būt diezgan atšķirīga no izsolēs ar augstākām sākuma cenām (piemēram, tie varētu būt dažāda veida precēm vai ietver dažādu veidu pārdevējiem).
Ja jūs jau esat norūpējies par padarot godīgu salīdzinājumu, jūs varētu izlaist naivs pieeju un apsvērt veic praktisku eksperimentu, kur jūs varētu pārdot īpaša vieta, saka, golfa klubs-ar fiksētu kopumu izsoles parametru-teikt, bezmaksas piegāde, izsole atvērta divas nedēļas, utt-bet ar nejauši noteikt sākuma cenas. Salīdzinot iegūtos tirgus rezultātus, šis lauks eksperiments piedāvātu ļoti skaidru mērījumu ietekmi sākuma cenu par pārdošanas cenu. Bet šis mērījums attiektos tikai uz vienu konkrētu produktu, un noteikt izsoles parametriem. Rezultāti var būt dažādi, piemēram, attiecībā uz dažādiem produktu veidiem. Bez spēcīga teorija, ir grūti ekstrapolēt no šī viena eksperimenta pilnu iespējamo eksperimenti, kas varēja darboties. Turklāt lauka eksperimenti ir pietiekami dārgi, ka būtu neiespējama palaist pietiekami daudz no tiem, lai segtu visu parametru telpu produktu un izsoļu veidiem.
Atšķirībā no naivs pieeju un eksperimentālu pieeju, Einav un kolēģu trešo pieeju: iekārtošanu. Galvenais triks viņu stratēģija ir atklāt lietas, līdzīgi lauka eksperimentiem, kas jau ir notikušas eBay. Piemēram, 2.6 attēls parāda dažus no 31 sarakstus tieši tādā pašā golfa klubā-a TaylorMade Burner 09 Driver-pārdod ar tieši tādu pašu seller- "budgetgolfer". Tomēr šie saraksti ir nedaudz atšķirīgas īpašības. Vienpadsmit no tām piedāvā vadītājam par fiksētu cenu 124,99 $, bet otra 20 ir izsoles ar dažādu beigu datumiem. Arī saraksti ir dažādas kuģniecības maksas, vai nu $ 7,99 vai 9,99 $. Citiem vārdiem sakot, tas ir, ja "budgetgolfer" darbojas eksperimentus pētniekiem.
No TaylorMade Burner 09 Driver saraksti tiek pārdots ar "budgetgolfer" ir viens piemērs saskaņotu kopumu sarakstiem, kur tieši tā pati prece tiek pārdota ar tieši tādu pašu pārdevēju, bet katru reizi ar nedaudz atšķirīgām īpašībām. Ietvaros masveida apaļkoku eBay ir burtiski simtiem tūkstošu saskaņoto komplekti iesaistot miljoniem sarakstiem. Tātad, nevis salīdzinot galīgo cenu visiem izsolēs klientiem noteiktā sākuma cenu, Einav un kolēģi veikt salīdzinājumus ietvaros saskaņoto kopas. Lai apvienotu rezultātus no salīdzināšanas šajās simtiem tūkstošu saskaņotu komplekti, Einav un kolēģi atkārtoti izteikt sākuma cenu un galīgo cenu ziņā atsauces vērtības katru priekšmetu (piemēram, tās vidējā pārdošanas cena). Piemēram, ja TaylorMade Burner 09 Driver ir atsauces vērtību 100 $ (pamatojoties uz tās pārdošanas), tad sākuma cena 10 $ tiks izteikts kā 0.1 un gala cena 120 $ būtu izteikts kā 1.2.
Atgādināt, ka Einav un kolēģi bija ieinteresēti ietekmi starta cena par izsoles rezultātiem. Pirmkārt, izmantojot lineāro regresiju viņi lēsts, ka augstākas sākuma cenas samazina varbūtību pārdošanas, un ka augstākas sākuma cenas paaugstināt galīgo pārdošanas cenu, nosacījumu, pārdošana notiek. Paši šie aprēķini-kas ir vidēji visām produkciju un uzņemties lineāru sakarību starp sākuma cenu un gala rezultātu, nav tik interesanti. Bet, Einav un kolēģi arī izmantot masveida lielumu savu datu, lai novērtētu dažādus vairāk izsmalcināts secinājumiem. Pirmkārt, Einav un kolēģi veic šos aprēķinus atsevišķi posteņiem dažādām cenām un neizmantojot lineāro regresiju. Viņi konstatēja, ka, lai gan attiecības starp sākuma cenu un varbūtību pārdošanas ir lineāra, attiecības starp sākuma cenu un pārdošanas cenu ir skaidri nelineāra (2.7 attēls). Jo īpaši, lai uzsāktu cenu starp 0,05 un 0,85, sākumcena ir ļoti maza ietekme uz pārdošanas cenu, lai atzītu, ka tika pabeigta garām analīzē, kas bija pieņemts lineāra attiecības.
Otrkārt, nevis vidēji vairāk nekā visus objektus, Einav un kolēģi arī izmantot masveida mērogu savu datu, lai novērtētu ietekmi nosauktās cenas 23 dažādu kategoriju posteņiem (piemēram, pet piegādēm, elektronika un sporta piemiņlietas) (2.8 attēls). Šie aprēķini rāda, ka vairāk atšķirīgu priekšmetu, piemēram, piemiņas lietas, sākuma cena ir mazāka ietekme uz varbūtību, ka pārdošanas un lielāku ietekmi uz galīgo pārdošanas cenu. Turklāt vairāk komerciālajām preces-, piemēram, DVD un video starta cena ir gandrīz nekādas ietekmes uz galīgo cenu. Citiem vārdiem sakot, vidējais kas apvieno rezultātus no 23 dažādu kategoriju posteņiem slēpj svarīgu informāciju par atšķirībām starp šiem posteņiem.
Pat ja jūs neesat īpaši ieinteresēti izsolēs par eBay, jums ir apbrīnot to, kā šis skaitlis 2.7 un izdomāt 2.8 piedāvājumu bagātāku izpratne par eBay nekā vienkāršu lineārās regresijas aprēķiniem, kas uzņemas lineāra attiecības un apvieno daudz dažādu kategoriju posteņiem. Šie vairāk izsmalcināts aplēses ilustrēt varu saskaņošanas masveida datiem; šīs aplēses nebūtu iespējams bez milzīgo skaitu lauka eksperimentiem, kas būtu pārmērīgi dārga.
Protams, mums būtu mazāk uzticību jebkuras konkrētā saskaņošanas pētījuma rezultātiem, nekā mēs būtu kas ar salīdzināmā eksperimenta rezultātiem. Izvērtējot rezultātus no jebkuras saskaņošanas pētījumā ir divi svarīgi jautājumi. Pirmkārt, mums ir jāatceras, ka mēs varam nodrošināt tikai godīgas salīdzinājumus par lietām, kas tika izmantoti, lai iekārtošanu. Savos galvenajiem rezultātiem, Einav un kolēģi bija precīzs saskaņojot par četriem parametriem: pārdevējs ID numurs, priekšmets kategorija, postenis nosaukumu, un apakšvirsraksts. Ja preces atšķīrās veidos, kas netika izmantotas sakritības, kas varētu radīt negodīgu salīdzinājumu. Piemēram, ja "budgetgolfer" pazemināja cenas TaylorMade Burner 09 Driver ziemā (kad golfa klubi ir mazāk populāri), tad tas varētu šķist, ka zemākas sākuma cenas samazina galīgās cenas, ja patiesībā tas būtu artefakts sezonas pieprasījuma svārstības. Kopumā labākā pieeja, lai šo problēmu, šķiet, mēģina daudz dažādu veidu iekārtošanu. Piemēram, Einav un kolēģi atkārtot to analīzi, kurā saskaņota komplekti ietver priekšmetus par viena gada laikā, viena mēneša laikā un vienlaicīgi. Padarīt laika logs stingrāka samazinās skaitu saskaņotu komplekti, bet samazina bažas par sezonas raksturs. Par laimi, viņi atklāj, ka rezultāti ir nemainīgi šīs izmaiņas atbilstošiem kritērijiem. Jo saskaņošanas literatūrā, šāda veida bažas parasti izsaka ar ievērojamai un unobservables, bet galvenais ideja ir reāli, ka pētnieki ir tikai radīt taisnīgus salīdzinājumus par funkcijām, ko izmanto iekārtošanu.
Otrs lielākais bažas, interpretējot atbilstošos rezultātus, ka tie attiecas tikai uz atbilstošiem datiem; tie neattiecas uz gadījumiem, ko nevar saskaņota. Piemēram, ierobežojot savus pētījumus uz posteņiem, kas bija vairākus sarakstus Einav un kolēģi, koncentrējoties uz profesionālām un daļēji profesionāliem pārdevējiem. Tādējādi, interpretējot šos salīdzinājumus mums ir jāatceras, ka tie attiecas tikai uz šo apakšgrupā eBay.
Saskaņošana ir spēcīgs stratēģija, lai atrastu taisnīgu salīdzinājumu ar lielām datu kopām. Daudziem sociālajiem zinātniekiem, saskaņošana jūtas kā otrās vislabāk eksperimentiem, bet tas ir uzskats, ka būtu jāpārskata, nedaudz. Matching masveida datiem varētu būt labāks, nekā nelielu skaitu lauka eksperimentiem, ja: 1) neviendabīgums efektu, ir svarīgi, un 2) ir labi ievērojamai par iekārtošanu. 2.4 tabulā ir sniegti daži citi piemēri, kā atbilstošas var lietot ar lieliem datu avotiem.
materiālo fokuss | Big datu avots | citēšana |
---|---|---|
Ietekme šaušanu uz policijas vardarbību | Stop-and-Frisk ierakstus | Legewie (2016) |
Ietekme 2001. gada 11. septembris, par ģimenēm un kaimiņiem | balsošanas uzskaiti un ziedojumu uzskaite | Hersh (2013) |
sociālā saindēšanas | Komunikācija un produktu pieņemšana dati | Aral, Muchnik, and Sundararajan (2009) |
Noslēgumā, naivi pieejas novērtējot cēloņsakarību sekas, nav eksperimentāliem datiem ir bīstami. Tomēr stratēģijas padarot cēloņsakarības aprēķinus guļ pa nepārtrauktu no spēcīgākajiem uz vājāko, un pētnieki var atrast godīgas salīdzinājumus laikā nav eksperimentāliem datiem. Par vienmēr-on, lieliem datu sistēmām pieaugums palielina mūsu spēju efektīvi izmantot divas esošās metodes: dabas eksperimentus un iekārtošanu.