Paru creu cymariaethau teg drwy docio ymaith achosion.
Gall cymariaethau teg ddod o naill ai arbrofion hap a reolir neu arbrofion naturiol. Ond, mae yna lawer o sefyllfaoedd lle na allwch redeg yr arbrawf delfrydol ac nid yw natur wedi darparu arbrawf naturiol. Yn y lleoliadau hyn, y ffordd orau i greu cymhariaeth deg yn cyfateb. Yn paru, mae'r ymchwilydd yn edrych trwy ddata nad ydynt yn arbrofol i greu parau o bobl sy'n debyg ac eithrio bod un wedi derbyn y driniaeth ac nid un wedi. Yn y broses o baru, ymchwilwyr mewn gwirionedd hefyd tocio; hynny yw, taflu achosion lle nad oes cymhariaeth amlwg. Felly, byddai'r dull hwn yn cael ei alw'n fwy paru-a-tocio yn gywir, ond byddaf yn cadw at y term traddodiadol: cyfateb.
Enghraifft hyfryd o'r pŵer o strategaethau gyda ffynonellau data heb fod yn arbrofol enfawr cyfateb dod o'r ymchwil ar ymddygiad defnyddwyr gan Liran Einav a chydweithwyr (2015) . Roedd Einav a chydweithwyr sydd â diddordeb mewn arwerthiannau i'w gynnal ar eBay, ac wrth ddisgrifio eu gwaith, 'n annhymerus' yn canolbwyntio ar un agwedd benodol: yr effaith o arwerthiant yn dechrau pris ar ganlyniadau arwerthiant, megis y pris gwerthu neu y tebygolrwydd y gwerthiant.
Y ffordd fwyaf naïf i ateb y cwestiwn am effaith pris cychwyn ar bris gwerthu yn syml gyfrifo'r pris terfynol ar gyfer arwerthiannau gyda gwahanol brisiau cychwyn. Byddai'r dull hwn yn iawn os ydych yn syml am i ragweld y pris gwerthu eitem o ystyried bod wedi cael ei roi ar eBay gyda phris cychwyn penodol. Ond, os yw eich cwestiwn yw beth yw effaith dechrau pris ar ganlyniadau marchnad y dull hwn ni fydd yn gweithio oherwydd nad yw'n seiliedig ar gymariaethau teg; Efallai y arwerthiannau gyda phrisiau cychwyn is fod yn wahanol iawn o arwerthiannau gyda phrisiau cychwynnol uwch (ee, gallent fod ar gyfer gwahanol fathau o nwyddau neu gynnwys gwahanol fathau o werthwyr).
Os ydych yn pryderu yn barod am wneud cymariaethau teg, efallai y byddwch yn hepgor y dull naïf ac yn ystyried rhedeg arbrawf maes lle y byddech yn gwerthu benodol item-ddweud, clwb-gyda golff set sefydlog o arwerthiant paramedrau-ddweud, llongau rhad ac am ddim, arwerthiant agor am bythefnos, ac yn y blaen-ond gyda gosod prisiau yn dechrau ar hap. Trwy gymharu canlyniadau y farchnad sy'n deillio, byddai hyn yn arbrawf maes yn cynnig mesur clir iawn o effaith y dechrau pris ar bris gwerthu. Ond, byddai mesur hwn ond yn berthnasol i un cynnyrch penodol a set o baramedrau arwerthiant. Efallai y bydd y canlyniadau fod yn wahanol, er enghraifft, ar gyfer gwahanol fathau o gynhyrchion. Heb theori cryf, mae'n anodd allosod o hyn arbrawf sengl yr ystod lawn o arbrofion posibl a allai fod wedi cael eu cynnal. Bellach, arbrofion maes yn ddigon drud y byddai'n anymarferol i redeg digon ohonynt i fyny i dalu am y gofod paramedr gyfan o gynnyrch a mathau arwerthiant.
Yn wahanol i'r dull naïf ac mae'r dull arbrofol, Einav a chydweithwyr yn cymryd trydydd dull: cyfateb. Y prif tric o'u strategaeth yw i ddarganfod pethau tebyg i arbrofion maes sydd eisoes wedi digwydd ar eBay. Er enghraifft, dengys Ffigur 2.6 rhai o'r 31 o rhestrau am yr union yr un clwb-a golff Taylormade Burner 09 Gyrwyr-sy'n cael eu gwerthu gan union yr seller- un fath "budgetgolfer". Fodd bynnag, mae rhestrau hyn nodweddion ychydig yn wahanol. Mae un ar ddeg ohonynt yn cynnig i'r gyrrwr am bris sefydlog o $ 124.99, tra bod y 20 arall yn arwerthiannau gyda gwahanol ddyddiadau diwedd. Hefyd, mae'r rhestrau yn cael ffioedd llongau gwahanol, naill ai 7.99 $ neu $ 9.99. Mewn geiriau eraill, mae fel pe "budgetgolfer" yn cynnal arbrofion ar gyfer yr ymchwilwyr.
Mae rhestrau o'r Taylormade Burner 09 Gyrwyr yn cael eu gwerthu gan "budgetgolfer" yn un enghraifft o set cyfateb o rhestrau, lle mae'r un eitem union yn cael ei werthu gan yr un gwerthwr union ond bob tro gyda ychydig yn wahanol nodweddion. O fewn y logiau enfawr o eBay mae cannoedd o filoedd o setiau cyfateb cynnwys miliynau o rhestrau. Felly, yn hytrach na chymharu pris terfynol ar gyfer pob arwerthiannau o fewn pris cychwyn penodol, Einav a chydweithwyr gwneud cymariaethau o fewn setiau cyfateb. Er mwyn cyfuno canlyniadau o'r cymariaethau o fewn y cannoedd hyn o filoedd o setiau cyfateb, Einav a chydweithwyr ail-fynegi y pris cychwyn a phris terfynol o ran y gwerth cyfeirio pob eitem (ee, ei bris gwerthu ar gyfartaledd). Er enghraifft, os yw'r Taylormade Burner 09 Gyrwyr werth cyfeirio o $ 100 (yn seiliedig ar ei gwerthiant), yna byddai pris cychwyn o $ 10 ar fynegi fel 0.1 a byddai pris terfynol $ 120 yn cael ei fynegi fel 1.2.
Dwyn i gof bod yn Einav a chydweithwyr sydd â diddordeb yn effaith pris cychwyn ar ganlyniadau arwerthiant. Yn gyntaf, gan ddefnyddio atchweliad llinol maent yn amcangyfrif bod prisiau cychwynnol uwch yn gostwng y tebygolrwydd o werth, ac bod prisiau cychwynnol uwch yn cynyddu'r pris gwerthu terfynol, yn amodol ar werthiant digwydd. Drwy eu hunain, amcangyfrifon-mae'r rhain yn cael eu cyfartaledd dros yr holl gynhyrchion a chymryd yn ganiataol perthynas linol rhwng pris cychwyn a therfynol nid yw canlyniadau-i gyd hynny yn ddiddorol. Ond, Einav a chydweithwyr hefyd yn defnyddio maint enfawr eu data i amcangyfrif amrywiaeth o ganfyddiadau mwy cynnil. Yn gyntaf, Einav a chydweithwyr gwneud amcangyfrifon hyn ar wahân ar gyfer eitemau o wahanol brisiau a heb ddefnyddio atchweliad llinol. Maent yn gweld, er bod y berthynas rhwng pris cychwyn a thebygolrwydd o werthiant yn llinol, mae'r berthynas rhwng pris cychwyn a phris gwerthu yn amlwg yn aflinol (Ffigur 2.7). Yn benodol, ar gyfer dechrau prisiau rhwng 0.05 a 0.85, mae'r pris cychwyn wedi ychydig iawn o effaith ar bris gwerthu, canfyddiad a gwblhawyd colli yn y dadansoddiad a oedd wedi tybio perthynas linol.
Yn ail, yn hytrach na gyfartaledd dros yr holl eitemau, Einav a chydweithwyr hefyd yn defnyddio'r raddfa enfawr eu data i amcangyfrif effaith cychwyn pris ar gyfer 23 o gategorïau gwahanol o eitemau (ee, cyflenwadau anifeiliaid anwes, electroneg, a phethau cofiadwy chwaraeon) (Ffigur 2.8). Mae'r amcangyfrifon hyn yn dangos bod am fwy nodedig o eitemau-megis pris memorabilia-cychwyn yn cael effaith lai ar y tebygolrwydd o werthu ac yn cael effaith fwy ar y pris gwerthu terfynol. Ymhellach, am fwy o commodified eitemau megis DVDs a fideo-pris cychwyn wedi bron unrhyw effaith ar y pris terfynol. Mewn geiriau eraill, ar gyfartaledd sy'n cyfuno canlyniadau o 23 o gategorïau gwahanol o eitemau cuddio gwybodaeth bwysig am y gwahaniaethau rhwng yr eitemau hyn.
Hyd yn oed os nad oes gennych ddiddordeb arbennig mewn arwerthiannau ar eBay, rhaid i chi edmygu'r ffordd y mae Ffigur 2.7 a Ffigwr 2.8 yn cynnig dealltwriaeth fwy cyfoethog o eBay nag amcangyfrifon atchweliad llinol syml sy'n cymryd yn ganiataol perthynas llinol ac yn cyfuno llawer o wahanol gategorïau o eitemau. Mae'r amcangyfrifon hyn yn fwy cynnil yn dangos y pŵer o gyfateb mewn data enfawr; Byddai amcangyfrifon hyn wedi bod yn amhosibl heb nifer enfawr o arbrofion maes, a fyddai wedi bod yn rhy ddrud.
Wrth gwrs, dylai fod gennym lai o hyder yn y canlyniadau unrhyw astudiaeth paru benodol nag y byddem yn ganlyniadau arbrawf tebyg. Wrth asesu'r canlyniadau o unrhyw astudiaeth paru, mae dau bryderon pwysig. Yn gyntaf, mae'n rhaid i ni gofio ein bod yn gallu unig yn sicrhau cymariaethau teg ar bethau sy'n eu defnyddio ar gyfer paru. Yn eu prif ganlyniadau, Einav a chydweithwyr yn union cyfateb ar pedair nodwedd: Rhif gwerthwr ID, categori eitem, teitl eitem, ac is-deitl. Os yw'r eitemau yn wahanol mewn ffyrdd nad eu defnyddio ar gyfer paru, a allai greu cymhariaeth annheg. Er enghraifft, os "budgetgolfer" gostwng prisiau ar gyfer Taylormade Burner 09 Gyrwyr yn y gaeaf (pan fydd clybiau golff yn llai poblogaidd), yna gellid ymddangos bod prisiau cychwyn is yn arwain at brisiau is terfynol, pan mewn gwirionedd y byddai hyn yn arteffact o dymhorol amrywiad yn y galw. Yn gyffredinol, roedd y dull gorau at y broblem hon yn ymddangos i fod yn ceisio llawer o wahanol fathau o baru. Er enghraifft, Einav a chydweithwyr yn ailadrodd eu dadansoddiad lle setiau cyfateb yn cynnwys eitemau ar werth o fewn un flwyddyn, o fewn un mis, ac yn gyfoes. Gwneud y ffenestr amser tynnach yn gostwng y nifer o setiau cyfateb, ond yn lleihau pryderon am amrywiad tymhorol. Yn ffodus, maent yn dod o hyd bod y canlyniadau yn ddigyfnewid gan y newidiadau hyn yn y meini prawf sy'n cyfateb. Yn y llenyddiaeth paru, y math hwn o bryder fel arfer yn cael ei fynegi yn nhermau observables a unobservables, ond mae'r syniad allweddol yn wirioneddol bod ymchwilwyr yn unig yn creu cymariaethau teg ar y nodweddion a ddefnyddiwyd yn cyfateb.
Yr ail bryder mawr wrth ddehongli canlyniadau gyfateb yw eu bod yn berthnasol yn unig i ddata cyfatebol; nid ydynt yn gymwys i'r achosion na ellid eu cyfateb. Er enghraifft, trwy gyfyngu ar eu hymchwil i eitemau a oedd rhestrau lluosog Einav a chydweithwyr yn canolbwyntio ar werthwyr proffesiynol a lled-broffesiynol. Felly, wrth ddehongli cymariaethau hyn mae'n rhaid i ni gofio eu bod yn berthnasol i is-set hon o eBay.
Paru yn strategaeth bwerus ar gyfer dod o hyd i cymariaethau teg mewn setiau data mawr. I lawer o wyddonwyr cymdeithasol, cyfateb teimlo fel ail-orau i arbrofion, ond mae hynny'n gred y dylid ei ddiwygio, ychydig. Gallai paru mewn data enfawr yn well na nifer fach o arbrofion maes pan: 1) heterogenedd mewn effeithiau yn bwysig a 2) mae observables da ar gyfer cyfateb. Tabl 2.4 yn rhoi rhai enghreifftiau eraill o sut y gellir ei ddefnyddio gyda ffynonellau data mawr paru.
ffocws sylweddol | ffynhonnell ddata Big | Enwi |
---|---|---|
Effaith saethu ar drais yr heddlu | cofnodion-a-frisk Stop | Legewie (2016) |
Effaith Medi 11, 2001 ynghylch teuluoedd a chymdogion | cofnodion pleidleisio a chofnodion rhodd | Hersh (2013) |
contagion cymdeithasol | Cyfathrebu a mabwysiadu cynnyrch data | Aral, Muchnik, and Sundararajan (2009) |
I gloi, dulliau naïf i amcangyfrif effeithiau achosol o ddata nad ydynt yn arbrofol yn beryglus. Fodd bynnag, gall strategaethau ar gyfer gwneud amcangyfrifon achosol gorwedd ar hyd continwwm o cryfaf i gwannaf, ac ymchwilwyr yn darganfod cymariaethau teg o fewn data nad yw'n arbrofol. Mae twf, systemau data mawr bob amser-ar yn cynyddu ein gallu i ddefnyddio dau ddull presennol yn effeithiol: arbrofion naturiol a pharu.