Gallwn brasamcanu arbrofion nad ydym wedi neu na allant eu gwneud. Mae dau ddull sy'n arbennig o elwa o ffynonellau data mawr yn arbrofion naturiol ac yn cyfateb.
Mae rhai cwestiynau gwyddonol a pholisi pwysig yn achosol. Er enghraifft, beth yw effaith rhaglen hyfforddi swyddi ar gyflogau? Gallai ymchwilydd sy'n ceisio ateb y cwestiwn hwn gymharu enillion pobl a gofrestrodd am hyfforddiant i'r rhai na wnaeth. Ond faint o unrhyw wahaniaeth mewn cyflogau rhwng y grwpiau hyn yw oherwydd yr hyfforddiant a faint sydd oherwydd gwahaniaethau preexisting rhwng y bobl sy'n ymuno a'r rhai nad ydynt? Mae hwn yn gwestiwn anodd, ac mae'n un nad yw'n mynd yn awtomatig â mwy o ddata. Mewn geiriau eraill, mae'r pryder ynghylch gwahaniaethau preexisting posibl yn codi waeth faint o weithwyr sydd yn eich data.
Mewn llawer o sefyllfaoedd, y ffordd gryfaf i amcangyfrif effaith achosol rhywfaint o driniaeth, fel hyfforddiant swyddi, yw cynnal arbrawf wedi'i hapyllo ar ôl i ymchwilydd ddarparu ar hap i'r driniaeth ar rai pobl ac nid i eraill. Byddaf yn neilltuo pob un o bennod 4 i arbrofion, felly dwi'n mynd i ganolbwyntio ar ddau strategaeth y gellir eu defnyddio gyda data nad ydynt yn arbrofol. Mae'r strategaeth gyntaf yn dibynnu ar chwilio am rywbeth sy'n digwydd yn y byd sydd ar hap (neu bron ar hap) yn aseinio'r driniaeth i rai pobl ac nid i eraill. Mae'r ail strategaeth yn dibynnu ar addasu ystadegau nad ydynt yn arbrofol yn ystadegol mewn ymgais i gyfrif am wahaniaethau preexisting rhwng y rhai a wnaeth ac nad oeddent yn derbyn y driniaeth.
Gallai amheuaeth honni y dylid osgoi'r ddau strategaeth hon oherwydd bod angen rhagdybiaethau cryf, rhagdybiaethau sy'n anodd eu hasesu ac yn aml yn cael eu torri. Er fy mod yn cydymdeimlad â'r honiad hwn, credaf ei fod yn mynd ychydig yn rhy bell. Mae'n sicr yn wir ei bod hi'n anodd dibynnu'n ddibynadwy amcangyfrifon achosol o ddata nad yw'n arbrofol, ond ni chredaf fod hynny'n golygu na ddylem byth roi cynnig arni. Yn benodol, gall dulliau an-arbrofol fod yn ddefnyddiol pe bai cyfyngiadau logistaidd yn eich rhwystro rhag cynnal arbrawf neu os yw cyfyngiadau moesegol yn golygu nad ydych am redeg arbrawf. Gall ymagweddau an-arbrofol ymhellach fod yn ddefnyddiol os ydych chi am fanteisio ar ddata sydd eisoes yn bodoli er mwyn dylunio arbrofi a reolir ar hap.
Cyn symud ymlaen, mae'n werth nodi hefyd mai gwneud amcangyfrifon achosol yw un o'r pynciau mwyaf cymhleth mewn ymchwil gymdeithasol, ac un sy'n gallu arwain at ddadl ddwys ac emosiynol. Yn yr hyn sy'n dilyn, byddaf yn darparu disgrifiad optimistaidd o bob dull er mwyn adeiladu greddf amdano, yna byddaf yn disgrifio rhai o'r heriau sy'n codi wrth ddefnyddio'r dull hwnnw. Mae rhagor o fanylion am bob dull ar gael yn y deunyddiau ar ddiwedd y bennod hon. Os ydych yn bwriadu defnyddio'r naill neu'r llall o'r dulliau hyn yn eich ymchwil eich hun, rwy'n argymell yn fawr iawn ddarllen un o'r llyfrau rhagorol ar (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) achosol (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Un dull o wneud amcangyfrifon achosol o ddata nad yw'n arbrofol yw chwilio am ddigwyddiad sydd wedi rhoi triniaeth ar hap i rai pobl ac nid i eraill. Gelwir y sefyllfaoedd hyn yn arbrofion naturiol . Mae un o'r enghreifftiau cliriach o arbrawf naturiol yn deillio o ymchwil Joshua Angrist (1990) sy'n mesur effaith gwasanaethau milwrol ar enillion. Yn ystod y rhyfel yn Fietnam, cynyddodd yr Unol Daleithiau faint ei lluoedd arfog trwy ddrafft. Er mwyn penderfynu pa ddinasyddion fyddai'n cael eu galw i mewn i wasanaeth, cynhaliodd llywodraeth yr Unol Daleithiau loteri. Ysgrifennwyd pob dyddiad geni ar ddarn o bapur, ac fel y dangosir yn ffigur 2.7, dewiswyd y darnau hyn o bapur un ar y tro er mwyn penderfynu ar y drefn y byddai dynion ifanc yn cael eu galw i wasanaethu (nid oedd menywod ifanc yn destun i'r drafft). Yn seiliedig ar y canlyniadau, cafodd dynion a anwyd ar Fedi 14 eu galw'n gyntaf, a gelwir dynion a anwyd ar Ebrill 24 yn ail, ac yn y blaen. Yn y pen draw, yn y loteri hon, lluniwyd dynion a anwyd ar 195 diwrnod gwahanol, tra nad oedd dynion a anwyd ar 171 diwrnod.
Er efallai na fydd yn amlwg ar unwaith, mae gan loteri ddrafft debygrwydd critigol i arbrawf a reolir ar hap: yn y ddwy sefyllfa, mae cyfranogwyr yn cael eu neilltuo ar hap i dderbyn triniaeth. Er mwyn astudio effaith y driniaeth ar hap hwn, manteisiodd Angrist ar system ddata fawr bob amser: Gweinyddiaeth Nawdd Cymdeithasol yr Unol Daleithiau, sy'n casglu gwybodaeth ar enillion bron pob Americanaidd o gyflogaeth. Drwy gyfuno'r wybodaeth am bwy a gafodd ei ddewis ar hap yn y loteri drafft gyda'r data enillion a gasglwyd mewn cofnodion gweinyddol llywodraethol, daeth Angrist i'r casgliad bod enillion cyn-filwyr tua 15% yn llai nag enillion cyn-filwyr tebyg.
Gan fod yr enghraifft hon yn darlunio, weithiau mae heddluoedd cymdeithasol, gwleidyddol neu naturiol yn neilltuo triniaethau mewn modd y gall ymchwilwyr eu hysgogi, ac weithiau caiff effeithiau'r triniaethau hyn eu dal yn ffynonellau data mawr bob amser. Gellir crynhoi'r strategaeth ymchwil hon fel a ganlyn: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Er mwyn dangos y strategaeth hon yn yr oes ddigidol, gadewch i ni ystyried astudiaeth gan Alexandre Mas ac Enrico Moretti (2009) a geisiodd amcangyfrif effaith gweithio gyda chydweithwyr cynhyrchiol ar gynhyrchiant gweithiwr. Cyn gweld y canlyniadau, mae'n werth nodi bod yna ddisgwyliadau sy'n gwrthdaro y gallai fod gennych. Ar y naill law, efallai y byddech yn disgwyl y byddai gweithio gyda chydweithwyr cynhyrchiol yn arwain gweithiwr i gynyddu ei chynhyrchiant oherwydd pwysau cyfoedion. Neu, ar y llaw arall, efallai y byddech chi'n disgwyl y gallai cydweithwyr sy'n gweithio'n galed arwain gweithiwr i ddileu oherwydd bydd y cyfoedion yn gwneud y gwaith beth bynnag. Y ffordd fwyaf clir i astudio effeithiau cyfoedion ar gynhyrchiant fyddai arbrawf a reolir ar hap lle mae gweithwyr yn cael eu neilltuo ar hap i symud gyda gweithwyr o lefelau cynhyrchiant gwahanol ac yna caiff y cynhyrchiant sy'n deillio o hynny ei fesur i bawb. Fodd bynnag, nid yw ymchwilwyr yn rheoli amserlen gweithwyr mewn unrhyw fusnes go iawn, ac felly roedd yn rhaid i Mas a Moretti ddibynnu ar arbrawf naturiol yn cynnwys arianwyr mewn archfarchnad.
Yn yr archfarchnad arbennig hon, oherwydd y ffordd y gwnaed amserlennu a'r ffordd y mae sifftiau'n gorgyffwrdd, roedd gan bob ariannwr gydweithwyr gwahanol ar wahanol adegau o'r dydd. Ymhellach, yn yr archfarchnad arbennig hon, nid oedd aseiniad arianwyr yn perthyn i gynhyrchiant eu cyfoedion nac pa mor brysur oedd y siop. Mewn geiriau eraill, er na chafodd amserlennu arianwyr ei bennu gan loteri, roedd fel pe bai gweithwyr weithiau'n cael eu neilltuo ar hap i weithio gyda chyfoedion cynhyrchiant uchel (neu isel). Yn ffodus, roedd gan yr archfarchnad hon system wirio oedran digidol a oedd yn olrhain yr eitemau yr oedd pob ariannwr yn sganio bob amser. O'r data logio gwirio hwn, roedd Mas a Moretti yn gallu creu mesur cynhyrchiant manwl gywir, unigol a bob amser: nifer yr eitemau a sganiwyd yr eiliad. Gan gyfuno'r ddau beth hyn - yr amrywiad sy'n digwydd yn naturiol mewn cynhyrchiant cymheiriaid a'r mesur cynhyrchiant bob amser - amcangyfrifodd Mas a Moretti pe bai cyd-weithiwr yn cael ei neilltuo i gydweithwyr a oedd yn 10% yn fwy cynhyrchiol na'r cyfartaledd, byddai ei chynhyrchiant yn cynyddu 1.5% . Ymhellach, roeddent yn defnyddio maint a chyfoeth eu data i archwilio dau fater pwysig: heterogeneity yr effaith hon (Ar gyfer pa fath o weithwyr yw'r effaith yn fwy?) A'r mecanweithiau y tu ôl i'r effaith (Pam mae cael cymheiriaid cynhyrchiant uchel yn arwain at cynhyrchiant uwch?). Byddwn yn dychwelyd i'r ddau fater pwysig hyn - heterogeneity effeithiau a mecanweithiau triniaeth-ym mhennod 4 pan fyddwn yn trafod arbrofion yn fwy manwl.
Gan gyffredinoli o'r ddwy astudiaeth hon, mae tabl 2.3 yn crynhoi astudiaethau eraill sydd â'r un strwythur hwn: gan ddefnyddio ffynhonnell ddata bob amser i fesur effaith rhywfaint o amrywiad ar hap. Yn ymarferol, mae ymchwilwyr yn defnyddio dwy strategaeth wahanol ar gyfer dod o hyd i arbrofion naturiol, y gall y ddau ohonynt fod yn ffrwythlon. Mae rhai ymchwilwyr yn dechrau gyda ffynhonnell ddata bob amser ac yn edrych am ddigwyddiadau ar hap yn y byd; mae eraill yn dechrau digwyddiad ar hap yn y byd ac yn edrych am ffynonellau data sy'n dal ei heffaith.
Canolbwynt sylweddol | Ffynhonnell arbrawf naturiol | Ffynhonnell ddata bob amser | Cyfeirnod |
---|---|---|---|
Effeithiau cyfoedion ar gynhyrchiant | Y broses amserlennu | Gwirio data | Mas and Moretti (2009) |
Ffurfio cyfeillgarwch | Corwyntoedd | Phan and Airoldi (2015) | |
Lledaeniad o emosiynau | Glaw | Lorenzo Coviello et al. (2014) | |
Trosglwyddiadau economaidd cymheiriaid | Daeargryn | Data arian symudol | Blumenstock, Fafchamps, and Eagle (2011) |
Ymddygiad defnydd personol | 2013 cau'r llywodraeth yn yr Unol Daleithiau | Data cyllid personol | Baker and Yannelis (2015) |
Effaith economaidd systemau argymell | Amrywiol | Yn pori data yn Amazon | Sharma, Hofman, and Watts (2015) |
Effaith straen ar fabanod sydd heb eu geni | 2006 Israel-Hezbollah rhyfel | Cofnodion geni | Torche and Shwed (2015) |
Ymddygiad darllen ar Wikipedia | Datguddiadau Snowden | Logiau Wikipedia | Penney (2016) |
Effeithiau cyfoedion ar ymarfer corff | Tywydd | Tracwyr ffitrwydd | Aral and Nicolaides (2017) |
Yn y drafodaeth hyd yma ynghylch arbrofion naturiol, rwyf wedi gadael pwynt pwysig: gall mynd yn ôl o'r hyn y mae natur wedi'i ddarparu i'r hyn yr ydych ei eisiau weithiau yn eithaf anodd. Gadewch inni ddychwelyd at enghraifft ddrafft Fietnam. Yn yr achos hwn, roedd gan Angrist ddiddordeb mewn amcangyfrif effaith gwasanaeth milwrol ar enillion. Yn anffodus, ni roddwyd gwasanaeth milwrol ar hap; yn hytrach, roedd yn cael ei ddrafftio a gafodd ei neilltuo ar hap. Fodd bynnag, nid oedd pawb a ddrafftiwyd yn gwasanaethu (roedd yna nifer o eithriadau), ac nid oedd pawb a wasanaethodd yn cael eu drafftio (gallai pobl wirfoddoli i wasanaethu). Oherwydd ei fod wedi'i ddrafftio wedi'i neilltuo ar hap, gall ymchwilydd amcangyfrif effaith ei ddrafftio ar gyfer pob dyn yn y drafft. Ond nid oedd Angrist eisiau gwybod yr effaith o gael ei ddrafftio; roedd am wybod beth yw effaith gwasanaethu yn y milwrol. Er mwyn gwneud yr amcangyfrif hwn, fodd bynnag, mae angen tybiaethau a chymhlethdodau ychwanegol. Yn gyntaf, mae angen i ymchwilwyr gymryd yn ganiataol mai dim ond trwy wasanaeth milwrol yw'r unig ffordd y mae ei enillion yn cael ei drafftio, sef rhagdybiaeth o'r enw cyfyngiad gwaharddiad . Gallai'r rhagdybiaeth hon fod yn anghywir pe bai dynion a ddrafftiwyd yn aros yn yr ysgol yn hirach er mwyn osgoi gwasanaethu, neu os oedd cyflogwyr yn llai tebygol o logi dynion a ddrafftiwyd. Yn gyffredinol, mae'r cyfyngiad gwaharddiad yn rhagdybiaeth beirniadol, ac fel arfer mae'n anodd ei wirio. Hyd yn oed os yw'r cyfyngiad gwahardd yn gywir, mae'n dal yn amhosib amcangyfrif effaith y gwasanaeth ar bob dyn. Yn hytrach, mae'n ymddangos na all ymchwilwyr amcangyfrif yr effaith ar is-set benodol o ddynion o'r enw cydymffurfwyr (dynion a fyddai'n gwasanaethu pan ddrafftiwyd, ond na fyddai'n gwasanaethu pan na ddrafftiwyd) (Angrist, Imbens, and Rubin 1996) . Fodd bynnag, nid cydymffurfwyr oedd y boblogaeth wreiddiol o ddiddordeb. Sylwch fod y problemau hyn yn codi hyd yn oed yn achos cymharol lân y loteri ddrafft. Mae set arall o gymhlethdodau yn codi pan na chaiff y driniaeth ei neilltuo gan loteri ffisegol. Er enghraifft, yn astudiaeth Masters a Moretti o arianwyr, mae cwestiynau ychwanegol yn codi ynghylch y rhagdybiaeth bod aseiniad cyfoedion yn hap yn y bôn. Pe bai'r dybiaeth hon yn cael ei thorri'n gryf, gallai ragfarnu eu hamcangyfrifon. I gloi, gall arbrofion naturiol fod yn strategaeth bwerus ar gyfer gwneud amcangyfrifon achosol o ddata nad ydynt yn arbrofol, ac mae ffynonellau data mawr yn cynyddu ein gallu i fanteisio ar arbrofion naturiol pan fyddant yn digwydd. Fodd bynnag, mae'n debyg y bydd yn ofynnol tybiaethau gofal mawr - ac weithiau cryf iawn - i fynd o'r hyn y mae natur wedi'i ddarparu i'r amcangyfrif yr ydych ei eisiau.
Mae'r ail strategaeth yr hoffwn ei ddweud wrthych am wneud amcangyfrifon achosol o ddata nad yw'n arbrofol yn dibynnu ar addasu data nad yw'n arbrofol yn ystadegol mewn ymgais i roi cyfrif am wahaniaethau preexisting rhwng y rhai a wnaeth ac nad oeddent yn derbyn y driniaeth. Mae yna lawer o ddulliau addasu o'r fath, ond byddaf yn canolbwyntio ar un sy'n cyfateb . Wrth gyfateb, mae'r ymchwilydd yn edrych trwy ddata nad yw'n arbrofol i greu parau o bobl sy'n debyg ac eithrio bod yr un wedi derbyn y driniaeth ac nad oes un. Yn y broses o gydweddu, mae ymchwilwyr mewn gwirionedd hefyd yn prynu ; hynny yw, gwahardd achosion lle nad oes gêm amlwg. Felly, byddai'r dull hwn yn cael ei alw'n fwy cywir yn cyfateb-a-tocio, ond byddaf yn cadw gyda'r tymor traddodiadol: cyfateb.
Mae un enghraifft o rym strategaethau cyfatebol gyda ffynonellau data anferthol anferthol yn dod o ymchwil ar ymddygiad defnyddwyr gan Liran Einav a chydweithwyr (2015) . Roedd ganddynt ddiddordeb mewn arwerthiannau yn digwydd ar eBay, ac wrth ddisgrifio eu gwaith, byddaf yn canolbwyntio ar effaith pris cychwyn ocsiwn ar ganlyniadau ocsiwn, fel y pris gwerthu neu debygolrwydd gwerthu.
Y ffordd fwyaf naïo i amcangyfrif effaith pris cychwyn ar bris gwerthu fyddai cyfrifo'r pris terfynol ar gyfer arwerthiannau gyda phrisiau cychwyn gwahanol. Byddai'r dull hwn yn iawn pe bai arnoch eisiau rhagweld y pris gwerthu o ystyried y pris cychwynnol. Ond os yw'ch cwestiwn yn ymwneud ag effaith y pris cychwyn, ni fydd yr ymagwedd hon yn gweithio oherwydd nad yw'n seiliedig ar gymariaethau teg; efallai y bydd yr arwerthiannau â phrisiau cychwyn is yn eithaf gwahanol i'r rheini â phrisiau cychwyn uwch (ee, efallai eu bod ar gyfer gwahanol fathau o nwyddau neu yn cynnwys gwahanol fathau o werthwyr).
Os ydych eisoes yn ymwybodol o'r problemau a all godi wrth wneud amcangyfrifon achosol o ddata nad ydynt yn arbrofol, efallai y byddwch yn sgipio'r ymagwedd naïo ac yn ystyried cynnal arbrawf maes lle byddech chi'n gwerthu eitem-benodol, clwb golff - gyda phenderfyniad set o baramedrau ocsiwn-dweud, llongau am ddim ac ocsiwn ar agor am bythefnos - ond gyda phrisiau cychwyn a neilltuwyd ar hap. Trwy gymharu canlyniadau canlyniadau'r farchnad, byddai'r arbrawf maes hwn yn cynnig mesur clir iawn o effaith pris cychwyn ar bris gwerthu. Ond byddai'r mesur hwn yn berthnasol i un cynnyrch penodol a set o baramedrau ocsiwn yn unig. Gallai'r canlyniadau fod yn wahanol, er enghraifft, ar gyfer gwahanol fathau o gynhyrchion. Heb theori gref, mae'n anodd ei waredu o'r un arbrawf hwn i'r ystod lawn o arbrofion posibl a allai fod wedi'u rhedeg. Ymhellach, mae arbrofion maes yn ddigon drud y byddai'n amhosibl rhedeg pob amrywiad y gallech fod am ei roi arni.
Mewn cyferbyniad â'r dulliau naïf ac arbrofol, cymerodd Einav a chydweithwyr drydydd dull: cyfateb. Y prif gylch yn eu strategaeth yw darganfod pethau tebyg i arbrofion maes sydd eisoes wedi digwydd ar eBay. Er enghraifft, mae ffigur 2.8 yn dangos rhai o'r 31 rhestr ar gyfer yr un clwb golff yn union - gwerthu Gyrrwr Taylormade Burner 09 gan yr un gwerthwr yn union- "budgetgolfer." Fodd bynnag, mae gan y 31 rhestr hon nodweddion ychydig yn wahanol, megis gwahanol gychwyn prisiau, dyddiadau diwedd, a ffioedd llongau. Mewn geiriau eraill, mae fel pe bai "budgetgolfer" yn rhedeg arbrofion i'r ymchwilwyr.
Mae'r rhestrau hyn sy'n cael eu gwerthu gan "gyllidebgolfer" yn cael eu gwerthu yn un enghraifft o set o gyfeiriadau cyfatebol, lle mae'r union werthwr yr un eitem yn cael ei werthu gan yr un gwerthwr, ond bob tro gyda nodweddion ychydig yn wahanol. O fewn y logiau enfawr o eBay mae cannoedd o filoedd o setiau cyfatebol yn cynnwys miliynau o restrau yn llythrennol. Felly, yn hytrach na chymharu'r pris terfynol ar gyfer pob arwerthiant gyda phris cychwynnol, Einav a chydweithwyr o'i gymharu â setiau cyfatebol. Er mwyn cyfuno canlyniadau o'r cymariaethau o fewn y cannoedd o filoedd o setiau cyfatebol, mynegodd Einav a chydweithwyr y pris cyntaf a'r pris terfynol yn nhermau gwerth cyfeirio pob eitem (ee ei bris gwerthu cyfartalog). Er enghraifft, pe byddai gan y Gyrrwr Llosgi Taylormade 09 werth cyfeirio o $ 100 (yn seiliedig ar ei werthu), yna byddai pris cychwyn o $ 10 yn cael ei fynegi fel 0.1 a phris olaf o $ 120 fel 1.2.
Dwyn i gof bod gan Einav a chydweithwyr ddiddordeb mewn effaith pris cychwyn ar ganlyniadau ocsiwn. Yn gyntaf, roeddent yn defnyddio atchweliad llinellol i amcangyfrif bod prisiau cychwyn uwch yn lleihau tebygolrwydd gwerthu, a bod prisiau cychwyn uwch yn cynyddu'r pris gwerthu terfynol (yn amodol ar werthu). Drwy eu hunain, mae'r amcangyfrifon hyn - sy'n disgrifio perthynas linell ac yn cael eu cyfartaledd dros yr holl gynhyrchion - nid ydynt yn ddiddorol i gyd. Yna, roedd Einav a chydweithwyr yn defnyddio maint enfawr eu data i greu amrywiaeth o amcangyfrifon mwy cynnil. Er enghraifft, trwy amcangyfrif yr effaith ar wahân ar gyfer amrywiaeth o brisiau cychwyn gwahanol, canfuwyd bod y berthynas rhwng pris prisiau a phrisiau gwerthu yn nonlinear (ffigur 2.9). Yn benodol, am brisiau cychwyn rhwng 0.05 a 0.85, prin yw'r effaith ar y pris cychwyn ar bris gwerthu, canfyddiad a gafodd ei golli yn llwyr gan eu dadansoddiad cyntaf. Yn ychwanegol, yn hytrach na chyfartaledd dros yr holl eitemau, amcangyfrifodd Einav a chydweithwyr effaith pris cychwyn ar gyfer 23 categori gwahanol o eitemau (ee cyflenwadau anifeiliaid anwes, electroneg a chofnodion chwaraeon) (ffigur 2.10). Mae'r amcangyfrifon hyn yn dangos bod llai o effaith ar eitemau mwy nodedig, megis pris cychwyn cofiadwy, ar debygolrwydd gwerthu a mwy o effaith ar y pris gwerthu terfynol. At hynny, ar gyfer eitemau mwy wedi'u hachodau - megis DVDs - nid yw'r pris cychwyn bron yn cael effaith ar y pris terfynol. Mewn geiriau eraill, mae cyfartaledd sy'n cyfuno canlyniadau o 23 categori gwahanol o eitemau yn cuddio gwahaniaethau pwysig rhwng yr eitemau hyn.
Hyd yn oed os nad oes gennych ddiddordeb arbennig mewn arwerthiannau ar eBay, mae'n rhaid ichi edmygu'r ffordd y mae ffigwr 2.9 a ffigwr 2.10 yn cynnig dealltwriaeth gyfoethocach o eBay nag amcangyfrifon syml sy'n disgrifio perthynas linell ac yn cyfuno llawer o wahanol gategorïau o eitemau. Ymhellach, er y byddai'n bosibl yn wyddonol gynhyrchu'r amcangyfrifon mwy cynnil hyn gydag arbrofion maes, byddai'r gost yn golygu bod y fath arbrofion yn amhosibl yn anfodlon.
Fel gydag arbrofion naturiol, mae nifer o ffyrdd y gall cydweddu arwain at amcangyfrifon gwael. Rwy'n credu mai'r pryder mwyaf o ran amcangyfrifon cyfatebol yw y gallant gael eu rhagfarnu gan bethau na chawsant eu defnyddio yn y cyfatebol. Er enghraifft, yn eu prif ganlyniadau, roedd Einav a chydweithwyr yn cyfateb yn union ar bedair nodwedd: rhif adnabod y gwerthwr, categori eitem, teitl yr eitem, a'r is-deitl. Pe bai'r eitemau'n wahanol mewn ffyrdd na chawsant eu defnyddio ar gyfer paru, yna gallai hyn greu cymhariaeth annheg. Er enghraifft, os yw prisiau "budgetgolfer" wedi gostwng ar gyfer y Gyrrwr Llosgi Taylormade 09 yn y gaeaf (pan fo clybiau golff yn llai poblogaidd), fe allai ymddangos bod prisiau cychwyn is yn arwain at brisiau terfynol is, pan fyddai hyn yn wir yn artiffisial o amrywiad tymhorol yn y galw. Un dull o fynd i'r afael â'r pryder hwn yw ceisio sawl math gwahanol o gyfateb. Er enghraifft, ailadroddodd Einav a chydweithwyr eu dadansoddiad wrth amrywio'r ffenestr amser a ddefnyddir ar gyfer cyfateb (roedd setiau cyfatebol yn cynnwys eitemau ar werth o fewn blwyddyn, o fewn mis, ac yn gyfoes). Yn ffodus, cawsant ganlyniadau tebyg ar gyfer pob ffenestr amser. Mae pryder pellach gyda chyfateb yn deillio o ddehongli. Mae'r amcangyfrifon o gyfateb yn unig yn berthnasol i ddata cyfatebol; nid ydynt yn berthnasol i'r achosion na ellid eu cyfateb. Er enghraifft, trwy gyfyngu ar eu hymchwil i eitemau a oedd â rhestrau lluosog, mae Einav a chydweithwyr yn canolbwyntio ar werthwyr proffesiynol a lled-broffesiynol. Felly, wrth ddehongli'r cymariaethau hyn, mae'n rhaid inni gofio eu bod ond yn berthnasol i'r is-set hon o eBay.
Mae cydweddu'n strategaeth bwerus ar gyfer dod o hyd i gymariaethau teg mewn data nad yw'n arbrofol. I lawer o wyddonwyr cymdeithasol, mae cydweddu yn teimlo'n ail-arbrofol i arbrofion, ond mae hynny'n gred y gellir ei ddiwygio, ychydig. Gallai cydweddu mewn data enfawr fod yn well na nifer fechan o arbrofion maes pan fo heterogeneity mewn effeithiau yn bwysig a (2) mesurwyd y newidynnau pwysig sydd eu hangen ar gyfer paru. Mae Tabl 2.4 yn darparu enghreifftiau eraill o sut y gellir defnyddio cyfatebol gyda ffynonellau data mawr.
Canolbwynt sylweddol | Ffynhonnell ddata fawr | Cyfeirnod |
---|---|---|
Effaith saethu ar drais yr heddlu | Cofnodion stopio a ffrio | Legewie (2016) |
Effaith 11 Medi, 2001 ar deuluoedd a chymdogion | Cofnodion pleidleisio a chofnodion rhoddion | Hersh (2013) |
Ymagwedd gymdeithasol | Cyfathrebu a data mabwysiadu cynnyrch | Aral, Muchnik, and Sundararajan (2009) |
I gloi, mae amcangyfrif effeithiau achosol o ddata nad ydynt yn arbrofol yn anodd, ond gellir defnyddio dulliau megis arbrofion naturiol ac addasiadau ystadegol (ee, paru). Mewn rhai sefyllfaoedd, gall yr ymagweddau hyn fynd yn wael o'i le, ond pan gaiff eu defnyddio'n ofalus, gall yr ymagweddau hyn fod yn ddefnyddiol yn ategu'r dull arbrofol y disgrifiaf ym mhennod 4. Ymhellach, mae'r ddau ddull hwn yn ymddangos yn arbennig o debyg o gael budd o dwf bob amser- ymlaen, systemau data mawr.