Un math o arsylwi nad yw wedi'i gynnwys yn y bennod hon yw ethnograffeg. Am ragor o wybodaeth am ethnograffeg mewn mannau digidol, gweler Boellstorff et al. (2012) , ac am fwy ar ethnograffeg mewn mannau digidol a chorfforol cymysg, gweler Lane (2016) .
Nid oes diffiniad consensws sengl o "ddata mawr," ond mae'n ymddangos bod llawer o ddiffiniadau'n canolbwyntio ar y "3 Vs": cyfaint, amrywiaeth a chyflymder (ee, Japec et al. (2015) ). Gweler De Mauro et al. (2015) am adolygiad o ddiffiniadau.
Mae fy nghynhwysiad o ddata gweinyddol y llywodraeth yn y categori data mawr yn anarferol, er bod eraill hefyd wedi gwneud yr achos hwn, gan gynnwys Legewie (2015) , Connelly et al. (2016) , ac Einav and Levin (2014) . Am ragor o wybodaeth am werth data gweinyddol y llywodraeth ar gyfer ymchwil, gweler Card et al. (2010) , Adminstrative Data Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .
I weld ymchwil weinyddol o'r tu mewn i system ystadegol y llywodraeth, yn enwedig Biwro Cyfrifiad yr UD, gweler Jarmin and O'Hara (2016) . Am driniaeth ar hyd y llyfr o'r ymchwil cofnodion gweinyddol yn Ystadegau Sweden, gweler Wallgren and Wallgren (2007) .
Yn y bennod, cymerais fyr o arolwg traddodiadol fel yr Arolwg Cymdeithasol Cyffredinol (GSS) gyda ffynhonnell ddata cyfryngau cymdeithasol fel Twitter. I gael cymhariaeth drylwyr a gofalus rhwng arolygon traddodiadol a data cyfryngau cymdeithasol, gweler Schober et al. (2016) .
Disgrifiwyd y 10 nodwedd hyn o ddata mawr mewn amrywiaeth o wahanol ffyrdd gan amrywiaeth o awduron gwahanol. Mae'r ysgrifennu a ddylanwadodd ar fy meddwl ar y materion hyn yn cynnwys Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , a Goldstone and Lupyan (2016) .
Drwy gydol y bennod hon, rwyf wedi defnyddio'r term olion digidol , sydd, yn fy marn i, yn gymharol niwtral. Tymor poblogaidd arall ar gyfer olion digidol yw olion troed digidol (Golder and Macy 2014) , ond fel Hal Abelson, Ken Ledeen, a Harry Lewis (2008) , dywedir mai tymor ôl -byth digidol yw term mwy priodol. Pan fyddwch chi'n creu olion traed, rydych chi'n ymwybodol o'r hyn sy'n digwydd ac ni ellir olrhain eich olion traed i chi yn gyffredinol. Nid yw'r un peth yn wir am eich olion digidol. Mewn gwirionedd, rydych chi'n gadael olion drwy'r amser nad oes gennych lawer iawn o wybodaeth amdano. Ac, er nad oes gan eich olion hyn eich enw arnynt, gellir eu cysylltu yn ôl â chi yn aml. Mewn geiriau eraill, maent yn fwy fel olion bysedd: yn anweledig ac yn adnabod yn bersonol.
Am ragor o wybodaeth am pam mae setiau data mawr yn peri profion ystadegol yn broblem, gweler M. Lin, Lucas, and Shmueli (2013) a McFarland and McFarland (2015) . Dylai'r materion hyn arwain ymchwilwyr i ganolbwyntio ar arwyddocâd ymarferol yn hytrach nag arwyddocâd ystadegol.
Am ragor o wybodaeth am sut y cafodd Raj Chetty a chydweithwyr fynediad at y cofnodion treth, gweler Mervis (2014) .
Gall setiau data mawr hefyd greu problemau cyfrifiannol sydd y tu hwnt i allu cyfrifiadur unigol. Felly, mae ymchwilwyr sy'n gwneud cyfrifiadau ar setiau data mawr yn aml yn lledaenu'r gwaith dros lawer o gyfrifiaduron, sef proses a elwir weithiau'n rhaglennu cyfochrog . Ar gyfer cyflwyniad i raglennu cyfochrog, yn arbennig iaith o'r enw Hadoop, gweler Vo and Silvia (2016) .
Wrth ystyried data bob amser, mae'n bwysig ystyried a ydych chi'n cymharu'r union bobl dros amser neu a ydych chi'n cymharu rhywfaint o grŵp newidiol o bobl; gweler er enghraifft, Diaz et al. (2016) .
Llyfr clasurol ar fesurau anweithredol yw Webb et al. (1966) . Mae'r enghreifftiau yn y llyfr hwnnw'n rhagflaenu'r oes ddigidol, ond maent yn dal i oleuo. Am enghreifftiau o bobl sy'n newid eu hymddygiad oherwydd presenoldeb gwyliadwriaeth màs, gweler Penney (2016) a Brayne (2014) .
Mae cysylltedd agos ag adweithiaeth â'r hyn y mae ymchwilwyr yn galw ar effeithiau galw (Orne 1962; Zizzo 2010) ac effaith Hawthorne (Adair 1984; Levitt and List 2011) .
Am fwy o gysylltiad cofnod, gweler Dunn (1946) a Fellegi and Sunter (1969) (hanesyddol) a Larsen and Winkler (2014) (modern). Datblygwyd dulliau tebyg hefyd mewn cyfrifiaduron o dan enwau megis diddymu data, adnabod enghreifftiau, cyfateb enwau, canfod dyblyg, a chanfod cofnodion dyblyg (Elmagarmid, Ipeirotis, and Verykios 2007) . Mae yna ddulliau diogelu preifatrwydd hefyd i gofnodi cysylltiad nad oes angen trosglwyddo gwybodaeth yn bersonol yn ei adnabod (Schnell 2013) . Mae Facebook hefyd wedi datblygu proses i gysylltu eu cofnodion i ymddygiad pleidleisio; gwnaethpwyd hyn i werthuso arbrawf y byddaf yn dweud wrthych amdano ym mhennod 4 (Bond et al. 2012; Jones et al. 2013) .
Am ragor o wybodaeth am ddilysrwydd adeiladu, gweler pennod 3 Shadish, Cook, and Campbell (2001) .
Am ragor o wybodaeth ar y botwm chwilio chwilio AOL, gweler Ohm (2010) . Rwy'n cynnig cyngor am bartneriaeth gyda chwmnļau a llywodraethau ym mhennod 4 pan ddisgrifiaf arbrofion. Mae nifer o awduron wedi mynegi pryder ynghylch ymchwil sy'n dibynnu ar ddata anhygyrch, gweler Huberman (2012) a boyd and Crawford (2012) .
Un ffordd dda i ymchwilwyr prifysgol i gaffael mynediad data yw gweithio mewn cwmni fel intern neu ymchwilydd ymweld. Yn ogystal â galluogi mynediad data, bydd y broses hon hefyd yn helpu'r ymchwilydd ddysgu mwy am sut y data ei greu, sy'n bwysig ar gyfer dadansoddi.
O ran cael mynediad i ddata'r llywodraeth, mae Mervis (2014) trafod sut y cafodd Raj Chetty a chydweithwyr fynediad at y cofnodion treth a ddefnyddiwyd yn eu hymchwil ar symudedd cymdeithasol.
Am ragor o wybodaeth am hanes "cynrychiolaeth" fel cysyniad, gweler Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , a Kruskal and Mosteller (1980) .
Roedd fy crynodebau o waith Eira a gwaith Doll a Hill yn gryno. Am ragor o wybodaeth am waith Eira ar y golera, gweler Freedman (1991) . Am ragor o wybodaeth am Astudiaeth Meddygon Prydain, gweler Doll et al. (2004) a Keating (2014) .
Bydd llawer o ymchwilwyr yn synnu i ddysgu, er bod Doll a Hill wedi casglu data gan feddygon benywaidd ac o feddygon dan 35 oed, ni ddefnyddiwyd y data hwn yn fwriadol yn eu dadansoddiad cyntaf. Wrth iddynt ddadlau: "Gan fod canser yr ysgyfaint yn eithaf prin mewn menywod a dynion o dan 35 oed, mae'n annhebygol y bydd ffigyrau defnyddiol yn y grwpiau hyn am rai blynyddoedd i ddod. Yn yr adroddiad rhagarweiniol hwn, rydym felly wedi cyfyngu ein sylw at ddynion 35 oed a throsodd. " Rothman, Gallacher, and Hatch (2013) , sydd â'r teitl ysgogol" Pam y dylid osgoi cynrychiolaeth, "gwneud dadl fwy cyffredinol am werth yn fwriadol yn creu data nad yw'n gynrychiadol.
Mae diffyg cynrychiolaeth yn broblem fawr i ymchwilwyr a llywodraethau sy'n dymuno gwneud datganiadau am boblogaeth gyfan. Mae hyn yn llai o bryder i gwmnïau, sydd fel arfer yn canolbwyntio ar eu defnyddwyr. Am ragor o wybodaeth am sut mae Ystadegau Iseldiroedd yn ystyried y mater o gynrychiolaeth ddigonol o ddata mawr busnes, gweler Buelens et al. (2014) .
Am enghreifftiau o ymchwilwyr sy'n mynegi pryder am natur anhygoelol ffynonellau data mawr, gweler boyd and Crawford (2012) , K. Lewis (2015b) , a Hargittai (2015) .
Am gymhariaeth fanylach o nodau arolygon cymdeithasol ac ymchwil epidemiolegol, gweler Keiding and Louis (2016) .
Am ragor o wybodaeth am ymdrechion i ddefnyddio Twitter i wneud cyffrediniadau allan o sampl am bleidleiswyr, yn enwedig yr achos o etholiad Almaeneg 2009, gweler Jungherr (2013) a Jungherr (2015) . Yn dilyn gwaith Tumasjan et al. (2010) ymchwilwyr o gwmpas y byd wedi defnyddio dulliau ffansio-megis defnyddio dadansoddiad teimladau i wahaniaethu rhwng syniadau cadarnhaol a negyddol y partïon-er mwyn gwella gallu data Twitter i ragfynegi amrywiaeth o wahanol fathau o etholiadau (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Dyma sut mae Huberty (2015) crynhoi canlyniadau'r ymdrechion hyn i ragfynegi etholiadau:
"Mae pob dull rhagfynegi a adnabyddir yn seiliedig ar gyfryngau cymdeithasol wedi methu wrth ofyn am ofynion rhagolygon etholiadol gwirioneddol sy'n edrych ymlaen. Ymddengys bod y methiannau hyn o ganlyniad i eiddo sylfaenol cyfryngau cymdeithasol, yn hytrach nag anawsterau methodolegol neu algorithmig. Yn fyr, nid yw cyfryngau cymdeithasol, ac yn ôl pob tebyg, yn cynnig darlun cynrychiadol, diduedd, cynrychioliadol o'r etholaeth; ac mae gan samplau cyfleustodau o gyfryngau cymdeithasol ddigon o ddata i osod y problemau hyn ar ôl hoc. "
Ym mhennod 3, disgrifiaf samplu ac amcangyfrif yn llawer mwy manwl. Hyd yn oed os nad yw'r data'n gynrychiadol, o dan amodau penodol, gellir pwysoli arnynt i gynhyrchu amcangyfrifon da.
Mae drifft y system yn anodd iawn i'w weld o'r tu allan. Fodd bynnag, mae'r prosiect MovieLens (a drafodwyd ymhellach ym mhennod 4) wedi'i redeg am fwy na 15 mlynedd gan grŵp ymchwil academaidd. Felly, maent wedi gallu dogfennu a rhannu gwybodaeth am y ffordd y mae'r system wedi esblygu dros amser a sut y gallai hyn gael effaith ar ddadansoddiad (Harper and Konstan 2015) .
Mae nifer o ysgolheigion wedi canolbwyntio ar drifft yn Twitter: Liu, Kliman-Silver, and Mislove (2014) a Tufekci (2014) .
Un dull o ymdrin â drifft poblogaeth yw creu panel o ddefnyddwyr, sy'n caniatáu i ymchwilwyr astudio'r un bobl dros amser, gweler Diaz et al. (2016) .
Clywais y term "confounded algorithmically" a ddefnyddiwyd gan Jon Kleinberg mewn sgwrs, ond yn anffodus, nid wyf yn cofio pryd neu ble rhoddwyd y sgwrs. Y tro cyntaf i mi weld y term mewn print oedd Anderson et al. (2015) , sy'n drafodaeth ddiddorol o sut y gallai'r algorithmau a ddefnyddir gan safleoedd dyddio gymhlethu gallu ymchwilwyr i ddefnyddio data o'r gwefannau hyn i astudio dewisiadau cymdeithasol. Codwyd y pryder hwn gan K. Lewis (2015a) mewn ymateb i Anderson et al. (2014) .
Yn ogystal â Facebook, mae Twitter hefyd yn argymell i bobl y mae defnyddwyr yn eu dilyn yn seiliedig ar y syniad o gau triadig; gweler Su, Sharma, and Goel (2016) . Felly mae lefel y cau triadig yn Twitter yn gyfuniad o rywfaint o duedd dynol tuag at gau triadig a rhywfaint o duedd algorithmig i hyrwyddo cau triadig.
I gael mwy o wybodaeth am berfformio, yn enwedig y syniad bod rhai damcaniaethau gwyddoniaeth gymdeithasol yn "beiriannau nad camerâu" (hy, maent yn siapio'r byd yn hytrach na'i ddisgrifio yn unig) - yn ymweld â Mackenzie (2008) .
Mae asiantaethau ystadegol y llywodraeth yn galw ar ddata data ystadegol sy'n glanhau data . De Waal, Puts, and Daas (2014) disgrifio technegau golygu data ystadegol a ddatblygwyd ar gyfer data'r arolwg ac yn archwilio i ba raddau y maent yn berthnasol i ffynonellau data mawr, ac mae Puts, Daas, and Waal (2015) cyflwyno rhai o'r un syniadau ar gyfer cynulleidfa fwy cyffredinol.
Am drosolwg o fotiau cymdeithasol, gweler Ferrara et al. (2016) . Am rai enghreifftiau o astudiaethau sy'n canolbwyntio ar ddod o hyd i sbam yn Twitter, gweler Clark et al. (2016) a Chu et al. (2012) . Yn olaf, Subrahmanian et al. (2016) disgrifio canlyniad Her DARPA Twitter Bot, cydweithrediad màs wedi'i gynllunio i gymharu dulliau o ganfod botiau ar Twitter.
Ohm (2015) adolygu ymchwil cynharach ar y syniad o wybodaeth sensitif ac yn cynnig prawf aml-ffactor. Y pedwar ffactor y mae'n eu cynnig yw maint niwed, tebygolrwydd niwed, presenoldeb perthynas gyfrinachol, ac a yw'r risg yn adlewyrchu pryderon prifysgol.
Roedd astudiaeth Farber o dacsis yn Efrog Newydd wedi'i seilio ar astudiaeth gynharach gan Camerer et al. (1997) a ddefnyddiodd dair sampl cyfleustra gwahanol o daflenni taith papur. Canfu'r astudiaeth gynharach hon fod gyrwyr yn ymddangos fel rhai sy'n ennill targed: roeddent yn gweithio llai ar ddyddiau lle roedd eu cyflogau yn uwch.
Yn y gwaith dilynol, mae'r Brenin a chydweithwyr wedi archwilio ymhellach ar-lein censorship yn Tsieina (King, Pan, and Roberts 2014, [@king_how_2016] ) . Ar gyfer dull cysylltiedig o fesur censoriaeth ar-lein yn Tsieina, gweler Bamman, O'Connor, and Smith (2012) . Am ragor o wybodaeth am ddulliau ystadegol fel yr un a ddefnyddir yn King, Pan, and Roberts (2013) i amcangyfrif teimlad y 11 miliwn o swyddi, gweler Hopkins and King (2010) . I gael rhagor o wybodaeth am ddysgu dan oruchwyliaeth, gweler James et al. (2013) (llai technegol) a Hastie, Tibshirani, and Friedman (2009) (mwy technegol).
Mae rhagweld yn rhan fawr o wyddoniaeth data diwydiannol (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un math o ragfynegiad sy'n cael ei wneud yn aml gan ymchwilwyr cymdeithasol yw rhagfynegi demograffig; gweler, er enghraifft, Raftery et al. (2012) .
Nid Google Flu Trends oedd y prosiect cyntaf i ddefnyddio data chwilio i gyffredinrwydd ffliw nawr. Mewn gwirionedd, mae ymchwilwyr yn yr Unol Daleithiau (Polgreen et al. 2008; Ginsberg et al. 2009) a Sweden (Hulth, Rydevik, and Linde 2009) wedi canfod bod rhai termau chwilio (ee "ffliw") yn rhagweld gwyliadwriaeth iechyd cyhoeddus cenedlaethol data cyn iddo gael ei ryddhau. O ganlyniad, mae llawer o brosiectau eraill wedi ceisio defnyddio data olrhain digidol ar gyfer canfod gwylio clefydau; gweler Althouse et al. (2015) gyfer adolygiad.
Yn ychwanegol at ddefnyddio data olrhain digidol i ragweld canlyniadau iechyd, bu llawer iawn o waith hefyd gan ddefnyddio data Twitter i ragweld canlyniadau etholiadol; am adolygiadau gweler Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (pennod 7), a Huberty (2015) . Mae nawr dangosyddion economaidd, fel cynnyrch domestig gros (GDP), hefyd yn gyffredin mewn banciau canolog, gweler Bańbura et al. (2013) . mae tabl 2.8 yn cynnwys ychydig o enghreifftiau o astudiaethau sy'n defnyddio rhyw fath o olrhain digidol i ragweld rhyw fath o ddigwyddiad yn y byd.
Olrhain digidol | Canlyniad | Enwi |
---|---|---|
Refeniw swyddfa bocs o ffilmiau yn yr Unol Daleithiau | Asur and Huberman (2010) | |
Chwiliadau chwilio | Gwerthu ffilmiau, cerddoriaeth, llyfrau a gemau fideo yn yr Unol Daleithiau | Goel et al. (2010) |
Cyfartaledd Diwydiannol Dow Jones (farchnad stoc yr Unol Daleithiau) | Bollen, Mao, and Zeng (2011) | |
Cyfryngau cymdeithasol a chwiliadau chwilio | Arolygon o ddamweiniau buddsoddwyr a marchnadoedd stoc yn yr Unol Daleithiau, y Deyrnas Unedig, Canada, a Tsieina | Mao et al. (2015) |
Chwiliadau chwilio | Cyffredinrwydd Twymyn Dengue yn Singapore a Bangkok | Althouse, Ng, and Cummings (2011) |
Yn olaf, mae Jon Kleinberg a chydweithwyr (2015) wedi nodi bod problemau rhagolygon yn dod i mewn i ddau gategori is-wahanol ac y mae gwyddonwyr cymdeithasol wedi tueddu i ganolbwyntio ar un ac anwybyddu'r llall. Dychmygwch un gwneuthurwr polisi, byddaf yn ei galw Anna, sy'n wynebu sychder a rhaid iddo benderfynu a ddylid llogi siâp i wneud dawns glaw i gynyddu'r siawns o law. Rhaid i gwneuthurwr polisi arall, byddaf yn ei galw Betty, yn penderfynu a ddylid cymryd ambarél i weithio er mwyn osgoi gwlyb ar y ffordd adref. Gall Anna a Betty wneud penderfyniad gwell os ydynt yn deall y tywydd, ond mae angen iddynt wybod gwahanol bethau. Mae angen i Anna ddeall a yw'r dawns glaw yn achosi glaw. Nid yw Betty, ar y llaw arall, yn gorfod deall unrhyw beth am achosoldeb; mae hi angen dim ond rhagolygon cywir. Mae ymchwilwyr cymdeithasol yn aml yn canolbwyntio ar y problemau fel yr un a wynebir gan Anna-mae Kleinberg a chydweithwyr yn galw problemau polisi 'tebyg i ddawnsio glaw' - gan eu bod yn cynnwys cwestiynau am achosoldeb. Mae cwestiynau fel yr un a wynebir gan Betty-a Kleinberg a chydweithwyr yn galw am broblemau "tebyg i'r ymbarél" yn gallu bod yn eithaf pwysig hefyd, ond wedi cael llawer llai o sylw gan ymchwilwyr cymdeithasol.
Roedd gan y cylchgrawn PS Political Science symposiwm ar ddata mawr, gwrthsyniad achosol, a theori ffurfiol, a Clark and Golder (2015) crynhoi pob cyfraniad. Roedd gan y Trafodion newyddion Academi Gwyddorau Cenedlaethol Unol Daleithiau America symposiwm ar ddyfyniaeth achosol a data mawr, ac mae Shiffrin (2016) crynhoi pob cyfraniad. Ar gyfer dulliau dysgu peiriannau sy'n ceisio canfod arbrofion naturiol yn awtomatig y tu mewn i ffynonellau data mawr, gweler Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , a Sharma, Hofman, and Watts (2016) .
O ran arbrofion naturiol, mae Dunning (2012) darparu triniaeth cychwynnol, hyd-lyfr gyda llawer o enghreifftiau. Am farn amheus o arbrofion naturiol, gweler Rosenzweig and Wolpin (2000) (economeg) neu Sekhon and Titiunik (2012) (gwyddoniaeth wleidyddol). Deaton (2010) a Heckman and Urzúa (2010) dadlau y gall canolbwyntio ar arbrofion naturiol arwain ymchwilwyr i ganolbwyntio ar amcangyfrif effeithiau achosol anhygoel; Imbens (2010) cownter y dadleuon hyn gyda golwg fwy optimistaidd o werth arbrofion naturiol.
Wrth ddisgrifio sut y gallai ymchwilydd fynd rhag amcangyfrif effaith ei ddrafftio i effaith gwasanaethu, roeddwn yn disgrifio techneg o'r enw newidynnau offerynnol . Imbens and Rubin (2015) , yn eu penodau 23 a 24, yn rhoi cyflwyniad ac yn defnyddio'r loteri drafft fel enghraifft. Gelwir yr effaith ar wasanaeth milwrol ar gydymdeimlad weithiau yn effaith achosol cyfartalog cydymffurfio (CAcE) ac weithiau yr effaith driniaeth gyfartalog leol (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , a Bollen (2012) cynnig adolygiadau o'r defnydd o newidynnau offerynnol mewn gwyddoniaeth wleidyddol, economeg a chymdeithaseg, ac mae Sovey and Green (2011) darparu "rhestr wirio darllenydd" ar gyfer gwerthuso astudiaethau gan ddefnyddio newidynnau offerynnol.
Mae'n ymddangos nad oedd loteri drafft 1970, mewn gwirionedd ar hap yn iawn; roedd gwahaniaethau bach o hapwedd pur (Fienberg 1971) . Berinsky and Chatfield (2015) dadlau nad yw'r gwyriad fach hon yn bwysig iawn ac yn trafod pwysigrwydd hapoli'n briodol.
O ran cydweddu, gweler Stuart (2010) am adolygiad optimistaidd, a Sekhon (2009) am adolygiad pesimistaidd. Am ragor o wybodaeth am gyfateb fel math o docio, gweler Ho et al. (2007) . Mae dod o hyd i gêm sengl berffaith unigol yn aml yn anodd, ac mae hyn yn cyflwyno nifer o gymhlethdodau. Yn gyntaf, pan nad oes union gemau ar gael, mae angen i ymchwilwyr benderfynu sut i fesur y pellter rhwng dwy uned ac os yw pellter penodol yn ddigon agos. Mae ail gymhlethdod yn codi os yw ymchwilwyr am ddefnyddio llu o gemau ar gyfer pob achos yn y grŵp triniaeth, gan y gall hyn arwain at amcangyfrifon mwy manwl. Mae'r ddau fater hyn, yn ogystal ag eraill, yn cael eu disgrifio'n fanwl ym mhennod 18 Imbens and Rubin (2015) . Gweler hefyd Rhan II o ( ??? ) .
Gweler Dehejia and Wahba (1999) am enghraifft lle roedd dulliau cyfatebol yn gallu cynhyrchu amcangyfrifon tebyg i'r rhai o arbrawf a reolir ar hap. Ond, gweler Arceneaux, Gerber, and Green (2006) ac Arceneaux, Gerber, and Green (2010) am enghreifftiau lle methodd dulliau cyfatebu atgynhyrchu meincnod arbrofol.
Rosenbaum (2015) a Hernán and Robins (2016) cynnig cyngor arall i ddarganfod cymariaethau defnyddiol o fewn ffynonellau data mawr.