Mae data nad yw'n gynrychiadol yn ddrwg i gyffrediniadau allan-o-sampl, ond gall fod yn eithaf defnyddiol ar gyfer cymariaethau o fewn sampl.
Mae rhai gwyddonwyr cymdeithasol yn gyfarwydd â gweithio gyda data sy'n deillio o sampl hap probabilistic o boblogaeth ddiffiniedig, fel yr holl oedolion mewn gwlad benodol. Gelwir y math hwn o ddata yn ddata cynrychioliadol oherwydd bod y sampl "yn cynrychioli" y boblogaeth fwy. Mae llawer o ymchwilwyr yn gwobrwyo data cynrychiolwyr, ac i rai, mae data cynrychioliadol yn gyfystyr â gwyddoniaeth trwyadl tra bod data anadweithredol yn gyfystyr â sloppiness. Ar y mwyaf eithafol, ymddengys bod rhai amheuwyr yn credu na ellir dysgu dim o ddata nad yw'n gynrychioliadol. Os yw'n wir, mae'n ymddangos y byddai hyn yn cyfyngu'n ddifrifol beth y gellir ei ddysgu o ffynonellau data mawr oherwydd nad yw llawer ohonynt yn gynrychiadol. Yn ffodus, dim ond yn rhannol iawn y mae'r amheuwyr hyn yn rhannol iawn. Mae yna rai nodau ymchwil y mae data nad ydynt yn gynrychioliadol yn amlwg yn addas ar eu cyfer, ond mae eraill y gallai fod mewn gwirionedd yn eithaf defnyddiol.
I ddeall y gwahaniaeth hwn, gadewch i ni ystyried clasur gwyddonol: astudiaeth John Snow am yr achosion o golera 1853-54 yn Llundain. Ar y pryd, roedd llawer o feddygon yn credu bod "aer gwael" yn cael ei achosi gan golera, ond roedd Snow yn credu ei fod yn glefyd heintus, ac efallai ei ddosbarthu gan ddŵr yfed carthion. I brofi'r syniad hwn, manteisiodd Eira ar yr hyn y gallem nawr ei alw ar arbrawf naturiol. Cymharodd gyfraddau colera aelwydydd a wasanaethir gan ddau gwmni dŵr gwahanol: Lambeth a Southwark a Vauxhall. Roedd y cwmnïau hyn yn gwasanaethu aelwydydd tebyg, ond roeddent yn wahanol mewn un ffordd bwysig: ym 1849-ychydig flynyddoedd cyn i'r epidemig ddechrau - symudodd Lambeth ei phwynt derbyn i fyny'r afon o'r prif ollyngiad carthffosiaeth yn Llundain, tra bod Southwark a Vauxhall wedi gadael eu bibell dderbyn i lawr yr afon o'r rhyddhau carthffosiaeth. Pan gymerodd Eira y cyfraddau marwolaeth o golera mewn cartrefi a wasanaethir gan y ddau gwmni, canfu'r ffaith bod cwsmeriaid Southwark a Vauxhall-y cwmni a oedd yn darparu cwsmeriaid â dŵr carthffosiaeth - 10 gwaith yn fwy tebygol o farw o golera. Mae'r canlyniad hwn yn rhoi tystiolaeth wyddonol gref am ddadl Eira am achos colera, er nad yw'n seiliedig ar sampl gynrychioliadol o bobl yn Llundain.
Fodd bynnag, ni fyddai'r data o'r ddau gwmni hyn yn ddelfrydol ar gyfer ateb cwestiwn gwahanol: beth oedd nifer yr achlysur yn Llundain yn ystod yr achosion? Ar gyfer yr ail gwestiwn hwnnw, sydd hefyd yn bwysig, byddai'n llawer gwell cael sampl gynrychioliadol o bobl o Lundain.
Fel y mae gwaith yr Eira yn dangos, mae yna rai cwestiynau gwyddonol y gall data nad ydynt yn gynrychioliadol fod yn eithaf effeithiol ac mae eraill nad yw'n addas ar eu cyfer. Un ffordd amhriodol i wahaniaethu'r ddau fath o gwestiynau hyn yw bod rhai cwestiynau'n ymwneud â chymariaethau o fewn sampl ac mae rhai yn ymwneud â chyffrediniadau y tu allan i'r sampl. Gellir darlunio'r gwahaniaeth hwn ymhellach gan astudiaeth glasurol arall mewn epidemioleg: Astudiaeth Meddygon Prydain, a chwaraeodd ran bwysig wrth ddangos bod ysmygu'n achosi canser. Yn yr astudiaeth hon, dilynodd Richard Doll ac A. Bradford Hill tua 25,000 o feddygon gwrywaidd am nifer o flynyddoedd a chymharodd eu cyfraddau marwolaeth yn seiliedig ar y swm y maent yn ysmygu pan ddechreuodd yr astudiaeth. Canfu Doll a Hill (1954) berthynas amlygiad-ymateb cryf: po fwyaf oedd pobl yn ysmygu, y mwyaf tebygol y buont yn marw o ganser yr ysgyfaint. Wrth gwrs, byddai'n annoeth i amcangyfrif nifer yr achosion o ganser yr ysgyfaint ymhlith pob un o bobl Prydain yn seiliedig ar y grŵp hwn o feddygon gwrywaidd, ond mae'r cymhariaeth fewn-sampl yn dal i ddarparu tystiolaeth bod ysmygu yn achosi canser yr ysgyfaint.
Nawr fy mod wedi darlunio'r gwahaniaeth rhwng cymariaethau o fewn sampl a chyffrediniadau allan-o-sampl, mae dau gefeat mewn trefn. Yn gyntaf, mae yna gwestiynau'n naturiol ynghylch y graddau y bydd perthynas sy'n dal o fewn sampl o feddygon gwrywaidd Prydeinig hefyd o fewn sampl o feddygon benywaidd, meddygon Prydeinig neu weithwyr ffatri gwrywaidd Prydain neu weithwyr ffatri Almaeneg benywaidd neu lawer o grwpiau eraill. Mae'r cwestiynau hyn yn ddiddorol ac yn bwysig, ond maent yn wahanol i gwestiynau ynghylch y graddau y gallwn gyffredinoli o sampl i boblogaeth. Hysbyswch, er enghraifft, eich bod yn amau bod y berthynas rhwng ysmygu a chanser a gafwyd mewn meddygon gwrywaidd Prydain yn debyg yn y grwpiau eraill hyn. Nid yw eich gallu i wneud yr allosod hwn yn deillio o'r ffaith bod meddygon gwrywaidd Prydain yn sampl hap probabilistic o unrhyw boblogaeth; yn hytrach, mae'n deillio o ddealltwriaeth o'r mecanwaith sy'n cysylltu ysmygu a chanser. Felly, mae cyffredinoli o sampl i'r boblogaeth ohoni yn fater ystadegol i raddau helaeth, ond mae cwestiynau ynghylch trawsnewid patrwm a ddarganfuwyd mewn un grŵp i grŵp arall yn fater anstatudol yn bennaf (Pearl and Bareinboim 2014; Pearl 2015) .
Ar y pwynt hwn, gallai amheuaeth nodi bod y rhan fwyaf o batrymau cymdeithasol yn debyg o fod yn llai cludadwy ar draws grwpiau na'r berthynas rhwng ysmygu a chanser. Ac yr wyf yn cytuno. Yn y pen draw, mae'n rhaid i ni ba raddau y dylem ddisgwyl bod patrymau i'w gludo yn gwestiwn gwyddonol y mae'n rhaid ei benderfynu yn seiliedig ar theori a thystiolaeth. Ni ddylid tybio yn awtomatig y bydd patrymau yn cael eu cludo, ond ni ddylid tybio na fyddant yn cael eu cludo. Bydd y cwestiynau braidd yn haniaethol am drafnidiaeth yn gyfarwydd â chi os ydych wedi dilyn y dadleuon ynghylch faint y gall ymchwilwyr ei ddysgu am ymddygiad dynol trwy astudio myfyrwyr israddedig (Sears 1986, [@henrich_most_2010] ) . Er gwaethaf y dadleuon hyn, fodd bynnag, byddai'n afresymol dweud na all ymchwilwyr ddysgu unrhyw beth rhag astudio myfyrwyr israddedig.
Yr ail cafeat yw nad yw'r rhan fwyaf o ymchwilwyr â data nad ydynt yn gynrychiadol yn mor ofalus â Snow neu Doll and Hill. Felly, i ddarlunio beth all fynd yn anghywir pan fydd ymchwilwyr yn ceisio gwneud cyffredinoliad allan o sampl o ddata nad yw'n gynrychiolaeth, hoffwn ddweud wrthych am astudiaeth o etholiad seneddol Almaeneg 2009 gan Andranik Tumasjan a chydweithwyr (2010) . Trwy ddadansoddi mwy na 100,000 o daflenni, canfuwyd bod cyfran y tweets sy'n sôn am blaid wleidyddol yn cyfateb i gyfran y pleidleisiau a gafodd y blaid honno yn yr etholiad seneddol (ffigwr 2.3). Mewn geiriau eraill, ymddengys y gallai data Twitter, a oedd yn y bôn yn rhad ac am ddim, gymryd lle arolygon barn gyhoeddus traddodiadol, sy'n ddrud oherwydd eu pwyslais ar ddata cynrychioliadol.
O ystyried yr hyn y mae'n debyg y gwyddoch eisoes am Twitter, dylech fod yn amheus o'r canlyniad hwn ar unwaith. Nid oedd Almaenwyr ar Twitter yn 2009 yn sampl ar hap rhagbwyso o bleidleiswyr yn yr Almaen, a gallai cefnogwyr rhai partïon tweetu am wleidyddiaeth yn llawer mwy aml na chefnogwyr partïon eraill. Felly, mae'n ymddangos yn syndod y byddai pob un o'r rhagfarniadau posibl y gallech chi eu dychmygu yn canslo rhywsut fel y byddai'r data hwn yn adlewyrchu'n uniongyrchol i bleidleiswyr yr Almaen. Mewn gwirionedd, mae'r canlyniadau yn Tumasjan et al. (2010) yn rhy dda i fod yn wir. Pwysleisiodd papur dilynol gan Andreas Jungherr, Pascal Jürgens, a Harald Schoen (2012) fod y dadansoddiad gwreiddiol wedi gwahardd y blaid wleidyddol a oedd wedi dweud fwyaf amdano ar Twitter: y Blaid Môr-ladron, parti bach sy'n ymladd â rheoliad y llywodraeth o'r Rhyngrwyd. Pan gynhwyswyd y Blaid Môr-ladron yn y dadansoddiad, mae Twitter yn ymddangos yn rhagfynegwr ofnadwy o ganlyniadau etholiad (ffigwr 2.3). Fel y mae'r enghraifft hon yn ei ddangos, gall defnyddio ffynonellau data mawr nad ydynt yn gynrychioliadol i wneud cyffredinoliadau allan o samplau fynd yn anghywir. Hefyd, dylech sylwi bod y ffaith bod 100,000 tweets yn bôn yn amherthnasol: mae llawer o ddata nad yw'n gynrychiolaeth yn dal i fod yn ansicriadol, thema y byddaf yn dychwelyd iddo ym mhennod 3 pan fyddaf yn trafod arolygon.
I gloi, nid yw llawer o ffynonellau data mawr yn samplau cynrychioliadol o rai poblogaeth sydd wedi'u diffinio'n dda. Ar gyfer cwestiynau sy'n gofyn am gyffredinoli canlyniadau o'r sampl i'r boblogaeth y cafodd ei dynnu, mae hyn yn broblem ddifrifol. Ond ar gyfer cwestiynau am gymariaethau o fewn sampl, gall data anadweithredol fod yn bwerus, cyhyd â bod ymchwilwyr yn glir am nodweddion eu sampl a chefnogi hawliadau am gludiant gyda thystiolaeth damcaniaethol neu empirig. Yn wir, gobeithiaf y bydd ffynonellau data mawr yn galluogi ymchwilwyr i wneud mwy o gymharu mewn sampl mewn llawer o grwpiau nad ydynt yn gynrychiolaeth, a fy marn i yw y bydd amcangyfrifon gan lawer o wahanol grwpiau yn gwneud mwy i hyrwyddo ymchwil gymdeithasol nag amcangyfrif sengl o hap prawf sampl.