Setiau data mawr yn fodd i ben; nid ydynt yn ddiben ynddynt eu hunain.
Y nodwedd a drafodwyd yn fwyaf eang o ffynonellau data mawr yw eu bod yn Gronfa Loteri Fawr. Mae llawer o bapurau, er enghraifft, yn dechrau trwy drafod - ac weithiau'n brysio - faint o ddata a ddadansoddwyd ganddynt. Er enghraifft, roedd papur a gyhoeddwyd mewn Gwyddoniaeth yn astudio tueddiadau defnydd geiriau yn corpus Books Google yn cynnwys y canlynol (Michel et al. 2011) :
"Mae ein corpus yn cynnwys dros 500 biliwn o eiriau, yn Saesneg (361 biliwn), Ffrangeg (45 biliwn), Sbaeneg (45 biliwn), Almaeneg (37 biliwn), Tsieineaidd (13 biliwn), Rwsia (35 biliwn), a Hebraeg (2 biliwn). Cyhoeddwyd y gwaith hynaf yn y 1500au. Dim ond ychydig o lyfrau y mae'r degawdau cynnar yn eu cynrychioli, gan gynnwys sawl can mil o eiriau. Erbyn 1800, mae'r corff yn tyfu i 98 miliwn o eiriau y flwyddyn; erbyn 1900, 1.8 biliwn; a chan 2000, 11 biliwn. Ni ellir darllen y corff gan ddynol. Os ceisiwch ddarllen cofnodion Saesneg yn unig o'r flwyddyn 2000 yn unig, ar gyflymder rhesymol o 200 gair / min, heb ymyrraeth am fwyd neu gysgu, byddai'n cymryd 80 mlynedd. Mae dilyniant y llythrennau yn 1000 gwaith yn hwy na'r genom dynol: Os ysgrifennoch chi ef mewn llinell syth, byddai'n cyrraedd i'r Lleuad ac yn ôl 10 gwaith yn ôl. "
Mae graddfa'r data hwn yn sicr yn drawiadol, ac yr ydym i gyd yn ffodus bod tîm Google Books wedi rhyddhau'r data hyn i'r cyhoedd (mewn gwirionedd, mae rhai o'r gweithgareddau ar ddiwedd y bennod hon yn gwneud defnydd o'r data hwn). Ond, pryd bynnag y byddwch chi'n gweld rhywbeth fel hyn, dylech ofyn: a yw'r holl ddata hwnnw'n gwneud unrhyw beth mewn gwirionedd? A allent wneud yr un ymchwil petai'r data yn gallu cyrraedd y Lleuad ac yn ôl yn ôl unwaith yn unig? Beth os na all y data gyrraedd i ben Mount Everest neu ben y Tŵr Eiffel yn unig?
Yn yr achos hwn, mae gan eu hymchwil, mewn gwirionedd, rai canfyddiadau sydd angen corpus mawr o eiriau dros gyfnod hir. Er enghraifft, un peth y maent yn ei archwilio yw esblygiad gramadeg, yn enwedig newidiadau yng nghyfradd y cydgyfuniad afreolaidd ar lafar. Gan fod rhai verbau afreolaidd yn eithaf prin, mae angen llawer iawn o ddata i ganfod newidiadau dros amser. Yn rhy aml, fodd bynnag, ymddengys bod ymchwilwyr yn trin maint y ffynhonnell ddata fawr fel diwedd - "edrychwch faint o ddata y gallaf ei gasglu" - yn hytrach na chyfrwng at amcan gwyddonol pwysicaf.
Yn fy mhrofiad i, mae astudiaeth o ddigwyddiadau prin yn un o'r tri diwedd gwyddonol penodol y mae setiau data mawr yn tueddu i'w galluogi. Yr ail yw'r astudiaeth o heterogeneity, fel y gellir ei ddangos gan astudiaeth gan Raj Chetty a chydweithwyr (2014) ar symudedd cymdeithasol yn yr Unol Daleithiau. Yn y gorffennol, mae llawer o ymchwilwyr wedi astudio symudedd cymdeithasol trwy gymharu canlyniadau bywyd rhieni a phlant. Canfyddiad cyson o'r llenyddiaeth hon yw bod rhieni braint yn dueddol o gael plant sydd â manteision, ond mae cryfder y berthynas hon yn amrywio dros amser ac ar draws gwledydd (Hout and DiPrete 2006) . Yn fwy diweddar, fodd bynnag, roedd Chetty a chydweithwyr yn gallu defnyddio'r cofnodion treth gan 40 miliwn o bobl i amcangyfrif yr heterogeneity o ran symudedd rhwng cenedlaethau ar draws rhanbarthau yn yr Unol Daleithiau (ffigwr 2.1). Canfuwyd, er enghraifft, bod y tebygolrwydd bod plentyn yn cyrraedd y chwintel uchaf yn y dosbarthiad incwm cenedlaethol sy'n dechrau o deulu yn y chwintel isaf tua 13% yn San Jose, California, ond dim ond tua 4% yn Charlotte, Gogledd Carolina. Os edrychwch ar ffigwr 2.1 am eiliad, efallai y byddwch chi'n dechrau tybed pam mae symudedd rhwng cenedlaethau yn uwch mewn rhai mannau nag eraill. Roedd gan Chetty a chydweithwyr yr un cwestiwn yn union, a chanfuwyd bod gan ardaloedd symudedd uchel wahanu llai preswyl, llai o anghydraddoldeb incwm, ysgolion cynradd gwell, mwy o gyfalaf cymdeithasol, a mwy o sefydlogrwydd teuluol. Wrth gwrs, nid yw'r cydberthynasau hyn yn unig yn dangos bod y ffactorau hyn yn achosi symudedd uwch, ond maen nhw'n awgrymu mecanweithiau posibl y gellir eu harchwilio mewn gwaith pellach, sef union beth mae Chetty a chydweithwyr wedi ei wneud yn y gwaith dilynol. Hysbyswch sut roedd maint y data yn bwysig iawn yn y prosiect hwn. Pe bai Chetty a chydweithwyr wedi defnyddio'r cofnodion treth o 40,000 o bobl yn hytrach na 40 miliwn, ni fyddent wedi gallu amcangyfrif heterogeneity rhanbarthol ac ni fyddent byth wedi gallu gwneud ymchwil dilynol i geisio nodi'r mecanweithiau sy'n creu'r amrywiad hwn.
Yn olaf, yn ogystal â astudio digwyddiadau prin ac astudio heterogeneity, mae setiau data mawr hefyd yn galluogi ymchwilwyr i ganfod gwahaniaethau bach. Mewn gwirionedd, mae llawer o'r ffocws ar ddata mawr mewn diwydiant yn ymwneud â'r gwahaniaethau bach hyn: gall canfod y gwahaniaeth rhwng 1% a 1.1% o gyfraddau clicio trwy ddibynadwy yn gyfnewid i filiynau o ddoleri mewn refeniw ychwanegol. Mewn rhai lleoliadau gwyddonol, fodd bynnag, efallai na fyddai gwahaniaethau bach o'r fath yn bwysig iawn, hyd yn oed os ydynt yn ystadegol arwyddocaol (Prentice and Miller 1992) . Ond, mewn rhai lleoliadau polisi, gallant ddod yn bwysig wrth edrych yn gyfan gwbl. Er enghraifft, os oes dau ymyriad iechyd cyhoeddus ac mae un ychydig yn fwy effeithiol na'r llall, yna gallai dewis yr ymyriad mwy effeithiol ddod i ben i arbed miloedd o fywydau ychwanegol.
Er bod bigness yn eiddo da yn gyffredinol pan gaiff ei ddefnyddio'n gywir, rwyf wedi sylwi y gall weithiau arwain at gamgymeriad cysyniadol. Am ryw reswm, ymddengys bod bigness yn arwain ymchwilwyr i anwybyddu sut y cafodd eu data ei gynhyrchu. Er bod bigness yn lleihau'r angen i boeni am wall ar hap, mae mewn gwirionedd yn cynyddu'r angen i boeni am gamgymeriadau systematig, bydd y mathau o wallau y byddaf yn eu disgrifio isod yn codi o ragfarn yn y modd y caiff data eu creu. Er enghraifft, mewn prosiect a ddisgrifiaf yn ddiweddarach yn y bennod hon, defnyddiodd ymchwilwyr negeseuon a gynhyrchwyd ar 11 Medi, 2001 i gynhyrchu llinell amser emosiynol uchel i'r ymateb i'r ymosodiad terfysgol (Back, Küfner, and Egloff 2010) . Oherwydd bod gan yr ymchwilwyr nifer fawr o negeseuon, nid oedd yn rhaid iddynt ofid wirioneddol a ellid esbonio pa batrymau y maent yn arsylwi arnynt yn cynyddu dicter dros y dydd - trwy amrywio ar hap. Roedd cymaint o ddata ac roedd y patrwm mor glir bod yr holl brofion ystadegol ystadegol yn awgrymu bod hwn yn batrwm go iawn. Ond, roedd y profion ystadegol hyn yn anwybodus o'r modd y crewyd y data. Mewn gwirionedd, mae'n troi allan bod llawer o'r patrymau yn cael eu priodoli i bot unigol a gynhyrchodd fwy a mwy o negeseuon diystyr trwy gydol y dydd. Diddymodd diddymu'r bot hwn yn gyfan gwbl rai o'r canfyddiadau allweddol yn y papur (Pury 2011; Back, Küfner, and Egloff 2011) . Yn syml, mae ymchwilwyr nad ydynt yn meddwl am gamgymeriad systematig yn wynebu'r risg o ddefnyddio eu setiau data mawr i gael amcangyfrif manwl o faint anhygoel, fel cynnwys emosiynol negeseuon di-ddweud a gynhyrchir gan bot awtomataidd.
I gloi, nid yw setiau data mawr yn derfyn ynddynt eu hunain, ond gallant alluogi rhai mathau o ymchwil gan gynnwys astudio digwyddiadau prin, amcangyfrif heterogeneity, a chanfod gwahaniaethau bach. Mae setiau data mawr hefyd yn ymddangos i arwain rhai ymchwilwyr i anwybyddu sut y crewyd eu data, a all eu harwain i gael amcangyfrif manwl o faint anhygoel.