2.3.1.1 Big

Setiau data mawr yn fodd i ben; nid ydynt yn ddiben ynddynt eu hunain.

Mae'r cyntaf o'r tair nodwedd dda o ddata mawr yn y mwyaf drafodwyd: mae'r rhain yn ddata mawr. Gall y rhain ffynonellau data fod yn fawr mewn tair ffordd wahanol: mae llawer o bobl, llawer o wybodaeth am bob person, neu lawer o sylwadau dros gyfnod o amser. Mae cael set ddata fawr yn galluogi rhai mathau penodol o heterogenedd mesur ymchwil, astudio digwyddiadau prin, canfod gwahaniaethau bach, a gwneud amcangyfrifon achosol o ddata arsylwadol. Mae'n ymddangos hefyd i arwain at fath penodol o annibendod.

Y peth cyntaf y mae maint yn arbennig o ddefnyddiol yn symud y tu hwnt i gyfartaleddau i wneud amcangyfrifon ar gyfer is-grwpiau penodol. Er enghraifft, Gary King, Jennifer Pan, a Molly Roberts (2013) yn mesur y tebygolrwydd y byddai'r swyddi cyfryngau cymdeithasol yn Tsieina yn cael ei sensro gan y llywodraeth. Ei ben ei hun, nid yw hyn tebygolrwydd cyfartalog o ddileu yn ddefnyddiol iawn ar gyfer deall pam mae'r llywodraeth sensoriaid rhai swyddi ond nid i eraill. Ond, oherwydd bod eu set ddata yn cynnwys 11 miliwn o swyddi, King a chydweithwyr hefyd wedi cynhyrchu amcangyfrifon ar gyfer y tebygolrwydd o sensoriaeth ar gyfer swyddi ar 85 categori ar wahân (ee, pornograffi, Tibet, a Thraffig yn Beijing). Trwy gymharu y tebygolrwydd o sensoriaeth ar gyfer swyddi mewn gwahanol gategorïau, roeddent yn gallu deall mwy am sut a pham mae'r llywodraeth sensoriaid rhai mathau o swyddi. Gyda 11,000 o swyddi (yn hytrach na 11 miliwn o swyddi), ni fyddent wedi gallu i gynhyrchu amcangyfrifon categori-benodol hyn.

Yn ail, maint yn arbennig o ddefnyddiol i yn astudio o ddigwyddiadau prin. Er enghraifft, mae Goel a chydweithwyr (2015) yn awyddus i astudio'r gwahanol ffyrdd y gall tweets fynd firaol. Oherwydd bod rhaeadrau mawr o ail-drydar yn brin iawn-tua un mewn 3,000-angen iddynt astudio mwy na biliwn tweets er mwyn dod o hyd i ddigon o rhaeadrau mawr ar gyfer eu dadansoddi.

Yn drydydd, setiau data mawr galluogi ymchwilwyr i ganfod gwahaniaethau bach. Yn wir, mae llawer o'r ffocws ar ddata mawr mewn diwydiant yn ymwneud â gwahaniaethau bach hyn: ddibynadwy canfod y gwahaniaeth rhwng 1% a 1.1% cyfraddau cliciwch-drwy ar sail ad gallu cyfieithu i mewn i filiynau o ddoleri mewn refeniw ychwanegol. Mewn rhai lleoliadau gwyddonol, efallai na fydd gwahaniaethau bach o'r fath fod yn arbennig o bwysig (hyd yn oed os ydynt yn arwyddocaol yn ystadegol). Ond, mewn rhai lleoliadau polisi, gall gwahaniaethau bach o'r fath yn dod yn bwysig wrth edrych arnynt gyda'i gilydd. Er enghraifft, os oes dau ymyriadau iechyd y cyhoedd ac mae un yn ychydig yn fwy effeithiol na'r llall, ac yna newid i ymyriad mwy effeithiol a allai yn y pen draw achub miloedd o fywydau ychwanegol.

Yn olaf, setiau data mawr yn cynyddu ein gallu i wneud amcangyfrifon achosol o ddata arsylwadol. Er nad yw setiau data mawr yn newid y problemau sylfaenol gyda gwneud dod i gasgliadau achosol o ddata arsylwadol, paru a naturiol arbrofion-dau technegau y mae ymchwilwyr wedi datblygu ar gyfer gwneud ceisiadau achosol o arsylwadol ddata-y ddau yn elwa'n fawr o'r setiau data mawr. 'N annhymerus' esbonio a dangos honiad hwn yn fanylach yn nes ymlaen yn y bennod hon pan fyddaf yn disgrifio strategaethau ymchwil.

Er bod bigness yn gyffredinol yn eiddo da pan gaiff ei ddefnyddio yn gywir, rwyf wedi sylwi bod bigness yn gyffredin yn arwain at wall cysyniadol. Am ryw reswm, bigness ymddangos i arwain ymchwilwyr i anwybyddu sut mae eu data ei greu. Tra bod bigness yn lleihau'r angen i chi boeni am gamgymeriadau ar hap, mewn gwirionedd mae'n cynyddu'r angen i chi boeni am gamgymeriadau systematig, y mathau o gamgymeriadau y byddaf yn disgrifio'n fwy islaw godi o ragfarnau yn y modd y data yn cael eu creu a'u casglu. Mewn set ddata bach, gall y ddau wall hap a gwallau systematig fod yn bwysig, ond mewn camgymeriad ar hap mawr ddata CCD yn cael Gellir cyfartaledd i ffwrdd a gwallau systematig yn dominyddu. Mae ymchwilwyr nad ydynt yn meddwl am gwall systematig a fydd yn y pen draw gan ddefnyddio eu setiau data mawr i gael amcangyfrif union y peth anghywir; byddant yn union anghywir (McFarland and McFarland 2015) .