Large toradh tha dhòigh gu crìch; chan eil iad an ceann fhèin.
Is e am feart as fharsainge a th 'air a dheasbad le tobraichean dàta mòr gu bheil iad gu mòr. Bidh mòran phàipearan, mar eisimpleir, a 'tòiseachadh le bhith a' beachdachadh air agus uaireannan a 'braghadh mu dè an dàta air an do rinn iad mion-sgrùdadh. Mar eisimpleir, bha pàipear a chaidh fhoillseachadh ann an Saidheans a ' sgrùdadh gluasadan cleachdadh faclan ann an corpais Google Books a' gabhail a-steach na leanas (Michel et al. 2011) :
"Tha còrr is 500 billean facal ann an [corpus] againn, ann am Beurla (361 billean), Fraingis (45 billean), Spàinntis (45 billean), Gearmailtis (37 billean), Sìonais (13 billean), Ruiseanach (35 billean) agus Eabhra (2 billean). Chaidh na h-obraichean as sine fhoillseachadh anns na 1500an. Tha na deicheadan tràth air an riochdachadh le dìreach beagan leabhraichean gach bliadhna, a 'gabhail a-steach grunn cheud mìle facal. Ro 1800, bidh an corpas a 'fàs gu 98 millean facal gach bliadhna; mu 1900, 1.8 billean; agus le 2000, 11 billean. Chan urrainnear an corpas a leughadh le duine. Ma dh'fheuch thu ri inntrigidhean Beurla a leughadh a-mhàin às a 'bhliadhna 2000 a-mhàin, aig astar reusanta de 200 facal / min, gun a bhith a' cur bacadh air biadh no cadal, bheir e 80 bliadhna. Tha sreath litrichean 1000 uair nas fhaide na an genoma daonna: Ma sgrìobhas tu a-mach e ann an loidhne dhìreach, ruigeadh e chun a 'Ghealaich agus air ais 10 tursan a-null. "
Chan eil teagamh nach eil sgèile an fhiosrachaidh seo iongantach, agus tha sinn uile fortanach gu bheil sgioba Leabhraichean Google air an dàta seo a sgaoileadh don phoball (gu dearbh, tha cuid de na gnìomhan aig deireadh a 'chaibideil seo a' dèanamh feum den dàta seo). Ach, nuair a chì thu rudeigin mar seo, bu chòir dhut faighneachd: a bheil an dàta sin gu dearbh a 'dèanamh dad? Am b 'urrainn dhaibh an aon rannsachadh a dhèanamh ma dh' fhaodadh an dàta ruigsinn chun a 'Ghealaich agus air ais a-mhàin aon uair? Dè mura b 'urrainn don dàta ruighinn ach gu mullach Beinn Everest no mullach Tùr Eiffel?
Anns a 'chùis seo, tha an rannsachadh aca, gu dearbh, a' faighinn cuid de cho-dhùnaidhean a dh 'fheumas corpas mòr de dh'fhaclan thar ùine mhòr. Mar eisimpleir, is e aon rud a tha iad a 'sgrùdadh atharrachadh air gràmar, gu h-àraidh atharrachaidhean ann an ìre co-luachadh gnè neo-riaghailteach. Leis gu bheil cuid de ghnìomhairean neo-riaghailteach gu math tearc, tha feum mòr air dàta airson atharrachaidhean a lorg thar ùine. Gu tric, ge-tà, tha coltas gu bheil luchd-rannsachaidh a 'dèiligeadh ri meud an stòras dàta mòr mar cheann-uidhe - "seallaibh dè an dàta a dh' fhaodas mi a dhèanamh" - nas motha na dòigh air amas saidheansail nas cudromaiche.
Anns na dh'fhiosraich mi, is e sgrùdadh de thachartasan tearc aon de na trì cinn shaidheansail sònraichte a tha buailteach a bhith a 'toirt comas dha cruinneachaidhean mòra. Is e an dàrna fear an sgrùdadh air iom-fhillteachd, mar a chithear le sgrùdadh le Raj Chetty agus co-obraichean (2014) air gluasaid sòisealta sna Stàitean Aonaichte. San àm a dh'fhalbh, tha mòran luchd-rannsachaidh air a bhith a 'sgrùdadh gluasad sòisealta le bhith a' dèanamh coimeas eadar toraidhean beatha phàrantan agus chloinne. Is e lorg cunbhalach bhon litreachas seo gu bheil pàrantan buannachdail buailteach a bhith aig clann buannachdail, ach tha neart a 'chàirdeis seo ag atharrachadh thar ùine agus thairis air dùthchannan (Hout and DiPrete 2006) . Bho chionn ghoirid, ge-tà, bha e comasach do Chetty agus co-oibrichean na clàran cìse a chleachdadh bho 40 millean neach gus tuairmse a dhèanamh air iom-fhillteachd ann an gluasaid eadar ginealaich thairis air roinnean anns na Stàitean Aonaichte (figear 2.1). Fhuair iad, mar eisimpleir, gu bheil an coltas gu bheil leanabh a 'ruighinn a' cheum as àirde den sgaoileadh teachd-a-steach nàiseanta a tha a 'tòiseachadh bho theaghlach anns a' cheathramh aig ìre ìosal mu 13% ann an San Jose, California, ach dìreach mu 4% ann an Charlotte, Carolina a Tuath. Ma choimheadas tu ri figear 2.1 airson mionaid, is dòcha gu bheil thu a 'smaoineachadh a-mach carson a tha gluasad gluasaid ginealach nas àirde ann an cuid de dh'àiteachan seach feadhainn eile. Bha an aon cheist dìreach aig co-obraichean agus co-obraichean, agus fhuair iad gu robh nas lugha de chòmhnaidh ann an sgìrean àrd-gluasaid, nas lugha de theachd-a-steach neo-ionannachd, bun-sgoiltean nas fheàrr, calpa sòisealta nas motha, agus seasmhachd teaghlaich nas motha. Gu dearbh, chan eil na co-ionnanachdan sin a 'sealltainn gu bheil na h-adhbharan sin ag adhbharachadh gluasad nas àirde, ach tha iad a' moladh innealan a dh'fhaodas a bhith air an sgrùdadh ann an obair a bharrachd, agus sin dìreach dè a rinn Chetty agus co-obraichean ann an obair a dh 'fhalbh. Sònraich mar a bha meud an dàta gu math cudromach sa phròiseact seo. Nam biodh Chetty agus co-obraichean air na clàran cìse de 40 mìle neach a chleachdadh an àite 40 millean, cha bhiodh iad comasach air tuairmse a dhèanamh air iomadachd sgìreil agus cha bhiodh iad comasach air rannsachadh a dhèanamh an dèidh sin gus feuchainn ri comharrachadh na h-uidheaman a chruthaicheas an t-atharrachadh seo.
Mu dheireadh, a thuilleadh air a bhith a 'sgrùdadh thachartasan tearc agus a' sgrùdadh iom-ghnèitheachd, tha cruth-dàta mòra cuideachd a 'toirt comas do luchd-rannsachaidh eadar-dhealachaidhean beaga a lorg. Gu dearbh, tha mòran den fhòcas air dàta mòr ann an gnìomhachas mu na h-eadar-dhealachaidhean beaga seo: is urrainn dha a bhith a 'lorg an eadar-dhealachadh eadar 1% agus 1.1% ìrean cliceadh air ad san eadar-theangachadh gu milleanan de dhollair ann an teachd-a-steach a bharrachd. Ann an cuid de shuidheachaidhean saidheansail, ge-tà, dh'fhaodadh nach eil eadar-dhealachaidhean beaga cho cudromach, eadhon ged a tha iad cudromach gu staitistigeil (Prentice and Miller 1992) . Ach, ann an cuid de shuidheachaidhean poileasaidh, faodaidh iad a bhith cudromach nuair a thathar gam faicinn gu tur. Mar eisimpleir, ma tha dà eadar-theachd slàinte poblach ann agus gu bheil aon rud nas èifeachdaiche na an tè eile, is e an uair sin a bhith a 'togail na h-eadar-theachd nas èifeachdaiche a' sàbhaladh na mìltean de bheatha a bharrachd.
Ged is e seilbh math a th 'ann am bigness nuair a thèid a chleachdadh gu ceart, mhothaich mi gum faod e mearachd bun-bheachd adhbharachadh. Air adhbhar air choreigin, tha coltas gu bheil bigness a 'stiùireadh luchd-rannsachaidh nach cuir iad an cèill mar a chaidh an dàta aca a dhèanamh. Ged a tha bigness a 'lùghdachadh an fheum a bhith a' gabhail dragh mu mhearachd air thuaiream, tha e a ' meudachadh an fheum a bhith a' gabhail dragh mu mhearachdan riaghailteach, bidh na seòrsachan mhearachdan a mhìnicheas mi gu h-ìosal a 'tighinn bho chlaonadan mar a tha dàta air an cruthachadh. Mar eisimpleir, ann am pròiseact bheir mi cunntas nas fhaide air adhart anns a 'chaibideil seo, chleachd luchd-rannsachaidh teachdaireachdan a chaidh a chruthachadh air 11 Sultain, 2001 gus loidhne-tìm inntinneach àrd-rèiteachaidh a dhèanamh den fhreagairt don ionnsaigh ceannairceach (Back, Küfner, and Egloff 2010) . Seach gun robh àireamh mhòr de theachdaireachdan aig an luchd-rannsachaidh, cha robh feum aca dragh a dhèanamh mu dè an dòigh anns am faodadh na pàtranan a chunnaic iad a bhith a 'meudachadh fearg thairis air a' chùrsa-latha a bhith air am mìneachadh le atharrachadh air thuaiream. Bha uiread de dhàta ann agus bha am pàtran cho soilleir gun robh na deuchainnean staitistigeil staitistigeil a 'moladh gur e pàtran fìor a bha seo. Ach, bha na deuchainnean staitistigeil seo aineolach air mar a chaidh an dàta a chruthachadh. Gu dearbh, bha e coltach gun robh mòran de na pàtranan air an toirt gu aon bot a chruthaich barrachd is barrachd teachdaireachdan gun ciall tron latha. Le bhith a 'toirt air falbh am bot seo, chuir e às do chuid de na prìomh thoraidhean anns a' phàipear (Pury 2011; Back, Küfner, and Egloff 2011) . Gu sìmplidh, tha luchd-rannsachaidh nach eil a 'smaoineachadh mu mhearachd riaghailteach a' cur an cunnart a bhith a 'cleachdadh an cruth dàta mòr aca gus tuairmse mionaideach fhaighinn air tomhas neo-chudromach, leithid susbaint tòcail nam brathan nach eil gan dèanamh le bot fèin-ghluasadach.
Ann an co-dhùnadh, chan eil bun-fhiosrachaidh mòra na chrìoch annad fhèin, ach faodaidh iad a bhith a 'comasachadh cuid de sheòrsaichean rannsachaidh, a' gabhail a-steach sgrùdadh thachartasan tearc, an tuairmse air iomadachd, agus a bhith a 'lorg eadar-dhealachaidhean beaga. Tha coltas gu bheil bathar-dàta mòra cuideachd a 'stiùireadh cuid de luchd-rannsachaidh gus an aire a thoirt air mar a chaidh an dàta a chruthachadh, agus faodaidh sin a stiùireadh gus tuairmse mionaideach fhaighinn air meud neo-chudromach.