2.3.1.1 Big

Large toradh tha dhòigh gu crìch; chan eil iad an ceann fhèin.

Tha a 'chiad de na trì feartan math mòr dàta a tha a' chuid as motha de dheasbad: tha iad sin mòr dàta. Nam tobraichean dàta urrainn a bhith mòr ann an trì dòighean eadar-dhealaichte: tha mòran dhaoine, tòrr fiosrachadh gach neach, no iomadh amhairc thar ùine. Le mòr sean 'toirt cothrom cuid de seòrsachan sònraichte de rannsachadh a' tomhas-iomadachd, a 'dèanamh tachartasan tearc, lorgaireachd eadar-dhealachaidhean beaga, agus a' dèanamh tuairmsean adhbharach bho beachdachail dàta. Tha e cuideachd a rèir coltais a 'leantainn air adhart gu sònraichte an seòrsa sloppiness.

Tha a 'chiad rud a meud gu h-àraid feumail a' gluasad taobh a-muigh cuibheasachd tuairmsean a dhèanamh airson fo-bhuidhnean sònraichte. Mar eisimpleir, Gary Rìgh, Jennifer Pan, agus Molly Roberts (2013) a thomhas an coltachd ann gun tèid na meadhanan sòisealta dreuchdan ann an Sìona bhiodh an casg leis an riaghaltas. Le seo fhèin cuibheasachd coltachd de sguabaidh às nach eil glè chuideachail airson a 'tuigsinn carson a tha an riaghaltas censors cuid dreuchdan ach chan eil daoine eile. Ach, air sgàth an sean gabhail a-steach 11 millean dreuchdan, Rìgh agus co-oibrichean cuideachd tuairmsean airson an coltachd de caisgireachd airson dreuchdan air 85 earrannan fa leth (me, drabastachd, Tibet, agus Trafaig ann am Beijing). Le bhith a 'dèanamh coimeas eadar coltachd de caisgireachd airson dreuchdan ann an diofar roinnean-seòrsa, bha iad comasach air tuigsinn tuilleadh mu ciamar agus carson a tha an riaghaltas censors seòrsachan àraid de dreuchdan. Le 11 mìle dreuchdan (seach dreuchdan 11 millean), cha bhiodh iad air a bhith comasach air sin a thoirt gu buil roinn-seòrsa sònraichte tuairmsean.

Dàrna, meud gu h-àraid feumail airson a 'sgrùdadh nan tachartasan tearc. Mar eisimpleir, Goel agus co-oibrichean (2015) ag iarraidh sgrùdadh a dhèanamh air na diofar dhòighean a Tweets urrainn dol bhìorasach. Seach gu mòr still ath-Tweets ann glè ainneamh-aon mu 3,000 ann an-dh'fheumadh iad a dhèanamh sgrùdadh air còrr is billean Tweets ann an òrdugh gu leòr a lorg mòr still aca airson mion-sgrùdadh.

Treas, mòr toradh comas rannsachaidh gus lorg fhaighinn air eadar-dhealachaidhean beaga. Gu dearbh, tha mòran de na fòcas mòr air dàta ann an gnìomhachas a tha seo mu beag eadar-dhealachaidhean: earbsach lorgaireachd an diofar eadar 1% agus 1.1%-Cliog tro ìrean AD air an urrainn eadar-theangachadh a-steach na milleanan dolar ann an teachd a-steach a bharrachd. Ann an cuid de shuidheachaidhean saidheansail, leithid eadar-dhealachaidhean beaga nach biodh sònraichte cudromach (fiù 's ma tha iad cudromach gu staitistigeach). Ach, ann an cuid de suidheachaidhean poileasaidh, leithid eadar-dhealachaidhean beaga a bhith cudromach nuair a faicinn ann an iomlan. Mar eisimpleir, ma tha dà slàinte a 'phobaill agus aon eadar-theachdan a tha beagan nas eile, an uair sin atharrachadh gu an tuilleadh theachd èifeachdach a dh'fhaodadh crìoch suas a' sàbhaladh na mìltean a bharrachd de beatha.

Mu dheireadh, mòr seataichean dàta a mheudachadh gu mòr air ar comas a dhèanamh adhbharach tuairmsean bho beachdachail dàta. Ged mòr toradh Chan eil bunaiteach atharrachadh na duilgheadasan le bhith a 'dèanamh adhbharach inference bho beachdachail dàta, a fhreagras air an nàdarra agus deuchainnean-dà dòighean-obrach a leasachadh airson luchd-rannsachaidh air dèanamh adhbharach tagraidhean bho beachdachail-dàta an dà chuid gu mòr a' faighinn buannachd bho toradh mòr. Tha mi a mhìneachadh agus a shealltainn seo tagradh ann am barrachd mionaideachd nas fhaide air adhart anns a 'chaibideil seo ag innse nuair a bha mi rannsachadh ro-innleachdan.

Ged bigness chumantas tha deagh togalach nuair a chleachdadh gu ceart, thug mi an aire gun bigness trice a 'dol gu bun-bheachdail mearachd. Airson adhbhar air choireigin, bigness coltach ri stiùireadh luchd-rannsachaidh a leigeil seachad mar a tha an dàta air a chruthachadh. Ged bigness 'dèanamh lùghdachadh an fheum airson dragh mu thuaiream mearachd, tha e dha-rìribh a' meudachadh an fheum air dragh mu mhearachdan rianail, an seòrsa de mhearachdan gu bheil mi a 'mìneachadh ann am barrachd gu h-ìosal a dh'èireas bho biases ann mar a tha dàta air a chruthachadh agus a chruinneachadh. Ann an beag sean, an dà chuid air thuaiream mearachd agus eagarach mearachd a bhith cudromach, ach ann mòr sean thuaiream mearachd Faodar averaged air falbh agus eagarach mearachd cho nochdar ann. Tha luchd-rannsachaidh nach eil a 'smaoineachadh mu dheidhinn eagarach mearachd gu crìch suas bhith a' cleachdadh an cuid mhòr toradh lorg fhaighinn mionaideach tuairmeas air an rud ceàrr; bidh iad dìreach mearachdach (McFarland and McFarland 2015) .