2.3.1.1 Big

Large datasets bụ a n'aka onye na njedebe; ha na-adịghị akwụsị n'ime onwe ha.

The mbụ n'ime atọ ọma e ji mara nke nnukwu data na-kasị tụlere: ndia bu nnukwu data. Ndị a data isi mmalite pụrụ ịbụ nnukwu na atọ dị iche iche: na ọtụtụ ndị, nza nke ọmụma kwa onye, ​​ma ọ bụ ọtụtụ kwuru n'elu oge. Inwe a big dataset-enyere ụfọdụ kpọmkwem ụdị nnyocha-atụ heterogeneity,-amụ obere ihe, ịchọputa obere nghọtahie, na-eme ka causal atụmatụ e mere si observational data. O yikwara ka ọ na-edu ka a kpọmkwem ụdị sloppiness.

Ihe mbụ nke size bụ karịsịa bara uru na-akpụ akpụ n'ofè averages ime ka atụmatụ ndị e mere maka ụfọdụ subgroups. Dị ka ihe atụ, Gary King, Jennifer Pan, na Michael Roberts (2013) tụọ puru na-elekọta mmadụ media posts na China a ga-enyochakwa site ọchịchị. Site n'onwe ya nke a nkezi gbasara nke puru omume nhichapụ adịghị na-enyere aka ịmata ihe mere ndị ọchịchị censors ụfọdụ posts ma ọ bụghị ọzọ. Ma, n'ihi na ha dataset gụnyere 11 nde posts, King na ibe na-emepụta atụmatụ maka gbasara nke puru omume nnyocha maka posts on 85 iche iche na edemede (eg,-akpali agụụ mmekọahụ, Tibet, na Traffic na Beijing). Site n'iji gbasara nke puru omume nnyocha maka posts na dị iche iche ige, ha na-enwe ike ịghọta ihe ụfọdụ banyere otú ihe mere ọchịchị censors ụdị ụfọdụ nke posts. Na 11 puku posts (kama 11 nde posts), ha agaraghị enwe ike ịmị ndị a, Atiya-kpọmkwem atụmatụ.

Nke abụọ, size bụ karịsịa bara uru n'ihi na-amụ nke obere ihe. Dị ka ihe atụ, Goel na ibe (2015) chọrọ ịmụ ụzọ dị iche iche tweet nwere ike ịga malitere ịrịa. N'ihi na nnukwu cascades nke re-tweet bụ oké ụkọ-nke bụ ihe otu onye n'ime a 3,000-ha mkpa ịmụ ihe karịrị otu ijeri tweet iji chọta ezu nnukwu cascades ha analysis.

Nke atọ, nnukwu datasets nwee na-eme nnyocha iji chọpụta obere iche. N'eziokwu, ihe mere ndị na-elekwasị anya nnukwu data na ụlọ ọrụ bụ ihe ndị a obere iche: reliably ịchọputa ihe dị iche n'etiti 1% na 1.1% click-site udu na ihe ad nwere ike ịsụgharị n'ime ọtụtụ nde dollar na ụma revenue. Na ụfọdụ ndị ọkà mmụta sayensị ntọala, ndị dị otú ahụ obere ọdịiche ndị e wee ghara akpan akpan mkpa (ọbụna ma ọ bụrụ na ha bụ statistically ịrịba). Ma, n'ebe ụfọdụ iwu ntọala, ndị dị otú ahụ obere ọdịiche ndị pụrụ ịghọ ihe dị mkpa mgbe anya na rụpụta mkpokọta nchịkọta. Dị ka ihe atụ, ọ bụrụ na e nwere abụọ ahụ ike ọha adọ na otu abara irè karịa nke ọzọ, mgbe ahụ, ịmafe ka ndị ọzọ dị irè aka ike ejedebe na-azọpụta ọtụtụ puku ndị ọzọ ndụ.

N'ikpeazụ, nnukwu data tent nnọọ onye ukwu anyị inwe ike ime ka causal atụmatụ e mere si observational data. Ọ bụ ezie na nnukwu datasets adịghị fundamentally na-agbanwe nsogbu na-eme ka causal inference si observational data, kenha na eke nwere na abua usoro ndị na-eme nnyocha mepụtara nke na-eme causal ekwu si observational data-ma erite uru dị ukwuu site nnukwu datasets. Aga m na-akọwa na ihe atụ nke a na-ekwu n'ụzọ sara mbara karị mgbe e mesịrị ke ibuot emi mgbe m na-akọwa research azum.

Ọ bụ ezie na bigness bụ n'ozuzu a mma onwunwe mgbe eji n'ụzọ ziri ezi, Achọpụtala m na ọ bigness ọtụtụ ndị na-eduga ná a Ntụpụta elo njehie. N'ihi ihe ụfọdụ, bigness yiri ka iduga na-eme nnyocha na-eleghara otú ha data a site. Mgbe bigness eme belata mkpa ka nchegbu banyere random njehie, n'ezie enwekwu ndị mkpa ka nchegbu banyere Ịhazi njehie, na iche iche nke njehie nke m na-akọwa na ihe n'okpuru na-ebilite si biases na otú data na-kere na-anakọtara. Ke ekpri dataset, ma random njehie na Ịhazi njehie pụrụ ịbụ ihe dị mkpa, ma na a nnukwu dataset random njehie a ga-enwe nkezi pụọ na Ịhazi njehie ya na-achịkwa. Researchers na-adịghị eche banyere Ịhazi njehie ga-ejedebe na iji ha buru ibu datasets iji nweta a kpọmkwem atụmatụ nke na-adịghị mma; ha ga-kpomkwem etịbe (McFarland and McFarland 2015) .