Datasets khōlō ke mokhoa oa ho felisa; ha ba se ileng sa felisa ka botsona.
Moqolo oa pele oa litšobotsi tse tharo tse thabisang ya data khōlō e ka ho fetisisa tšohloa: tsena li ya data e khōlō. Mehloli ena ya data ka ba khōlō ka litsela tse tharo tse sa tšoaneng: Batho ba bangata, lotho ea boitsebiso bo ka ho ya ka motho, kapa hlokometsoeng ba bangata ka nako e telele. Ho ba le sete ea datha khōlō nolofalletsa mefuta e meng tse itseng tsa heterogeneity etsa lipatlisiso-lekanyang, ho ithuta liketsahalo etsahala seoelo, ka e batlang ho se tšoane nyenyane, 'me ho etsa likhakanyo tsa e bakang ho tloha ya data observational. E boetse e bonahala lebisa mofuta se itseng se khethehileng ea sloppiness.
Ntho ea pele eo boholo na le thuso haholo-holo e tsamaea ka nģ'ane ho likarolelano ho etsa likhakanyo tsa etsoe subgroups tobileng. Ka mohlala, Gary King, Jennifer Pan, 'me Molly Roberts (2013) lekanya kgonego hore posts by tsoang sechabeng mecha ea litaba Chaena e ne e tla hlahlojoa ke' muso. Ka boeona kgonego ena karolelano ea hlakolwa ha molemo haholo bakeng sa ho utloisisa lebaka leo 'muso o censors ba bang posts by empa eseng batho ba bang. Empa, hobane sete ea datha bona akarelletsa posts by limilione tse 11, Morena le 'basebetsi-'moho le boetse hlahisoang likhakanyo bakeng kgonego ya hlahlobang lingoliloeng tsa diphatlhatiro hodima dihlopha 85 tse arohaneng (mohlala, litšoantšo tsa bootsoa, Tibet,' me Traffic ea Beijing). Ha re bapisa kgonego ya hlahlobang lingoliloeng tsa diphatlhatiro a dihlopha tse sa tšoaneng, ba ile ba khona ho utloisisa eketsehileng mabapi le kamoo 'me ke hobane'ng muso censors mefuta e itseng ea lintho tse ngotsoeng moo. Le lintho tse ngotsoeng moo 11 sekete (posts by e-na le ba limilione tse 11), ba ile ba ne a ke ke 'nile ka khona ho hlahisa likhakanyo tsa tsena sehlopha se kgethehileng.
Ea bobeli, boholo na le thuso haholo-holo bakeng sa ithuta la liketsahalo tse ka seoelo. Ka mohlala, Goel le basebetsi-'moho (2015) o ne a batla ho ithuta litsela tse sa tšoaneng hore tweets ka ea bongata ba kokwanahloko e. Hobane cascades e kholo ea botjha tweets ke fetisisa ho etsahala seoelo-hoo e ka bang ka 3000-ba lokela ho ithuta tweets ho feta limilione tse sekete e le hore ho fumana cascades se lekaneng bakeng sa Analysis bona.
Ea boraro, datasets khōlō thusa bafuputsi ho lemoha se tšoane nyenyane. Ha e le hantle, karolo e khōlō ea tsepamisitseng maikutlo ho eona ya data e khōlō indastering ea e mabapi se tšoane ana a manyenyane a: tshepahala e batlang phapang pakeng tsa ditefello 1% le 1.1% tlelike-tsoela pele all'annuncio e ka fetolela ka limilione tsa liranta ka matlotlong a eketsehileng. A di-setting tse ling tsa saense, joalo se tšoane tse nyenyane a ka 'na se ke ua ho khetheha ea bohlokoa (esita le haeba ba ba statistically ea bohlokoa). Empa, ha e hloka di-setting tse ling leano la, tse kang ho se tšoane tse nyenyane e ka ba ea bohlokoa ha nkoa aggregate. Ka mohlala, haeba ho na le ba babeli tsereletsi bophelo bo botle tsa mmuso le tsa e mong o hanyenyane molemo ho feta ho e mong, ka nako eo ho switjha ho kenella ka tsela e atlehang haholoanyane ka qetella u pholosa lilemong tse likete tsa bophelo bo eketsehileng.
Qetellong, khōlō ya data re behela haholo eketsa bokhoni ba rōna ba ho etsa likhakanyo tsa e bakang ho tloha ya data observational. Le hoja datasets khōlō ha feletseng fetola mathata a ka ho etsa e bakang diplomat ho tloha ya data observational, matching le tlhaho liteko 'meli mekhoa eo bafuputsi ba ntshetswa pele bakeng sa ho etsa ditlaleo e bakang ho tloha observational ya data-bao ka bobeli rua molemo o moholo datasets khōlō. Ke tla hlalosa le mohlala tseka hore ba sena ka ho qaqileng e khōloanyane hamorao khaolong ena ha ke hlalosa maano a ho etsa lipatlisiso.
Le hoja bigness ke ka kakaretso thepa e molemo ha sebelisoa ka nepo, ke hlokometse hore bigness ka tloaelo isang phoso mo tlhaloganyong. Ka lebaka le itseng, bigness bonahala lebisa bafuputsi ho hlokomoloha kamoo ya data bona e ile ea generated. Ha a ntse a bigness etsang ho fokotsa hore ho hlokahala hore tšoenyeha ka phoso tšohanyetso, e le hantle e eketsa hore ho hlokahala hore tšoenyeha ka talima liphoso ka mokhoa o hlophisitsoeng mefuta ea talima liphoso hore ke tla hlalosa ka ho eketsehileng ka tlase tse hlaha biases kamoo ya data bōpiloe le bokella. Ka sete ea datha tse nyenyane, ka bobeli tšohanyetso phoso 'me phoso ea ka tsela e hlophisitsoeng ka ba bohlokoa, empa e khōlō ea sete ea datha phoso tšohanyetso e ka karolelano hole' me phoso ea ka tsela e hlophisitsoeng laola. Bafuputsi ba sa nahana ka phoso e laolehileng tla qetella sebelisa datasets bona khōlō ho fumana hakanya tobileng ea ntho e fosahetseng; ba tla ho toba hore nepahalang (McFarland and McFarland 2015) .