2.3.1.1 Big

Ti o tobi akosile ti wa ni a ọna si ohun opin; ti won wa ni ko ohun opin ninu ara wọn.

Ni igba akọkọ ti ti awọn mẹta ti o dara abuda kan ti ńlá data ti wa ni julọ ni sísọ: wọnyi ni o wa ńlá data. Awọn wọnyi ni data orisun le wa ni ńlá ni meta o yatọ si ọna: ọpọlọpọ awọn eniyan, ọpọlọpọ ti alaye fun eniyan, tabi ọpọlọpọ awọn akiyesi lori akoko. Nini a ńlá eko kí diẹ ninu awọn kan pato orisi ti iwadi-idiwon mu agbara pọ si, keko toje iṣẹlẹ, wakan kekere iyato, ati ṣiṣe awọn ifẹsẹmulẹ nkan lati observational data. O tun dabi lati ja si kan pato iru ti sloppiness.

Akọkọ ohun fun eyi ti iwọn jẹ paapa wulo ni gbigbe kọja iwọn lati ṣe nkan fun pato subgroups. Fun apẹẹrẹ, Gary King, Jennifer Pan, ati Molly Roberts (2013) wọn iṣeeṣe ti awujo media posts ni China yoo wa ni censored nipasẹ awọn ijoba. Nipa ara yi apapọ iṣeeṣe ti piparẹ jẹ ko gan wulo fun agbọye idi ti awọn ijoba censors diẹ ninu awọn posts sugbon ko awon elomiran. Ṣugbọn, nitori won eko to wa 11 million posts, Ọba ati awọn araa tun yi nkan fun awọn iṣeeṣe ti ihamon fun posts on 85 lọtọ ẹka (eg, iwokuwo, Tibet, ati Traffic ni Beijing). Nipa wé awọn iṣeeṣe ti ihamon fun posts ni o yatọ si isọri, nwọn wà anfani lati ni oye siwaju sii nipa bi o ati idi ti awọn ijoba censors awọn orisi ti posts. Pẹlu 11 ẹgbẹrun posts (dipo ju 11 million posts), won yoo ko ti ni anfani lati gbe awọn wọnyi ẹka-kan pato nkan.

Keji, iwọn jẹ paapa wulo fun wa ni keko ti toje iṣẹlẹ. Fun apẹẹrẹ, Goel ati awọn araa (2015) fe lati iwadi awọn ti o yatọ ona ti tweets le lọ gbogun ti. Nitori ti o tobi cascades ti tun-tweets o wa lalailopinpin toje-nipa ọkan ninu a 3,000-ti won nilo lati iwadi diẹ ẹ sii ju a bilionu tweets ni ibere lati wa to tobi cascades fun won onínọmbà.

Kẹta, ti o tobi akosile jeki oluwadi lati ri kekere iyato. Ni o daju, Elo ti awọn idojukọ lori ńlá data ni ile ise jẹ nipa awọn wọnyi kekere iyato: reliably wakan iyato laarin 1% ati 1.1% tẹ-nipasẹ awọn ošuwọn lori ohun ad le pese sinu milionu ti dọla ni afikun wiwọle. Ni diẹ ninu awọn ijinle sayensi eto, iru kekere iyato le ko ni le pato pataki (paapa ti o ba ti won ba wa isiro significant). Sugbon, ni diẹ ninu awọn eto imulo eto, iru kekere iyato le di pataki nigbati bojuwo ni dagba. Fun apẹẹrẹ, ti o ba nibẹ ni o wa meji àkọsílẹ ilera ilowosi ati ọkan ni die-die siwaju sii munadoko ju awọn miiran, ki o si yi pada si awọn diẹ munadoko intervention le mu soke pamọ egbegberun ti afikun aye.

Níkẹyìn, ti o tobi data tosaaju gidigidi mu wa agbara lati ṣe ifẹsẹmulẹ nkan lati observational data. Biotilejepe o tobi akosile ma ko taa yi awọn iṣoro pẹlu ṣiṣe ifẹsẹmulẹ mu ero jade lati observational data, tuntun ati adayeba adanwo-meji imuposi ti oluwadi ti ni idagbasoke fun ṣiṣe ifẹsẹmulẹ nperare lati observational data-mejeeji gidigidi anfani lati tobi akosile. Mo ti yoo se alaye ki o si fi eredi yi nipe ni tobi apejuwe awọn igbamiiran ni yi ipin nigbati mo se apejuwe iwadi ogbon.

Biotilejepe bigness ni gbogbo kan ti o dara ohun ini nigba ti lo o ti tọ, Mo ti sọ woye wipe bigness commonly nyorisi a ti ero aṣiṣe. Fun idi kan, bigness dabi lati ja oluwadi lati foju bi wọn data ti a ti ipilẹṣẹ. Nigba ti bigness wo ni din ye lati dààmú nípa ID aṣiṣe, o si gangan mu ki awọn ye lati dààmú nípa ifinufindo aṣiṣe, awọn iru aṣiṣe ti mo ti yoo se apejuwe ninu diẹ ni isalẹ ti o dide lati siwaju ni bi data ti wa ni da ki o si gbà. Ni kan kekere eko, ati ID ašiše ati ki o ifinufindo aṣiṣe le jẹ pataki, sugbon ni kan ti o tobi eko ID aṣiṣe ti wa ni le ti wa ni idaji kuro ki o si ifinufindo aṣiṣe dominates. Oluwadi ti ko ro nipa ifinufindo aṣiṣe yoo mu soke lilo won tobi akosile lati gba a kongẹ ti siro ti ko tọ si ohun; won yoo jẹ gbọgán iro ni (McFarland and McFarland 2015) .