Datasets mezin in, tê wateya bi dawî; ew in ku dawî li xwe ne.
Pir girîng li ser nîqaşên çavkaniya çavkaniya daneyên mezin, ew e ku ew BIG Gelek kaxezan, wek nimûne, dest bi danûstandinan-û carinan carinan dest bi destnîşan dike-ka çiqas danûstandinên wan lêkolîn kirin. Ji bo nimûne, kaxezek nivîskî li Zanîngeha Pirtûkxaneya Google Books ya jêrîn (Michel et al. 2011)
"Corpus ji bo 500 milyar peyvan, di îngilîzî (361 milyar), fransî (45 milyar), Spanish (45 milyar), Almanya (37 milyar), Çîn (13 milyar), Rûsyayê (35 milyar), û Îbranî (2 milyar). Karên herî kevn di 1500 hezaran de hate belav kirin. Di deh salên destpêkê de tenê çend çend pirtûyên ku di çend salan de hezaran peyvan de pêk tê têne kirin. Bi 1800, corpus 98 salî bi peyva 98 milyon zêde dibe; ji sala 1900, 1.8 milyar; û bi 2000, 11 milyar. Corpus nikare ji hêla mirov nikare xwendin. Heke hûn hewldan tenê tenê navnîşan-îngilîzî-zimanên sala 2000-ê tenê tenê xwendin, di çarçoveya maqûl de 200 peyvan / min, bêyî astengî an xwarin an jî xew, wê dê 80 salan bigirin. Pêveka nameyên genomeya mirovî ji 1000 salî dirêj e: Heke hûn li ser rasterastek nivîsî, ew ê diçin 10 û dem de.
Pîvana vê dataê bêbawer bandor e, û em hemî dilsoz in ku tîma Pirtûkên van ev daneyên gelemperî ji bo gelemperî (bi rastî, hin çalakiyên li ser vê beşê vê karanînê bikar tîne). Lê belê, gava ku tu tiştek vê yekê dibînî, divê hûn bipirsin: Ma ew hemû agahiyên rastîn çi dikin? Gelo wan heman lêkolîn kirin heger daneyên bi Moon û paşê bi tenê re digihîzin? Heke ku danûstandin tenê biçe ser topa Mount Everest an bilind ya Eiffel Tower?
Di vê rewşê de, lêkolînên wan, di rastiyê de, hin encam hene ku hewceyê dirêjtirîn demên dirêj ên peyvên mezin hewce dike. Ji bo nimûne, tiştek ku ew lê digerin ev e ku grammar, bi taybetmendiya di rêjeya devokrasiyê de tête guhartin guhertin. Ji ber ku hinek verb-verbên pirrjimar pir kêm e, hejmareke mezin ji bo guhertinên di demê de tê de hewce dike. Gelek caran, lêgerîn, lêkolîner dixebitin ku mezinbûna çavkaniyên mezin ên çavkaniyê dûr bikin - "binêrin ka çiqas danûstandinên ku ez dikarim bikim" - -tir ji hêla veguhestineke armanca zanistî ve girîng e.
Di ezmûnê min de, bûyera lêkolînek kêmînek yek ji sêyên zanistî yên yekbûyî ye ku datasetên mezin hene ku ji bo çalak bikin. Duyemîn xwendina heterogeneityê, wekî dikare ji hêla Raj Chetty û hevalên xwe re hevalbendan (2014) li ser Dewletên Yekgirtî yên li Dewletên Yekgirtî tê nîşandan. Di demê de, gelek lêkolîner, tevgerên jiyana dêûbav û zarokan de bihevhatina civakî ya civakî dixwînin. Di warê vê wêjeyê de ev wêjeyê ye ku dêûbavên (Hout and DiPrete 2006) fêr bûne, lê hêza vê têkiliyê di dem û hemî welatan de (Hout and DiPrete 2006) . Di vê yekê de, Chette û hevalên xwe bi karûbarên bacê 40 milyon kesan bikar bînin ku ji bo herêmên li Dewletên Yekbûyî (Dewleta 2.1-an) di nav herêmên tevgerî de heterogeneityê dikin. Wan dît, wekî nimûne, ku dibe ku zarok zarokek li ser quintile ji destpêka malbata dahatiya neteweyî ya herî bilind bigihîje nêzîkî 13% San San Jose, California, lê tenê nêzîkî 4% li Charlotte, Bakurê Carolina ye. Heke hûn di qonaxa 2.1-an-ê de binêrin, hûn dikarin destnîşan bikin ka çima tevgerên hestyarî yên li hin ciheqên din ji yên din re din e. Chetty û hevalên wan bi heman pirsî re bûn, û wan dît ku ew qadên hûrgelan kêmtir hevrikiya kêm, neheqiya kêm kêmtir, dibistanên bingehîn ên baş, paytexta civakî, mezintir û aramiya malbata mezin. Bê guman, ev têkiliyên tenê tenê neyê nîşandan ku ev faktorên motora bilindtir dibe, lê ew ji mekanîzmayên mimkûn dikarin pêşniyar dikin ku di karê din de bêtir lêkolîn kirin, kîjan tiştê ku Chetty û hevalên xwe di paşê xebatê de pêk anîn. Têbigirin ka çiqas di qasî vê projeyê de hejmar daneyên girîng bû. Heke Chehet û hevalên xwe ji 40 milyon bêtir 40 hezar kesan bikar bînin, ew ê nikarin heterogeneityê herêmî nirxandin û ew qet nikarin lêkolînek paşerojê bikin ku hewl bidin ku mekanîzmayên nasnameyê yên ku ev guhertin çêbikin.
Di dawiyê de, di bilî bûyerên kêmrûpela lêkolînê û heterogeneity dixwînin, datasetên mezin jî lêkolîneran bikaribin ku cudahiyên biçûk peyda bikin. Di rastiyê de, piraniya fikrên li ser pîşesaziya mezin de di warê van cûda biçûk e: Hêza ku di navbera 1% û 1.1% de rêjeyên li ser rêjeya bişkojka bitikîne dikarin li mîlyon dolaran daketin zêdebûna dolar bidestxistin. Di navendên hinek dezgehên zanist, dibe ku cudahiyên hindik ên ku girîng in statuya (Prentice and Miller 1992) ne girîng in, ne girîng in. Lê, di nav hin polîtîkayên polîtîkayê de, ew dikarin gava ku di navhev de têne dîtin girîng bibin. Ji bo nimûne, heke du destwerdana tendurustiyê gelemperî hene û yek ji din re bandor e, hingê destnîşankirina bandorek bandorek dikare dikare bi hezaran zêdetir jiyanên rizgarkirina xelas bibe.
Her çiqas bigness bi gelemperî reklamek baş e, ez diyar kir ku carinan carinan dibe ku çewtiyek nimûne. Ji bo hin sedem, xemgîn e ku lêkolînerên rêber bikin ku ji ber çavkaniya wan çawa çêbikin. Dema ku bigness bisekine ku hewceyê xemgîniya bîranîna kêm kêm bike, ev rastî ji hewceyê xeletiyên çewtiyê yên sîstematîk, zêdebûna celebên ku ez ê binivîse ku di bin çavkaniyê de têne çêkirin pêk tê. Ji bo nimûne, di projeyê de ez di vê beşê de paşê şîrove bikim, lêkolînvanan di 11ê Îlonê de 2001ê de bi kar tîne, da ku demek demokrasiya demokrasiyê ya reaksiyonê ya reaksiyonê ya êrîşa terorîst (Back, Küfner, and Egloff 2010) . Ji ber ku lêkolînerên hejmarek mezin peyam hene, wan bi rastî ne hewce nebûya ku di binê rojê de hêrsê wan-xuyakirin-ka bi guhertina rewşek zelal be. Gelek danûstandin hebû û pîvan eşkere bû ku hemû testên statîstîk ên îstatîstîkî pêşniyaz kir ku ew celebek rastîn bû. Lê, ceribandinên statîstîkan ne ji ber ku çawa daneyên damezirandî ne. Di rastiyê de, ew xuya kir ku gelek pîvanên ku bi tenê yek botek yek bûne bûne ku di tevahiya rojê de peyamên bêtir bêhtir bêtir çêkirin. Vekirina vê botê bi tevahî hin peymanên sereke di paper de (Pury 2011; Back, Küfner, and Egloff 2011) . Pir hêsan, lêkolînerên ku di derbarê astengiya sîstematîk de nerazî dikin, rîska bikaranîna datasetên mezin ên rûyê xwe bidin ku hejmareke rastîn a nirxên girîng ên nirxdar, wek naveroka hestyarî ya peyamên ku bêbawerî bi otomatî têne çêkirin.
Di encamê de, datasetên mezin ne di nav xwe de ne, lê ew dikarin hin lêkolînan lêkolîn bikin, tevlî bûyerên kêmrûpa, estimasyon ya heterogeneity, û tespîtkirina biçûkên biçûk. Datasetên mezin jî jî bisekinin ku hin lêkolînvanan ji bo çavkaniya wan çawa hatine afirandin, dibe ku ji wan re dibe ku hejmareke rastînek nirxek girîng nake.