Ansanbl laj yo se yon mwayen nan yon fen; yo menm yo pa yon fen nan tèt yo.
Karakteristik ki pi lajman diskite nan sous done gwo se yo ke yo se gwo. Anpil papye, pou egzanp, kòmanse pa diskite-epi pafwa vante-sou konbyen done yo analize. Pou egzanp, yon papye pibliye nan Syans etidye tandans itilizasyon mo nan Google Liv corpus a enkli sa ki annapre yo (Michel et al. 2011) :
"Kò [nou]" gen plis pase 500 milya dola mo, an angle (361 milya dola), franse (45 milya dola), Panyòl (45 milya dola), Alman (37 milya dola), Chinwa (13 milya dola), Ris (35 milya dola) (2 milya dola). Travay yo pi ansyen yo te pibliye nan ane 1500 yo. Deseni yo byen bonè yo reprezante pa sèlman yon liv kèk pou chak ane, comprenant plizyè san mil mo. Pa 1800, corpus la ap grandi 98 milyon mo chak ane; pa 1900, 1.8 milya dola; ak pa 2000, 11 milya dola. Kadav la pa ka li pa yon imen. Si ou te eseye li sèlman Anglè-lang antre soti nan ane a 2000 pou kont li, nan mach la rezonab nan 200 mo / min, san entèripsyon pou manje oswa dòmi, li ta pran 80 ane. Sekans nan lèt se 1000 fwa pi long pase genomic imen an: Si ou te ekri li soti nan yon liy dwat, li ta rive nan Lalin nan ak tounen 10 fwa sou. "
Echèl la nan done sa a se san dout enpresyonan, epi nou tout nou se chans ke ekip la Google Liv te lage done sa yo nan piblik la (an reyalite, kèk nan aktivite yo nan fen chapit sa a fè pou sèvi ak done sa a). Men, chak fwa ou wè yon bagay tankou sa a ou ta dwe mande: se ke tout sa ki done reyèlman fè anyen? Èske yo ta ka fè rechèch la menm si done yo ka rive nan Lalin nan ak tounen yon sèl fwa? E si done yo ta ka rive sèlman rive nan tèt mòn Everest oswa tèt la nan Tower nan èifèl?
Nan ka sa a, rechèch yo fè, an reyalite, gen kèk rezilta ki mande pou yon kò gwo nan mo sou yon peryòd tan. Pou egzanp, yon sèl bagay yo eksplore se evolisyon nan gramè, patikilyèman chanjman nan to la konjigezon vèb iregilye. Depi kèk vèb iregilye yo byen ra, yon gwo kantite done yo bezwen detekte chanjman sou tan. Twò souvan, chèchè sanble yo trete gwosè a nan gwo done sous kòm yon fen- "gade konbyen done mwen ka crunch" -an pase yon vle di nan kèk objektif ki pi enpòtan syantifik.
Nan eksperyans mwen, etid la nan evènman ki ra se youn nan twa espesifik syantifik fini ke ansanbl gwo yo gen tandans pèmèt. Dezyèm lan se etid la nan eterozite, jan yo ka ilistre pa yon etid pa Raj Chetty ak kòlèg li (2014) sou mobilite sosyal nan peyi Etazini. Nan tan lontan an, anpil chèchè yo te etidye mobilite sosyal pa konpare rezilta lavi yo nan paran yo ak timoun yo. Yon konklizyon ki konsistan nan sa a literati se ke paran avantaj yo gen tandans gen timoun ki avantaj, men fòs sa a relasyon varye sou tan ak nan tout peyi (Hout and DiPrete 2006) . Plis dènyèman, Chetty ak kòlèg li yo te kapab sèvi ak dosye taks yo soti nan 40 milyon moun yo estime heterogeniteite a nan mobilite entjenerasyon atravè rejyon nan Etazini (figi 2.1). Yo te jwenn, pou egzanp, ke pwobabilite ke yon timoun rive nan kwentil tèt nan distribisyon revni nasyonal la kòmanse nan yon fanmi nan kwen an anba a se sou 13% nan San Jose, Kalifòni, men se sèlman apeprè 4% nan Charlotte, North Carolina. Si ou gade nan figi 2.1 pou yon moman, ou ta ka kòmanse mande poukisa mobilite intergenerasyon ki pi wo nan kèk kote pase lòt moun. Chetty ak kòlèg li yo te egzakteman kesyon an menm, epi yo te jwenn ke zòn ki gen gwo mobilite gen mwens segregasyon rezidansyèl, inegalite revni mwens, pi bon lekòl primè, pi gwo kapital sosyal, ak pi gwo estabilite fanmi an. Natirèlman, sa yo korelasyon pou kont li pa montre ke faktè sa yo lakòz pi gwo mobilite, men yo sijere mekanis posib ki ka eksplore nan plis travay, ki se ekzakteman ki sa Chetty ak kòlèg yo te fè nan travay ki vin apre. Remake ki jan gwosè a nan done yo te vrèman enpòtan nan pwojè sa a. Si Chetty ak kòlèg li yo te itilize dosye taks yo nan 40 mil moun olye ke 40 milyon dola, yo pa ta kapab estime heterojenite rejyonal ak yo pa janm ta kapab fè rechèch ki vin apre pou yo eseye idantifye mekanis ki kreye sa a varyasyon.
Finalman, nan adisyon a etidye evènman ki ra ak etidye etewagoite, gwo ansanbl tou pèmèt chèchè yo detekte diferans piti. An reyalite, anpil nan konsantre sou done gwo nan endistri se sou diferans sa yo ti: fiable detekte diferans ki genyen ant 1% ak 1.1% klike sou-a pousantaj sou yon anons ka tradwi nan dè milyon de dola nan revni siplemantè. Nan kèk anviwònman syantifik, sepandan, diferans sa yo ti pa ta ka patikilye enpòtan, menm si yo estatistik enpòtan (Prentice and Miller 1992) . Men, nan kèk anviwònman politik, yo ka vin enpòtan lè yo wè li nan total. Pou egzanp, si gen de entèvansyon sante piblik ak yon sèl se yon ti kras pi efikas pase lòt la, Lè sa a, davwa entèvansyon an pi efikas ka fini ekonomize dè milye de lavi adisyonèl.
Malgre ke bigness se jeneralman yon bon pwopriyete lè yo itilize kòrèkteman, mwen te remake ke li ka pafwa mennen nan yon erè konseptyèl ekspresyon. Pou kèk rezon, bigness sanble mennen chèchè yo inyore ki jan done yo te pwodwi. Pandan ke bigness diminye bezwen an enkyete sou erè o aza, li aktyèlman ogmante bezwen an enkyete sou erè sistematik, kalite sa yo nan erè ke mwen pral dekri anba a ki rive soti nan prejije nan ki jan done yo kreye. Pou egzanp, nan yon pwojè mwen pral dekri pita nan chapit sa a, chèchè yo te itilize mesaj ki te pwodwi sou 11 septanm 2001 pou pwodui yon delè-wo rezolisyon emosyonèl reyaksyon a atak teworis (Back, Küfner, and Egloff 2010) . Paske chèchè yo te gen yon gwo kantite mesaj, yo pa t 'reyèlman bezwen enkyete sou si modèl yo yo obsève-ogmante kòlè sou kou a nan jounen an-ka eksplike pa varyasyon o aza. Te gen anpil done ak modèl la te tèlman klè ke tout estatistik tès yo estatistik sijere ke sa a te yon modèl reyèl. Men, tès sa yo estatistik yo te inyoran nan ki jan done yo te kreye. An reyalite, li te tounen soti ke anpil nan modèl yo te atribuabl nan yon sèl yon sèl ki te pwodwi pi plis ak plis mesaj san sans pandan tout jounen an. Retire yon sèl bot sa a konplètman detwi kèk nan rezilta yo kle nan papye a (Pury 2011; Back, Küfner, and Egloff 2011) . Byen tou senpleman, chèchè ki pa panse sou erè sistematik fè fas a risk pou yo itilize ansan yo gwo yo ka resevwa yon estimasyon egzak nan yon kantite enpòtan, tankou kontni an emosyonèl nan mesaj san sans ki te pwodwi pa yon bot otomatize.
An konklizyon, ansanbl gwo yo pa yon fen nan tèt yo, men yo ka pèmèt sèten kalite rechèch ki gen ladan etid la nan evènman ki ra, estimasyon an nan eterozite, ak deteksyon an nan diferans piti. Datas gwo tou sanble yo mennen kèk chèchè ki inyore ki jan done yo te kreye, ki ka mennen yo jwenn yon estimasyon egzak nan yon kantite ki enpòte.