2.3.1.1 Big

Ansanbl laj yo se yon mwayen nan yon fen; yo menm yo pa yon fen nan tèt yo.

Premye a nan twa karakteristik sa yo bon nan done gwo ki pi diskite la: sa yo, se done gwo. sous done sa yo kapab gwo nan twa diferan fason: anpil moun, anpil enfòmasyon pou chak moun, oswa obsèvasyon anpil sou tan. Èske w gen yon gwo dataze pèmèt kèk kalite espesifik nan rechèch-mezire eterojeneite, etidye evènman ki ra, detekte diferans piti, ak fè estimasyon kozatif soti nan done obsèvasyon. Li te tou sanble pou mennen a yon kalite espesifik nan sloppiness.

Premye bagay pou ki gwosè se patikilyèman itil ap deplase pi lwen pase mwayèn fè estimasyon pou ti gwoup espesifik. Pou egzanp, Gary King, Jennifer Pan, ak Molly Roberts (2013) mezire pwobabilite ki genyen pou posts medya sosyal nan peyi Lachin ta dwe Kontwole pa gouvènman an. Pou kont li sa a pwobabilite mwayèn de sipresyon se pa trè itil pou konprann pou kisa gouvènman an sansire kèk posts men se pa lòt moun. Men, paske dataze yo enkli 11 milyon posts, wa ak kòlèg tou pwodui estimasyon pou pwobabilite ki genyen pou sansi pou posts sou 85 kategori separe (egzanp, pònografi, Tibet, ak trafik nan Beijing). Lè w konpare pwobabilite ki genyen pou sansi pou posts nan kategori diferan, yo te kapab konprann plis enfòmasyon sou ki jan ak ki pou kisa gouvènman an sansire sèten kalite posts. Avèk 11 mil posts (olye ke 11 milyon posts) yo, yo pa ta kapab pwodwi sa yo estimasyon kategori-espesifik.

Dezyèmman, gwosè se patikilyèman itil pou ap etidye nan evènman ra anpil. Pou egzanp, Goel ak kòlèg (2015) te vle etidye fason yo diferan ki tweets ka ale viral. Paske kaskad gwo nan re-twi yo ra anpil-sou yon sèl nan yon 3,000-yo te bezwen yo etidye pi plis pase yon milya dola tweets yo nan lòd yo jwenn ase kaskad gwo pou analiz yo.

Twazyèmman, ansanbl gwo pèmèt chèchè yo detekte diferans ki genyen ki piti yo. An reyalite, anpil nan konsantre sou done gwo nan endistri se sou diferans sa yo ti: fiable detekte diferans ki genyen ant 1% ak 1.1% klike sou-a pousantaj sou yon anons ka tradwi nan dè milyon de dola nan revni siplemantè. Nan kèk anviwònman syantifik, tankou diferans ki genyen ti pa ta ka patikilye enpòtan (menm si yo estatistik enpòtan). Men, nan kèk anviwònman politik, tankou diferans ki genyen ti ka vin enpòtan lè yo wè nan total. Pou egzanp, si ki te gen de entèvansyon sante piblik ak yon se yon ti kras pi efikas pase lòt la, Lè sa a, oblije chanje nan entèvansyon an pi efikas te kapab fini ekonomize dè milye de lavi adisyonèl.

Finalman, gwo ansanm done ogmante anpil kapasite nou yo fè estimasyon kozatif soti nan done obsèvasyon. Malgre ke ansanbl gwo pa fondamantalman chanje pwoblèm sa yo avèk fè kozatif enferans soti nan done obsèvasyon, matche ak eksperyans-de natirèl teknik ki chèchè yo te devlope pou fè reklamasyon kozatif soti nan obsèvasyon done-tou de anpil benefisye de ansanbl gwo. Mwen pral eksplike ak ilistre reklamasyon sa a nan plis detay pita nan chapit sa a lè m 'dekri estrateji rechèch.

Malgre ke bigness se jeneralman yon pwopriyete bon lè yo itilize kòrèkteman, Mwen te remake ke bigness souvan mennen nan yon erè konseptyèl ekspresyon. Pou kèk rezon, bigness sanble a plon chèchè ki inyore ki jan done yo te pwodwi. Pandan ke bigness fè diminye bezwen an enkyete sou erè o aza, li aktyèlman ogmante bezwen nan enkyete sou erè sistematik, kalite sa yo nan erè ke mwen pral dekri nan plis anba a ki leve soti nan prejije nan ki jan done yo ki kreye epi ranmase. Nan yon dataze piti, tou de erè o aza ak sistematik erè kapab enpòtan, men nan yon gwo erè dataze o aza se ka mwayenn lwen ak sistematik erè domine. Chèchè ki pa panse osijè de sistematik erè pral fini lè l sèvi avèk ansanbl yo gwo yo ka resevwa yon estimasyon egzak nan bagay la mal; yo pral jisteman kòrèk (McFarland and McFarland 2015) .