Large datasets sò u spechju à a so fine; ch'elli ùn sò micca compia a iddi stissi.
A basa più largamente scritta di e grande fonti di dati hè chì sò GRANDES. Parechje documenti, per esempiu, principiendu discussendu-è quarchi prufronti di quantu infurmazioni ani analizati. Per esempiu, un publicu publicatu in a Ciencia chì studia i tendenzi d'usu di parole in u libru Google Books hà include a seguita (Michel et al. 2011) :
"[Nostru] corpus cuntene di 500 milioni di paroli, in inglese (361 miliardi), in francese (45 miliardia), in spagnolu (45 miliardia), in tedescu (37 miliardini), in chinese (13 miliardi), russu (35 milioni) (2 milioni). I travaglii più antichi anu publicatu in u 1500. I primi decennii sò rapprisentati da un pocu libri per annu, chì compone parechji cintunari mila parolle. Versu u 1800, u corpus creci à 98 million parolle annu; à u 1900, 1,8 miliardi; è à u 2000, 11 miliardi. U corpu ùn pò micca legatu per un umanu. Sì avete tentatu di leghje solu entrate in inglese in l'annu 2000 solu, à u ritimu di 200 parole / min, senza interrupzioni per l'alimentu o di u sonnu, pochè 80 anni. A secùncia di littri sò 1000 volta più larga ca u genomu umanu: Se l'avete scrittu in una linea recta, avaristi righjunghja à a Luna è volta 10 volte ".
L'scala di sta dati hè u sensu induve crescente, è avemu tuttu furtunati chì a squadra Google Books hà publicatu din dati à u publicu (in fattu, unipochi di l'attività à a fine di stu capitulu usanu din dati). Ma, quandu vi vede quarchi cosa chjamate quì averebbe dumandà: hè chì tutti quelli dati facenu veramente qualcosa? Anu pussutu fà a stessa ricerca si i dati puderanu alcuni à a luna è di volta solu una volta? Chì si a dati puderia micca solu ghjunghje à u cima di u Monti Everest o a cima di a Torre Eiffel?
In questu casu, a so ricerca fai, in particulare, avè qualchì sughjurnazione chì demandanu un corpusu enormu di parole annantu à un perchidu tempo. Per esempiu, una cosa chì anu exploratu hè l'evoluzione di a grammatica, particularmente cambia in a tarifa di conjugazione di verbi irregulari. Sicondu certi verbi irregulari sò pocu rari, una grande quantità di dati hè bisognu di dette cambiassi à u tempu. Prudutti di solitu, però, i circhudelli pari di trattà a talla di a big fonte di dati com'è finale - "aspettu quantu dati pozzu crescenu" - più di un mezzu per un pocu aspettu scientificu più impurtante.
In a mo spirimintà, l'estudo di l'avvenimenti rari hè unu di i trè persone scienza spicifici chì e grande datu anu da esse attivati. U sicondu hè u studiu di l'heterogeneità, cumu pò esse illustratu da un studiu da Raj Chetty è i culleghji (2014) nantu à a mobilità suciale in i Stati Uniti. In u passatu, assai pruduttori anu studiatu a mobilità suciale si compara i risultati di vita nantu à i genitori è i zitelli. Un truvendu consistente di sta littiratura hè chì i parenti favuriti tendanu à avè i figlioli favurizati, ma a forza di questa rilazioni varia in u tempu è in tuttu i paesi (Hout and DiPrete 2006) . Ricerca pocu tempu, Chetty è i culleghi puderanu aduprà i registrazioni di impieghi da 40 milioni di pirsuni per stima l'heterogeneità in a mobiltà intergenerational trà e regioni in i Stati Uniti (figura 2.1). Hè truvatu, per esempiu, chì a probabilidade chì un zitellu riceviu à u quintuè quintilu di a distribuzione d'ingudu naziunale da una famiglia in u quintile di u fondu hè di circa 13% in San Jose, California, ma solu di 4% in Charlotte, North Carolina. Se vi vede a Figura 2.1 per un mumentu, pudete piglià per dumandassi perchè a mobilità intergenerational hè più altu in qualchi postu chì altri. Chetty è i culleghi sò stata pricisa, è truvonu chì e duminiu d'alta mobiltà sò menu segregazione residenciale, menu inequalità di l'ingudu, megliu scole primariu, più capitale soziale, è una stabilità di a famiglia più grande. Eppuru, queste correlazioni ùn sanu micca quì sottu chì i sti fattori causanu una mobilità più numerosa, ma ùn suggerenu i miccanisimi pussibuli chì si ponu esse espluratu in più u travagliu, chì hè esattamente ciò chì Chetty è i culleghi anu fattu in u travagliu sussegwenti. Avete chì a dimensione di i dati era impurtante in stu prughjettu. Sì Chetty è i culleghi anu utilizzatu i rimborsu di 40 mila persona in più di 40 miliuni, ùn anu micca avè pututu qualificà l'heterogeneità regiunale è ùn anu mai capu à fà a ricerca sussegultu per pruvà d'identifichia i miccanismi chì creanu sta variazione.
Infine, in più di studià avvenimenti rari è studii di l'heterogeneità, e grande datu chì anu permettenu ancu i scuperte detti difetti. In fattu, assai di l'attuali nantu à e grande dati in l'industria hè quellu di sti picculi diffirenzii: cunfidenzialamenti attraversu a diffarenza di u 1% à l'1,1% di ei cartulare di un annu pò traduce in milioni di dolaru in ingrossu extra. In certi ambienti scentifichi, però, picculi diffirenzii picca ùn anu micca esse particularmente impurtante, anche si sò statistichi significativamente (Prentice and Miller 1992) . Ma, in certi paràmetri di pulitica, ponu diventà importanti quandu si vedanu in agraria. Per esempiu, s'ellu ci sò parechji intervenzioni di salute pùblicu è unu hè unu più efficeur chì l'altru, u sceglite l'interventu più efficau pò esse salute à miglii di vive supplementi.
Invece bigness hè generale una bona propriu quannu s'utilice bè, ùn aghju avutu chì alcunu pò levà à un errore conceptual. Per una certa raggiuni, cunzignata pari di guidà i cimatristu per ignurari comu si sò datu generati. Mentre chì bigness riurite u bisognu di preoccupari di l'errore à u succorsu, averà aghjusta u bisognu di l'errore sistematiche, i tipi d'errori chì avissi descrigunu di seguenti chì si sorge da preghjudizii in cumu si creanu a dati. Per esempiu, in un prughjettu ti detti dopu à u capitu, i furestieri utilizanu i missaghji generati l'11 di settembre di u 2001 per pruduce un timeline emozionale di alta risulazione di a riazione à l'attaccu (Back, Küfner, and Egloff 2010) . Perchè i circunsidenti anu un gran numaru di missaghji, ùn devenu micca veramente a pinsari si i patroni chì anu osservatu-crescenu l'ingerimentu nantu à u cursu di u ghjornu, puderia esse spiegatu da variazione aleativi. Ci era assai datu è u patronu era cusì chjaru chì tutte e prucessi statistici statìstichi sugninu chì era un patronu veru. Ma, sti prucessi statistici eranu ignoranti di cumu si data hè creata. Infatti, capitevi chì assai di i patettivi si sò attribuiti à un vucariu solu chì hà generatu messagi mai più longu in u ghjornu. Quassu questu pudendu distrughjitu tutte di i trovi chjucchi in a carta (Pury 2011; Back, Küfner, and Egloff 2011) . Quite semplice, i ricercati chì ùn pensanu micca micca di l'avversu sistemàticu face u risicu di l'utilizazione di i so grande datu per ottene una estimazione precisa di una quantità impurtante, cum'è u cuntenutu emozionale di messagi senza significatu pruduciutu da un robot automatizatu.
In cunclusioni, e grande datu ùn sò micca un capu in elli, ma permettenu certu tipi di ricerca, cumpresu l'estudo di manifestazioni rari, l'estimazione di l'heterogeneità è a deteczione di picculi difetti. Grandi datu dati altri parce ancu di guidà certi investigatori per ignuraru chì a so dati fù creatu, chì ponu conduce n à ottene una stima precisa di una quantità impurtante.