2.3.1.1 Big

Large datasets sò u spechju à a so fine; ch'elli ùn sò micca compia a iddi stissi.

U primu di li tri boni e caratteristiche di grande data, hè u più viditi lu discursu: chisti sunnu granni dati. Sti funti dati pò esse grossa a tri diffirenti maneri: assai genti, mori infurmazioni per e persone, o tanti assirvazzioni filu di u tempu. Liggennu na granni dataset permette à qualchi tippi specifichi di heterogeneity ricerca-misurendu, u valore evenimenti raru, lettura nichi diffirenzi, e facennu estimates justifier da données observational. Mi pari puru pi cumannari a un tipu spicìficu di sloppiness.

A prima cosa chì di u taglia è chjaru utuli hè in muvimentu cavallieri media hè di fà estimates di subgroups specifichi. Per esempiu, Giannina King, Jennifer Pan, è Molly Roberts (2013) misuratu in li prubabilità chì pusizioni suciali, di cumunicazione in Cina putìssiru èssiri cinzurata da u guvernu. Par iddu stissu stu prubabilità mediu di sguassà ùn hè assai Corsets di capì perchè u guvernu censors certi posti ma nun àutri. Ma, perchè u so dataset facía 11 miliuna di i posti, re e culleghi macari pruduciutu estimates di u prubabilità di forza di i posti nantu à 85 categorie siparati (per esempiu, pornography, Tibet, è Rank in Beijing). Par comparing la prubbabbilitati di forza di i posti in diffirenti categorie, ch'elli eranu capaci di capisce più vicinu comu e picchì, lu cuvernu censors certi tipi di posti. Cù 11 milla pusizioni (chiu tostu di 11 miliuna di i posti), si nun avissi statu capaci di prudùciri sti estimates specifichi-categuria.

Siconda, taglia hè chjaru utuli di hè u valore di l 'abbinimenti raru. Per esempiu, Goel e culleghi (2015) vuliva cuntinuari a studiari i sfarenti maneri chi Dating pò andà virali. A causa maiò cascata di riscuperta-Dating sò rarissimi-circa unu in un 3000-ci hè vulsutu à studià più chè una miliardi Dating in ordini di a truvari bastanza cascata di a so analisi.

Terzu, grande, datasets attivati ​​i circadori à detect nichi diffirenzi. In fatti, assai di u sughjettu nantu à grande dati in l 'industria è su' sti picculi diffarenzi: lettura reliably la diffirenza tra 1% è 1,1% rates, cliccate-attraversu nantu à un inglese ad pò en Français in miliuna di euru in tax lettinu. In certi u bastimentu à prupiziu, cum'è picculi diffarenzi pudia micca esse particulari mpurtanti (ancu s'è chissi sunnu statisticamenti significativu). Ma, in certi u bastimentu pulitica, accussì nichi diffirenzi pò addivintari 'mpurtanti, quannu si vidi in aggregate. Per esempiu, s'ellu ùn ci sunnu dui altri a salute publica è unu hè nanticchia cchiù ficaci cà l 'altru, dunque belli à l' interventu di più vere pudia sbuccà su autumaticu, migghiara di vita cunnizzioni.

Infine, grande, serii di dati da fà cresce assai a nostra capacità à fà estimates justifier da données observational. Puru, grande datasets nun funnamintarmenti canciari li prubbremi cu rende inference justifier da données observational, truva è naturale spirimenti-du tecnichi chì circadori ani sviluppatu di facennu riclami justifier da observational dati-tramindui attiranu prufittà di grande datasets. I Mulateri Di L'spiecà e illustrate sta scusa a più grande tecnica più tardi in stu capitulu quandu I discrive strategie di ricerca.

Puru bigness eni giniralmenti na bona bè quandu usatu cum'ellu ci vole, quandu sò natu hò vistu ca bigness cunduce scontra à un errore conceptual. Per certi ragiuni, bigness pari a cumannari circadori à ùn cunnosci micca cumu so dati fu caricate. Mentri bigness faci accurtà u bisognu di giuriziu errore incerta, hè primurosu di aumenta lu bisognu di giuriziu errori, omicidiu, la sorti di sbagghi chi I Mulateri Di L'discrive a più sottu chi à truvà da biases in quantu sò aperte e studiusu di dati. In una piccula dataset, à prò di errore incerta è errore sistimàticu pò èssiri mpurtanti, ma in una grande errore incerta dataset si pò esse averaged luntanu e errore sistimàticu supraneghja. Arricercatura s'addunaru ca nun pensu di errore sistimàticu ti a guerra, cù a so grande datasets pè ottene una stimata pricisu di i nunda di male; si sarà pricisamenti inaccurate (McFarland and McFarland 2015) .