2.3.1.1 Big

Datu-multzo handi bat lortzeko bitarteko bat dira; ez dira bere baitan.

Hiru datuak big ezaugarri onak lehena da gehien eztabaidatu: horiek big datuak. Jende asko, informazio asko pertsona bakoitzeko, edo denboran zehar behaketa ugari: datu-iturri horiek hiru modutan handia izan daiteke. multzoaren handi bat edukitzeak ikerketa-neurketa heterogeneotasuna mota zehatz batzuk ematen dizu, gertakari arraroak ikertzen, desberdintasun txikiak detektatzeko, eta kausazko balioztapenen datuak behaketa from. Badirudi ere, sloppiness mota jakin bat ekarriko.

Lehenengo gauza, zein tamaina bereziki erabilgarria da, batez bestekoak haratago mugitzen azpitaldeetan zehatzak estimazioak egiteko. Adibidez, Gary King, Jennifer Pan, eta Molly Roberts (2013) neurtuta probabilitatea social media Txinan mezu gobernuak zentsuratu egin beharko litzateke. Berez, batez ezabatzeko probabilitatea hau ez da oso zergatik gobernuak mezu batzuk, baina ez beste zentsura ulertzeko lagungarria. Baina, bere multzoaren sartutako 11 milioi mezu delako, King eta lankideak ere ekoiztu zentsura probabilitatea 85 kategoriatan bereizi (adibidez, pornografia, Tibet, eta Pekinen Trafiko) en mezu egiteko estimazioak. kategoria ezberdinetan lanpostuak zentsura probabilitatea alderatuz, nola eta zergatik gobernuak mezu mota jakin zentsura buruz gehiago ulertu ahal izan dute. 11 mila mezu (11 milioi baino mezu) With, ez litzateke dute kategorian-partida aurreikuspen horiek sortzeko gai izan.

Bigarren, tamaina bereziki gertakari arraroen aztertzeko baliagarria da. Adibidez, Goel eta lankideek (2015) modu ezberdinetan erabiltzen tweets viral joan ahal ikasi nahi. milioi bat baino gehiago tweets aztertzeko azterketa egiteko nahikoa goitik handiak aurkituko re-tweet turrusta handiak dira oso batean bat-arraroak buruz delako 3.000 dira beharrezkoak.

Hirugarren, datu-multzo handi gaitu ikertzaile desberdintasun txikiak detektatzeko. Izan ere, industrian datuak big arreta askoz desberdintasun txiki horiek da: fidagarritasunez% 1 eta% 1,1 click-through-tasen arteko aldea ad batean detektatzeko milioika dolar diru-sarrera gehigarria bihur daiteke. ezarpenak zientifiko batzuetan, hala nola, ezberdintasun txiki agian ez da bereziki garrantzitsua (estatistikoki esanguratsuak badira ere). Baina, politika ezarpen batzuk ere, hala nola, ezberdintasun txiki garrantzitsua bihurtu ahal denean agregatuan bisitaldiak. Adibidez, ez bada bi dira osasun publikoaren esku-hartzeak eta bat dago, apur bat gehiago baino eraginkorragoa, ondoren, esku-hartze eraginkorragoa azkenean ezin bizitza gehigarri milaka aurrezteko aldatzen.

Azkenik, datu multzo handi asko handitu kausala kalkulatzea, datuen behaketa batetik, gure gaitasuna. datu-multzo handiak ez funtsean aldatu arren arazo kausala inferentzia egiteko datuak behaketa batetik, datozen eta esperimentu-bi teknika natural hori ikertzaile behaketa batetik kausazko erreklamazioak egiteko garatu duten datu-biak asko datu-multzo handi etekina batera. azaldu eta argitzeko xehetasun handiagoz erreklamazio honen kapitulu honetan denean ikerketa estrategiak azalduko ditut dut.

tamainakoa da, oro har arren jabetza ona denean, behar bezala erabili, nabaritu dut tamainakoa dela normalean errore kontzeptual bat dakar. Arrazoi batzuk, tamainakoa badirudi ikertzaile eramango bere datuak nola sortu da alde batetara utzi. Tamainakoa du beharrezkoa dela ausazko error kezkatu murrizteko bitartean, benetan beharrezkoa dela, akats sistematikoak kezkatu handitzen du, hori dela azpitik gehiagotan azalduko ditut, akats mota lodirik batetik sortzen datuak nola sortu eta bildutako zara. multzoaren txiki batean, bi ausazko error eta akats sistematikoak garrantzitsua izan daiteke, baina multzoaren ausazko error handi bat da kanpoan batezbeste daiteke eta akats sistematikoak nagusi. Ikertzaileak ez duten error sistematikoa amaituko da beren datu-multzo handiak erabiliz okerreko gauza estimazio zehatz bat lortu behar dela uste du; izango dira, hain zuzen zehaztugabeak (McFarland and McFarland 2015) .