Datu-multzo handi bat lortzeko bitarteko bat dira; ez dira bere baitan.
Datu-iturri handien ezaugarri nagusia da BIG direla. Askok paperak, adibidez, eztabaidatzen hasi ziren, eta, batzuetan, bragging-ek, zenbat datu aztertu zituzten. Adibidez, Google Books corpus-en Word-Erabileraren Joerak ikasten dituen zientzian argitaratutako paper bat honako hau izan da (Michel et al. 2011) :
"[Gure] corpusak 500 milioi hitz baino gehiago ditu, ingelesez (361 milioi), frantsesa (45 milioi), gaztelania (45 milioi), alemana (37 milioi), txinera (13 milioi), errusiera (35 milioi), eta hebreera (2 milioi). Lan zaharrenak 1500garren urtean argitaratu ziren. Hamarkada hasieran urteko liburu gutxi batzuk baino ez dira, ehun mila hitz. 1800. urteaz geroztik, corpusek 98 milioi hitz egiten ditu urtero; 1900. urtean 1,8 milioi; eta 2000. urtean, 11 milioi. Corpusak ezin du gizaki batek irakurri. 2000. urteko 2000. urteko ingelesezko sarrerak ingelesez soilik irakurtzen saiatu bazen, 200 hitz / minutuko erritmo erritmoan, elikadura edo lo egiteko etenik gabe, 80 urte beharko lirateke. Letren sekuentzia giza genoma baino 1000 aldiz luzeagoa da: lerro zuzenean idatzi baduzu, Ilargira iritsiko litzateke eta 10 aldiz baino gehiago itzuliko da ".
Datu horietako eskala zalantzarik gabe ikusgarria da, eta zorionekoak gara Google Books taldeak datu horiek publikoari bidaltzen dizkionak (hain zuzen ere, kapitulu honen amaieran egindako jardueren bat datu horiek erabiltzeko). Baina, horrelako zerbait ikusten duzun bakoitzean, galdetu beharko zenuke: datu guztiak benetan egiten ari dela? Ikerketa bera egin al dezakete datuak Ilargira iristeko eta atzera egiteko behin bakarrik? Zer gertatuko lirateke datuak Everest mendian edo Eiffel Dorrea goian?
Kasu honetan, ikerketak, hain zuzen ere, epe luzean hitz multzo handi bat eskatzen duten aurkikuntza batzuk ditu. Esate baterako, esploratzen duten gauza bakarra gramatika bilakaera da, batez ere aditz irregularren konjugazioko aldaketetan. Aditz irregular batzuk nahiko bitxiak direlako, datu kopuru handia denboran zehar aldaketak detektatu behar dira. Sarritan, ordea, ikertzaileek datu-iturri handiaren tamaina iturri gisa tratatzen dutela dirudi "begiratu zenbat datu ditudan nahastea", helburu zientifiko garrantzitsuagoa lortzeko bitartekoa baino.
Nire esperientzian, gertakari arraroen azterketa datu multzo handiek sortutako zientzia-helburu zehatzak dira. Bigarrena heterogeneotasuna aztertzea da, Raj Chetty-ren eta lankideen (2014) ikerketaren bidez ilustratzen baita Estatu Batuetako mugikortasun sozialean. Iraganean, ikertzaile askok mugikortasun soziala ikertu dute gurasoen eta seme-alaben bizitza-emaitzekin alderatuz. Literaturari buruzko (Hout and DiPrete 2006) seme-alabak onuragarriak izaten dituztela izaten jarraitzen dute, baina harreman hori indarra aldatu egiten da denboran eta herrialde guztietan (Hout and DiPrete 2006) . Duela gutxi, ordea, Chettyk eta lankideek 40 milioi laguneko zerga erregistroak erabili zituzten Amerikako Estatu Batuetan eskualdeen arteko belaunaldien arteko mugikortasunaren heterogeneotasuna kalkulatzeko (2.1 irudia). Esate baterako, aurkitu dute, esate baterako, haur batek errenta nazionalaren banaketaren goiko kostakoa topatzen duela beheko kostako batean familia batean hasten den probabilitatea% 13 ingurukoa da San Jose, Kalifornia, baina Charlotte, North Carolina-ko% 4 besterik ez da. Une batez 2.1 irudia begiratuz gero, belaunaldien arteko mugikortasuna handiagoa da beste leku batzuetan baino. Chettyk eta lankideek galdera bera izan zuten eta mugikortasun handiko eremuek bizitoki segregazio gutxiago dute, errenta desberdintasun gutxiago dute, lehen mailako eskola hobeak, kapital sozial handiagoak eta familia egonkortasun handiagoa. Jakina, korrelazio horiek bakarrik ez dute erakusten faktore horiek mugikortasun handiagoa eragiten dutela, baina lan gehiago esploratzen dituzten mekanismo posibleak iradokitzen dituzte, Chettyk eta lankideek ondorengo lanetan egin dutena. Ikus ezazu nola datuen tamaina oso garrantzitsua izan zen proiektu honetan. Chetty-k eta lankideek 40 mila pertsona baino gehiagoko zerga erregistroak erabili bazituzten, ez zuten heterogeneotasun eskualdea ebaluatu eta inoiz ez zuten sekula egin ikerketarik, aldakuntza hori sortzen duten mekanismoak identifikatu ahal izateko.
Azkenik, gertakari arraroak ikasten eta heterogeneotasuna aztertzen ez ezik, datu multzo handiek ikertzaileek ezberdintasun txikiak detekta ditzakete. Izan ere, industriaren datu handien ikuspegia askoz ere txikiagoa da: iragarkiaren% 1etik% 1,1era bitarteko iragarkiaren arteko desberdintasunak modu fidagarrian antzematen dolarretan diru gehiagotan bil ditzake. Ezarpen zientifiko batzuetan, hala ere, ezberdintasun txikiak ez dira garrantzitsuak, nahiz eta estatistikoki esanguratsuak diren (Prentice and Miller 1992) . Baina, zenbait gidalerro ezarpenetan, garrantzitsuak izan daitezke agregatuan ikusita. Esate baterako, bi osasun publikoko esku-hartzeak badaude, eta bestea baino pixka bat eraginkorragoa bada, orduan esku-hartze eraginkorragoa bilatuz gero, milaka bizitza gehiago aurreztuko lirateke.
Nahitaezkoa denez, ongi erabiltzen den propietatea ona bada ere, nabaritu dut batzuetan akats kontzeptual bat ekar dezakeela. Arrazoi batengatik, badirudi ikertzaileek beren datuak nola sortzen diren ez ikusi ahal izateko. Tamainakoa du beharrezkoa dela ausazko error kezkatu murrizteko bitartean, egia esan beharra akatsik sistematikoa kezkatu handitzen du, akatsak mota hori behean dut deskribatzeko joera sortzen datuak nola sortzen dira ere. Adibidez, proiektu batean kapitulu honetan azalduko dut geroago, ikertzaileek 2001eko irailaren 11n sortutako mezuak erabiliko dituzte, terrorismoaren aurkako erreakzioaren (Back, Küfner, and Egloff 2010) emozionaltasun handiko (Back, Küfner, and Egloff 2010) . Ikertzaileek mezu asko zeuzkatenez, ez zuten benetan kezkatu beharrik izan zuten ereduen arabera -beste egunean zehar haserrea hasterakoan- ausazko aldakuntza azaldu daiteke. Datu asko zegoen eta eredua oso argi zegoen estatistika-estatistiken azterketek frogatu zuten benetako eredua zela. Baina, estatistika probak ez ziren ezagutzen nola datuak sortu ziren. Izan ere, ondorioztatu zuten patroi asko egun osoan zehar zentzugabeko mezu gehiago sortzen zituzten bot bakar bati egotzi zitzaiela. Bot bat ezabatuz erabat desegin zen paperaren aurkikuntza garrantzitsu batzuk (Pury 2011; Back, Küfner, and Egloff 2011) . Nahiko erraz, errore sistematikoan pentsatzen ez duten ikertzaileek datu multzo handiak erabiltzeko arriskua dute kantitate ez hain garrantzitsu baten aurrekontu zehatza lortzeko, esate baterako bot automatizatu batek sortutako zentzugabeko mezuen eduki emozionala.
Ondorioz, datu multzo handiak ez dira berez bukaera, baina ikerketa mota batzuk gaitu ditzakete, gertakari arraroen azterketa, heterogeneotasunaren estimazioa eta desberdintasun txikiak antzematea. Datu multzo handiek ere badirudi ikertzaile batzuek beren datuak nola sortu ez zituztela kontutan hartuta, eta horrek kantitate ez hain garrantzitsu bat lortzea ekar dezake.