Grans conjunts de dades són un mitjà per a un fi; no són un fi en si mateixos.
La característica més àmplia de les grans fonts de dades és que són grans. Molts documents, per exemple, comencen discutint -i, de vegades, pretenent- sobre quantes dades analitzen. Per exemple, un article publicat a la ciència que estudia tendències d'ús de paraules al corpus de llibres de Google inclou el següent (Michel et al. 2011) :
"[El nostre] corpus conté més de 500 mil milions de paraules, en anglès (361 mil milions), francès (45 mil milions), espanyol (45 mil milions), alemany (37 mil milions), xinès (13 mil milions), rus (35 mil milions) i hebreu (2 mil milions). Les obres més antigues es van publicar a la dècada de 1500. Les primeres dècades estan representades per només uns pocs llibres per any, que inclouen centenars de mil paraules. Cap a 1800, el corpus creix a 98 milions de paraules l'any; el 1900, 1.8 mil milions; i el 2000, 11 mil milions. El corpus no pot ser llegit per un humà. Si només heu intentat llegir només les entrades en anglès de l'any 2000, a un ritme raonable de 200 paraules / minut, sense interrupcions per aliments ni per al somni, trigaria 80 anys. La seqüència de lletres és 1000 vegades més llarga que el genoma humà: si la va escriure en línia recta, arribaria a la Lluna i tornaria 10 vegades més ".
L'escala d'aquestes dades és, sens dubte, impressionant, i tenim la sort que l'equip de Google Books hagi publicat aquestes dades al públic (de fet, algunes de les activitats al final d'aquest capítol fan ús d'aquestes dades). Però, sempre que vegeu alguna cosa així, heu de preguntar: és que totes aquestes dades realment fan qualsevol cosa? Podrien haver fet la mateixa investigació si les dades podrien arribar a la Lluna i tornar només una vegada? Què passa si les dades només podrien arribar al cim de l'Everest o al cim de la Torre Eiffel?
En aquest cas, la seva recerca fa, de fet, algunes troballes que requereixen un gran corpus de paraules durant un llarg període de temps. Per exemple, una cosa que exploren és l'evolució de la gramàtica, particularment canvis en la taxa de conjugació del verb irregular. Atès que alguns verbs irregulars són bastant rars, una gran quantitat de dades és necessària per detectar canvis al llarg del temps. Tanmateix, amb massa freqüència, els investigadors semblen tractar la mida de la font de dades com a fi, "mira quant dades puc", més que un mitjà per a un objectiu científic més important.
En la meva experiència, l'estudi d'esdeveniments rars és un dels tres objectius científics específics que generen grans conjunts de dades. El segon és l'estudi de l'heterogeneïtat, tal com es pot veure en un estudi de Raj Chetty i col·legues (2014) sobre la mobilitat social als Estats Units. En el passat, molts investigadors han estudiat la mobilitat social comparant els resultats de vida dels pares i els fills. Una constatació contínua d'aquesta literatura és que els pares afavorits tendeixen a tenir fills afavorits, però la força d'aquesta relació varia amb el pas del temps i en els països (Hout and DiPrete 2006) . Més recentment, però, Chetty i col·legues van poder utilitzar els registres fiscals de 40 milions de persones per estimar l'heterogeneïtat de la mobilitat intergeneracional a les regions dels Estats Units (figura 2.1). Van trobar, per exemple, que la probabilitat que un nen arribi al quintil superior de la distribució nacional d'ingressos a partir d'una família al quintil inferior és del 13% a San José, Califòrnia, però només al voltant del 4% a Charlotte, Carolina del Nord. Si observeu la figura 2.1 per un moment, podeu començar a preguntar-se per què la mobilitat intergeneracional és més alta en alguns llocs que altres. Chetty i col·legues tenien exactament la mateixa pregunta, i van trobar que les àrees d'alta mobilitat tenen menys segregació residencial, menys desigualtat d'ingressos, millors escoles primàries, major capital social i major estabilitat familiar. Per descomptat, solament aquestes correlacions no mostren que aquests factors provoquin una major mobilitat, però suggereixen possibles mecanismes que es poden explorar en altres treballs, que és exactament el que Chetty i els seus companys han fet en el treball posterior. Observeu com la mida de les dades era realment important en aquest projecte. Si Chetty i els seus col·legues havien utilitzat els registres fiscals de 40 mil persones en comptes de 40 milions, no haurien pogut estimar l'heterogeneïtat regional i mai no haurien pogut fer investigacions posteriors per intentar identificar els mecanismes que creen aquesta variació.
Finalment, a més d'estudiar esdeveniments rars i estudiar heterogeneïtat, grans conjunts de dades també permeten als investigadors detectar petites diferències. De fet, gran part de l'enfocament de les grans dades a la indústria es refereix a aquestes petites diferències: detectar de forma fiable la diferència entre un 1% i un 1,1% de tarifes de clics en un anunci es pot traduir en milions de dòlars en ingressos addicionals. Tanmateix, en alguns entorns científics, aquestes petites diferències poden no ser importants, fins i tot si són estadísticament significatives (Prentice and Miller 1992) . Però, en alguns paràmetres de política, poden esdevenir importants quan es visualitzen en general. Per exemple, si hi ha dues intervencions de salut pública i una és lleugerament més eficaç que l'altra, aleshores escollir la intervenció més eficaç podria acabar estalviant milers de vides addicionals.
Tot i que, en general, és una bona propietat quan s'utilitza correctament, he observat que de vegades pot conduir a un error conceptual. Per algun motiu, sembla que els investigadors ignoren com es van generar les seves dades. Tot i que la mida no redueix la necessitat de preocupar-se per l'error aleatori, realment augmenta la necessitat de preocupar-se pels errors sistemàtics, els tipus d'errors que vaig a descriure a continuació es deriven dels biaixos en com es creen les dades. Per exemple, en un projecte que vaig a descriure més endavant en aquest capítol, els investigadors van utilitzar missatges generats l'11 de setembre de 2001 per produir un cronològic emocional d'alta resolució de la reacció a l'atac terrorista (Back, Küfner, and Egloff 2010) . Com que els investigadors tenien un gran nombre de missatges, no tenien necessitat de preocupar-se si els patrons que observaven -increment de la ira al llarg del dia- podrien explicar-se per variació aleatòria. Hi havia tantes dades i el patró era tan clar que totes les proves estadístiques estadístiques suggereixen que aquest era un patró real. No obstant això, aquestes proves estadístiques ignoraven com es van crear les dades. De fet, va resultar que molts dels patrons van ser atribuïbles a un únic bot que va generar més i més missatges sense sentit durant tot el dia. L'eliminació d'aquest bot va destruir completament algunes de les troballes clau del document (Pury 2011; Back, Küfner, and Egloff 2011) . Simplement, els investigadors que no pensen en un error sistemàtic s'enfronten al risc d'utilitzar els seus grans conjunts de dades per obtenir una estimació precisa d'una quantitat no important, com ara el contingut emocional dels missatges sense sentit produïts per un bot automatitzat.
En conclusió, els grans conjunts de dades no són un fi en si mateixos, sinó que poden permetre certs tipus de recerca, incloent-hi l'estudi d'esdeveniments rars, l'estimació d'heterogeneïtat i la detecció de petites diferències. Els grans conjunts de dades també semblen portar alguns investigadors a ignorar com es van crear les seves dades, la qual cosa els pot portar a obtenir una estimació precisa d'una quantitat no important.