Grandes conxuntos de datos son un medio para un fin; eles non son un fin en si.
A característica máis discutida das grandes fontes de datos é que son GRANDES. Moitos papeis, por exemplo, comezan discutindo -e ás veces fanfarronando- sobre a cantidade de datos que analizaron. Por exemplo, un artigo publicado en Science estudando tendencias de uso de palabras no corpus de Google Books incluíu o seguinte (Michel et al. 2011) :
"[O noso] corpus contén máis de 500 mil millóns de palabras, en inglés (361 mil millóns), francés (45 mil millóns), español (45 mil millóns), alemán (37 mil millóns), chinés (13 mil millóns), ruso (35 mil millóns) e hebreo (2 millóns). Os traballos máis antigos publicáronse nos anos 1500. As primeiras décadas están representadas por uns poucos libros ao ano, que inclúen centos de miles de palabras. En 1800, o corpus crece a 98 millóns de palabras por ano; en 1900, 1.8 mil millóns; e para 2000, 11 mil millóns. O corpo non pode ser lido por un humano. Se intentou ler só as entradas en inglés a partir do ano 2000 só, a un ritmo razoable de 200 palabras / min, sen interrupcións por comida ou para durmir, levaríanse 80 anos. A secuencia de letras é 1000 veces máis longa que a do xenoma humano: se a escribiu nunha liña recta, alcanzaría a Lúa e volvía 10 veces máis. "
A escala destes datos é sen dúbida impresionante e todos temos a sorte de que o equipo de Google Books publicou estes datos ao público (de feito, algunhas das actividades ao final deste capítulo fan uso destes datos). Pero, cando vexas algo coma este, debes preguntar: é que todo ese dato realmente fai algo? Podería facer a mesma investigación se os datos puideron chegar á Lúa e volver só unha vez? E se os datos só puidesen chegar ao cumio do Monte Everest ou no cumio da Torre Eiffel?
Neste caso, a súa investigación ten, de feito, algúns descubrimentos que requiren un gran corpus de palabras durante un longo período de tempo. Por exemplo, unha cousa que exploran é a evolución da gramática, en particular os cambios na taxa de conxugación do verbo irregular. Unha vez que algúns verbos irregulares son bastante raros, unha gran cantidade de datos é necesaria para detectar cambios ao longo do tempo. Con demasiada frecuencia, porén, os investigadores parecen tratar o tamaño da gran fonte de datos como un fin: "mire a cantidade de datos que podo facer", máis que un medio para un obxectivo científico máis importante.
Na miña experiencia, o estudo de eventos raros é un dos tres fins científicos específicos que grandes datasets tenden a permitir. O segundo é o estudo da heteroxeneidade, como pode ser ilustrado por un estudo de Raj Chetty e colegas (2014) sobre a mobilidade social nos Estados Unidos. No pasado, moitos investigadores estudaron a mobilidade social comparando os resultados da vida de pais e fillos. Unha constatación constante desta literatura é que os pais favorecidos tenden a ter fillos favorecidos, pero a forza desta relación varía co paso do tempo e en todos os países (Hout and DiPrete 2006) . Máis recentemente, con todo, Chetty e os seus colegas puideron empregar os rexistros fiscais de 40 millóns de persoas para estimar a heteroxeneidade na mobilidade interxeracional nas rexións dos Estados Unidos (figura 2.1). Eles descubriron, por exemplo, que a probabilidade de que un neno alcance o quintil superior da distribución nacional de ingresos a partir dunha familia no quintile inferior é do 13% en San José, California, pero só o 4% en Charlotte, Carolina do Norte. Se observas a figura 2.1 por un momento, podes comezar a preguntar por que a mobilidade interxeracional é maior nalgúns lugares que noutros. Chetty e compañeiros tiñan exactamente a mesma pregunta e atoparon que as áreas de alta mobilidade teñen menos segregación residencial, menos desigualdade de renda, mellores escolas primarias, maior capital social e maior estabilidade familiar. Por suposto, estas correlacións por si só non demostran que estes factores causen maior movilidad, pero suxiren posibles mecanismos que se poden explorar noutros traballos, o cal é o que Chetty e os seus colegas fixeron no traballo posterior. Observe como o tamaño dos datos foi realmente importante neste proxecto. Se Chetty e os seus colegas usaran os rexistros fiscais de 40 mil persoas en lugar de 40 millóns, non poderían estimar a heteroxeneidade rexional e nunca poderían facer investigacións posteriores para tratar de identificar os mecanismos que crean esta variación.
Finalmente, ademais de estudar eventos raros e estudar a heteroxeneidade, grandes conxuntos de datos tamén permiten aos investigadores detectar pequenas diferenzas. De feito, gran parte do foco en grandes datos na industria trata sobre estas pequenas diferenzas: a detección fiable da diferenza entre o 1% e o 1,1% das taxas de clic nun anuncio pode traducirse en millóns de dólares en ingresos adicionais. Nalgúns ambientes científicos, con todo, tales pequenas diferenzas poden non ser particularmente importantes, aínda que sexan estadísticamente significativas (Prentice and Miller 1992) . Pero, nalgunha configuración de política, poden chegar a ser importantes cando se ven en conxunto. Por exemplo, se hai dúas intervencións de saúde pública e unha é un pouco máis eficaz que a outra, entón elixir a intervención máis efectiva podería acabar aforrando miles de vidas adicionais.
Aínda que a maioría é xeralmente unha boa propiedade cando se usa correctamente, notei que ás veces pode levar a un erro conceptual. Por algunha razón, a importancia parece levar aos investigadores a ignorar como se xeraron os seus datos. Mentres que Bigness reduce a necesidade de preocuparse polo erro aleatorio, realmente aumenta a necesidade de preocuparse polos erros sistemáticos, os tipos de erros que describiré a continuación que xorden do prexuízo na forma en que se crean os datos. Por exemplo, nun proxecto que describirei máis tarde neste capítulo, os investigadores usaron mensaxes xeradas o 11 de setembro de 2001 para producir unha cronoloxía emocional alta resolución da reacción ao ataque terrorista (Back, Küfner, and Egloff 2010) . Debido a que os investigadores tiñan un gran número de mensaxes, realmente non necesitaban preocuparse se os patróns que observaban -a crecente rabia ao longo do día- podíanse explicar por variación aleatoria. Había demasiados datos eo patrón era tan claro que todas as probas estatísticas estatísticas suxeriron que este era un patrón real. Non obstante, estas probas estatísticas eran ignorantes de como se crearon os datos. De feito, descubriuse que moitos dos patróns eran atribuíbles a un único bot que xeraba máis e máis mensaxes sen sentido ao longo do día. Eliminando este bot completamente destruíu algúns dos principais achados no artigo (Pury 2011; Back, Küfner, and Egloff 2011) . Moi sinxelo, os investigadores que non pensan no erro sistemático enfrontan o risco de utilizar os seus grandes conxuntos de datos para obter unha estimación precisa dunha cantidade pouco importante, como o contido emocional das mensaxes sen sentido producidas por un bot automatizado.
En conclusión, os grandes conxuntos de datos non son un fin en si mesmos, pero poden permitir certos tipos de investigación, incluíndo o estudo de eventos raros, a estimación da heteroxeneidade e a detección de pequenas diferenzas. Os grandes conxuntos de datos tamén parecen levar algúns investigadores a ignorar como se crearon os seus datos, o que pode levar a obter unha estimación precisa dunha cantidade pouco importante.