Na idade análoga, a recollida de datos sobre o comportamento -que fai o que e cando- era caro e, polo tanto, relativamente raro. Agora, na era dixital, os comportamentos de miles de millóns de persoas están rexistradas, almacenadas e analizables. Por exemplo, cada vez que fai clic nun sitio web, fai unha chamada no seu teléfono móbil ou paga algo coa súa tarxeta de crédito, un rexistro dixital do seu comportamento é creado e almacenado por unha empresa. Debido a que estes tipos de datos son un subproducto das accións cotiás da xente, moitas veces son chamadas trazas dixitais . Ademais destes rastros detidos por empresas, os gobernos tamén teñen datos moi ricos sobre persoas e empresas. Xuntos estes rexistros comerciais e gobernamentais adoitan denominarse grandes datos .
A inundación cada vez maior de grandes datos significa que nos mudamos dun mundo onde os datos de comportamento eran escasos para un mundo onde os datos de comportamento son abundantes. Un primeiro paso para aprender de grandes datos é entender que forma parte dunha categoría máis ampla de datos que se utilizou durante moitos anos na investigación social: datos observacionales . Aproximadamente, os datos de observación son datos que resultan de observar un sistema social sen intervir dalgún xeito. Unha forma grosa de pensar niso é que os datos de observación son todo o que non implica falar coas persoas (por exemplo, enquisas, o tema do capítulo 3) ou cambiar os ambientes das persoas (por exemplo, os experimentos, o tema do capítulo 4). Así, ademais dos rexistros empresariais e gobernamentais, os datos de observación tamén inclúen cousas como o texto dos artigos de xornais e as fotos por satélite.
Este capítulo ten tres partes. En primeiro lugar, na sección 2.2, describo con maior detalle as grandes fontes de datos e aclare unha diferenza fundamental entre eles e os datos que normalmente foron utilizados para a investigación social no pasado. Entón, na sección 2.3, describo dez características comúns de grandes fontes de datos. Entender estas características permítelle recoñecer rápidamente os puntos fortes e débiles das fontes existentes e axudarache a aproveitar as novas fontes que estarán dispoñibles no futuro. Finalmente, na sección 2.4, describo tres estratexias principais de investigación que pode usar para aprender a partir de datos observacionais: contar cousas, predicir cousas e aproximar un experimento.