En la era analógica, recopilar datos sobre el comportamiento (quién hace qué y cuándo) era costoso y, por lo tanto, relativamente raro. Ahora, en la era digital, los comportamientos de miles de millones de personas se registran, almacenan y analizan. Por ejemplo, cada vez que hace clic en un sitio web, realiza una llamada en su teléfono móvil o paga algo con su tarjeta de crédito, la empresa crea y almacena un registro digital de su comportamiento. Debido a que estos tipos de datos son un subproducto de las acciones cotidianas de las personas, a menudo se denominan rastros digitales . Además de estos rastros de las empresas, los gobiernos también tienen datos increíblemente ricos sobre personas y empresas. En conjunto, estos registros comerciales y gubernamentales a menudo se denominan Big Data .
La incesante inundación de grandes volúmenes de datos significa que nos hemos movido de un mundo donde los datos de comportamiento eran escasos a un mundo donde los datos de comportamiento son abundantes. Un primer paso para aprender de los macrodatos es darse cuenta de que es parte de una categoría de datos más amplia que se ha utilizado durante muchos años para la investigación social: datos de observación . A grandes rasgos, los datos de observación son datos que resultan de observar un sistema social sin intervenir de alguna manera. Una forma cruda de pensar es que los datos de observación son todo lo que no implica hablar con personas (por ejemplo, encuestas, el tema del capítulo 3) o cambiar los entornos de las personas (por ejemplo, experimentos, el tema del capítulo 4). Por lo tanto, además de los registros comerciales y gubernamentales, los datos de observación también incluyen elementos como el texto de artículos de periódicos y fotografías satelitales.
Este capítulo tiene tres partes. Primero, en la sección 2.2, describo las fuentes de big data con más detalle y aclaro una diferencia fundamental entre ellas y los datos que se han usado típicamente para la investigación social en el pasado. Luego, en la sección 2.3, describo diez características comunes de las fuentes de big data. Comprender estas características le permite reconocer rápidamente las fortalezas y debilidades de las fuentes existentes y le ayudará a aprovechar las nuevas fuentes que estarán disponibles en el futuro. Finalmente, en la sección 2.4, describo tres estrategias principales de investigación que puede usar para aprender a partir de datos de observación: contar cosas, pronosticar cosas y aproximar un experimento.