En la era analógica, la recogida de datos sobre el comportamiento-que hace lo que cuando-era caro, y por lo tanto, relativamente poco común. Ahora, en la era digital, los comportamientos de miles de millones de personas se registran, almacenan, y analizable. Por ejemplo, cada vez que se hace clic en una página web, hacer una llamada en su teléfono celular, o pagar por algo con su tarjeta de crédito, un registro digital de su comportamiento es creado y almacenado por una empresa. Debido a que estos datos son un subproducto de cada día las acciones de las personas, que a menudo se llaman los rastros digitales. Además de estos restos en poder de las empresas, los gobiernos también tienen datos muy ricas sobre las personas y las empresas, los datos que a menudo es digitalizada y analizable. En conjunto, estos registros comerciales y gubernamentales son a menudo llamados grandes volúmenes de datos.
La siempre creciente flujo de datos grande significa que hemos pasado de un mundo donde era escaso a un mundo donde los datos de comportamiento es abundante datos de comportamiento. Pero, debido a que estos tipos de datos son relativamente nuevos, un desafortunado cantidad de investigación con ellos se parece a los científicos persiguen ciegamente datos disponibles. En este capítulo, en cambio, ofrece un enfoque basado en principios para la comprensión de las diferentes fuentes de datos y cómo se puede utilizar. Esta comprensión más rica debe ayudarle a adaptarse mejor a sus preguntas de investigación a fuentes adecuadas de datos. O bien, si tales fuentes existentes se carece, convencer a los que usted pueda recoger sus propios datos utilizando las ideas en futuros capítulos.
Un primer paso para aprender a partir de datos grande es darse cuenta de que es parte de una categoría más amplia de datos que se han utilizado para la investigación social desde hace muchos años: datos de observación. A grandes rasgos, los datos de observación es cualquier datos que resulta de la observación de un sistema social sin intervenir de algún modo. Una forma cruda de pensar en ello es que los datos de observación es todo lo que no implica hablar con la gente (por ejemplo, encuestas, el tema del capítulo 3) o entornos cambiantes de las personas (por ejemplo, experimentos, el tema del capítulo 4). Por lo tanto, además de los registros comerciales y gubernamentales, los datos de observación también incluye cosas como el texto de los artículos periodísticos y fotos de satélite.
Este capítulo consta de tres partes. En primer lugar, en la Sección 2.2, se describen los grandes datos con más detalle y aclarar una diferencia fundamental entre éste y los datos que se han utilizado generalmente para la investigación social en el pasado. A continuación, en la Sección 2.3, describo diez características comunes de las fuentes de datos grandes. La comprensión de estas características nos permite reconocer rápidamente las fortalezas y debilidades de las fuentes existentes y nos ayudará a poner las nuevas fuentes que se van a crear en el futuro. Por último, en la Sección 2.4, se describen tres estrategias principales de investigación que se pueden utilizar para aprender de los datos de observación: las cosas de conteo, las cosas de predicción, y se aproxima a un experimento.