Na era analóxica, a recollida de datos sobre o comportamento de quen fai o que, cando, era caro e, polo tanto, relativamente raros. Agora, na era dixital, os comportamentos de mil millóns de persoas están rexistrados, almacenados e analizable. Por exemplo, cada vez que premer en un sitio, facer unha chamada no seu teléfono móbil, ou pagar por algo coa súa tarxeta de crédito, un rexistro dixital do seu comportamento é creado e gardado por unha empresa. Porque eses datos son un subproduto de cada día accións das persoas, son frecuentemente chamados de vestixios dixitais. Ademais destes trazos detidas por empresas, gobernos tamén datos incrible ricas sobre as persoas e as empresas, os datos que moitas veces é dixitalizado e analizable. Xuntos, estes rexistros empresariais e gobernamentais son frecuentemente chamados de big data.
A inundación sempre crecente de big data significa que pasamos dun mundo onde os datos de comportamento era escaso para un mundo onde datos de comportamento é abundante. Pero, porque este tipo de datos son relativamente novo, unha cantidade infeliz de busca usalos parece científicos perseguir cegamente datos dispoñibles. Este capítulo, no seu lugar, ofrece unha visión baseada en principios para a comprensión das distintas fontes de datos e como poden ser usados. Esta comprensión máis rica debe axudar a responder mellor as súas preguntas de investigación a fontes apropiadas de datos. Ou, se estas fontes existentes son escasos, convencido-lo a recoller os seus propios datos usando as ideas nos vindeiros capítulos.
Un primeiro paso para aprender big data é entender que forma parte dunha categoría máis ampla de datos que foi utilizado para a investigación social por moitos anos: datos observacionais. Grosso modo, datos astronómicos é calquera dato que resulta da observación dun sistema social sen intervir dalgún xeito. Un xeito bruta de pensar sobre iso é que os datos de observación é todo o que non implica falar con xente (por exemplo, enquisas, o tema do capítulo 3) ou cambio de ambientes das persoas (por exemplo, experimentos, o tema do capítulo 4). Así, ademais de rexistros empresariais e gobernamentais, datos observacionais inclúe cousas como o texto de artigos de xornal e fotos de satélite.
Este capítulo ten tres partes. En primeiro lugar, na sección 2.2, describo big data con máis detalle e aclarar unha diferenza fundamental entre el e os datos que foron xeralmente utilizado para a investigación social no pasado. A continuación, na Sección 2.3, describo dez características comúns de fontes de datos grandes. Entender esas características nos permite recoñecer rapidamente os puntos fortes e débiles das fontes existentes e axudaranos a aproveitar as novas fontes que serán creados no futuro. Finalmente, na Sección 2.4, describo tres principais estratexias de investigación que pode usar para aprender a partir de datos de observación: as cousas que contan, as cousas de previsión, e achegando un experimento.