Na era analógica, a recolha de dados sobre o comportamento de quem faz o quê, quando, era caro e, portanto, relativamente raros. Agora, na era digital, os comportamentos de bilhões de pessoas são registrados, armazenados e analisável. Por exemplo, cada vez que você clicar em um site, fazer uma chamada em seu telefone celular, ou pagar por algo com seu cartão de crédito, um registro digital do seu comportamento é criado e armazenado por um negócio. Porque esses dados são um subproduto de cada dia ações das pessoas, eles são freqüentemente chamados de vestígios digitais. Além desses traços detidas por empresas, governos também têm dados incrivelmente ricas sobre as pessoas e as empresas, os dados que muitas vezes é digitalizado e analisável. Juntos, esses registros empresariais e governamentais são freqüentemente chamados de big data.
A inundação sempre crescente de big data significa que passamos de um mundo onde os dados comportamentais era escasso para um mundo onde dados comportamentais é abundante. Mas, porque estes tipos de dados são relativamente novo, uma quantidade infeliz de pesquisa usá-los parece cientistas perseguir cegamente dados disponíveis. Este capítulo, em vez disso, oferece uma abordagem baseada em princípios para a compreensão das diferentes fontes de dados e como eles podem ser usados. Esta compreensão mais rica deve ajudá-lo a corresponder melhor suas questões de pesquisa a fontes apropriadas de dados. Ou, se estas fontes existentes são escassos, convencê-lo a recolher os seus próprios dados usando as ideias nos próximos capítulos.
Um primeiro passo para aprender com big data é perceber que ela faz parte de uma categoria mais ampla de dados que tem sido utilizado para a pesquisa social por muitos anos: dados observacionais. Grosso modo, dados observacionais é qualquer dado que resulta da observação de um sistema social sem intervir de alguma forma. Uma maneira bruta de pensar sobre isso é que os dados de observação é tudo o que não envolve falar com as pessoas (por exemplo, pesquisas, o tema do Capítulo 3) ou mudança de ambientes das pessoas (por exemplo, experimentos, o tema do Capítulo 4). Assim, além de registros empresariais e governamentais, dados observacionais também inclui coisas como o texto de artigos de jornal e fotos de satélite.
Este capítulo tem três partes. Em primeiro lugar, na secção 2.2, descrevo big data com mais detalhes e esclarecer uma diferença fundamental entre ele e os dados que têm sido geralmente utilizado para a pesquisa social no passado. Em seguida, na Seção 2.3, descrevo dez características comuns de fontes de dados grandes. Entender essas características nos permite reconhecer rapidamente os pontos fortes e fracos das fontes existentes e nos ajudará a aproveitar as novas fontes que serão criados no futuro. Finalmente, na Seção 2.4, descrevo três principais estratégias de pesquisa que você pode usar para aprender a partir de dados de observação: as coisas que contam, as coisas de previsão, e aproximando um experimento.