Na era analógica, coletar dados sobre o comportamento - quem faz o quê e quando - era caro e, portanto, relativamente raro. Agora, na era digital, os comportamentos de bilhões de pessoas são registrados, armazenados e analisáveis. Por exemplo, toda vez que você clica em um site, faz uma chamada em seu celular ou paga algo com seu cartão de crédito, um registro digital de seu comportamento é criado e armazenado por uma empresa. Como esses tipos de dados são um subproduto das ações cotidianas das pessoas, eles geralmente são chamados de rastreamentos digitais . Além desses rastros mantidos pelas empresas, os governos também têm dados incrivelmente ricos sobre pessoas e empresas. Juntos, esses registros comerciais e governamentais são geralmente chamados de big data .
A inundação cada vez maior de big data significa que nos mudamos de um mundo onde os dados comportamentais eram escassos para um mundo em que os dados comportamentais são abundantes. Um primeiro passo para aprender com o big data é perceber que ele faz parte de uma categoria mais ampla de dados que tem sido usada para pesquisa social há muitos anos: dados observacionais . Grosso modo, os dados observacionais são quaisquer dados que resultam da observação de um sistema social sem intervir de alguma forma. Uma forma grosseira de pensar sobre isso é que os dados observacionais são tudo o que não envolve falar com as pessoas (por exemplo, pesquisas, o tópico do capítulo 3) ou mudar o ambiente das pessoas (por exemplo, experimentos, o tópico do capítulo 4). Assim, além dos registros comerciais e governamentais, os dados observacionais incluem também coisas como o texto de artigos de jornais e fotos de satélite.
Este capítulo tem três partes. Em primeiro lugar, na seção 2.2, eu descrevo as fontes de big data em mais detalhes e clarifico uma diferença fundamental entre elas e os dados que foram tipicamente usados para pesquisa social no passado. Em seguida, na seção 2.3, descrevo dez características comuns de fontes de big data. A compreensão dessas características permite que você reconheça rapidamente os pontos fortes e fracos das fontes existentes e ajudará a aproveitar as novas fontes que estarão disponíveis no futuro. Finalmente, na seção 2.4, descrevo três principais estratégias de pesquisa que você pode usar para aprender com dados observacionais: contando coisas, prevendo coisas e aproximando um experimento.