É muito menos provável que a medição em fontes de dados grandes mude o comportamento.
Um desafio da pesquisa social é que as pessoas podem mudar seu comportamento quando sabem que estão sendo observadas pelos pesquisadores. Os cientistas sociais geralmente chamam isso de reatividade (Webb et al. 1966) . Por exemplo, as pessoas podem ser mais generosas em estudos de laboratório do que em estudos de campo porque, no primeiro, estão muito conscientes de que estão sendo observadas (Levitt and List 2007a) . Um aspecto do big data que muitos pesquisadores acham promissor é que os participantes geralmente não estão cientes de que seus dados estão sendo capturados ou se tornaram tão acostumados a essa coleta de dados que não alteram mais seu comportamento. Como os participantes são não-reativos , portanto, muitas fontes de big data podem ser usadas para estudar comportamentos que não foram passíveis de medidas precisas anteriormente. Por exemplo, Stephens-Davidowitz (2014) usou a prevalência de termos racistas em consultas de mecanismos de pesquisa para medir o animus racial em diferentes regiões dos Estados Unidos. A natureza não-reativa e grande (consulte a seção 2.3.1) dos dados de pesquisa permitiu medições que seriam difíceis usando outros métodos, como pesquisas.
A não reatividade, no entanto, não garante que esses dados sejam, de alguma forma, um reflexo direto do comportamento ou das atitudes das pessoas. Por exemplo, como um entrevistado em um estudo baseado em entrevistas disse: "Não é que eu não tenha problemas, apenas não os coloco no Facebook" (Newman et al. 2011) . Em outras palavras, mesmo que algumas fontes de dados grandes não sejam reativas, elas nem sempre estão livres do viés de desejabilidade social, a tendência de as pessoas quererem se apresentar da melhor maneira possível. Além disso, como descreverei mais adiante neste capítulo, o comportamento capturado em fontes de big data às vezes é afetado pelos objetivos dos proprietários de plataformas, um problema que chamarei de confusão algorítmica . Finalmente, embora a não-reatividade seja vantajosa para a pesquisa, o acompanhamento do comportamento das pessoas sem o seu consentimento e conscientização levanta preocupações éticas que descreverei em detalhes no capítulo 6.
As três propriedades que acabei de descrever - grandes, sempre ativas e não-reativas - são geralmente, mas nem sempre, vantajosas para a pesquisa social. Em seguida, vou abordar as sete propriedades das grandes fontes de dados - incompletas, inacessíveis, não representativas, flutuantes, confusas em algoritmos, sujas e sensíveis - que geralmente, mas nem sempre, criam problemas para a pesquisa.