Duas fontes de não-representatividade são diferentes populações e diferentes padrões de uso.
dados grandes tendem a ser sistematicamente tendenciosa em duas maneiras principais. Isso não precisa causar um problema para todo o tipo de análise, mas por alguma análise que pode ser uma falha crítica.
A primeira fonte de viés sistemático é que as pessoas capturadas são tipicamente nem um universo completo de todas as pessoas ou uma amostra aleatória de qualquer população específica. Por exemplo, os americanos no Twitter não são uma amostra aleatória de americanos (Hargittai 2015) . Uma segunda fonte de viés sistemático é que muitos sistemas de dados grandes capturar ações, e algumas pessoas contribuem muito mais ações do que outros. Por exemplo, algumas pessoas no Twitter contribuir centenas de vezes mais os tweets do que outros. Portanto, os eventos em uma plataforma específica pode ser cada vez mais fortemente reflectora de certos subgrupos do que a própria plataforma.
Normalmente, os pesquisadores querem saber muito sobre os dados que eles têm. Mas, dada a natureza não-representativa de dados grandes, é útil também para virar o seu pensamento. Você também precisa saber muito sobre os dados que você não tem. Isto é especialmente verdadeiro quando os dados que não têm são sistematicamente diferentes dos dados que você tem. Por exemplo, se você tem os registos de chamadas a partir de uma empresa de telefonia móvel em um dos países em desenvolvimento, você deve pensar não apenas sobre as pessoas em seu conjunto de dados, mas também sobre as pessoas que podem ser pobre demais para comprar um telefone celular. Além disso, no capítulo 3, vamos aprender sobre como ponderação pode permitir aos investigadores a fazer melhores estimativas a partir de dados não representativos.