Два источника отсутствия репрезентативности различные группы населения и различные модели использования.
Большие данные, как правило, систематически искажали по двум основным направлениям. Это не должно стать проблемой для всех видов анализа, но в течение некоторого анализа это может быть критическим недостатком.
Первый источник систематического смещения является то, что люди, захваченные, как правило, ни полная вселенная всех людей или случайная выборка из какой-либо конкретной популяции. Например, американцы на Twitter не случайная выборка американцев (Hargittai 2015) . Вторым источником систематического смещения является то, что многие крупные информационные системы отражают действия, и некоторые люди способствуют гораздо больше действий, чем другие. Например, некоторые люди на Twitter способствуют сотни раз больше твитов, чем другие. Таким образом, события на конкретной платформе может быть когда-либо в большей степени отражает определенных подгрупп, чем самой платформы.
Обычно исследователи хотят знать много о данных , которые у них есть. Но, учитывая нерепрезентативная характер больших объемов данных, полезно также перевернуть ваше мышление. Вы также должны знать много о данных , которые вы не имеете. Это особенно верно, когда данные, которые вы не должны систематически отличаются от данных, которые вы имеете. Например, если у вас есть записи вызовов из телефонной компании мобильного в развивающихся странах, вы должны думать не только о людях в наборе данных, но и о людях, которые могут быть слишком бедны, чтобы иметь мобильный телефон. Кроме того, в главе 3, мы узнаем о том, как взвешивание может позволить исследователям, чтобы сделать более точные оценки из нерепрезентативных данных.