2.3.2.3 нерепрезентативного

Два джерела відсутності репрезентативності різні групи населення та різні моделі використання.

Великі дані, як правило, систематично спотворювали за двома основними напрямками. Це не повинно стати проблемою для всіх видів аналізу, але протягом деякого аналізу це може бути критичним недоліком.

Перше джерело систематичного зсуву є те, що люди, захоплені, як правило, ні повна всесвіт всіх людей або випадкова вибірка з будь-якої конкретної популяції. Наприклад, американці на Twitter не випадкова вибірка американців (Hargittai 2015) . Ще одне джерело систематичного зсуву є те, що багато великих інформаційні системи відображають дії, і деякі люди сприяють набагато більше дій, ніж інші. Наприклад, деякі люди на Twitter сприяють сотні разів більше твітів, ніж інші. Таким чином, події на конкретній платформі може бути коли-небудь в більшій мірі відображає певних підгруп, ніж самої платформи.

Зазвичай дослідники хочуть знати багато про дані , які у них є. Але, з огляду на нерепрезентативна характер великих обсягів даних, корисно також перевернути ваше мислення. Ви також повинні знати багато про дані , які ви не маєте. Це особливо вірно, коли дані, які ви не повинні систематично відрізняються від даних, які ви маєте. Наприклад, якщо у вас є записи викликів з телефонної компанії мобільного в країнах, що розвиваються, ви повинні думати не тільки про людей в наборі даних, а й про людей, які можуть бути занадто бідні, щоб мати мобільний телефон. Крім того, в розділі 3, ми дізнаємося про те, як зважування може дозволити дослідникам, щоб зробити більш точні оцінки з нерепрезентативним даних.