2.3.2.3 không đại diện

Hai nguồn của không đại diện là quần thể khác nhau và mô hình sử dụng khác nhau.

dữ liệu lớn có xu hướng được thiên vị một cách hệ thống trong hai cách chính. Điều này không cần gây ra một vấn đề cho tất cả các loại phân tích, nhưng đối với một số phân tích nó có thể là một lỗi nghiêm trọng.

Một nguồn đầu tiên của sai số hệ thống là những người bị bắt là thường không phải là một vũ trụ hoàn toàn của tất cả mọi người hoặc một mẫu ngẫu nhiên từ bất kỳ dân số cụ thể. Ví dụ, người Mỹ trên Twitter không phải là một mẫu ngẫu nhiên của người Mỹ (Hargittai 2015) . Một nguồn tin thứ hai của sai số hệ thống là nhiều hệ thống dữ liệu lớn chụp hành động, và một số người đóng góp nhiều hành động hơn những người khác. Ví dụ, một số người trên Twitter đóng góp hàng trăm tweets nhiều lần so với những người khác. Do đó, sự kiện trên một nền tảng cụ thể có thể bao giờ nhiều hơn phản xạ của phân nhóm nhất định so với các nền tảng chính nó.

Thông thường các nhà nghiên cứu muốn biết rất nhiều về những dữ liệu mà họ có. Nhưng, do tính chất không đại diện của dữ liệu lớn, nó là hữu ích cũng để lật suy nghĩ của bạn. Bạn cũng cần phải biết rất nhiều về những dữ liệu mà bạn không có. Điều này đặc biệt đúng khi các dữ liệu mà bạn không phải là hệ thống khác nhau từ các dữ liệu mà bạn có. Ví dụ, nếu bạn có các bản ghi cuộc gọi từ một công ty điện thoại di động ở một nước đang phát triển, bạn nên suy nghĩ không chỉ về những người trong bộ dữ liệu của bạn, mà còn về những người có thể là quá nghèo để sở hữu một chiếc điện thoại di động. Hơn nữa, trong chương 3, chúng ta sẽ tìm hiểu về cách trọng thể cho phép các nhà nghiên cứu, lập dự toán tốt hơn từ dữ liệu không đại diện.