2.3.2.3 Non-perwakilan

Dua sumber non-keterwakilan yang populasi yang berbeda dan pola penggunaan yang berbeda.

data besar cenderung sistematis bias dalam dua cara utama. Ini tidak perlu menimbulkan masalah bagi semua jenis analisis, tetapi untuk beberapa analisis itu bisa menjadi cacat kritis.

Sebuah sumber pertama bias sistematis adalah bahwa orang-orang yang ditangkap biasanya tidak alam semesta lengkap dari semua orang atau sampel acak dari setiap populasi tertentu. Misalnya, orang Amerika di Twitter tidak sampel acak dari Amerika (Hargittai 2015) . Sumber kedua bias sistematis adalah bahwa banyak sistem data besar menangkap tindakan, dan beberapa orang berkontribusi lebih banyak tindakan daripada yang lain. Sebagai contoh, beberapa orang di Twitter berkontribusi ratusan kali lebih tweet daripada yang lain. Oleh karena itu, peristiwa pada platform tertentu dapat menjadi semakin berat mencerminkan subkelompok tertentu dari platform itu sendiri.

Biasanya peneliti ingin tahu banyak tentang data yang mereka miliki. Tapi, mengingat sifat non-wakil dari data yang besar, akan sangat membantu untuk juga membalik pemikiran Anda. Anda juga perlu tahu banyak tentang data yang Anda tidak memiliki. Hal ini terutama terjadi ketika data yang Anda tidak memiliki secara sistematis berbeda dengan data yang Anda miliki. Misalnya, jika Anda memiliki catatan panggilan dari sebuah perusahaan ponsel di negara-negara berkembang, Anda harus berpikir tidak hanya tentang orang-orang dalam dataset Anda, tetapi juga tentang orang-orang yang mungkin terlalu miskin untuk memiliki ponsel. Selanjutnya, dalam Bab 3, kita akan belajar tentang bagaimana pembobotan dapat memungkinkan para peneliti untuk membuat perkiraan yang lebih baik dari data non-representatif.