Data nonpresentatif buruk untuk generalisasi out-of-sample, tetapi bisa sangat berguna untuk perbandingan dalam sampel.
Beberapa ilmuwan sosial terbiasa bekerja dengan data yang berasal dari sampel acak probabilistik dari populasi yang terdefinisi dengan baik, seperti semua orang dewasa di negara tertentu. Jenis data ini disebut data representatif karena sampel "mewakili" populasi yang lebih besar. Banyak peneliti memberikan hadiah data representatif, dan bagi sebagian orang, data representatif identik dengan ilmu yang ketat sedangkan data nonpresentatif identik dengan kecerobohan. Paling ekstrem, beberapa skeptis tampaknya percaya bahwa tidak ada yang dapat dipelajari dari data non-representatif. Jika benar, ini akan sangat membatasi apa yang dapat dipelajari dari sumber data besar karena banyak dari mereka tidak representatif. Untungnya, para skeptis ini hanya sebagian saja benar. Ada tujuan penelitian tertentu yang data nonpresentatifnya jelas tidak sesuai, tetapi ada yang lain yang mungkin sebenarnya sangat berguna.
Untuk memahami perbedaan ini, mari kita pertimbangkan suatu karya ilmiah klasik: studi John Snow tentang wabah kolera 1853-54 di London. Pada saat itu, banyak dokter percaya bahwa kolera disebabkan oleh "udara yang buruk," tetapi Snow percaya bahwa itu adalah penyakit menular, mungkin disebarkan oleh air minum limbah. Untuk menguji ide ini, Snow memanfaatkan apa yang sekarang kita sebut eksperimen alami. Dia membandingkan tingkat kolera rumah tangga yang dilayani oleh dua perusahaan air yang berbeda: Lambeth dan Southwark & Vauxhall. Perusahaan-perusahaan ini melayani rumah tangga yang sama, tetapi mereka berbeda dalam satu cara yang penting: pada tahun 1849 — beberapa tahun sebelum epidemi dimulai — Lambeth memindahkan titik asalnya ke hulu dari pembuangan kotoran utama di London, sedangkan Southwark & Vauxhall meninggalkan pipa intake mereka ke hilir dari pembuangan limbah. Ketika Snow membandingkan tingkat kematian dari kolera di rumah tangga yang dilayani oleh kedua perusahaan, dia menemukan bahwa pelanggan Southwark & Vauxhall — perusahaan yang menyediakan air yang tercemar oleh pelanggan — 10 kali lebih mungkin meninggal akibat kolera. Hasil ini memberikan bukti ilmiah yang kuat untuk argumen Snow tentang penyebab kolera, meskipun itu tidak didasarkan pada sampel yang mewakili orang di London.
Data dari dua perusahaan ini, bagaimanapun, tidak akan ideal untuk menjawab pertanyaan yang berbeda: apa prevalensi kolera di London selama wabah itu? Untuk pertanyaan kedua, yang juga penting, akan jauh lebih baik untuk memiliki sampel representatif dari orang-orang dari London.
Sebagaimana diperlihatkan oleh karya Snow, ada beberapa pertanyaan ilmiah yang datanya tidak representatif bisa sangat efektif dan ada yang lain yang tidak cocok dengannya. Salah satu cara kasar untuk membedakan kedua jenis pertanyaan ini adalah bahwa beberapa pertanyaan adalah tentang perbandingan dalam sampel dan beberapa pertanyaan tentang generalisasi out-of-sample. Perbedaan ini dapat diilustrasikan lebih lanjut oleh studi klasik lain dalam epidemiologi: Studi Dokter Inggris, yang memainkan peran penting dalam menunjukkan bahwa merokok menyebabkan kanker. Dalam studi ini, Richard Doll dan A. Bradford Hill diikuti sekitar 25.000 dokter laki-laki selama beberapa tahun dan membandingkan tingkat kematian mereka berdasarkan jumlah yang mereka hisap ketika penelitian dimulai. Doll and Hill (1954) menemukan hubungan respons-balik yang kuat: semakin banyak orang yang merokok, semakin besar kemungkinan mereka meninggal akibat kanker paru-paru. Tentu saja, tidak bijaksana untuk memperkirakan prevalensi kanker paru-paru di antara semua orang Inggris berdasarkan kelompok dokter laki-laki, tetapi perbandingan dalam sampel masih memberikan bukti bahwa merokok menyebabkan kanker paru-paru.
Sekarang saya telah mengilustrasikan perbedaan antara perbandingan-perbandingan dalam sampel dan generalisasi out-of-sample, dua peringatan diurutkan. Pertama, ada pertanyaan alami tentang sejauh mana hubungan yang ada dalam sampel dokter pria Inggris juga akan disimpan dalam sampel dokter wanita, dokter Inggris atau pekerja pabrik laki-laki Inggris atau pekerja pabrik perempuan Jerman atau banyak kelompok lainnya. Pertanyaan-pertanyaan ini menarik dan penting, tetapi mereka berbeda dari pertanyaan tentang sejauh mana kita dapat menggeneralisasi dari sampel ke populasi. Perhatikan, misalnya, bahwa Anda mungkin mencurigai bahwa hubungan antara merokok dan kanker yang ditemukan pada dokter laki-laki Inggris mungkin akan serupa pada kelompok-kelompok lain ini. Kemampuan Anda untuk melakukan ekstrapolasi ini tidak datang dari fakta bahwa dokter laki-laki Inggris adalah sampel acak probabilistik dari populasi mana pun; melainkan berasal dari pemahaman mekanisme yang menghubungkan merokok dan kanker. Dengan demikian, generalisasi dari sampel ke populasi yang diambil adalah sebagian besar masalah statistik, tetapi pertanyaan tentang transportability pola yang ditemukan dalam satu kelompok ke kelompok lain sebagian besar merupakan masalah nonstatistical (Pearl and Bareinboim 2014; Pearl 2015) .
Pada titik ini, seorang skeptis mungkin menunjukkan bahwa sebagian besar pola sosial mungkin kurang diangkut lintas kelompok daripada hubungan antara merokok dan kanker. Dan saya setuju. Sejauh mana kita harus mengharapkan pola untuk diangkut pada akhirnya adalah pertanyaan ilmiah yang harus diputuskan berdasarkan teori dan bukti. Seharusnya tidak secara otomatis diasumsikan bahwa pola akan dapat dipindahkan, tetapi juga tidak seharusnya diasumsikan bahwa pola tersebut tidak akan dapat diangkut. Pertanyaan yang agak abstrak tentang transportabilitas ini akan Anda kenal jika Anda telah mengikuti perdebatan tentang seberapa banyak peneliti dapat belajar tentang perilaku manusia dengan mempelajari mahasiswa sarjana (Sears 1986, [@henrich_most_2010] ) . Meskipun perdebatan ini, bagaimanapun, itu akan menjadi tidak masuk akal untuk mengatakan bahwa para peneliti tidak dapat belajar apa pun dari belajar mahasiswa sarjana.
Peringatan kedua adalah bahwa sebagian besar peneliti dengan data tidak representatif tidak seakurat Snow atau Doll and Hill. Jadi, untuk mengilustrasikan apa yang bisa salah ketika peneliti mencoba membuat generalisasi out-of-sample dari data yang tidak representatif, saya ingin memberi tahu Anda tentang studi tentang pemilihan parlemen Jerman tahun 2009 oleh Andranik Tumasjan dan rekan (2010) . Dengan menganalisis lebih dari 100.000 tweet, mereka menemukan bahwa proporsi tweet yang menyebutkan partai politik sesuai dengan proporsi suara yang diterima partai dalam pemilihan parlemen (gambar 2.3). Dengan kata lain, tampak bahwa data Twitter, yang pada dasarnya gratis, dapat menggantikan survei pendapat publik tradisional, yang mahal karena penekanannya pada data representatif.
Mengingat apa yang mungkin sudah Anda ketahui tentang Twitter, Anda harus segera merasa skeptis dengan hasil ini. Orang Jerman di Twitter pada 2009 bukan sampel acak probabilistik pemilih Jerman, dan pendukung beberapa pihak mungkin men-tweet tentang politik lebih sering daripada pendukung partai lain. Dengan demikian, tampaknya mengejutkan bahwa semua bias yang mungkin yang dapat Anda bayangkan entah bagaimana akan dibatalkan sehingga data ini akan secara langsung mencerminkan pemilih Jerman. Faktanya, hasil dalam Tumasjan et al. (2010) ternyata terlalu bagus untuk menjadi kenyataan. Sebuah makalah tindak lanjut oleh Andreas Jungherr, Pascal Jürgens, dan Harald Schoen (2012) menunjukkan bahwa analisis asli telah mengecualikan partai politik yang benar-benar menerima sebutan paling banyak di Twitter: Partai Bajak Laut, sebuah partai kecil yang melawan peraturan pemerintah Internet. Ketika Partai Bajak Laut dimasukkan dalam analisis, Twitter menyebutkan menjadi prediktor yang mengerikan dari hasil pemilihan (gambar 2.3). Seperti contoh ini mengilustrasikan, menggunakan sumber data besar yang tidak representatif untuk melakukan generalisasi out-of-sample bisa sangat salah. Juga, Anda harus memperhatikan bahwa fakta bahwa ada 100.000 tweet pada dasarnya tidak relevan: banyak data yang tidak representatif masih tidak representatif, sebuah tema yang saya akan kembali ke bab 3 ketika saya membahas survei.
Sebagai kesimpulan, banyak sumber data besar bukanlah sampel representatif dari beberapa populasi yang terdefinisi dengan baik. Untuk pertanyaan yang membutuhkan generalisasi hasil dari sampel ke populasi dari mana ia diambil, ini adalah masalah serius. Tetapi untuk pertanyaan tentang perbandingan dalam sampel, data nonpresentatif dapat menjadi kuat, selama peneliti jelas tentang karakteristik sampel mereka dan mendukung klaim tentang transportabilitas dengan bukti teoretis atau empiris. Bahkan, harapan saya adalah bahwa sumber data besar akan memungkinkan para peneliti untuk membuat perbandingan dalam-sampel dalam banyak kelompok yang tidak mewakili, dan dugaan saya adalah bahwa perkiraan dari banyak kelompok yang berbeda akan melakukan lebih banyak untuk memajukan penelitian sosial daripada perkiraan tunggal dari acak probabilistik mencicipi.