Data bukan perwakilan adalah tidak baik untuk pengumuman daripada sampel, tetapi boleh menjadi sangat berguna untuk perbandingan sampel.
Beberapa saintis sosial terbiasa bekerja dengan data yang datang dari sampel rawak probabilistik dari populasi yang jelas, seperti semua orang dewasa di negara tertentu. Data jenis ini dipanggil data wakil kerana sampel "mewakili" populasi yang lebih besar. Banyak penyelidik memenangi data perwakilan, dan kepada sesetengah, data perwakilan adalah sinonim dengan sains yang ketat manakala data nonrepresentative adalah sinonim dengan sloppiness. Pada yang paling melampau, sesetengah skeptis nampaknya percaya bahawa tiada apa yang dapat dipelajari daripada data bukan perwakilan. Sekiranya benar, ini seolah-olah akan mengehadkan apa yang boleh dipelajari dari sumber data besar kerana ramai di antaranya bukan perwakilan. Mujurlah, skeptik ini hanya sebahagiannya betul. Terdapat matlamat penyelidikan tertentu yang mana data bukan perwakilan jelas tidak sesuai, tetapi ada yang lain yang mungkin sebenarnya berguna.
Untuk memahami perbezaan ini, mari kita pertimbangkan klasik saintifik: kajian John Snow tentang wabak kolera 1853-54 di London. Pada masa itu, ramai doktor percaya bahawa kolera disebabkan oleh "udara yang tidak baik," tetapi Snow percaya bahawa ia adalah penyakit berjangkit, mungkin tersebar melalui air minum kumbahan. Untuk menguji idea ini, Salji mengambil kesempatan daripada apa yang kini kita boleh panggil percubaan semulajadi. Dia membandingkan kadar kolera isi rumah yang diservis oleh dua syarikat air yang berbeza: Lambeth and Southwark & Vauxhall. Syarikat-syarikat ini berkhidmat dengan isi rumah yang sama, tetapi mereka berbeza dalam satu cara yang penting: pada tahun 1849-beberapa tahun sebelum wabak itu bermula-Lambeth memindahkan titik pengambilannya ke hulu dari pembuangan kumbahan utama di London, sedangkan Southwark & Vauxhall meninggalkan paip pengambilan mereka di hilir dari pelepasan kumbahan. Apabila Salji membandingkan kadar kematian akibat kolera dalam isi rumah yang dihidangkan oleh kedua-dua syarikat, beliau mendapati bahawa pelanggan Southwark & Vauxhall-syarikat yang menyediakan pelanggan air tercemar air kumbahan-adalah 10 kali lebih cenderung untuk mati akibat kolera. Hasilnya memberikan bukti saintifik yang kukuh untuk hujah Salju tentang penyebab kolera, walaupun ia tidak berdasarkan sampel wakil orang London.
Walau bagaimanapun, data dari kedua-dua syarikat itu tidak sesuai untuk menjawab soalan yang berbeza: apakah berlakunya kolera di London semasa wabak itu? Untuk soalan kedua, yang juga penting, lebih baik untuk mempunyai sampel wakil rakyat dari London.
Seperti yang ditunjukkan oleh kerja Salji, terdapat beberapa soalan saintifik yang mana data bukan perwakilan boleh agak berkesan dan ada yang lain yang tidak sesuai. Satu cara yang kasar untuk membezakan kedua-dua jenis soalan ini adalah bahawa beberapa soalan adalah tentang perbandingan dalam sampel dan ada pula tentang pengetesan daripada sampel. Perbezaan ini dapat digambarkan dengan lebih lanjut oleh kajian klasik lain dalam epidemiologi: Kajian Doktor British, yang memainkan peranan penting dalam menunjukkan bahawa merokok menyebabkan kanser. Dalam kajian ini, Richard Doll dan A. Bradford Hill diikuti kira-kira 25,000 doktor lelaki selama beberapa tahun dan membandingkan kadar kematian mereka berdasarkan jumlah yang mereka merokok ketika kajian itu bermula. Doll and Hill (1954) mendapati hubungan pendedahan yang kuat: orang yang lebih banyak merokok, semakin besar kemungkinan mereka mati akibat kanser paru-paru. Sudah tentu, tidak bijak untuk menganggarkan kelaziman kanser paru-paru di kalangan semua orang Inggeris berdasarkan kumpulan doktor lelaki ini, tetapi perbandingan dalam sampel masih memberikan bukti bahawa merokok menyebabkan kanser paru-paru.
Sekarang saya telah menggambarkan perbezaan di antara perbandingan sampel dan generalisasi out-of-sample, dua kaveat teratur. Pertama, terdapat persoalan secara semulajadi tentang sejauh mana perhubungan yang ada dalam sampel doktor British laki-laki juga akan memegang dalam sampel doktor wanita, British atau pekerja kilang British lelaki atau pekerja kilang wanita Jerman atau banyak kumpulan lain. Soalan-soalan ini menarik dan penting, tetapi mereka berbeza dari soalan tentang sejauh mana kita boleh umum dari sampel kepada penduduk. Perhatikan, misalnya, bahawa anda mungkin mengesyaki bahawa hubungan antara merokok dan kanser yang dijumpai di doktor lelaki British mungkin mungkin sama dalam kumpulan lain ini. Keupayaan anda untuk melakukan ekstrapolasi ini tidak datang dari fakta bahawa doktor lelaki British adalah sampel rawak probabilistik dari mana-mana populasi; Sebaliknya, ia datang dari pemahaman tentang mekanisme yang menghubungkan merokok dan kanser. Oleh itu, generalisasi daripada sampel kepada penduduk yang diambil ialah isu sebahagian besarnya statistik, tetapi soalan tentang transportability daripada pola dijumpai di dalam satu kumpulan kepada kumpulan yang lain adalah sebahagian besarnya isu nonstatistical (Pearl and Bareinboim 2014; Pearl 2015) .
Pada ketika ini, skeptik mungkin menunjukkan bahawa kebanyakan corak sosial mungkin kurang dapat diangkut merentasi kumpulan daripada hubungan antara merokok dan kanser. Dan saya bersetuju. Sejauh mana kita harus mengharapkan corak yang dapat diangkut adalah akhirnya suatu soalan saintifik yang perlu diputuskan berdasarkan teori dan bukti. Ia tidak seharusnya secara automatik dianggap bahawa corak akan dapat diangkut, tetapi tidak harus diandaikan bahawa mereka tidak boleh diangkut. Persoalan-persoalan yang agak abstrak tentang kebolehpasaran akan diketahui oleh anda jika anda telah mengikuti perdebatan tentang berapa banyak penyelidik boleh belajar tentang perilaku manusia dengan mengkaji pelajar sarjana (Sears 1986, [@henrich_most_2010] ) . Walau bagaimanapun, walaupun perdebatan ini, tidak munasabah untuk mengatakan bahawa penyelidik tidak boleh belajar apa-apa daripada belajar pelajar sarjana muda.
Kaveat kedua adalah bahawa kebanyakan penyelidik dengan data bukan perwakilan tidak berhati-hati sebagai Snow atau Doll dan Hill. Jadi, untuk menggambarkan apa yang boleh menjadi salah apabila penyelidik cuba membuat penyebaran sampel daripada data bukan perwakilan, saya ingin memberitahu anda mengenai satu kajian pilihan raya parlimen Jerman 2009 oleh Andranik Tumasjan dan rakan-rakan (2010) . Dengan menganalisis lebih daripada 100,000 tweet, mereka mendapati bahawa bahagian tweet yang menyebutkan parti politik sepadan dengan suara undi yang diterima parti dalam pilihan raya parlimen (angka 2.3). Dalam erti kata lain, ternyata bahawa data Twitter, yang pada asasnya bebas, boleh menggantikan tinjauan pendapat awam tradisional, yang mahal kerana penekanan mereka terhadap data wakil.
Memandangkan apa yang mungkin sudah anda ketahui tentang Twitter, anda harus segera ragu terhadap hasil ini. Jerman di Twitter pada tahun 2009 bukan sampel rawak probabilistik pemilih Jerman, dan penyokong beberapa pihak mungkin tweet tentang politik lebih kerap daripada penyokong pihak lain. Oleh itu, nampaknya mengejutkan bahawa semua kemungkinan bias yang mungkin anda bayangkan entah bagaimana akan membatalkan supaya data ini akan terus mencerminkan pengundi Jerman. Malah, keputusan di Tumasjan et al. (2010) ternyata terlalu baik untuk menjadi kenyataan. Kertas tindak lanjut oleh Andreas Jungherr, Pascal Jürgens, dan Harald Schoen (2012) menegaskan bahawa analisis asal telah mengecualikan parti politik yang sebenarnya telah menerima yang paling banyak menyebut di Twitter: Parti Pirate, sebuah partai kecil yang melawan peraturan pemerintah daripada Internet. Apabila Parti Pirate dimasukkan dalam analisis, Twitter menyebutnya menjadi prediktor yang mengerikan hasil pilihan raya (angka 2.3). Sebagai contoh ini menggambarkan, menggunakan sumber data besar bukan perwakilan untuk melakukan generalisasi daripada sampel mungkin sangat salah. Juga, anda harus melihat bahawa hakikat bahawa terdapat 100,000 tweet pada dasarnya tidak relevan: banyak data bukan perwakilan masih tidak mewakili, tema yang saya akan kembali ke dalam bab 3 apabila saya membincangkan tinjauan.
Untuk membuat kesimpulan, banyak sumber data yang besar tidak mewakili sampel dari beberapa populasi yang jelas. Untuk soalan-soalan yang memerlukan keputusan generalisasi dari sampel kepada penduduk dari mana ia ditarik, ini adalah masalah yang serius. Tetapi untuk soalan-soalan tentang perbandingan dalam sampel, data bukan perwakilan boleh menjadi kuat, selagi para penyelidik jelas mengenai ciri-ciri sampel mereka dan menyokong tuntutan tentang kebolehpindahan dengan bukti teori atau empirikal. Malah, harapan saya adalah bahawa sumber data yang besar akan membolehkan para penyelidik membuat lebih banyak perbandingan dalam sampel di banyak kumpulan bukan perwakilan, dan saya rasa adalah bahawa anggaran dari banyak kumpulan yang berlainan akan melakukan lebih banyak untuk memajukan penyelidikan sosial daripada satu anggaran dari rawak probabilistik sampel.