Walaupun ia boleh menjadi tidak kemas, meminta diperkaya boleh berkuasa.
Pendekatan yang berbeza untuk berurusan dengan ketidaklengkapan data surih digital adalah untuk memperkayakan secara langsung dengan data penyiasatan, satu proses yang saya akan memanggil meminta diperkaya. Satu contoh yang diminta diperkaya ialah kajian Burke and Kraut (2014) , yang saya diterangkan sebelum ini dalam bab (Seksyen 3.2), kira-kira sama ada berinteraksi di Facebook meningkatkan kekuatan persahabatan. Dalam kes itu, Burke dan Kraut digabungkan data kajian dengan data log Facebook.
Tetapan yang Burke dan Kraut kendalikan, bagaimanapun, bermakna mereka tidak perlu berurusan dengan dua masalah besar yang penyelidik melakukan diperkaya meminta muka. Pertama, sebenarnya menghubungkan bersama-sama set-a data proses yang dikenali sebagai rekod hubungan, pemadanan rekod dalam satu set data yang mempunyai rekod yang sesuai dalam lain dataset-boleh menjadi sukar dan kesilapan yang sering berlaku (kita akan melihat contoh yang masalah ini di bawah ). Masalah utama kedua meminta diperkaya adalah bahawa kualiti jejak digital kerap akan menjadi sukar bagi penyelidik untuk menilai. Sebagai contoh, kadang-kadang proses di mana ia dikumpulkan adalah hak milik dan boleh menjadi mudah terdedah kepada banyak masalah yang diterangkan di dalam Bab 2. Dalam erti kata lain, meminta diperkaya kerap akan melibatkan menghubungkan cenderung-ralat kaji selidik sumber data kotak hitam yang tidak diketahui berkualiti. Walaupun kebimbangan bahawa kedua-dua masalah memperkenalkan, ia adalah mungkin untuk menjalankan penyelidikan penting dengan strategi ini seperti yang ditunjukkan oleh Stephen Ansolabehere dan Eitan Hersh (2012) dalam kajian mereka kepada corak pengundian di Amerika Syarikat. Ia berbaloi untuk pergi ke kajian ini secara terperinci kerana banyak strategi yang Ansolabehere dan Hersh maju akan menjadi berguna dalam aplikasi lain yang meminta diperkaya.
Pengundi keluar mengundi telah menjadi subjek penyelidikan meluas dalam bidang sains politik, dan pada masa lalu, pemahaman penyelidik daripada yang mengundi dan mengapa secara umumnya adalah berdasarkan analisis data kajian. Pengundian di Amerika Syarikat, bagaimanapun, adalah satu tingkah laku yang luar biasa kerana rekod kerajaan sama ada setiap warganegara telah mengundi (sudah tentu, kerajaan tidak merakam yang setiap undi rakyat untuk). Selama bertahun-tahun, rekod-rekod mengundi kerajaan yang sedia pada borang kertas, bertaburan di pelbagai pejabat kerajaan tempatan di seluruh negara. Ini menjadikan ia sukar, tetapi tidak mustahil, untuk saintis politik untuk mempunyai gambaran lengkap mengenai pengundi dan untuk membandingkan apa yang orang kata dalam kaji selidik mengenai mengundi kepada tingkah laku pengundian sebenar mereka (Ansolabehere and Hersh 2012) .
Tetapi, kini rekod-rekod mengundi telah didigitalkan, dan beberapa syarikat swasta telah secara sistematik dikumpul dan digabungkan rekod-rekod mengundi untuk menghasilkan fail mengundi induk komprehensif yang merekodkan tingkah laku pengundian daripada semua rakyat Amerika. Ansolabehere dan Hersh bekerjasama dengan salah satu syarikat-Catalist LCC-untuk menggunakan fail mengundi tuannya yang membantu membangunkan gambaran yang lebih baik daripada pengundi. Di samping itu, kerana ia bergantung kepada rekod digital dikumpul dan diuruskan oleh sebuah syarikat, ia menawarkan beberapa kelebihan berbanding usaha sebelumnya oleh penyelidik yang telah dilakukan tanpa bantuan syarikat dan menggunakan rekod analog.
Seperti kebanyakan sumber jejak digital dalam Bab 2, fail induk Catalist tidak mengandungi banyak maklumat demografi, sikap dan tingkah laku yang Ansolabehere dan Hersh diperlukan. Selain daripada maklumat ini, Ansolabehere dan Hersh khususnya berminat untuk membandingkan tingkah laku pengundian dilaporkan kepada tingkah laku pengundian disahkan (iaitu, maklumat dalam pangkalan data Catalist itu). Jadi, penyelidik mengumpul data yang mereka mahu sebagai sebahagian daripada Koperasi Kongres Kajian Pilihan Raya (CCES), kajian sosial yang besar. Seterusnya, penyelidik memberi data ini untuk Catalist, dan Catalist memberikan penyelidik menyokong fail digabungkan data yang dimasukkan disahkan tingkah laku pengundian (dari Catalist), tingkah laku pengundian dilaporkan sendiri (dari CCES) dan demografi dan sikap responden (dari CCES ). Dengan kata lain, Ansolabehere dan Hersh diperkaya data mengundi dengan data kajian, dan fail yang digabungkan yang terhasil membolehkan mereka untuk melakukan sesuatu yang tidak fail yang aktif secara individu.
Dengan memperkayakan fail data induk Catalist dengan data kajian, Ansolabehere dan Hersh datang ke tiga kesimpulan penting. Pertama, lebih-laporan pengundian berleluasa: hampir separuh daripada bukan pengundi dilaporkan mengundi. Atau, cara lain untuk melihat ia adalah jika seseorang dilaporkan mengundi, hanya ada 80% peluang bahawa mereka sebenarnya mengundi. Kedua, lebih-laporan tidak rawak; lebih-laporan adalah lebih biasa di kalangan berpendapatan tinggi, berpendidikan tinggi, partisan yang terlibat dalam hal ehwal awam. Dengan kata lain, orang-orang yang paling mungkin untuk mengundi juga kemungkinan besar untuk berbohong tentang mengundi. Ketiga, dan yang paling penting, kerana sifat sistematik lebih-laporan, perbezaan sebenar di antara pengundi dan bukan pengundi lebih kecil daripada mereka muncul hanya dari kaji selidik. Sebagai contoh, mereka yang mempunyai ijazah sarjana muda adalah kira-kira 22 peratus lebih cenderung untuk melaporkan mengundi, tetapi hanya 10 peratus lebih cenderung kepada undi yang sebenar. Selanjutnya, teori berasaskan sumber sedia ada mengundi adalah jauh lebih baik di meramalkan yang akan melaporkan mengundi daripada yang sebenarnya undi, dapatan empirikal yang memerlukan teori-teori baru untuk memahami dan meramalkan pengundian.
Tetapi, berapa banyak yang harus kita percaya keputusan ini? Ingat keputusan ini bergantung kepada menghubungkan kesilapan yang sering berlaku kepada data kotak hitam dengan jumlah yang tidak diketahui yang menyesatkan. Lebih khusus lagi, keputusan bergantung kepada dua langkah utama: 1) keupayaan Catalist untuk menggabungkan banyak sumber data berbeza untuk menghasilkan datafile master tepat dan 2) keupayaan Catalist untuk menghubungkan data kajian untuk datafile tuannya. Setiap satu daripada langkah-langkah ini agak sukar dan kesilapan pada langkah sama ada boleh membawa penyelidik kepada kesimpulan yang salah. Walau bagaimanapun, kedua-dua pemprosesan data dan pemadanan adalah kritikal kepada kewujudan berterusan Catalist sebagai sebuah syarikat sehingga dapat melabur sumber dalam menyelesaikan masalah-masalah ini, selalunya pada skala yang tidak penyelidik akademik individu atau sekumpulan penyelidik dapat menandingi. Dalam bacaan lanjut di akhir bab ini, saya menerangkan masalah-masalah ini dengan lebih terperinci dan bagaimana Ansolabehere dan Hersh membina keyakinan dalam keputusan mereka. Walaupun butiran ini adalah khusus untuk kajian ini, isu-isu yang sama dengan ini akan timbul bagi penyelidik lain yang ingin mengandungi pautan ke kotak hitam jejak digital sumber data.
Apakah pengajaran umum penyelidik boleh menarik dari kajian ini? Pertama, ada nilai yang besar dari memperkayakan kesan digital dengan data kajian. Kedua, walaupun ini dijumlahkan, sumber data komersial tidak boleh dianggap sebagai "kebenaran tanah", dalam beberapa kes mereka boleh menjadi berguna. Malah, ia adalah yang terbaik untuk membandingkan sumber data ini tidak Kebenaran mutlak (dari mana mereka akan selalu jatuh pendek). Sebaliknya, ia adalah lebih baik untuk membandingkan mereka dengan sumber data yang ada yang lain, yang selalunya mempunyai kesilapan juga.