Meskipun bisa berantakan, diperkaya diminta dapat menjadi kuat.
Sebuah pendekatan yang berbeda untuk berurusan dengan ketidaklengkapan data jejak digital adalah untuk memperkaya langsung dengan data survei, sebuah proses yang saya akan menelepon meminta diperkaya. Salah satu contoh yang diminta diperkaya adalah studi tentang Burke and Kraut (2014) , yang saya dijelaskan sebelumnya dalam bab ini (Bagian 3.2), apakah berinteraksi di Facebook meningkatkan kekuatan persahabatan. Dalam hal ini, Burke dan Kraut dikombinasikan data survei dengan data log Facebook.
Pengaturan yang Burke dan Kraut bekerja di, bagaimanapun, berarti bahwa mereka tidak harus berurusan dengan dua masalah besar yang peneliti melakukan diperkaya wajah bertanya. Pertama, sebenarnya menghubungkan bersama data set-proses yang disebut record linkage, pencocokan rekor dalam satu dataset dengan catatan sesuai dalam lainnya dataset-bisa sulit dan rawan kesalahan (kita akan melihat contoh masalah di bawah ini ). Masalah utama kedua yang diminta diperkaya adalah bahwa kualitas jejak digital sering akan sulit bagi para peneliti untuk menilai. Misalnya, kadang-kadang proses melalui yang dikumpulkan adalah milik dan bisa rentan terhadap banyak masalah yang dijelaskan pada Bab 2. Dengan kata lain, diperkaya diminta sering akan melibatkan menghubungkan rawan kesalahan dari survei ke sumber data kotak hitam yang tidak diketahui kualitas. Meskipun kekhawatiran bahwa dua masalah ini memperkenalkan, adalah mungkin untuk melakukan penelitian penting dengan strategi ini seperti yang ditunjukkan oleh Stephen Ansolabehere dan Eitan Hersh (2012) dalam penelitian mereka pada pola voting di AS. Hal ini berguna untuk membahas penelitian ini dalam beberapa detail karena banyak strategi yang Ansolabehere dan Hersh dikembangkan akan berguna dalam aplikasi lain bertanya diperkaya.
Jumlah pemilih telah menjadi subyek dari penelitian yang luas dalam ilmu politik, dan di masa lalu, pemahaman peneliti dari yang suara dan mengapa secara umum berdasarkan analisis data survei. Voting di AS, bagaimanapun, adalah perilaku yang tidak biasa dalam bahwa catatan pemerintah apakah setiap warga negara telah sebagai (tentu saja, pemerintah tidak mencatat yang masing-masing orang warga negara untuk). Selama bertahun-tahun, catatan-catatan voting pemerintah yang tersedia pada formulir kertas, tersebar di berbagai kantor pemerintah daerah di seluruh negeri. Hal ini membuat sulit, tetapi bukan tidak mungkin, bagi para ilmuwan politik untuk memiliki gambaran yang lengkap dari pemilih dan membandingkan apa yang orang katakan di survei tentang suara untuk perilaku pemilih yang sebenarnya mereka (Ansolabehere and Hersh 2012) .
Tapi, sekarang ini catatan suara telah didigitalkan, dan sejumlah perusahaan swasta telah dikumpulkan secara sistematis dan bergabung catatan suara ini untuk menghasilkan file induk voting komprehensif yang merekam perilaku pemilih dari semua orang Amerika. Ansolabehere dan Hersh bermitra dengan salah satu perusahaan-Catalist ini LCC-untuk menggunakan file suara tuannya untuk membantu mengembangkan gambaran yang lebih baik dari pemilih. Selanjutnya, karena mengandalkan catatan digital dikumpulkan dan dikuratori oleh sebuah perusahaan, ia menawarkan sejumlah keunggulan dibandingkan upaya sebelumnya oleh para peneliti yang telah dilakukan tanpa bantuan perusahaan dan menggunakan catatan analog.
Seperti banyak dari sumber jejak digital di Bab 2, Catalist file induk tidak termasuk banyak informasi demografi, sikap, dan perilaku yang Ansolabehere dan Hersh diperlukan. Selain informasi ini, Ansolabehere dan Hersh yang sangat tertarik untuk membandingkan perilaku pemilih dilaporkan perilaku pemilih divalidasi (yaitu, informasi dalam database Catalist). Jadi, para peneliti mengumpulkan data yang mereka inginkan sebagai bagian dari Kongres Studi Koperasi Pemilihan Umum (CCES), survei sosial yang besar. Selanjutnya, para peneliti memberikan data ini untuk Catalist, dan Catalist memberi para peneliti kembali sebuah file gabungan data yang termasuk divalidasi perilaku pemilih (dari Catalist), perilaku voting dilaporkan sendiri (dari CCES) dan demografi dan sikap responden (dari CCES ). Dengan kata lain, Ansolabehere dan Hersh diperkaya data suara dengan data survei, dan menghasilkan file gabungan memungkinkan mereka untuk melakukan sesuatu file tidak diaktifkan secara individual.
Dengan memperkaya Catalist data file master dengan data survei, Ansolabehere dan Hersh datang ke tiga kesimpulan penting. Pertama, lebih-pelaporan voting merajalela: hampir setengah dari non-pemilih dilaporkan voting. Atau, cara lain untuk melihat hal itu adalah jika seseorang melaporkan voting, hanya ada 80% kemungkinan bahwa mereka benar-benar sebagai. Kedua, lebih-pelaporan tidak acak; over-pelaporan lebih umum di antara berpenghasilan tinggi, terdidik, partisan yang terlibat dalam urusan publik. Dengan kata lain, orang-orang yang paling mungkin untuk memilih juga paling mungkin untuk berbohong tentang voting. Ketiga, dan yang paling kritis, karena sifat sistematis over-pelaporan, perbedaan sebenarnya antara pemilih dan non-pemilih yang lebih kecil daripada mereka muncul hanya dari survei. Misalnya, mereka dengan gelar sarjana sekitar 22 persen lebih mungkin untuk melaporkan suara, tetapi hanya 10 persen lebih mungkin untuk suara yang sebenarnya. Selanjutnya, teori berbasis sumber daya yang ada pemungutan suara yang jauh lebih baik dalam memprediksi yang akan melaporkan suara dari yang benar-benar orang, temuan empiris yang membutuhkan teori-teori baru untuk memahami dan memprediksi suara.
Tapi, berapa banyak yang harus kita percaya hasil ini? Ingat hasil ini tergantung pada rawan kesalahan menghubungkan data kotak hitam dengan jumlah yang tidak diketahui dari kesalahan. Lebih khusus, hasil bergantung pada dua langkah utama: 1) kemampuan Catalist untuk menggabungkan berbagai sumber data yang berbeda untuk menghasilkan master datafile dan 2 akurat) kemampuan Catalist untuk menghubungkan data survei untuk datafile tuannya. Setiap langkah ini cukup sulit dan kesalahan di kedua langkah dapat menyebabkan peneliti untuk kesimpulan yang salah. Namun, baik pengolahan data dan pencocokan sangat penting untuk kelangsungan hidup Catalist sebagai perusahaan sehingga dapat menginvestasikan sumber daya dalam memecahkan masalah-masalah ini, sering pada skala yang ada peneliti akademis individu atau sekelompok peneliti bisa cocok. Dalam bacaan lebih lanjut pada akhir bab ini, saya menjelaskan masalah ini secara lebih rinci dan bagaimana Ansolabehere dan Hersh membangun kepercayaan dalam hasil mereka. Meskipun rincian ini khusus untuk penelitian ini, isu-isu yang serupa dengan ini akan timbul bagi peneliti lain yang ingin link ke kotak hitam sumber data jejak digital.
Apa pelajaran umum peneliti dapat menarik dari studi ini? Pertama, ada nilai yang sangat besar dari memperkaya jejak digital dengan data survei. Kedua, meskipun ini dikumpulkan, sumber data komersial tidak harus dianggap "ground truth", dalam beberapa kasus mereka dapat berguna. Bahkan, yang terbaik adalah untuk membandingkan sumber-sumber data yang tidak Kebenaran mutlak (dari mana mereka akan selalu jatuh pendek). Sebaliknya, itu adalah lebih baik untuk membandingkan mereka ke sumber data lain yang tersedia, yang selalu memiliki kesalahan juga.