Ing pitakonan sing dikarepake, data survey mbangun konteks watara sumber data gedhe sing ngemot sawetara pangukuran penting nanging ora ana liyane.
Salah siji cara kanggo gabungke data survey lan sumber data sing gedhe yaiku proses sing aku bakal takon sing dikarepake . Ing pitakonan sing luwih gedhe, sumber data gedhe ngemot sawetara pangukuran penting nanging ora ana pangukuran liya supaya peneliti ngumpulake pangukuran sing ilang kasebut ing survey lan banjur nggandhengake loro sumber data bebarengan. Salah sijine panemu sing luwih gedhe yaiku sinau dening Burke and Kraut (2014) babagan apa interaksi ing Facebook mundhakake kekancan kekancan, sing aku diterangake ing bagean 3.2). Ing kasus kasebut, Burke lan Kraut nggabungake data survey karo data log Facebook.
Pengaturan ing ngendi Burke lan Kraut digunakake Nanging, tegese padha ora kudu nangani loro masalah gedhe sing peneliti nindakake diperkaya pitakone pasuryan. Kapisan, bener ngubungaké bebarengan karo set data individu, proses sing disebut linkage rekaman , bisa angel yen ora ana pengenal unik ing loro sumber data sing bisa digunakake kanggo mesthekake yen cathetan sing bener ing salah sawijining détet sing dicocogake kanthi cathetan sing bener ing dataset liyane. Masalah utama kapindho kanthi pitakonan sing enriched yaiku yen kualitas sumber data sing gedhe bakal kerep angel ditindakake para peneliti amarga proses ing ngendi data sing digawe bisa dadi proprietary lan bisa rentan kanggo akeh masalah sing dijelasake ing bab 2. Ing tembung liyane, persaingan sing enriched bakal kerep nyebabake nyelarasake kesalahan survey menyang sumber data ireng kothak sing ora dingerteni kualitas. Senadyan masalah kasebut, pitakonan sing dikuatake bisa digunakake kanggo nganakake panaliten penting, kaya sing dituduhake dening Stephen Ansolabehere lan Eitan Hersh (2012) ing panliten ngenani pola pemilihan ing Amerika Serikat.
Turnamen pemilih wis dadi subyek penelitian ekstensif ing ilmu politik, lan, ing jaman sadurungé, pemahaman para panaliti babagan sing milih lan ngapa umumé didhasarake ing analisis data survey. Pemilihan ing Amerika Serikat, Nanging, minangka tingkah laku sing ora biasa amarga pamarentah nyathet yen saben warga wis milih (mesthi, pemerintah ora ngrekam sapa wae sing dipilih kanggo rakyat). Kanggo akèh taun, cathetan voting pemerintah iki kasedhiya ing kertas, sing kasebar ing kantor pamaréntahan lokal ing saindhenging negara. Iki nggawe angel banget, nanging ora mungkin, para ilmuwan pulitik duwe gambaran lengkap para pemilih lan kanggo mbandhingake apa sing (Ansolabehere and Hersh 2012) wong ing survey babagan pemungutan suara karo (Ansolabehere and Hersh 2012) voting sing nyata (Ansolabehere and Hersh 2012) .
Nanging cathetan voting kasebut saiki wis didigitalisasi, lan sapérangan perusahaan swasta wis dikoleksi sacara sistematis lan gabung menyang pamungutan suara vokal sing komprehensif sing ngemot prilaku pemilihan kabeh wong Amerika. Ansolabehere lan Hersh gabung karo salah sawijining perusahaan-Catalina LCC-kanggo nggunakake file voting master kanggo mbantu ngembangake gambar sing luwih apik saka para pemilih. Salajengipun, amargi studi punika migunakaken rekaman digital ingkang dipun kumpulaken lan dipundamel dening perusahaan ingkang gadhah sumber daya ingkang ageng wonten ing pengumpulan data lan harmonisasi, piyambakipun nampi kathah kaluwihan saking usaha sadèrèngipun ingkang dipunbetahaken tanpa bantuan perusahaan lan kanthi nggunakake rekaman analog.
Kaya akeh sumber data gedhe ing bab 2, file master Catalist ora kalebu akeh informasi demografi, sikap, lan prilaku sing dibutuhake dening Ansolabehere lan Hersh. Ing kasunyatane, padha utamané kepéngin mbandhingaké prilaku voting sing dilaporake ing survey kanthi prilaku voting sing disalahké (yaiku, informasi ing basis data Catalist). Dadi Ansolabehere lan Hersh ngumpulake data sing dikarepake minangka survey sosial sing gedhe, yaiku CCES, sing kasebut ing ngisor iki. Banjur padha mènèhi data marang Catalist, lan Catalist maringi dhèwèké bali menyang file data sing digabungaké sing nglakokaké tatalaksana voting sing sah (saka Catalist), prilaku sing dilapuraké dhewe (saka CCES) lan demografi lan sikap responden (saka CCES) (tokoh 3.13). Ing tembung liya, Ansolabehere lan Hersh nggabungake data rekaman pemungutan kanthi data survey supaya panliten kasebut ora bisa diduweni karo sumber data.
Kanthi file data gabungan, Ansolabehere lan Hersh nemokake telung kesimpulan penting. Kaping pisanan, lapuran luwih saka voting wis akeh: meh setengah saka non-voters nglaporake voting, lan yen wong sing dilapurake voting, mung ana 80% kemungkinan sing padha milih. Kapindho, luwih-nglaporake ora acak: sing nglaporake luwih umum ing antarane penghasilan dhuwur, wong sing wis sinau, partisans sing melu ing urusan umum. Ing tembung liya, wong-wong sing paling milih kanggo milih uga luwih seneng ngapusi babagan pemungutan suara. Katelu, lan paling kritis, amarga sifat sistematis sing nglaporake luwih akeh, beda nyata antarane pemilih lan nonvoter luwih cilik tinimbang sing katon mung saka survey. Contone, sing duwe sarjana sarjana sing ana 22 persèn poin luwih mungkin nglaporake voting, nanging mung 10 persentase poin sing luwih seneng milih. Pranyata, mbok menawa ora kaget, yen teori basis sumber sing ana saiki luwih becik kanggo ngira sapa sing bakal nulis voting (yaiku data sing wis digunakake para peneliti ing jaman kepungkur) tinimbang ing prediksi sing bener. Mangkono, temuan empiris saka Ansolabehere and Hersh (2012) teori-teori anyar kanggo mangerteni lan prédhiksi voting.
Nanging carane kudu dipercaya asil kasebut? Elingi, asil kasebut gumantung ing rawan kesalahan ngubungake data ireng karo jumlah kesalahan sing ora ditepungi. Liyane, asil saka 2 langkah utama: (1) kemampuan Catalist kanggo nggabungake akeh sumber data sing beda kanggo ngasilake datafile master sing bener lan (2) kemampuan Catalist kanggo ngubungake data survey menyang file data master. Saben langkah kasebut angel, lan kasalahan ing salah siji langkah bisa mimpin peneliti menyang kesimpulan sing salah. Nanging, pamroses data lan panyambungan kasebut penting banget kanggo terus Catalist minangka perusahaan, supaya bisa ngetrapake sumber daya kanggo ngrampungake masalah kasebut, asring kanthi skala sing ora ana sing bisa cocog karo peneliti akademik. Ing kertas kasebut, Ansolabehere lan Hersh ngliwati sawetara langkah kanggo mriksa asil saka rong langkah kasebut-senadyan sawetara dianggep kepemilikan-lan cek iki bisa uga kanggo peneliti liyane sing pengin ngubungake data survey menyang data gedhe-gedhe ireng sumber.
Apa sing bisa ditindakake dening peneliti umum saka panliten iki? Kaping pisanan, ana nilai gedhe saka sumber data sing luwih gedhe kanthi data survey lan data surya kanthi sumber data sing gedhé (bisa dideleng kanthi teliti). Kanthi nggabungake loro sumber data kasebut, para panaliti bisa nindakake apa wae sing ora mungkin karo individu. Pawulangan umum kapindho yaiku yen sumber data komersial, kayata data saka Catalist, ora kudu dianggep minangka "bebenerane lemah", ing sawetara kasus, bisa migunani. Skeptis kadhangkala mbandhingake sumber data komersial sing dikumpulake kanthi Truth Absolute lan nuduhake yen sumber data iki cendhak. Nanging, ing kasus iki, para skeptis ngasilake perbandingan sing salah: kabeh data sing ditindakake para panaliti kurang saka Truth absolut. Nanging, luwih becik kanggo mbandhingake, sumber data komersial kanthi sumber data sing kasedhiya (umpamane, prilaku sing dilapurake dhewe), sing uga ana kesalahan. Pungkasan, pacelathon umum katelu saka studi Ansolabehere lan Hersh yaiku yen ing sawetara situasi, peneliti bisa entuk manfaat saka investasi gedhe sing akeh perusahaan swasta nyusun lan nyelarasake data set sosial sing komplek.