Kesahan merujuk kepada berapa banyak keputusan eksperimen yang menyokong kesimpulan yang lebih umum.
Tiada eksperimen yang sempurna, dan para penyelidik telah membangunkan perbendaharaan kata yang luas untuk menggambarkan masalah yang mungkin. Kesahan merujuk kepada sejauh mana keputusan percubaan tertentu menyokong kesimpulan yang lebih umum. Ahli-ahli sains sosial mendapati ia membantu membahagikan kesahihan kepada empat jenis utama: kesimpulan kesimpulan statistik, kesahan dalaman, kesahan membina, dan kesahan luar (Shadish, Cook, and Campbell 2001, chap. 2) . Menguasai konsep-konsep ini akan memberi anda senarai semak mental untuk mengkritik dan meningkatkan reka bentuk dan analisis percubaan, dan ia akan membantu anda berkomunikasi dengan penyelidik lain.
Kesimpulan statistik kesahihan pusat sama ada analisis statistik percubaan dilakukan dengan betul. Dalam konteks Schultz et al. (2007) , persoalan semacam itu mungkin berpusatkan sama ada mereka mengira nilai \(p\) mereka dengan betul. Prinsip-prinsip statistik yang perlu untuk mereka bentuk dan menganalisis eksperimen adalah di luar skop buku ini, tetapi mereka tidak berubah secara mendasar dalam era digital. Apa yang telah berubah, bagaimanapun, persekitaran data dalam eksperimen digital telah mencipta peluang baru seperti menggunakan kaedah pembelajaran mesin untuk menganggarkan heterogenitas kesan rawatan (Imai and Ratkovic 2013) .
Pusat kesahan dalaman di sekitar sama ada prosedur eksperimen dilakukan dengan betul. Kembali ke eksperimen Schultz et al. (2007) , soalan mengenai kesahan dalaman boleh memusatkan rawak, penyampaian rawatan, dan pengukuran hasil. Sebagai contoh, anda mungkin bimbang bahawa pembantu penyelidikan tidak membaca meter elektrik dengan pasti. Malah, Schultz dan rakan-rakannya bimbang tentang masalah ini, dan mereka mempunyai sampel meter membaca dua kali; mujurlah, hasilnya pada dasarnya sama. Secara umum, eksperimen Schultz dan rakan sekerja kelihatannya mempunyai kesahan dalaman yang tinggi, tetapi ini tidak selalu berlaku: eksperimen medan rumit dan dalam talian sering menjadi masalah yang sebenarnya memberikan layanan yang tepat kepada orang yang tepat dan mengukur hasil untuk semua orang. Nasib baik, usia digital dapat membantu mengurangkan kebimbangan tentang kesahan dalaman kerana sekarang lebih mudah untuk memastikan rawatan diberikan kepada mereka yang sepatutnya menerima dan untuk mengukur hasil untuk semua peserta.
Membina pusat kesahihan di sekitar perlawanan antara data dan pembinaan teori. Seperti yang dibincangkan dalam bab 2, pembinaan adalah konsep abstrak yang difikirkan oleh saintis sosial. Malangnya, konsep abstrak ini tidak selalu mempunyai definisi dan pengukuran yang jelas. Kembali ke Schultz et al. (2007) , tuntutan bahawa norma-norma sosial injunksi dapat mengurangkan penggunaan elektrik memerlukan penyelidik untuk merancang suatu rawatan yang akan memanipulasi "norma sosial injunksi" (misalnya, emotikon) dan mengukur "penggunaan elektrik". Dalam eksperimen analog, ramai penyelidik merancang rawatan mereka sendiri dan mengukur hasilnya sendiri. Pendekatan ini memastikan bahawa, sebanyak mungkin, percubaan ini sesuai dengan pembinaan abstrak yang sedang dikaji. Dalam eksperimen digital di mana para penyelidik berkerjasama dengan syarikat atau kerajaan untuk menyampaikan rawatan dan menggunakan sistem data selalu untuk mengukur hasil, perlawanan antara eksperimen dan pembentukan teoretikal mungkin kurang ketat. Oleh itu, saya berharap kesahan membina akan menjadi kebimbangan besar dalam eksperimen digital daripada eksperimen analog.
Akhirnya, pusat validiti luar di sekitar sama ada hasil eksperimen ini boleh diselaraskan kepada situasi lain. Kembali ke Schultz et al. (2007) , seseorang boleh bertanya sama ada idea yang sama ini-memberikan orang dengan maklumat tentang penggunaan tenaga mereka dalam hubungan dengan rakan sebaya mereka dan isyarat norma injak (misalnya, emotikon) -mengurangkan penggunaan tenaga jika ia dilakukan dengan cara yang berbeza dalam suasana yang berbeza. Bagi kebanyakan eksperimen yang direka bentuk dan dijalankan dengan baik, kebimbangan tentang kesahan luar adalah yang paling sukar untuk ditangani. Pada masa lalu, perdebatan-perdebatan tentang kesahan luaran ini kerap melibatkan lebih daripada sekumpulan orang yang duduk di dalam bilik yang cuba membayangkan apa yang akan terjadi jika prosedur telah dilakukan dengan cara yang berbeza, atau di tempat lain, atau dengan peserta yang berlainan . Mujurlah, era digital membolehkan para penyelidik untuk bergerak melampaui spekulasi bebas data ini dan menilai kesahan luar secara empirik.
Kerana keputusan dari Schultz et al. (2007) sangat menarik, sebuah syarikat bernama Opower bekerjasama dengan utiliti di Amerika Syarikat untuk menggunakan rawatan secara lebih meluas. Berdasarkan reka bentuk Schultz et al. (2007) , Opower mencipta Laporan Tenaga Home yang disesuaikan yang mempunyai dua modul utama: satu menunjukkan penggunaan elektrik rumah tangga berbanding dengan jirannya dengan emotikon dan satu memberikan tip untuk menurunkan penggunaan tenaga (angka 4.6). Kemudian, dengan kerjasama para penyelidik, Opower menjalankan percubaan terkawal secara rawak untuk menilai kesan Laporan Tenaga Rumah ini. Walaupun rawatan dalam percubaan ini biasanya disampaikan secara fizikal-biasanya melalui surat siput kuno-hasilnya diukur dengan menggunakan alat digital di dunia fizikal (misalnya, meter kuasa). Selanjutnya, bukannya mengumpul maklumat ini secara manual dengan pembantu penyelidik yang melawat setiap rumah, percubaan Opower semuanya dilakukan dengan kerjasama syarikat-syarikat kuasa yang membolehkan penyelidik mengakses bacaan kuasa. Oleh itu, eksperimen bidang separuh digital dijalankan secara besar-besaran pada kos pembolehubah yang rendah.
Dalam set pertama eksperimen melibatkan 600,000 isi rumah dari 10 tapak yang berbeza, Allcott (2011) mendapati bahawa Laporan Tenaga Rumah menurunkan penggunaan elektrik. Dalam erti kata lain, hasil daripada kajian yang lebih besar, lebih geografi berbeza secara kualitatif sama dengan hasil daripada Schultz et al. (2007) . Selanjutnya, dalam penyelidikan seterusnya melibatkan lapan juta isi rumah tambahan dari 101 tapak yang berbeza, Allcott (2015) sekali lagi mendapati bahawa Laporan Tenaga Rumah secara konsisten menurunkan penggunaan elektrik. Set percubaan yang lebih besar ini juga mendedahkan corak baru yang menarik yang tidak akan dapat dilihat dalam mana-mana percubaan tunggal: saiz kesan merosot dalam eksperimen kemudian (angka 4.7). Allcott (2015) meramalkan bahawa penurunan ini berlaku kerana, dari masa ke masa, rawatan sedang digunakan untuk pelbagai jenis peserta. Secara lebih khusus, utiliti dengan pelanggan yang lebih fokus kepada alam sekitar lebih cenderung mengamalkan program ini lebih awal, dan pelanggan mereka lebih responsif terhadap rawatan. Sebagai utiliti dengan pelanggan yang kurang fokus kepada lingkungan menerapkan program, keberkesanannya kelihatan menurun. Oleh itu, sama seperti rawak dalam eksperimen memastikan bahawa kumpulan rawatan dan kawalan adalah serupa, rawak di tapak penyelidikan memastikan bahawa anggaran boleh diselaraskan dari satu kumpulan peserta kepada populasi yang lebih umum (berfikir kembali kepada bab 3 tentang persampelan). Sekiranya tapak penyelidikan tidak diambil secara rawak, maka generalisasi-walaupun dari percubaan yang direka dan dijalankan dengan sempurna-boleh menjadi masalah.
Bersama-sama, 111 eksperimen ini -10 di Allcott (2011) dan 101 di Allcott (2015) -mengatasi sekitar 8.5 juta isi rumah dari seluruh Amerika Syarikat. Mereka secara konsisten menunjukkan bahawa Home Energy Reports mengurangkan penggunaan elektrik purata, hasil yang menyokong penemuan asal Schultz dan rakan-rakan dari 300 rumah di California. Selain daripada mereplikasi hasil asal ini, eksperimen susulan juga menunjukkan bahawa saiz kesan berbeza mengikut lokasi. Set percubaan ini juga menggambarkan dua mata umum mengenai eksperimen medan sebahagian secara digital. Pertama, para penyelidik akan dapat menangani masalah kebimbangan secara empirikal tentang kesahan luar apabila kos menjalankan eksperimen rendah, dan ini boleh berlaku jika hasilnya sudah diukur oleh sistem data yang selalu ada. Oleh itu, ia menunjukkan bahawa para penyelidik harus mencari tingkah laku yang menarik dan penting yang telah direkodkan, dan kemudian mereka bentuk eksperimen di atas infrastruktur pengukur yang sedia ada. Kedua, eksperimen ini mengingatkan kita bahawa eksperimen medan digital bukan hanya dalam talian; semakin saya rasa mereka akan berada di mana-mana dengan banyak hasil yang diukur oleh sensor dalam persekitaran yang dibina.
Empat jenis kesahihan-kesimpulan kesimpulan statistik, kesahan dalaman, kesahihan membina, dan kesahan luar - menyediakan senarai semak mental untuk membantu para penyelidik menilai sama ada hasil daripada eksperimen tertentu menyokong kesimpulan yang lebih umum. Berbanding dengan eksperimen usia analog, dalam eksperimen zaman digital, ia harus lebih mudah untuk mengatasi kesahihan luaran secara empirikal, dan ia juga harus lebih mudah untuk memastikan kesahan dalaman. Sebaliknya, masalah membina kesahihan mungkin akan menjadi lebih mencabar dalam eksperimen zaman digital, terutamanya eksperimen bidang digital yang melibatkan perkongsian dengan syarikat.