Validitas mengacu pada berapa banyak hasil percobaan mendukung kesimpulan yang lebih umum.
Tidak ada eksperimen yang sempurna, dan peneliti telah mengembangkan kosakata yang luas untuk menjelaskan masalah yang mungkin terjadi. Validitas mengacu pada sejauh mana hasil dari eksperimen tertentu mendukung beberapa kesimpulan yang lebih umum. Ilmuwan sosial telah menemukan itu berguna untuk membagi validitas ke dalam empat jenis utama: validitas kesimpulan statistik, validitas internal, validitas konstruk, dan validitas eksternal (Shadish, Cook, and Campbell 2001, chap. 2) . Menguasai konsep-konsep ini akan memberi Anda daftar periksa mental untuk mengkritisi dan meningkatkan desain dan analisis eksperimen, dan ini akan membantu Anda berkomunikasi dengan peneliti lain.
Pusat validitas kesimpulan statistik sekitar apakah analisis statistik dari percobaan dilakukan dengan benar. Dalam konteks Schultz et al. (2007) , pertanyaan seperti itu mungkin berpusat pada apakah mereka menghitung \(p\) nilai mereka dengan benar. Prinsip-prinsip statistik perlu merancang dan menganalisis eksperimen di luar ruang lingkup buku ini, tetapi mereka belum berubah secara mendasar di era digital. Apa yang telah berubah, bagaimanapun, adalah bahwa lingkungan data dalam eksperimen digital telah menciptakan peluang baru seperti menggunakan metode pembelajaran mesin untuk memperkirakan heterogenitas efek pengobatan (Imai and Ratkovic 2013) .
Pusat validitas internal di sekitar apakah prosedur eksperimental dilakukan dengan benar. Kembali ke percobaan Schultz et al. (2007) , pertanyaan tentang validitas internal dapat berpusat pada pengacakan, pengiriman pengobatan, dan pengukuran hasil. Misalnya, Anda mungkin khawatir bahwa asisten peneliti tidak membaca meteran listrik dengan andal. Faktanya, Schultz dan rekannya khawatir tentang masalah ini, dan mereka memiliki sampel meter yang dibaca dua kali; Untungnya, hasilnya pada dasarnya sama. Secara umum, percobaan Schultz dan rekan tampaknya memiliki validitas internal yang tinggi, tetapi ini tidak selalu terjadi: bidang kompleks dan eksperimen online sering mengalami masalah yang sebenarnya memberikan perlakuan yang tepat kepada orang yang tepat dan mengukur hasil untuk semua orang. Untungnya, era digital dapat membantu mengurangi kekhawatiran tentang validitas internal karena sekarang lebih mudah untuk memastikan bahwa pengobatan disampaikan kepada mereka yang seharusnya menerimanya dan untuk mengukur hasil untuk semua peserta.
Bangun validitas berpusat di sekitar kecocokan antara data dan konstruksi teoritis. Sebagaimana dibahas dalam bab 2, konstruk adalah konsep abstrak yang dibayangkan oleh para ilmuwan sosial. Sayangnya, konsep abstrak ini tidak selalu memiliki definisi dan pengukuran yang jelas. Kembali ke Schultz et al. (2007) , klaim bahwa norma-norma sosial pengganti dapat menurunkan penggunaan listrik membutuhkan peneliti untuk merancang perawatan yang akan memanipulasi "norma-norma sosial pengganti" (misalnya, emoticon) dan untuk mengukur "penggunaan listrik". Dalam percobaan analog, banyak peneliti merancang perawatan mereka sendiri dan mengukur hasil mereka sendiri. Pendekatan ini memastikan bahwa, sebanyak mungkin, percobaan sesuai dengan konstruksi abstrak yang sedang dipelajari. Dalam eksperimen digital di mana peneliti bermitra dengan perusahaan atau pemerintah untuk memberikan perawatan dan menggunakan sistem data yang selalu aktif untuk mengukur hasil, kecocokan antara eksperimen dan konstruksi teoritis mungkin kurang ketat. Dengan demikian, saya berharap validitas konstruk akan cenderung menjadi perhatian yang lebih besar dalam eksperimen digital daripada dalam eksperimen analog.
Akhirnya, validitas eksternal berpusat di sekitar apakah hasil dari eksperimen ini dapat digeneralisasikan ke situasi lain. Kembali ke Schultz et al. (2007) , seseorang dapat menanyakan apakah ide yang sama ini - menyediakan informasi tentang penggunaan energi mereka dalam hubungan dengan rekan-rekan mereka dan sinyal norma-norma injunctive (mis., Emoticon) - akan mengurangi penggunaan energi jika dilakukan dengan cara yang berbeda dalam pengaturan yang berbeda. Untuk sebagian besar eksperimen yang dirancang dengan baik dan dikelola dengan baik, kekhawatiran tentang validitas eksternal adalah yang paling sulit untuk ditangani. Di masa lalu, perdebatan tentang validitas eksternal sering melibatkan tidak lebih dari sekelompok orang yang duduk di ruangan mencoba membayangkan apa yang akan terjadi jika prosedur telah dilakukan dengan cara yang berbeda, atau di tempat yang berbeda, atau dengan peserta yang berbeda . Untungnya, era digital memungkinkan para peneliti untuk bergerak melampaui spekulasi bebas data dan menilai validitas eksternal secara empiris.
Karena hasil dari Schultz et al. (2007) sangat menarik, sebuah perusahaan bernama Opower bermitra dengan perusahaan di Amerika Serikat untuk menyebarkan perawatan secara lebih luas. Berdasarkan desain Schultz et al. (2007) , Opower menciptakan Laporan Energi Rumah yang disesuaikan yang memiliki dua modul utama: satu menunjukkan penggunaan listrik rumah tangga relatif terhadap tetangganya dengan emotikon dan satu memberikan tips untuk menurunkan penggunaan energi (gambar 4.6). Kemudian, dalam kemitraan dengan peneliti, Opower menjalankan eksperimen terkontrol acak untuk menilai dampak dari Laporan Energi Rumah ini. Meskipun perawatan dalam percobaan ini biasanya disampaikan secara fisik — biasanya melalui surat siput kuno — hasilnya diukur menggunakan perangkat digital di dunia fisik (misalnya, meter daya). Lebih lanjut, daripada mengumpulkan informasi ini secara manual dengan asisten peneliti mengunjungi setiap rumah, percobaan Opower semua dilakukan dalam kemitraan dengan perusahaan listrik yang memungkinkan para peneliti untuk mengakses pembacaan daya. Dengan demikian, percobaan lapangan sebagian digital ini dijalankan dalam skala besar dengan biaya variabel rendah.
Dalam serangkaian eksperimen pertama yang melibatkan 600.000 rumah tangga dari 10 lokasi berbeda, Allcott (2011) menemukan bahwa Laporan Energi Allcott (2011) menurunkan konsumsi listrik. Dengan kata lain, hasil dari penelitian yang jauh lebih besar, lebih beragam secara geografis secara kualitatif mirip dengan hasil dari Schultz et al. (2007) . Selanjutnya, dalam penelitian berikutnya yang melibatkan delapan juta rumah tangga tambahan dari 101 lokasi berbeda, Allcott (2015) sekali lagi menemukan bahwa Laporan Energi Rumah secara konsisten menurunkan konsumsi listrik. Rangkaian eksperimen yang jauh lebih besar ini juga mengungkapkan pola baru yang menarik yang tidak akan terlihat dalam satu eksperimen tunggal: ukuran efek menurun dalam percobaan selanjutnya (gambar 4.7). Allcott (2015) berspekulasi bahwa penurunan ini terjadi karena, dari waktu ke waktu, perlakuan itu diterapkan pada berbagai jenis peserta. Lebih khusus lagi, utilitas dengan pelanggan yang lebih berfokus pada lingkungan lebih mungkin mengadopsi program sebelumnya, dan pelanggan mereka lebih responsif terhadap perawatan. Karena utilitas dengan pelanggan yang kurang berfokus pada lingkungan mengadopsi program, efektivitasnya tampak menurun. Dengan demikian, sama seperti pengacakan dalam percobaan memastikan bahwa kelompok perlakuan dan kontrol serupa, pengacakan di lokasi penelitian memastikan bahwa perkiraan dapat digeneralisasikan dari satu kelompok peserta ke populasi yang lebih umum (pikirkan kembali ke bab 3 tentang pengambilan sampel). Jika lokasi penelitian tidak diambil secara acak, maka generalisasi — bahkan dari eksperimen yang dirancang dan dilakukan dengan sempurna — dapat menimbulkan masalah.
Bersama-sama, 111 percobaan ini — 10 di Allcott (2011) dan 101 di Allcott (2015) melibatkan sekitar 8,5 juta rumah tangga dari seluruh Amerika Serikat. Mereka secara konsisten menunjukkan bahwa Laporan Energi Rumah mengurangi konsumsi listrik rata-rata, hasil yang mendukung temuan asli Schultz dan rekan dari 300 rumah di California. Di luar hanya mereplikasi hasil asli ini, percobaan tindak lanjut juga menunjukkan bahwa ukuran efek bervariasi menurut lokasi. Rangkaian eksperimen ini juga mengilustrasikan dua poin umum tentang eksperimen lapangan digital sebagian. Pertama, peneliti akan dapat secara empiris mengatasi kekhawatiran tentang validitas eksternal ketika biaya menjalankan eksperimen rendah, dan ini dapat terjadi jika hasilnya sudah diukur oleh sistem data yang selalu aktif. Oleh karena itu, ini menunjukkan bahwa para peneliti harus waspada terhadap perilaku menarik dan penting lainnya yang sudah dicatat, dan kemudian merancang eksperimen di atas infrastruktur pengukuran yang ada ini. Kedua, rangkaian eksperimen ini mengingatkan kita bahwa eksperimen lapangan digital tidak hanya online; semakin, saya berharap bahwa mereka akan di mana-mana dengan banyak hasil yang diukur oleh sensor di lingkungan binaan.
Keempat jenis validitas-validitas kesimpulan statistik, validitas internal, validitas konstruk, dan validitas eksternal-menyediakan daftar periksa mental untuk membantu peneliti menilai apakah hasil dari eksperimen tertentu mendukung kesimpulan yang lebih umum. Dibandingkan dengan percobaan era analog, dalam eksperimen era digital, harus lebih mudah untuk mengatasi validitas eksternal secara empiris, dan itu juga harus lebih mudah untuk memastikan validitas internal. Di sisi lain, masalah validitas konstruk mungkin akan lebih menantang dalam eksperimen era digital, terutama percobaan lapangan digital yang melibatkan kemitraan dengan perusahaan.