Hiệu lực đề cập đến bao nhiêu kết quả của một thử nghiệm hỗ trợ một kết luận tổng quát hơn.
Không có thí nghiệm nào là hoàn hảo, và các nhà nghiên cứu đã phát triển một vốn từ vựng rộng lớn để mô tả các vấn đề có thể xảy ra. Hiệu lực đề cập đến mức độ kết quả của một thử nghiệm cụ thể hỗ trợ một số kết luận chung chung hơn. Các nhà khoa học xã hội đã thấy hữu ích khi phân chia tính hợp lệ thành bốn loại chính: giá trị kết luận thống kê, hiệu lực nội bộ, hiệu lực xây dựng và giá trị bên ngoài (Shadish, Cook, and Campbell 2001, chap. 2) . Nắm vững các khái niệm này sẽ cung cấp cho bạn một danh sách kiểm tra tinh thần để phê bình và cải thiện thiết kế và phân tích thử nghiệm, và nó sẽ giúp bạn giao tiếp với các nhà nghiên cứu khác.
Hiệu lực kết luận thống kê tập trung xung quanh việc phân tích thống kê của thử nghiệm đã được thực hiện đúng chưa. Trong bối cảnh của Schultz et al. (2007) , một câu hỏi như vậy có thể tập trung vào việc liệu chúng có tính chính xác giá trị \(p\) chúng hay không. Các nguyên tắc thống kê cần thiết kế và phân tích các thí nghiệm nằm ngoài phạm vi của cuốn sách này, nhưng chúng đã không thay đổi về cơ bản trong kỷ nguyên số. Tuy nhiên, điều đã thay đổi là môi trường dữ liệu trong các thí nghiệm kỹ thuật số đã tạo ra các cơ hội mới như sử dụng các phương pháp học máy để ước tính tính không đồng nhất của các hiệu ứng điều trị (Imai and Ratkovic 2013) .
Giá trị nội bộ tập trung xung quanh việc các quy trình thử nghiệm có được thực hiện đúng hay không. Trở lại thí nghiệm của Schultz et al. (2007) , các câu hỏi về hiệu lực nội bộ có thể tập trung xung quanh ngẫu nhiên, phân phối điều trị và đo lường kết quả. Ví dụ, bạn có thể lo ngại rằng các trợ lý nghiên cứu đã không đọc các đồng hồ điện một cách đáng tin cậy. Trong thực tế, Schultz và các đồng nghiệp đã lo lắng về vấn đề này, và họ đã có một mẫu mét đọc hai lần; may mắn thay, kết quả về cơ bản giống hệt nhau. Nói chung, thử nghiệm của Schultz và đồng nghiệp dường như có giá trị nội bộ cao, nhưng điều này không phải lúc nào cũng như: các lĩnh vực phức tạp và các thí nghiệm trực tuyến thường gặp phải các vấn đề thực sự cung cấp đúng cách cho đúng người và đo lường kết quả cho mọi người. May mắn thay, thời đại kỹ thuật số có thể giúp giảm bớt những lo ngại về hiệu lực nội bộ vì bây giờ nó dễ dàng hơn để đảm bảo rằng việc điều trị được cung cấp cho những người được cho là sẽ nhận nó và đo lường kết quả cho tất cả những người tham gia.
Xây dựng các trung tâm hợp lệ xung quanh kết hợp giữa dữ liệu và cấu trúc lý thuyết. Như đã thảo luận trong chương 2, các cấu trúc là các khái niệm trừu tượng mà các nhà khoa học xã hội lý luận. Thật không may, những khái niệm trừu tượng này không phải lúc nào cũng có định nghĩa và phép đo rõ ràng. Trở về Schultz et al. (2007) , tuyên bố rằng các tiêu chuẩn xã hội bắt buộc có thể làm giảm sử dụng điện yêu cầu các nhà nghiên cứu thiết kế một biện pháp điều trị “các chỉ tiêu xã hội bắt buộc” (ví dụ, một biểu tượng cảm xúc) và để đo lường “sử dụng điện”. Trong các thí nghiệm tương tự, nhiều nhà nghiên cứu đã thiết kế các phương pháp điều trị của riêng họ và đo lường kết quả của chính họ. Cách tiếp cận này đảm bảo rằng, càng nhiều càng tốt, các thí nghiệm phù hợp với các cấu trúc trừu tượng đang được nghiên cứu. Trong các thí nghiệm kỹ thuật số, nơi các nhà nghiên cứu hợp tác với các công ty hoặc chính phủ để cung cấp phương pháp điều trị và sử dụng hệ thống dữ liệu luôn để đo lường kết quả, kết quả giữa thử nghiệm và cấu trúc lý thuyết có thể ít chặt chẽ hơn. Vì vậy, tôi hy vọng rằng việc xây dựng tính hợp lệ sẽ có xu hướng là mối quan tâm lớn hơn trong các thí nghiệm kỹ thuật số hơn là trong các thí nghiệm tương tự.
Cuối cùng, hiệu lực bên ngoài xoay quanh các kết quả của thử nghiệm này có thể được khái quát hóa với các tình huống khác hay không. Trở về Schultz et al. (2007) , người ta có thể hỏi liệu ý tưởng này có cung cấp thông tin về cách sử dụng năng lượng của họ trong mối quan hệ với đồng nghiệp và tín hiệu của các chỉ tiêu bắt buộc (ví dụ, một biểu tượng cảm xúc) hay không. trong một môi trường khác. Đối với hầu hết các thử nghiệm được thiết kế tốt và chạy tốt, các mối quan tâm về hiệu lực bên ngoài là khó khăn nhất để giải quyết. Trong quá khứ, những cuộc tranh luận về giá trị bên ngoài thường không liên quan gì hơn một nhóm người ngồi trong phòng cố tưởng tượng điều gì sẽ xảy ra nếu các thủ tục được thực hiện theo cách khác, hoặc ở một nơi khác hoặc với những người tham gia khác nhau . May mắn thay, thời đại kỹ thuật số cho phép các nhà nghiên cứu vượt qua những suy đoán không có dữ liệu này và đánh giá thực nghiệm bên ngoài.
Bởi vì các kết quả từ Schultz et al. (2007) đã rất thú vị, một công ty tên là Opower hợp tác với các tiện ích ở Hoa Kỳ để triển khai điều trị rộng rãi hơn. Dựa trên thiết kế của Schultz et al. (2007) , Opower đã tạo ra các Báo cáo Năng lượng Trang chủ tùy chỉnh có hai mô-đun chính: một mô tả mức sử dụng điện của hộ gia đình so với các nước láng giềng với biểu tượng cảm xúc và cung cấp lời khuyên cho việc giảm sử dụng năng lượng (hình 4.6). Sau đó, hợp tác với các nhà nghiên cứu, Opower đã chạy các thử nghiệm ngẫu nhiên có kiểm soát để đánh giá tác động của các Báo cáo năng lượng tại nhà này. Mặc dù các phương pháp điều trị trong các thí nghiệm này thường được truyền về thể chất - thường thông qua thư ốc lỗi thời — kết quả được đo bằng các thiết bị kỹ thuật số trong thế giới vật lý (ví dụ: đồng hồ đo điện). Hơn nữa, thay vì tự thu thập thông tin này với các trợ lý nghiên cứu đến thăm từng ngôi nhà, các thí nghiệm Opower đã được thực hiện cùng với các công ty điện cho phép các nhà nghiên cứu truy cập vào các bài đọc sức mạnh. Do đó, các thí nghiệm kỹ thuật số một phần này được chạy ở quy mô lớn với chi phí biến đổi thấp.
Trong một bộ thí nghiệm đầu tiên liên quan đến 600.000 hộ gia đình từ 10 địa điểm khác nhau, Allcott (2011) phát hiện ra rằng Báo cáo Năng lượng Gia đình đã giảm mức tiêu thụ điện. Nói cách khác, kết quả từ nghiên cứu đa dạng hơn về mặt địa lý nhiều hơn về mặt chất lượng tương tự như kết quả từ Schultz et al. (2007) . Hơn nữa, trong nghiên cứu tiếp theo liên quan đến tám triệu hộ gia đình bổ sung từ 101 địa điểm khác nhau, Allcott (2015) một lần nữa nhận thấy rằng Báo cáo Năng lượng Gia đình liên tục giảm mức tiêu thụ điện. Tập thí nghiệm lớn hơn này cũng cho thấy một mẫu mới thú vị sẽ không thể nhìn thấy trong bất kỳ thí nghiệm nào: kích thước của hiệu ứng giảm trong các thí nghiệm sau (hình 4.7). Allcott (2015) suy đoán rằng sự suy giảm này xảy ra bởi vì, theo thời gian, việc điều trị đã được áp dụng cho các loại người tham gia khác nhau. Cụ thể hơn, các tiện ích với nhiều khách hàng tập trung vào môi trường có nhiều khả năng áp dụng chương trình sớm hơn và khách hàng của họ phản ứng nhanh hơn với việc điều trị. Vì các tiện ích với các khách hàng ít tập trung vào môi trường đã thông qua chương trình này, hiệu quả của nó đã giảm. Như vậy, ngẫu nhiên trong các thí nghiệm đảm bảo rằng nhóm điều trị và kiểm soát tương tự nhau, ngẫu nhiên trong các điểm nghiên cứu đảm bảo rằng các ước tính có thể được tổng quát hóa từ một nhóm người tham gia đến một dân số tổng quát hơn (suy nghĩ về chương 3 về lấy mẫu). Nếu các trang web nghiên cứu không được lấy mẫu ngẫu nhiên, thì tổng quát - ngay cả từ một thí nghiệm được thiết kế và thực hiện hoàn hảo - có thể là vấn đề.
Cùng với nhau, 111 thí nghiệm này - 10 trong Allcott (2011) và 101 ở Allcott (2015) giải quyết khoảng 8,5 triệu hộ gia đình từ khắp nơi trên nước Mỹ. Họ luôn cho thấy rằng Báo cáo năng lượng tại nhà giảm mức tiêu thụ điện trung bình, kết quả là hỗ trợ những phát hiện ban đầu của Schultz và các đồng nghiệp từ 300 ngôi nhà ở California. Ngoài việc sao chép các kết quả ban đầu này, các thử nghiệm tiếp theo cũng cho thấy rằng kích thước của hiệu ứng thay đổi theo vị trí. Bộ thí nghiệm này cũng minh họa thêm hai điểm chung về các thí nghiệm kỹ thuật số một phần. Đầu tiên, các nhà nghiên cứu sẽ có thể thực nghiệm giải quyết các mối quan tâm về hiệu lực bên ngoài khi chi phí chạy thử nghiệm thấp, và điều này có thể xảy ra nếu kết quả đã được đo bằng hệ thống dữ liệu luôn bật. Vì vậy, nó cho thấy rằng các nhà nghiên cứu nên được trên Lookout cho hành vi thú vị và quan trọng khác đã được ghi lại, và sau đó thiết kế thí nghiệm trên đầu trang của cơ sở hạ tầng đo lường hiện tại. Thứ hai, bộ thí nghiệm này nhắc nhở chúng ta rằng các thí nghiệm kỹ thuật số không chỉ là trực tuyến; ngày càng nhiều, tôi hy vọng rằng họ sẽ ở khắp mọi nơi với nhiều kết quả được đo bằng cảm biến trong môi trường xây dựng.
Bốn loại hiệu lực — hiệu lực kết luận thống kê, giá trị nội tại, hiệu lực xây dựng và giá trị bên ngoài — cung cấp danh sách kiểm tra tâm thần để giúp các nhà nghiên cứu đánh giá liệu kết quả từ một thử nghiệm cụ thể có hỗ trợ một kết luận chung hơn hay không. So với các thí nghiệm ở độ tuổi tương tự, trong các thí nghiệm ở thời đại kỹ thuật số, sẽ dễ dàng hơn để giải quyết tính hợp lệ bên ngoài theo kinh nghiệm, và nó cũng phải dễ dàng hơn để đảm bảo tính hợp lệ bên trong. Mặt khác, các vấn đề về hiệu lực xây dựng có thể sẽ khó khăn hơn trong các thí nghiệm kỹ thuật số, đặc biệt là các thí nghiệm kỹ thuật số liên quan đến quan hệ đối tác với các công ty.