Hiệu lực đề cập đến bao nhiêu kết quả của một thử nghiệm hỗ trợ một kết luận tổng quát hơn.
Không có thử nghiệm là hoàn hảo, và các nhà nghiên cứu đã phát triển một vốn từ vựng phong phú để mô tả các vấn đề có thể. Hiệu lực đề cập đến mức độ mà các kết quả của một thí nghiệm đặc biệt hỗ trợ một số kết luận tổng quát hơn. Các nhà khoa học xã hội đã tìm thấy nó hữu ích để chia giá trị thành bốn loại chính: thống kê kết luận tính hợp lệ, giá trị bên trong, xây dựng giá trị, và giá trị bên ngoài (Shadish, Cook, and Campbell 2001, Ch 2) . Nắm vững các khái niệm này sẽ cung cấp cho bạn một danh sách kiểm tra tâm thần cho phê bình và cải tiến thiết kế và phân tích thí nghiệm, và nó sẽ giúp bạn giao tiếp với các nhà nghiên cứu khác.
Giá trị kết luận thống kê xoay quanh việc phân tích thống kê của thí nghiệm đã được thực hiện một cách chính xác. Trong bối cảnh của Schultz et al. (2007) câu hỏi như vậy có thể tập trung vào việc họ tính p-giá trị của họ một cách chính xác. Phân tích thống kê là vượt ra ngoài phạm vi của cuốn sách này, nhưng tôi có thể nói rằng các nguyên tắc thống kê cần thiết để thiết kế và phân tích thí nghiệm đã không thay đổi trong thời đại kỹ thuật số. Tuy nhiên, môi trường dữ liệu khác nhau trong các thí nghiệm kỹ thuật số không tạo ra cơ hội thống kê mới (ví dụ, sử dụng các phương pháp học máy để ước tính không đồng nhất của hiệu quả điều trị (Imai and Ratkovic 2013) ) và thách thức tính toán mới (ví dụ, ngăn chặn trong các thí nghiệm lớn (Higgins, Sävje, and Sekhon 2016) ).
Giá trị bên trong xoay quanh liệu các thủ tục thử nghiệm đã được thực hiện một cách chính xác. Trở lại với những thí nghiệm của Schultz et al. (2007) , các câu hỏi về giá trị bên trong có thể xoay quanh sự ngẫu nhiên, phân phối của các điều trị, và đo lường kết quả. Ví dụ, bạn có thể thắc mắc rằng các trợ lý nghiên cứu đã không đọc công tơ điện đáng tin cậy. Trong thực tế, Schultz và các đồng nghiệp đã lo lắng về vấn đề này và họ đã có một mẫu mét đọc hai lần; may mắn thay, kết quả là cơ bản giống hệt nhau. Nói chung, Schultz và thử nghiệm đồng nghiệp 'dường như có giá trị bên trong cao, nhưng điều này không phải luôn luôn là trường hợp; lĩnh vực phức tạp và các thí nghiệm trực tuyến thường chạy vào các vấn đề thực sự cung cấp điều trị đúng cho đúng người và đo lường kết quả cho tất cả mọi người. May mắn thay, các đại kỹ thuật số có thể giúp giảm bớt lo ngại về giá trị bên trong bởi vì nó làm cho nó dễ dàng hơn để đảm bảo rằng việc điều trị được phân phối như được thiết kế cho những người có nghĩa vụ phải nhận được nó và để đo lường kết quả cho tất cả những người tham gia.
Xây dựng các trung tâm có giá trị xung quanh trận đấu giữa các dữ liệu và các cấu trúc lý thuyết. Như đã thảo luận ở Chương 2, cấu trúc là những khái niệm trừu tượng mà các nhà khoa học xã hội lý do về. Thật không may, những khái niệm trừu tượng không luôn luôn có định nghĩa rõ ràng và đo lường. Quay trở lại với Schultz et al. (2007) , khẳng định rằng mệnh lệnh chuẩn mực xã hội có thể giảm bớt sử dụng điện cần nghiên cứu để thiết kế một điều trị mà sẽ thao tác "chuẩn mực xã hội bắt buộc" (ví dụ, một biểu tượng cảm xúc) và để đo "sử dụng điện". Trong các thí nghiệm tương tự, nhiều nhà nghiên cứu thiết kế phương pháp điều trị riêng của chúng và đo kết quả của mình. Cách tiếp cận này đảm bảo rằng, càng nhiều càng tốt, các thí nghiệm phù hợp với cấu trúc trừu tượng được nghiên cứu. Trong các thí nghiệm kỹ thuật số mà các nhà nghiên cứu hợp tác với các công ty hoặc chính phủ để cung cấp phương pháp điều trị và sử dụng luôn trên hệ thống dữ liệu để đo lường kết quả, trận đấu giữa các thí nghiệm và các cấu trúc lý thuyết có thể ít chặt chẽ. Vì vậy, tôi hy vọng rằng giá trị xây dựng sẽ có xu hướng trở thành một mối quan tâm lớn hơn trong các thí nghiệm kỹ thuật số hơn các thí nghiệm tương tự.
Cuối cùng, giá trị bên ngoài xoay quanh xem kết quả của thí nghiệm này sẽ khái quát với các tình huống khác. Quay trở lại với Schultz et al. (2007) , người ta có thể hỏi, sẽ ý tưởng này cung cấp thông tin mọi người cùng về việc sử dụng năng lượng của họ trong mối quan hệ với các đồng nghiệp của họ và một tín hiệu của quy phạm mệnh lệnh (ví dụ, một biểu tượng cảm xúc) sử dụng năng lượng -Giảm nếu nó được thực hiện một cách khác nhau trong một môi trường khác? Đối với hầu hết các thiết kế tốt và nổi chạy thí nghiệm, mối quan tâm về giá trị bên ngoài là khó khăn nhất để giải quyết. Trong quá khứ, những cuộc tranh luận về giá trị bên ngoài là thường xuyên chỉ là một bó của những người ngồi trong một căn phòng cố gắng để tưởng tượng những gì sẽ xảy ra nếu các thủ tục đã được thực hiện một cách khác nhau, hoặc ở một nơi khác nhau, hoặc với những người khác nhau. May mắn thay, các đại kỹ thuật số cho phép các nhà nghiên cứu tiến xa hơn những suy đoán dữ liệu miễn phí và đánh giá giá trị bên ngoài theo kinh nghiệm.
Bởi vì các kết quả từ Schultz et al. (2007) đã rất thú vị, một công ty tên là Opower hợp tác với các tiện ích tại Hoa Kỳ để triển khai điều trị rộng rãi hơn. Dựa trên thiết kế của Schultz et al. (2007) , Opower tạo ra tùy chỉnh Trang chủ Báo cáo Năng lượng đó có hai mô-đun chính, một cho thấy việc sử dụng điện của gia đình so với các nước láng giềng với một biểu tượng cảm xúc và một cung cấp lời khuyên cho việc giảm sử dụng năng lượng (Hình 4.6). Sau đó, với sự hợp tác với các nhà nghiên cứu, Opower ran ngẫu nhiên thí nghiệm kiểm soát để đánh giá tác động của các Báo cáo Năng lượng chủ. Mặc dù các phương pháp điều trị trong các thí nghiệm đã được thường được gửi về thể chất, thường là thông qua tuổi ốc kiểu thư kết quả được đo bằng thiết bị kỹ thuật số trong thế giới vật lý (ví dụ, đồng hồ điện). Thay vì tự thu thập thông tin này với các trợ lý nghiên cứu đến thăm từng ngôi nhà, các thí nghiệm Opower đều được thực hiện trong sự hợp tác với các công ty điện lực cho phép các nhà nghiên cứu để truy cập công suất đọc. Như vậy, những thí nghiệm một phần kỹ thuật số đã được chạy ở một quy mô lớn với chi phí biến thấp.
Trong tập đầu tiên của các thí nghiệm liên quan đến 600.000 hộ gia đình phục vụ bởi 10 công ty tiện ích xung quanh Hoa Kỳ, Allcott (2011) tìm thấy các báo cáo năng lượng chủ giảm tiêu thụ điện bằng 1,7%. Nói cách khác, kết quả từ cuộc nghiên cứu lớn hơn nhiều, hơn là địa lý đa dạng chất lượng tương tự như kết quả từ Schultz et al. (2007) . Nhưng, mức độ ảnh hưởng là nhỏ hơn: trong Schultz et al. (2007) các hộ gia đình trong điều kiện tiêu chuẩn mô tả và đơn ánh (một với các biểu tượng cảm xúc) giảm mức sử dụng điện của mình bằng 5%. Lý do chính xác cho sự khác biệt này là không rõ, nhưng Allcott (2011) cho rằng nhận được một biểu tượng cảm xúc viết tay như là một phần của một nghiên cứu được tài trợ bởi một trường đại học có thể có một tác động lớn hơn về hành vi hơn nhận được một biểu tượng cảm xúc in như là một phần của một báo cáo sản xuất hàng loạt từ một công ty điện lực.
Hơn nữa, trong các nghiên cứu tiếp theo, Allcott (2015) báo cáo về thêm 101 thí nghiệm liên quan đến một thêm 8 triệu hộ gia đình. Trong các thí nghiệm tiếp theo 101 các báo cáo năng lượng chủ tiếp tục khiến người ta phải giảm tiêu thụ điện của họ, nhưng những ảnh hưởng thậm chí còn nhỏ hơn. Lý do chính xác cho sự sụt giảm này là không được biết đến, nhưng Allcott (2015) cho rằng hiệu quả của báo cáo xuất hiện để được giảm theo thời gian bởi vì nó đã thực sự được áp dụng cho các loại khác nhau của người tham gia. Cụ thể hơn, các tiện ích trong khu vực bảo vệ môi trường hơn là rất nhiều khả năng áp dụng các chương trình trước đó và khách hàng của họ đã được đáp ứng nhiều hơn để điều trị. Là tiện ích với khách hàng ít môi trường thông qua các chương trình, hiệu quả của nó đã xuất hiện từ chối. Như vậy, chỉ là ngẫu nhiên trong các thí nghiệm đảm bảo rằng các nhóm điều trị và kiểm soát tương tự, lấy ngẫu nhiên trong các trang web nghiên cứu đảm bảo rằng các ước tính có thể được khái quát từ một nhóm người tham gia vào một dân số tổng quát hơn (nghĩ lại Chương 3 về lấy mẫu). Nếu địa điểm nghiên cứu không được lấy mẫu ngẫu nhiên, sau đó tổng quát hóa-thậm chí từ một thiết kế hoàn hảo và tiến hành thử nghiệm có thể có vấn đề.
Cùng với nhau, những thí nghiệm 111-10 trong Allcott (2011) và 101 trong Allcott (2015) -involved khoảng 8,5 triệu hộ gia đình từ khắp nơi trên Hoa Kỳ. Họ liên tục cho thấy báo cáo Trang chủ Năng lượng giảm tiêu thụ điện trung bình, một kết quả hỗ trợ phát hiện ban đầu của Schultz và các đồng nghiệp từ 300 ngôi nhà ở California. Ngoài hoạt động tái tạo những kết quả ban đầu, các thí nghiệm theo dõi cũng cho thấy rằng kích thước của các hiệu ứng khác nhau tùy theo vị trí. Điều này đặt các thí nghiệm cũng cho thấy hơn hai điểm chung về thí nghiệm một phần kỹ thuật số. Đầu tiên, các nhà nghiên cứu sẽ có thể thực nghiệm mối quan tâm địa chỉ về giá trị bên ngoài khi chi phí điều hành các thí nghiệm là thấp, và điều này có thể xảy ra nếu kết quả là đã được đo bằng một luôn luôn-trên hệ thống dữ liệu. Do đó, nó cho thấy rằng nghiên cứu nên được trên nhìn ra cho hành vi thú vị và quan trọng khác đã được ghi lại, và sau đó thiết kế các thí nghiệm trên cơ sở hạ tầng hiện có đo này. Thứ hai, thiết lập này của các thí nghiệm nhắc nhở chúng ta rằng những thí nghiệm lĩnh vực kỹ thuật số không chỉ trực tuyến; ngày càng tôi hy vọng rằng họ sẽ có ở khắp mọi nơi với nhiều kết quả đo bằng cảm biến trong môi trường xây dựng.
Bốn loại có giá trị-thống kê giá trị kết luận, giá trị nội bộ, xây dựng tính hợp lệ, hợp lệ-cung cấp bên ngoài một danh sách kiểm tra tâm thần để giúp các nhà nghiên cứu đánh giá xem kết quả từ một thử nghiệm đặc biệt hỗ trợ một kết luận tổng quát hơn. So với các thí nghiệm tuổi tương tự, trong các thí nghiệm đại kỹ thuật số nó phải được dễ dàng hơn để giải quyết các giá trị bên ngoài theo kinh nghiệm và nó sẽ được dễ dàng hơn để đảm bảo giá trị bên trong. Mặt khác, các vấn đề về tính hợp lệ xây dựng có thể sẽ khó khăn hơn trong các thí nghiệm đại kỹ thuật số (mặc dù đó không phải là trường hợp với các thí nghiệm Opower).