Các câu hỏi về quan hệ nhân quả trong nghiên cứu xã hội thường phức tạp và phức tạp. Đối với một cách tiếp cận nền tảng nhân quả dựa trên các biểu đồ nhân quả, xem Pearl (2009) , và cho một phương pháp cơ bản dựa trên các kết quả tiềm năng, xem Imbens and Rubin (2015) . Để so sánh giữa hai phương pháp này, xem Morgan and Winship (2014) . Đối với một cách tiếp cận chính thức để xác định một kẻ gây nhiễu, xem VanderWeele and Shpitser (2013) .
Trong chương này, tôi đã tạo ra những gì có vẻ như một đường sáng giữa khả năng của chúng tôi để thực hiện ước tính nhân quả từ dữ liệu thử nghiệm và phi thực nghiệm. Tuy nhiên, tôi nghĩ rằng, trong thực tế, sự khác biệt là mờ hơn. Ví dụ, tất cả mọi người chấp nhận rằng hút thuốc lá gây ung thư, mặc dù không có thử nghiệm ngẫu nhiên có kiểm soát nào buộc mọi người hút thuốc lá đã từng được thực hiện. Đối với các phương pháp điều trị có thời lượng sách tuyệt vời về ước tính nhân quả từ dữ liệu phi thực nghiệm, Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) và Dunning (2012) .
Chương 1 và 2 của Freedman, Pisani, and Purves (2007) đưa ra một giới thiệu rõ ràng về sự khác biệt giữa các thí nghiệm, các thí nghiệm được kiểm soát và các thử nghiệm được kiểm soát ngẫu nhiên.
Manzi (2012) cung cấp một giới thiệu hấp dẫn và dễ đọc cho nền tảng triết học và thống kê của các thí nghiệm ngẫu nhiên có kiểm soát. Nó cũng cung cấp các ví dụ thực tế thú vị về sức mạnh của thử nghiệm trong kinh doanh. Issenberg (2012) cung cấp một giới thiệu hấp dẫn về việc sử dụng thử nghiệm trong các chiến dịch chính trị.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, và Athey and Imbens (2016b) cung cấp những giới thiệu tốt về khía cạnh thống kê của thiết kế và phân tích thử nghiệm. Hơn nữa, có những phương pháp điều trị tuyệt vời của việc sử dụng các thí nghiệm trong nhiều lĩnh vực khác nhau: kinh tế (Bardsley et al. 2009) , xã hội học (Willer and Walker 2007; Jackson and Cox 2013) , tâm lý học (Aronson et al. 1989) , khoa học chính trị (Morton and Williams 2010) , và chính sách xã hội (Glennerster and Takavarasha 2013) .
Tầm quan trọng của việc tuyển dụng người tham gia (ví dụ, lấy mẫu) thường được đánh giá thấp trong nghiên cứu thực nghiệm. Tuy nhiên, nếu hiệu quả của việc điều trị không đồng nhất trong dân số thì việc lấy mẫu là rất quan trọng. Longford (1999) làm rõ điểm này khi ông ủng hộ cho các nhà nghiên cứu nghĩ về các thí nghiệm như một cuộc khảo sát dân số với việc lấy mẫu ngẫu nhiên.
Tôi đã gợi ý rằng có một sự liên tục giữa các thí nghiệm trong phòng thí nghiệm và thực địa, và các nhà nghiên cứu khác đã đề xuất nhiều kiểu chi tiết hơn, đặc biệt là những kiểu tách biệt các thí nghiệm thực địa khác nhau (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Một số bài báo đã so sánh các thí nghiệm trong phòng thí nghiệm và hiện trường trong tóm tắt (Falk and Heckman 2009; Cialdini 2009) và về kết quả thí nghiệm cụ thể trong khoa học chính trị (Coppock and Green 2015) , kinh tế (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , và tâm lý học (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) đưa ra một thiết kế nghiên cứu tốt để so sánh kết quả từ các thí nghiệm trong phòng thí nghiệm và thực địa. Parigi, Santana, and Cook (2017) mô tả cách các thí nghiệm trực tuyến có thể kết hợp một số đặc điểm của thí nghiệm trong phòng thí nghiệm và thực địa.
Mối quan tâm về những người tham gia thay đổi hành vi của họ bởi vì họ biết rằng họ đang được quan sát chặt chẽ đôi khi được gọi là hiệu ứng nhu cầu , và họ đã được nghiên cứu trong tâm lý học (Orne 1962) và kinh tế (Zizzo 2010) . Mặc dù phần lớn được liên kết với các thử nghiệm trong phòng thí nghiệm, những vấn đề tương tự này cũng có thể gây ra các sự cố cho các thử nghiệm thực địa. Trong thực tế, hiệu ứng nhu cầu đôi khi được gọi là hiệu ứng Hawthorne , một thuật ngữ có nguồn gốc từ các thí nghiệm chiếu sáng nổi tiếng bắt đầu vào năm 1924 tại Hawthorne Works của Công ty Điện Miền Tây (Adair 1984; Levitt and List 2011) . Cả hiệu ứng cầu và hiệu ứng Hawthorne đều liên quan chặt chẽ đến ý tưởng đo lường phản ứng được thảo luận trong chương 2 (xem thêm Webb et al. (1966) ).
Các thí nghiệm thực địa có lịch sử lâu đời về kinh tế (Levitt and List 2009) , khoa học chính trị (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , tâm lý học (Shadish 2002) , và chính sách công (Shadish and Cook 2009) . Một lĩnh vực khoa học xã hội, nơi các thí nghiệm thực địa nhanh chóng trở nên nổi bật là phát triển quốc tế. Đối với một đánh giá tích cực của công việc đó trong kinh tế xem Banerjee and Duflo (2009) , và cho một đánh giá quan trọng xem Deaton (2010) . Để xem xét công trình này trong khoa học chính trị, xem Humphreys and Weinstein (2009) . Cuối cùng, những thách thức về đạo đức phát sinh từ các thí nghiệm thực địa đã được khám phá trong bối cảnh khoa học chính trị (Humphreys 2015; Desposato 2016b) và kinh tế phát triển (Baele 2013) .
Trong phần này, tôi gợi ý rằng thông tin tiền xử lý có thể được sử dụng để cải thiện độ chính xác của các hiệu quả điều trị ước tính, nhưng có một số cuộc tranh luận về cách tiếp cận này; xem Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , và Bloniarz et al. (2016) để biết thêm thông tin.
Cuối cùng, có hai loại thí nghiệm khác được thực hiện bởi các nhà khoa học xã hội không phù hợp gọn gàng theo chiều hướng phòng thí nghiệm hiện trường: thí nghiệm khảo sát và các thí nghiệm xã hội. Thí nghiệm khảo sát là các thí nghiệm sử dụng cơ sở hạ tầng của các khảo sát hiện có và so sánh các phản ứng với các phiên bản thay thế của cùng một câu hỏi (một số thí nghiệm khảo sát được trình bày trong Chương 3); để biết thêm về các thí nghiệm khảo sát, hãy xem Mutz (2011) . Thử nghiệm xã hội là các thí nghiệm trong đó việc điều trị là một số chính sách xã hội chỉ có thể được thực hiện bởi chính phủ. Các thí nghiệm xã hội có liên quan chặt chẽ đến việc đánh giá chương trình. Để biết thêm về các thử nghiệm chính sách, hãy xem Heckman and Smith (1995) , Orr (1998) và @ glennerster_running_2013.
Tôi đã chọn tập trung vào ba khái niệm: tính hợp lệ, tính không đồng nhất của hiệu quả điều trị và cơ chế. Các khái niệm này có tên khác nhau trong các trường khác nhau. Ví dụ, các nhà tâm lý học có khuynh hướng vượt qua các thí nghiệm đơn giản bằng cách tập trung vào các hòa giải viên và người kiểm duyệt (Baron and Kenny 1986) . Ý tưởng của các chất trung gian được bắt giữ bởi những gì tôi gọi là cơ chế và ý tưởng của người kiểm duyệt được ghi lại bởi cái mà tôi gọi là hiệu lực bên ngoài (ví dụ, kết quả của thí nghiệm sẽ khác nếu nó được chạy trong các tình huống khác nhau) và tính không đồng nhất của hiệu quả điều trị ( ví dụ, là những tác động lớn hơn đối với một số người so với những người khác).
Thí nghiệm của Schultz et al. (2007) cho thấy các lý thuyết xã hội có thể được sử dụng như thế nào để thiết kế các can thiệp hiệu quả. Để có một lập luận chung hơn về vai trò của lý thuyết trong việc thiết kế các can thiệp hiệu quả, xem Walton (2014) .
Các khái niệm về giá trị bên trong và bên ngoài lần đầu tiên được giới thiệu bởi Campbell (1957) . Xem Shadish, Cook, and Campbell (2001) để biết lịch sử chi tiết hơn và xây dựng cẩn thận hiệu lực thống kê kết luận, hiệu lực nội bộ, hiệu lực xây dựng và giá trị bên ngoài.
Để biết tổng quan về các vấn đề liên quan đến hiệu lực kết luận thống kê trong các thí nghiệm, xem Gerber and Green (2012) (từ góc độ khoa học xã hội) và Imbens and Rubin (2015) (từ góc độ thống kê). Một số vấn đề về tính hợp lệ kết luận thống kê phát sinh cụ thể trong các thí nghiệm trực tuyến bao gồm các vấn đề như các phương pháp tính toán hiệu quả để tạo khoảng tin cậy với dữ liệu phụ thuộc (Bakshy and Eckles 2013) .
Giá trị nội bộ có thể khó đảm bảo trong các thử nghiệm thực địa phức tạp. Xem, ví dụ, Gerber and Green (2000) , Imai (2005) , và Gerber and Green (2005) để tranh luận về việc thực hiện một thử nghiệm thực địa phức tạp về bỏ phiếu. Kohavi et al. (2012) và Kohavi et al. (2013) đưa ra một giới thiệu về những thách thức về hiệu lực của khoảng thời gian trong các thí nghiệm trực tuyến.
Một mối đe dọa lớn đối với hiệu lực nội bộ là khả năng ngẫu nhiên thất bại. Một cách tiềm năng để phát hiện các vấn đề với sự ngẫu nhiên là so sánh nhóm điều trị và kiểm soát trên các đặc điểm quan sát được. Loại so sánh này được gọi là kiểm tra số dư . Xem Hansen and Bowers (2008) cho một phương pháp thống kê để cân bằng kiểm tra và Mutz and Pemantle (2015) cho những lo ngại về kiểm tra số dư. Ví dụ, sử dụng kiểm tra số dư, Allcott (2011) tìm thấy một số bằng chứng cho thấy ngẫu nhiên không được thực hiện đúng trong ba thí nghiệm Opower (xem bảng 2; các trang 2, 6 và 8). Đối với các cách tiếp cận khác, xem chương 21 của Imbens and Rubin (2015) .
Các mối quan tâm chính khác liên quan đến hiệu lực nội bộ là: (1) sự không tuân thủ một bên, trong đó không phải ai trong nhóm điều trị đều được điều trị, (2) sự không tuân thủ hai mặt, trong đó không phải ai trong nhóm điều trị được điều trị và một số người nhóm kiểm soát được điều trị, (3) tiêu hao, nơi kết quả không được đo đối với một số người tham gia và (4) can thiệp, nơi điều trị tràn ra từ những người trong điều kiện điều trị cho những người trong tình trạng kiểm soát. Xem các chương 5, 6, 7 và 8 của Gerber and Green (2012) để biết thêm về từng vấn đề này.
Để biết thêm về hiệu lực xây dựng, xem Westen and Rosenthal (2003) , và để biết thêm về hiệu lực xây dựng trong các nguồn dữ liệu lớn, Lazer (2015) và chương 2 của cuốn sách này.
Một khía cạnh của giá trị bên ngoài là cài đặt trong đó một sự can thiệp được kiểm tra. Allcott (2015) cung cấp một điều trị lý thuyết và thực nghiệm cẩn thận về thiên vị lựa chọn địa điểm. Vấn đề này cũng được thảo luận bởi Deaton (2010) . Một khía cạnh khác của giá trị bên ngoài là liệu các hoạt động thay thế của cùng một can thiệp sẽ có tác dụng tương tự hay không. Trong trường hợp này, một so sánh giữa Schultz et al. (2007) và Allcott (2011) cho thấy các thí nghiệm Opower có hiệu quả được ước tính nhỏ hơn so với các thí nghiệm ban đầu của Schultz và các đồng nghiệp (1,7% so với 5%). Allcott (2011) suy đoán rằng các thí nghiệm tiếp theo có ảnh hưởng nhỏ hơn do cách điều trị khác nhau: một biểu tượng cảm xúc viết tay như là một phần của nghiên cứu được tài trợ bởi một trường đại học, so với biểu tượng cảm xúc được in báo cáo từ một công ty điện lực.
Để có một tổng quan tuyệt vời về tính không đồng nhất của hiệu quả điều trị trong các thí nghiệm thực địa, xem chương 12 của Gerber and Green (2012) . Để giới thiệu tính không đồng nhất của hiệu quả điều trị trong các thử nghiệm y khoa, xem Kent and Hayward (2007) , Longford (1999) , và Kravitz, Duan, and Braslow (2004) . Những cân nhắc về tính không đồng nhất của hiệu quả điều trị thường tập trung vào sự khác biệt dựa trên đặc điểm tiền xử lý. Nếu bạn quan tâm đến tính không đồng nhất dựa trên kết quả sau điều trị, thì cần có nhiều cách tiếp cận phức tạp hơn, chẳng hạn như phân tầng chính (Frangakis and Rubin 2002) ; xem Page et al. (2015) để xem xét.
Nhiều nhà nghiên cứu ước tính tính không đồng nhất của các hiệu ứng điều trị bằng cách sử dụng hồi quy tuyến tính, nhưng các phương pháp mới hơn dựa vào việc học máy; xem, ví dụ, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , và Athey and Imbens (2016a) .
Có rất nhiều cách tiếp cận thống kê có thể giúp giải quyết các mối quan tâm về việc so sánh nhiều (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Một cách tiếp cận để lo ngại về “câu cá” là đăng ký trước, ngày càng trở nên phổ biến trong tâm lý học (Nosek and Lakens 2014) , khoa học chính trị (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) và kinh tế học (Olken 2015) .
Trong nghiên cứu của Costa and Kahn (2013) chỉ có khoảng một nửa số hộ trong thí nghiệm có thể được liên kết với thông tin nhân khẩu học. Người đọc quan tâm đến những chi tiết này nên tham khảo bài báo gốc.
Cơ chế là cực kỳ quan trọng, nhưng chúng hóa ra rất khó học. Nghiên cứu về cơ chế liên quan chặt chẽ đến việc nghiên cứu các chất trung gian trong tâm lý học (nhưng cũng xem VanderWeele (2009) để so sánh chính xác giữa hai ý tưởng). Các phương pháp thống kê để tìm kiếm các cơ chế, như cách tiếp cận được phát triển trong Baron and Kenny (1986) , là khá phổ biến. Thật không may, nó chỉ ra rằng những thủ tục phụ thuộc vào một số giả định mạnh mẽ (Bullock, Green, and Ha 2010) và chịu đựng khi có nhiều cơ chế, như người ta có thể mong đợi trong nhiều tình huống (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) và Imai and Yamamoto (2013) đưa ra một số phương pháp thống kê được cải thiện. Hơn nữa, VanderWeele (2015) cung cấp một điều trị dài cuốn sách với một số kết quả quan trọng, bao gồm một cách tiếp cận toàn diện để phân tích độ nhạy.
Một cách tiếp cận riêng biệt tập trung vào các thí nghiệm cố gắng thao tác trực tiếp cơ chế (ví dụ, cho các thủy thủ vitamin C). Thật không may, trong nhiều thiết lập khoa học xã hội, thường có nhiều cơ chế và rất khó để thiết kế các phương pháp điều trị thay đổi một phương pháp mà không thay đổi các phương pháp khác. Một số phương pháp tiếp cận cơ chế thay đổi thực nghiệm được mô tả bởi Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , và Pirlott and MacKinnon (2016) .
Các nhà nghiên cứu chạy thử nghiệm giai thừa hoàn toàn sẽ cần phải quan tâm đến nhiều thử nghiệm giả thuyết; xem Fink, McConnell, and Vollmer (2014) và List, Shaikh, and Xu (2016) để biết thêm thông tin.
Cuối cùng, các cơ chế cũng có một lịch sử lâu dài trong triết học khoa học như được mô tả bởi Hedström and Ylikoski (2010) .
Để biết thêm về việc sử dụng các nghiên cứu tương ứng và các nghiên cứu kiểm toán để đo lường sự phân biệt đối xử, xem Pager (2007) .
Cách phổ biến nhất để tuyển dụng người tham gia vào các thí nghiệm mà bạn xây dựng là Amazon Mechanical Turk (MTurk). Bởi vì MTurk bắt chước các khía cạnh của thí nghiệm truyền thống - trả tiền cho mọi người để hoàn thành nhiệm vụ mà họ không làm miễn phí - nhiều nhà nghiên cứu đã bắt đầu sử dụng Turkers (công nhân trên MTurk) với tư cách là người tham gia thử nghiệm, giúp thu thập dữ liệu nhanh hơn và rẻ hơn trong các thí nghiệm truyền thống trong phòng thí nghiệm (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Nói chung, lợi thế lớn nhất của việc sử dụng những người tham gia tuyển dụng từ MTurk là hậu cần. Trong khi các thử nghiệm trong phòng thí nghiệm có thể mất vài tuần để chạy và các thử nghiệm thực địa có thể mất vài tháng để thiết lập, các thử nghiệm với những người tham gia được tuyển dụng từ MTurk có thể chạy trong vài ngày. Ví dụ, Berinsky, Huber, and Lenz (2012) đã có thể tuyển 400 môn học trong một ngày để tham gia vào một thí nghiệm 8 phút. Hơn nữa, những người tham gia có thể được tuyển dụng cho hầu như bất kỳ mục đích nào (bao gồm cả các cuộc điều tra và cộng tác quần chúng, như được thảo luận trong chương 3 và 5). Điều này dễ dàng tuyển dụng có nghĩa là các nhà nghiên cứu có thể chạy trình tự của các thí nghiệm liên quan trong kế nhanh chóng.
Trước khi tuyển dụng những người tham gia từ MTurk cho các thí nghiệm của riêng bạn, có bốn điều quan trọng mà bạn cần phải biết. Đầu tiên, nhiều nhà nghiên cứu có một sự hoài nghi không đặc hiệu của các thí nghiệm liên quan đến Turkers. Bởi vì sự hoài nghi này không cụ thể, thật khó để chống lại bằng chứng. Tuy nhiên, sau nhiều năm nghiên cứu sử dụng Turkers, chúng ta có thể kết luận rằng sự hoài nghi này không được đặc biệt hợp lý. Đã có nhiều nghiên cứu so sánh nhân khẩu học của Turkers với các quần thể khác và nhiều nghiên cứu so sánh kết quả thí nghiệm với Turkers với những người từ các quần thể khác. Với tất cả công việc này, tôi nghĩ rằng cách tốt nhất để bạn nghĩ về nó là Turkers là một mẫu tiện lợi hợp lý, giống như sinh viên nhưng hơi đa dạng hơn (Berinsky, Huber, and Lenz 2012) . Vì vậy, cũng giống như sinh viên là một dân số hợp lý cho một số, nhưng không phải tất cả, nghiên cứu, Turkers là một dân số hợp lý cho một số, nhưng không phải tất cả, nghiên cứu. Nếu bạn đang đi làm việc với Turkers, sau đó nó có ý nghĩa để đọc nhiều trong số những nghiên cứu so sánh và hiểu sắc thái của họ.
Thứ hai, các nhà nghiên cứu đã phát triển các phương pháp tốt nhất để tăng tính hợp lệ nội bộ của các thí nghiệm MTurk, và bạn nên tìm hiểu và làm theo những thực hành tốt nhất (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Ví dụ, các nhà nghiên cứu sử dụng Turkers được khuyến khích sử dụng sàng lọc để loại bỏ những người tham gia không chú ý (Berinsky, Margolis, and Sances 2014, 2016) (nhưng cũng xem DJ Hauser and Schwarz (2015b) và DJ Hauser and Schwarz (2015a) ). Nếu bạn không loại bỏ những người tham gia không chú ý, thì bất kỳ ảnh hưởng nào của việc điều trị đều có thể bị cuốn trôi bởi tiếng ồn mà họ giới thiệu, và trong thực tế, số người tham gia không chú ý có thể là đáng kể. Trong thử nghiệm của Huber và các đồng nghiệp (2012) , khoảng 30% người tham gia đã thất bại trong việc kiểm tra chú ý cơ bản. Các vấn đề khác thường xảy ra khi người Turkers được sử dụng là những người không ngây thơ (Chandler et al. 2015) và tiêu hao (Zhou and Fishbach 2016) .
Thứ ba, liên quan đến một số hình thức thí nghiệm kỹ thuật số khác, thí nghiệm MTurk không thể mở rộng quy mô; Stewart et al. (2015) ước tính rằng tại bất kỳ thời điểm nào chỉ có khoảng 7.000 người trên MTurk.
Cuối cùng, bạn nên biết rằng MTurk là một cộng đồng với các quy tắc và tiêu chuẩn riêng của nó (Mason and Suri 2012) . Trong cùng một cách mà bạn sẽ cố gắng tìm hiểu về văn hóa của một quốc gia nơi bạn sẽ chạy thử nghiệm của mình, bạn nên cố gắng tìm hiểu thêm về văn hóa và định mức của Turkers (Salehi et al. 2015) . Và bạn nên biết rằng Turkers sẽ nói về thí nghiệm của bạn nếu bạn làm điều gì đó không phù hợp hoặc phi đạo đức (Gray et al. 2016) .
MTurk là một cách cực kỳ thuận tiện để tuyển dụng người tham gia vào thí nghiệm của bạn, cho dù họ là phòng thí nghiệm, chẳng hạn như Huber, Hill, and Lenz (2012) hoặc nhiều lĩnh vực khác, chẳng hạn như Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , và Mao et al. (2016) .
Nếu bạn đang nghĩ đến việc cố gắng tạo ra sản phẩm của riêng mình, tôi khuyên bạn nên đọc lời khuyên của nhóm MovieLens ở Harper and Konstan (2015) . Một cái nhìn sâu sắc quan trọng từ kinh nghiệm của họ là cho mỗi dự án thành công có rất nhiều thất bại. Ví dụ, nhóm MovieLens đưa ra các sản phẩm khác, chẳng hạn như GopherAnswers, đã thất bại hoàn toàn (Harper and Konstan 2015) . Một ví dụ khác của một nhà nghiên cứu thất bại trong khi cố gắng xây dựng một sản phẩm là nỗ lực của Edward Castronova để xây dựng một trò chơi trực tuyến có tên là Arden. Mặc dù tài trợ $ 250,000, dự án này là một thất bại (Baker 2008) . Các dự án như GopherAnswers và Arden không may phổ biến hơn nhiều so với các dự án như MovieLens.
Tôi đã nghe ý tưởng về Quadrant của Pasteur thảo luận thường xuyên tại các công ty công nghệ, và nó giúp tổ chức các nỗ lực nghiên cứu tại Google (Spector, Norvig, and Petrov 2012) .
Nghiên cứu của Bond và các đồng nghiệp (2012) cũng cố gắng phát hiện hiệu quả của các phương pháp điều trị này đối với bạn bè của những người nhận được chúng. Do thiết kế của thí nghiệm, các ngoại tác lan truyền này rất khó phát hiện một cách rõ ràng; độc giả quan tâm nên xem Bond et al. (2012) cho một cuộc thảo luận kỹ lưỡng hơn. Jones và các đồng nghiệp (2017) cũng đã tiến hành một thí nghiệm rất giống nhau trong cuộc bầu cử năm 2012. Những thí nghiệm này là một phần của truyền thống lâu đời về các thí nghiệm trong khoa học chính trị về những nỗ lực khuyến khích bỏ phiếu (Green and Gerber 2015) . Những thí nghiệm bỏ phiếu này là phổ biến, một phần vì chúng nằm trong Quadur của Pasteur. Đó là, có nhiều người có động lực để tăng quyền biểu quyết và bỏ phiếu có thể là một hành vi thú vị để kiểm tra các lý thuyết chung hơn về thay đổi hành vi và ảnh hưởng xã hội.
Để được tư vấn về chạy thử nghiệm thực địa với các tổ chức đối tác như đảng phái chính trị, NGO và doanh nghiệp, hãy xem Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) và Gueron (2002) . Đối với những suy nghĩ về cách hợp tác với các tổ chức có thể tác động đến thiết kế nghiên cứu, xem King et al. (2007) và Green, Calfano, and Aronow (2014) . Quan hệ đối tác cũng có thể dẫn đến các câu hỏi về đạo đức, như được thảo luận bởi Humphreys (2015) và Nickerson and Hyde (2016) .
Nếu bạn định tạo kế hoạch phân tích trước khi chạy thử nghiệm, tôi khuyên bạn nên bắt đầu bằng cách đọc các nguyên tắc báo cáo. Hướng dẫn TIÊU CHUẨN (Báo cáo tiêu chuẩn thử nghiệm hợp nhất) được phát triển trong y học (Schulz et al. 2010) và sửa đổi cho nghiên cứu xã hội (Mayo-Wilson et al. 2013) . Một bộ hướng dẫn liên quan đã được các biên tập viên của Tạp chí Khoa học Chính trị Thực nghiệm (Gerber et al. 2014) (xem thêm Mutz and Pemantle (2015) và Gerber et al. (2015) ). Cuối cùng, các hướng dẫn báo cáo đã được phát triển trong tâm lý học (APA Working Group 2008) , và xem thêm Simmons, Nelson, and Simonsohn (2011) .
Nếu bạn tạo một kế hoạch phân tích, bạn nên xem xét trước khi đăng ký nó vì đăng ký trước sẽ làm tăng sự tự tin mà những người khác có trong kết quả của bạn. Hơn nữa, nếu bạn đang làm việc với một đối tác, nó sẽ hạn chế khả năng thay đổi phân tích của đối tác sau khi xem kết quả. Đăng ký trước ngày càng trở nên phổ biến trong tâm lý học (Nosek and Lakens 2014) , khoa học chính trị (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) và kinh tế (Olken 2015) .
Tư vấn thiết kế đặc biệt cho các thí nghiệm trực tuyến cũng được trình bày ở Konstan and Chen (2007) và Chen and Konstan (2015) .
Cái mà tôi gọi là chiến lược armada đôi khi được gọi là nghiên cứu có lập trình ; xem Wilson, Aronson, and Carlsmith (2010) .
Để biết thêm về các thí nghiệm MusicLab, xem Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) và Salganik (2007) . Để biết thêm thông tin về các thị trường dành cho người chiến thắng, hãy xem Frank and Cook (1996) . Để biết thêm về những khó khăn về may mắn và kỹ năng nói chung, hãy xem Mauboussin (2012) , Watts (2012) và Frank (2016) .
Có một cách tiếp cận khác để loại bỏ các khoản thanh toán cho người tham gia mà các nhà nghiên cứu nên sử dụng thận trọng: sự đồng ý. Trong nhiều thí nghiệm trực tuyến, những người tham gia thí nghiệm về cơ bản được soạn thảo thành các thí nghiệm và không bao giờ được đền bù. Ví dụ về cách tiếp cận này bao gồm Restivo và thí nghiệm của van de Rijt (2012) về các phần thưởng trong thử nghiệm của Wikipedia và Bond (2012) về khuyến khích mọi người bình chọn. Những thí nghiệm này không thực sự có chi phí biến đổi bằng không - thay vào đó, chúng không có chi phí biến đổi cho các nhà nghiên cứu . Trong các thí nghiệm như vậy, ngay cả khi chi phí cho mỗi người tham gia là cực kỳ nhỏ, tổng chi phí có thể khá lớn. Các nhà nghiên cứu chạy thử nghiệm trực tuyến lớn thường biện minh cho tầm quan trọng của hiệu quả điều trị ước tính nhỏ bằng cách nói rằng những hiệu ứng nhỏ này có thể trở nên quan trọng khi áp dụng cho nhiều người. Suy nghĩ chính xác tương tự áp dụng cho chi phí mà các nhà nghiên cứu áp đặt lên người tham gia. Nếu thí nghiệm của bạn làm cho một triệu người lãng phí một phút, thí nghiệm không có hại cho bất kỳ người cụ thể nào, nhưng tổng cộng nó đã lãng phí gần hai năm.
Một cách tiếp cận khác để tạo ra chi phí không thay đổi cho người tham gia là sử dụng xổ số, một phương pháp tiếp cận cũng đã được sử dụng trong nghiên cứu khảo sát (Halpern et al. 2011) . Để biết thêm về thiết kế trải nghiệm người dùng thú vị, hãy xem Toomim et al. (2011) . Để biết thêm về cách sử dụng bot để tạo ra các thử nghiệm chi phí biến đổi không, hãy xem ( ??? ) .
Ba R như ban đầu được đề xuất bởi Russell and Burch (1959) như sau:
"Thay thế có nghĩa là sự thay thế cho ý thức sống động vật bậc cao của vật liệu không có cảm giác. Giảm có nghĩa là giảm số lượng các loài động vật sử dụng để có được thông tin của một số tiền nhất định và chính xác. Sàng lọc có nghĩa là bất kỳ giảm tỷ lệ hoặc mức độ nghiêm trọng của thủ tục vô nhân đạo áp dụng cho những động vật mà vẫn phải được sử dụng. "
Ba R mà tôi đề xuất không ghi đè các nguyên tắc đạo đức được mô tả trong chương 6. Thay vào đó, chúng là một phiên bản được xây dựng tỉ mỉ hơn một trong những nguyên tắc — sự tận tâm - đặc biệt trong bối cảnh các thí nghiệm của con người.
Xét về R đầu tiên (“thay thế”), so sánh thí nghiệm lây nhiễm cảm xúc (Kramer, Guillory, and Hancock 2014) và thí nghiệm tự nhiên lây lan tình cảm (Lorenzo Coviello et al. 2014) cung cấp một số bài học tổng quát về các vấn đề liên quan trong việc chuyển từ thí nghiệm sang thí nghiệm tự nhiên (và các cách tiếp cận khác như đối sánh với nỗ lực ước tính gần đúng trong dữ liệu phi thực nghiệm; xem chương 2). Ngoài các lợi ích đạo đức, chuyển từ thí nghiệm sang nghiên cứu phi thực nghiệm cũng cho phép các nhà nghiên cứu nghiên cứu các phương pháp điều trị mà họ không thể triển khai một cách lôgic. Tuy nhiên, những lợi ích đạo đức và hậu cần này có chi phí. Với các thí nghiệm tự nhiên, các nhà nghiên cứu có ít sự kiểm soát hơn đối với những thứ như tuyển dụng người tham gia, ngẫu nhiên và bản chất của việc điều trị. Ví dụ, một giới hạn của lượng mưa như là một điều trị là cả hai đều làm tăng sự tích cực và giảm tiêu cực. Tuy nhiên, trong nghiên cứu thực nghiệm, Kramer và các đồng nghiệp đã có thể điều chỉnh sự tích cực và tiêu cực một cách độc lập. Cách tiếp cận đặc biệt được sử dụng bởi Lorenzo Coviello et al. (2014) được xây dựng thêm bởi L. Coviello, Fowler, and Franceschetti (2014) . Để giới thiệu về các biến công cụ, đó là cách tiếp cận được sử dụng bởi Lorenzo Coviello et al. (2014) , xem Angrist and Pischke (2009) (ít chính thức) hoặc Angrist, Imbens, and Rubin (1996) (chính thức hơn). Đối với một đánh giá hoài nghi về các biến công cụ, xem Deaton (2010) , và để giới thiệu về các biến công cụ với các công cụ yếu (mưa là một công cụ yếu), xem Murray (2006) . Nói chung, một giới thiệu tốt về các thí nghiệm tự nhiên được đưa ra bởi Dunning (2012) , trong khi Rosenbaum (2002) , ( ??? ) , và Shadish, Cook, and Campbell (2001) đưa ra những ý tưởng tốt về ước tính hiệu ứng nhân quả mà không cần thí nghiệm.
Trong điều khoản của R thứ hai ("sàng lọc"), có sự cân bằng khoa học và hậu cần khi xem xét việc thay đổi thiết kế của Contagion tình cảm từ việc chặn bài viết để tăng cường bài viết. Ví dụ: có thể trường hợp triển khai kỹ thuật của Nguồn cấp tin tức khiến việc thử nghiệm trong đó bài đăng bị chặn dễ dàng hơn là một bài mà trong đó chúng được tăng cường (lưu ý rằng thử nghiệm liên quan đến chặn bài đăng có thể được triển khai dưới dạng lớp trên cùng của hệ thống Nguồn cấp tin tức mà không cần thay đổi hệ thống cơ bản). Về mặt khoa học, tuy nhiên, lý thuyết được giải quyết bởi thí nghiệm đã không đề xuất rõ ràng một thiết kế so với cái kia. Thật không may, tôi không nhận thức được nghiên cứu trước đây đáng kể về thành tích tương đối của việc ngăn chặn và thúc đẩy nội dung trong News Feed. Ngoài ra, tôi đã không nhìn thấy nhiều nghiên cứu về phương pháp điều trị tinh chế để làm cho chúng ít gây hại; một ngoại lệ là B. Jones and Feamster (2015) , xem xét trường hợp đo kiểm duyệt Internet (một chủ đề tôi thảo luận trong chương 6 về mối quan hệ với nghiên cứu Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Trong điều khoản của R thứ ba ("giảm"), giới thiệu tốt để phân tích năng lượng truyền thống được đưa ra bởi Cohen (1988) (sách) và Cohen (1992) (bài báo), trong khi Gelman and Carlin (2014) cung cấp một góc nhìn hơi khác nhau. Các biến số tiền xử lý có thể được bao gồm trong giai đoạn thiết kế và phân tích thí nghiệm; Chương 4 của Gerber and Green (2012) cung cấp một giới thiệu tốt về cả hai cách tiếp cận, và Casella (2008) cung cấp một điều trị chuyên sâu hơn. Các kỹ thuật sử dụng thông tin tiền xử lý này trong ngẫu nhiên thường được gọi là thiết kế thử nghiệm bị chặn hoặc thiết kế thử nghiệm phân tầng (thuật ngữ không được sử dụng nhất quán trên các cộng đồng); các kỹ thuật này liên quan chặt chẽ đến các kỹ thuật lấy mẫu phân tầng được thảo luận trong chương 3. Xem Higgins, Sävje, and Sekhon (2016) để biết thêm về cách sử dụng các thiết kế này trong các thí nghiệm lớn. Các đồng biến tiền xử lý cũng có thể được đưa vào giai đoạn phân tích. McKenzie (2012) khám phá cách tiếp cận khác biệt-trong-khác biệt để phân tích các thí nghiệm thực địa chi tiết hơn. Xem Carneiro, Lee, and Wilhelm (2016) để biết thêm về sự cân bằng giữa các cách tiếp cận khác nhau để tăng độ chính xác trong ước tính hiệu quả điều trị. Cuối cùng, khi quyết định có nên thử bao gồm các biến số tiền xử lý ở giai đoạn thiết kế hoặc phân tích (hoặc cả hai), có một vài yếu tố cần xem xét. Trong bối cảnh mà các nhà nghiên cứu muốn chứng minh rằng họ không phải là “câu cá” (Humphreys, Sierra, and Windt 2013) , việc sử dụng các biến đổi tiền xử lý trong giai đoạn thiết kế có thể hữu ích (Higgins, Sävje, and Sekhon 2016) . Trong các tình huống mà người tham gia đến tuần tự, đặc biệt là các thử nghiệm thực địa trực tuyến, việc sử dụng thông tin tiền xử lý trong giai đoạn thiết kế có thể khó khăn về mặt hậu cần; xem, ví dụ, Xie and Aurisset (2016) .
Nó là giá trị thêm một chút trực giác về lý do tại sao một cách tiếp cận khác biệt-trong-khác biệt có thể được nhiều hơn nữa hiệu quả hơn một sự khác biệt trong một phương tiện. Nhiều kết quả trực tuyến có phương sai rất cao (xem ví dụ, RA Lewis and Rao (2015) và Lamb et al. (2015) ) và tương đối ổn định theo thời gian. Trong trường hợp này, điểm thay đổi sẽ có phương sai nhỏ hơn đáng kể, tăng sức mạnh của kiểm tra thống kê. Một lý do khiến phương pháp này không được sử dụng thường xuyên hơn là trước thời đại kỹ thuật số, nó không phổ biến để có kết quả tiền xử lý. Một cách cụ thể hơn để suy nghĩ về điều này là để tưởng tượng một thử nghiệm để đo lường liệu một thói quen tập thể dục cụ thể gây ra giảm cân. Nếu bạn áp dụng cách tiếp cận khác biệt trong phương tiện, ước tính của bạn sẽ có sự thay đổi phát sinh từ sự thay đổi về trọng số trong dân số. Tuy nhiên, nếu bạn thực hiện một cách tiếp cận khác biệt về sự khác biệt, thì sự thay đổi tự nhiên về trọng lượng sẽ bị loại bỏ và bạn có thể dễ dàng phát hiện sự khác biệt gây ra bởi việc điều trị.
Cuối cùng, tôi xem xét thêm một R thứ tư: "tái sử dụng". Đó là, nếu các nhà nghiên cứu thấy mình có nhiều dữ liệu thử nghiệm hơn là họ cần giải quyết câu hỏi nghiên cứu ban đầu của họ, họ nên sử dụng lại dữ liệu để đặt câu hỏi mới. Ví dụ, hãy tưởng tượng rằng Kramer và các đồng nghiệp đã sử dụng một ước tính khác biệt về sự khác biệt và thấy mình có nhiều dữ liệu hơn là cần thiết để giải quyết câu hỏi nghiên cứu của họ. Thay vì không sử dụng dữ liệu ở mức tối đa, họ có thể nghiên cứu kích thước của hiệu ứng như một hàm của biểu hiện cảm xúc trước khi điều trị. Cũng giống như Schultz et al. (2007) thấy rằng hiệu quả của việc điều trị là khác nhau đối với người dùng nhẹ và nặng, có lẽ ảnh hưởng của News Feed khác với những người đã có xu hướng gửi tin nhắn hạnh phúc (hoặc buồn). Việc sử dụng lại có thể dẫn đến “câu cá” (Humphreys, Sierra, and Windt 2013) và “p-hacking” (Simmons, Nelson, and Simonsohn 2011) , nhưng phần lớn có thể giải quyết được với sự kết hợp báo cáo trung thực (Simmons, Nelson, and Simonsohn 2011) , đăng ký trước (Humphreys, Sierra, and Windt 2013) , và các phương pháp học máy mà cố gắng tránh lắp đặt quá mức.