bình luận thêm

Phần này được thiết kế để được sử dụng như một tài liệu tham khảo, chứ không phải là để được đọc như một câu chuyện.

  • Giới thiệu (Phần 4.1)

Các câu hỏi về quan hệ nhân quả trong nghiên cứu xã hội thường rất phức tạp và phức tạp. Đối với một cách tiếp cận nền tảng cho quan hệ nhân quả dựa trên biểu đồ nhân quả, xem Pearl (2009) , và cho một cách tiếp cận nền tảng dựa trên kết quả tiềm năng, xem Imbens and Rubin (2015) (và các phụ lục kỹ thuật trong chương này). Để so sánh giữa hai phương pháp này, xem Morgan and Winship (2014) . Đối với một cách tiếp cận chính thức để xác định một confounder, xem VanderWeele and Shpitser (2013) .

Trong chương này, tôi tạo ra những gì có vẻ như một đường sáng giữa khả năng của chúng tôi để có những ước tính quan hệ nhân quả từ số liệu thực nghiệm và không thử nghiệm. Trong thực tế, tôi nghĩ rằng sự phân biệt là blurrier. Ví dụ, tất cả mọi người chấp nhận rằng hút thuốc gây ung thư mặc dù chúng tôi đã không bao giờ thực hiện một thí nghiệm kiểm soát ngẫu nhiên khiến người dân phải hút thuốc. Đối với phương pháp điều trị chiều dài cuốn sách tuyệt vời về lập dự toán nhân quả từ dữ liệu phi thực nghiệm thấy Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , và Dunning (2012) .

Chương 1 và 2 của Freedman, Pisani, and Purves (2007) cung cấp một giới thiệu rõ ràng vào sự khác biệt giữa các thí nghiệm, thí nghiệm kiểm soát, và ngẫu nhiên các thí nghiệm kiểm soát.

Manzi (2012) cung cấp một giới thiệu hấp dẫn và có thể đọc được vào nền tảng triết học và thống kê của các thí nghiệm ngẫu nhiên có kiểm soát. Nó cũng cung cấp các ví dụ thực tế thú vị về sức mạnh của thử nghiệm trong kinh doanh.

  • Thí nghiệm là gì? (Phần 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) cung cấp giới thiệu tốt để các khía cạnh thống kê của thiết kế và phân tích thí nghiệm. Hơn nữa, có những phương pháp điều trị tuyệt vời của việc sử dụng các thí nghiệm trong nhiều lĩnh vực khác nhau: kinh tế (Bardsley et al. 2009) , Xã hội học (Willer and Walker 2007; Jackson and Cox 2013) , tâm lý (Aronson et al. 1989) , Khoa học chính trị (Morton and Williams 2010) , và chính sách xã hội (Glennerster and Takavarasha 2013) .

Tầm quan trọng của việc tuyển dụng người tham gia (ví dụ, lấy mẫu) thường được đánh giá đúng trong nghiên cứu thực nghiệm. Tuy nhiên, nếu tác động của việc điều trị là không đồng nhất trong dân số, sau đó lấy mẫu là rất quan trọng. Longford (1999) làm cho điểm này rõ ràng khi ông ủng hộ cho các nhà nghiên cứu suy nghĩ của thí nghiệm là một cuộc điều tra dân số lấy mẫu một cách bừa bãi.

  • Hai kích thước của các thí nghiệm: phòng thí nghiệm hiện trường và analog-kỹ thuật số (Phần 4.3)

Sự phân đôi mà tôi trình bày giữa các thí nghiệm trong phòng thí nghiệm và hiện trường là một chút đơn giản. Trong thực tế, các nhà nghiên cứu khác đã đề xuất typologies chi tiết hơn, trong những người cụ thể mà tách các hình thức khác nhau của thí nghiệm (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Hơn nữa, có hai loại khác của các thí nghiệm được thực hiện bởi các nhà khoa học xã hội không phù hợp gọn gàng vào phòng thí nghiệm và lĩnh vực phân đôi:. Thí nghiệm khảo sát và thí nghiệm xã hội thí nghiệm khảo sát được thí nghiệm bằng cách sử dụng cơ sở hạ tầng của các cuộc điều tra hiện tại và so sánh đáp ứng với các phiên bản thay thế của cùng một câu hỏi (một số thí nghiệm khảo sát được trình bày trong Chương 3); để biết thêm về các thí nghiệm khảo sát thấy Mutz (2011) . thí nghiệm xã hội là những thí nghiệm mà việc điều trị là một số chính sách xã hội mà chỉ có thể được thực hiện bởi một chính phủ. thí nghiệm xã hội có liên quan chặt chẽ với chương trình đánh giá. Để biết thêm về các thí nghiệm chính sách, xem Orr (1998) , Glennerster and Takavarasha (2013) , và Heckman and Smith (1995) .

Một số giấy tờ đã so sánh các thí nghiệm trong phòng thí nghiệm và các lĩnh vực trong trừu tượng (Falk and Heckman 2009; Cialdini 2009) và về kết quả của các thí nghiệm cụ thể trong khoa học chính trị (Coppock and Green 2015) , kinh tế (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) và tâm lý (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) cung cấp một thiết kế nghiên cứu tốt để so sánh kết quả từ các thí nghiệm trong phòng thí nghiệm và hiện trường.

Những lo ngại về tham gia thay đổi hành vi của họ, vì họ biết họ đang bị theo dõi chặt chẽ đôi khi được gọi là hiệu ứng nhu cầu, và họ đã được nghiên cứu trong tâm lý học (Orne 1962) và kinh tế (Zizzo 2009) . Mặc dù chủ yếu kết hợp với các thí nghiệm trong phòng thí nghiệm, những vấn đề tương tự có thể gây ra vấn đề cho các thí nghiệm là tốt. Trong thực tế, các hiệu ứng nhu cầu cũng đôi khi được gọi là hiệu ứng Hawthorne, một thuật ngữ có nguồn gốc từ một thử nghiệm lĩnh vực, đặc biệt là các thí nghiệm chiếu sáng nổi tiếng bắt đầu vào năm 1924 tại Công trình Hawthorne của Công ty Western Electric (Adair 1984; Levitt and List 2011) . Cả hai hiệu ứng nhu cầuhiệu ứng Hawthorn liên quan chặt chẽ với ý tưởng về đo lường phản ứng được thảo luận trong Chương 2 (xem thêm Webb et al. (1966) ).

Lịch sử của thí nghiệm đã được mô tả trong kinh tế (Levitt and List 2009) , khoa học chính trị (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , tâm lý (Shadish 2002) , và chính sách công (Shadish and Cook 2009) . Một lĩnh vực khoa học xã hội nơi thí nghiệm nhanh chóng trở nên nổi bật là phát triển quốc tế. Đối với một đánh giá tích cực của tác phẩm trong kinh tế thấy Banerjee and Duflo (2009) , và cho một đánh giá quan trọng xem Deaton (2010) . Để xem lại các công việc này trong khoa học chính trị, xem Humphreys and Weinstein (2009) . Cuối cùng, những thách thức về đạo đức liên quan đến thí nghiệm đã được khám phá trong khoa học chính trị (Humphreys 2015; Desposato 2016b) và kinh tế phát triển (Baele 2013) .

Trong chương này, tôi cho rằng thông tin trước khi điều trị có thể được sử dụng để cải thiện độ chính xác của ước tính hiệu quả điều trị, nhưng có một số cuộc tranh luận về cách tiếp cận này: Freedman (2008) , Lin (2013) , và Berk et al. (2013) ; thấy Bloniarz et al. (2016) để biết thêm thông tin.

  • Di chuyển ngoài thí nghiệm đơn giản (Phần 4.4)

Tôi đã chọn để tập trung vào ba khái niệm: tính hợp lệ, không đồng nhất của hiệu quả điều trị và cơ chế. Những khái niệm có tên gọi khác nhau trong các lĩnh vực khác nhau. Ví dụ, các nhà tâm lý có xu hướng di chuyển vượt ra ngoài thí nghiệm đơn giản bằng cách tập trung vào các hòa giải viênđiều hành viên (Baron and Kenny 1986) . Ý tưởng của hòa giải viên được chụp bởi những gì tôi gọi là cơ chế, và ý tưởng của người điều hành bị bắt bởi những gì tôi gọi là giá trị bên ngoài (ví dụ, sẽ kết quả của thí nghiệm khác nhau nếu nó được chạy trong các tình huống khác nhau) và không đồng nhất của hiệu quả điều trị ( ví dụ, là những tác động lớn hơn đối với một số người hơn so với những người khác).

Thí nghiệm của Schultz et al. (2007) cho thấy cách lý thuyết xã hội có thể được sử dụng để thiết kế các biện pháp can thiệp hiệu quả. Đối với một cuộc tranh luận tổng quát hơn về vai trò của lý thuyết trong việc thiết kế các can thiệp có hiệu quả, xem Walton (2014) .

  • Hiệu lực (mục 4.4.1)

Các khái niệm về giá trị bên trong và bên ngoài đầu tiên được giới thiệu trong Campbell (1957) . Xem Shadish, Cook, and Campbell (2001) cho một lịch sử chi tiết và xây dựng cẩn thận có giá trị kết luận thống kê, giá trị nội bộ, xây dựng giá trị, và giá trị bên ngoài.

Đối với một cái nhìn tổng quan về các vấn đề liên quan đến giá trị kết luận thống kê trong các thí nghiệm thấy Gerber and Green (2012) (đối với một quan điểm khoa học xã hội) và Imbens and Rubin (2015) (đối với một quan điểm thống kê). Một số vấn đề về tính hợp lệ kết luận thống kê phát sinh đặc biệt trong các thí nghiệm trực tuyến bao gồm các vấn đề như phương pháp tính toán hiệu quả để tạo ra khoảng tin cậy với các dữ liệu phụ thuộc (Bakshy and Eckles 2013) .

giá trị bên trong có thể khó khăn để đảm bảo trong các thí nghiệm phức tạp. Xem, ví dụ, Gerber and Green (2000) , Imai (2005) , và Gerber and Green (2005) để thảo luận về việc thực hiện một thí nghiệm lĩnh vực phức tạp về quyền biểu quyết. Kohavi et al. (2012)Kohavi et al. (2013) cung cấp một giới thiệu vào những thách thức có giá trị khoảng thời gian trong các thí nghiệm trực tuyến.

Một mối quan tâm lớn, có giá trị nội bộ là vấn đề với ngẫu nhiên. Một cách để có khả năng phát hiện các vấn đề với sự ngẫu nhiên là so sánh các nhóm điều trị và kiểm soát trên những đặc điểm quan sát được. Kiểu này so sánh được gọi là kiểm tra sự cân bằng. Xem Hansen and Bowers (2008) cho một phương pháp thống kê để cân bằng chi phiếu, và xem Mutz and Pemantle (2015) cho các vấn đề về kiểm tra sự cân bằng. Ví dụ, sử dụng một sự cân bằng kiểm tra Allcott (2011) phát hiện ra rằng có một số bằng chứng cho thấy sự ngẫu nhiên không được thực hiện một cách chính xác trong ba thí nghiệm trong một số thí nghiệm OPower (xem Bảng 2; điểm 2, 6, và 8). Đối với các phương pháp khác, xem Imbens and Rubin (2015) , Chương 21.

mối quan tâm lớn khác liên quan đến giá trị bên trong là: 1) một mặt không tuân thủ, mà không phải ai trong nhóm điều trị thực sự nhận được điều trị, 2) hai phe không tuân thủ, mà không phải ai trong nhóm điều trị tiếp nhận điều trị và một số những người trong nhóm kiểm soát được điều trị, 3) tiêu hao, mà kết quả không được đánh giá đối với một số người tham gia, và 4) can thiệp, nơi điều trị tràn từ những người trong tình trạng điều trị cho những người trong tình trạng kiểm soát. Xem Gerber and Green (2012) Chương 5, 6, 7 và 8 để biết thêm về mỗi vấn đề này.

Để biết thêm về giá trị xây dựng, xem Westen and Rosenthal (2003) , và để biết thêm về giá trị xây dựng trong các nguồn dữ liệu lớn, Lazer (2015) và Chương 2 của cuốn sách này.

Một khía cạnh của giá trị bên ngoài là thiết lập nơi một can thiệp được thử nghiệm. Allcott (2015) cung cấp một điều trị lý thuyết và thực nghiệm cẩn thận của thiên vị lựa chọn địa điểm. Vấn đề này cũng được thảo luận trong Deaton (2010) . Ngoài việc được nhân rộng tại nhiều địa điểm, sự can thiệp báo cáo năng lượng chủ cũng đã được nghiên cứu một cách độc lập bởi nhiều nhóm nghiên cứu (ví dụ, Ayres, Raseman, and Shih (2013) ).

  • Tính không đồng nhất của hiệu quả điều trị (mục 4.4.2)

Đối với một cái nhìn tổng quan tuyệt vời của tính không đồng nhất của hiệu quả điều trị trong các thí nghiệm, xem Chương 12 của Gerber and Green (2012) . Để giới thiệu về tính không đồng nhất của hiệu quả điều trị trong các thử nghiệm y tế, thấy Kent and Hayward (2007) , Longford (1999) , và Kravitz, Duan, and Braslow (2004) . Tính không đồng nhất của hiệu quả điều trị thường tập trung vào sự khác biệt dựa trên đặc điểm trước khi điều trị. Nếu bạn quan tâm đến tính không đồng nhất dựa trên các kết quả sau điều trị, sau đó phương pháp tiếp cận phức tạp hơn cần thiết như phân tầng chính (Frangakis and Rubin 2002) ; thấy Page et al. (2015) để được xem xét.

Nhiều nhà nghiên cứu ước tính không đồng nhất của hiệu quả điều trị sử dụng hồi quy tuyến tính, nhưng các phương pháp mới dựa trên máy học, ví dụ như Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , và Athey and Imbens (2016a) .

Có một số hoài nghi về những phát hiện của tính không đồng nhất của các hiệu ứng do nhiều vấn đề so sánh và "đánh bắt cá." Có rất nhiều cách tiếp cận thống kê có thể giúp mối quan tâm địa chỉ về nhiều so (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Một cách tiếp cận để lo ngại về "câu cá" là đăng ký trước, mà ngày càng trở nên phổ biến trong tâm lý học (Nosek and Lakens 2014) , khoa học chính trị (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , và kinh tế (Olken 2015) .

Trong nghiên cứu của Costa and Kahn (2013) chỉ có khoảng một nửa số hộ gia đình trong cuộc thử nghiệm đã có thể được liên kết với các thông tin cá nhân. Độc giả quan tâm đến các chi tiết và các vấn đề có thể với phân tích này nên tham khảo các bài báo gốc.

  • Cơ chế (mục 4.4.3)

Cơ chế là vô cùng quan trọng, nhưng họ lần lượt ra là rất khó nghiên cứu. Nghiên cứu về cơ chế liên quan chặt chẽ đến việc nghiên cứu các chất trung gian trong tâm lý học (nhưng xem cũng VanderWeele (2009) cho một so sánh chính xác giữa hai ý tưởng). Phương pháp thống kê để các cơ chế tìm kiếm, chẳng hạn như các phương pháp tiếp cận phát triển ở Baron and Kenny (1986) , là khá phổ biến. Thật không may, nó chỉ ra rằng những thủ tục phụ thuộc vào một số giả định mạnh (Bullock, Green, and Ha 2010) và đau khổ khi có nhiều cơ chế, như người ta mong đợi trong nhiều tình huống (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011)Imai and Yamamoto (2013) cung cấp một số phương pháp thống kê được cải thiện. Hơn nữa, VanderWeele (2015) cung cấp một điều trị cuốn sách dài với một số kết quả quan trọng, trong đó có một cách tiếp cận toàn diện để phân tích độ nhạy.

Một cách tiếp cận riêng biệt tập trung vào các thí nghiệm mà cố gắng để thao tác các cơ chế trực tiếp (ví dụ, cho thủy thủ vitamin C). Thật không may, trong nhiều hoàn cảnh xã hội khoa học thường có nhiều cơ chế, nó là khó để thiết kế phương pháp điều trị thay đổi một mà không thay đổi người khác. Một số phương pháp tiếp cận thực nghiệm cơ chế thay đổi được mô tả trong Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , và Pirlott and MacKinnon (2016) .

Cuối cùng, cơ chế cũng có một lịch sử lâu dài trong triết học về khoa học như mô tả của Hedström and Ylikoski (2010) .

  • Sử dụng các môi trường hiện tại (mục 4.5.1.1)

Để biết thêm về việc sử dụng các nghiên cứu tương ứng và các nghiên cứu kiểm toán để đo lường phân biệt đối xử thấy Pager (2007) .

  • Xây dựng thí nghiệm riêng của bạn (mục 4.5.1.2)

Cách phổ biến nhất để tuyển dụng người tham gia thí nghiệm mà bạn xây dựng là Amazon Mechanical Turk (MTurk). Bởi vì MTurk bắt chước các khía cạnh của các thí nghiệm trả phòng thí nghiệm truyền thống của người để hoàn thành nhiệm vụ mà họ sẽ không làm cho các nhà nghiên cứu tự do nhiều đã bắt đầu sử dụng Turkers (người lao động về MTurk) là người tham gia trong các thí nghiệm đối tượng con người dẫn đến thu thập dữ liệu rẻ hơn nhanh hơn và so với truyền thống thí nghiệm trong phòng thí nghiệm trong khuôn viên trường (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Sức mạnh lớn nhất của các thí nghiệm với những người tham gia tuyển chọn từ MTurk là hậu cần: chúng cho phép các nhà nghiên cứu để tuyển dụng người tham gia một cách nhanh chóng và khi cần. Trong khi các thí nghiệm trong phòng thí nghiệm có thể mất vài tuần để chạy và thí nghiệm hiện trường có thể mất vài tháng để thiết lập, thí nghiệm với những người tham gia tuyển chọn từ MTurk có thể được chạy trong ngày. Ví dụ, Berinsky, Huber, and Lenz (2012) đã có thể tuyển dụng 400 đối tượng trong một ngày duy nhất để tham gia vào một thí nghiệm 8 phút. Hơn nữa, những người tham gia có thể được tuyển dụng cho hầu như bất kỳ mục đích (bao gồm cả các cuộc điều tra và phối hợp quần chúng, như đã thảo luận trong Chương 3 và 5). dễ dàng này tuyển dụng có nghĩa là các nhà nghiên cứu có thể chạy các trình tự của các thí nghiệm liên quan trong kế nhanh chóng.

Trước khi tuyển dụng người tham gia từ MTurk cho các thí nghiệm của riêng bạn, có bốn điều quan trọng cần biết. Thứ nhất, nhiều nhà nghiên cứu có một thái độ hoài nghi không cụ thể của các thí nghiệm liên quan đến Turkers. Bởi vì sự hoài nghi này là không cụ thể, rất khó để đối phó với chứng cứ. Tuy nhiên, sau nhiều năm nghiên cứu sử dụng Turkers, chúng tôi bây giờ có thể kết luận rằng sự hoài nghi này không phải là đặc biệt cần thiết. Đã có nhiều nghiên cứu so sánh các nhân khẩu học của Turkers các quần thể khác và nhiều nghiên cứu so sánh kết quả của các thí nghiệm với Turkers các kết quả từ các quần thể khác. Với tất cả những công việc này, tôi nghĩ rằng cách tốt nhất để bạn có thể nghĩ về nó là Turkers là một mẫu thuận tiện hợp lý, giống như sinh viên nhưng hơi đa dạng hơn (Berinsky, Huber, and Lenz 2012) . Do đó, cũng giống như các sinh viên là một dân số hợp lý cho một số nhưng không phải tất cả các nghiên cứu thực nghiệm, Turkers là một dân số hợp lý cho một số nhưng không phải tất cả các nghiên cứu. Nếu bạn đang đi để làm việc với Turkers, sau đó nó làm cho cảm giác đọc rất nhiều các nghiên cứu so sánh và hiểu sắc thái của họ.

Thứ hai, các nhà nghiên cứu đã phát triển thực hành tốt nhất để tăng giá trị bên trong của các thí nghiệm Turk, và bạn nên tìm hiểu và làm theo các thực hành tốt nhất (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Ví dụ, các nhà nghiên cứu sử dụng Turkers được khuyến khích sử dụng screeners để loại bỏ những người tham gia không chú ý (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (nhưng xem cũng DJ Hauser and Schwarz (2015b)DJ Hauser and Schwarz (2015a) ). Nếu bạn không loại bỏ những người tham gia không chú ý, sau đó bất kỳ tác động của việc điều trị có thể được tẩy sạch bằng các tiếng ồn được giới thiệu từ những người tham gia không chú ý, và trong thực tế số lượng người tham gia không chú ý có thể là đáng kể. Trong thí nghiệm của Huber và cộng sự (2012) khoảng 30% số người tham gia đã thất bại screeners chú ý cơ bản. Một vấn đề thường gặp với Turkers là người tham gia không ngây thơ (Chandler et al. 2015) .

Thứ ba, liên quan đến một số hình thức khác của các thí nghiệm kỹ thuật số, thí nghiệm MTurk có thể không quy mô; Stewart et al. (2015) ước tính rằng tại bất kỳ thời điểm nào, chỉ có khoảng 7.000 người trên MTurk.

Cuối cùng, bạn nên biết rằng MTurk là một cộng đồng với các quy tắc và tiêu chuẩn riêng của mình (Mason and Suri 2012) . Trong cùng một cách mà bạn sẽ cố gắng để tìm hiểu về nền văn hóa của một quốc gia nơi mà bạn đã đi để chạy thử nghiệm của bạn, bạn nên cố gắng tìm hiểu thêm về văn hóa và chuẩn mực của Turkers (Salehi et al. 2015) . Và, bạn nên biết rằng Turkers sẽ nói về thử nghiệm của bạn nếu bạn làm điều gì đó không phù hợp hoặc phi đạo đức (Gray et al. 2016) .

MTurk là một cách vô cùng thuận tiện để tuyển dụng người tham gia thí nghiệm của mình, dù là trong phòng thí nghiệm như thế nào, chẳng hạn như Huber, Hill, and Lenz (2012) , hoặc nhiều lĩnh vực giống như, chẳng hạn như Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , và Mao et al. (2016) .

  • Xây dựng sản phẩm của riêng bạn (mục 4.5.1.3)

Nếu bạn đang nghĩ đến việc cố gắng để tạo ra sản phẩm của riêng bạn, tôi khuyên bạn nên đọc những lời khuyên được cung cấp bởi các nhóm MovieLens trong Harper and Konstan (2015) . Một cái nhìn sâu sắc quan trọng từ kinh nghiệm của họ là cho từng dự án thành công có rất nhiều, rất nhiều thất bại. Ví dụ, nhóm MovieLens tung ra các sản phẩm khác như GopherAnswers đó là hoàn toàn thất bại (Harper and Konstan 2015) . Một ví dụ khác của một nhà nghiên cứu không trong khi cố gắng để xây dựng một sản phẩm là nỗ lực Edward Castronova để xây dựng một trò chơi trực tuyến được gọi Arden. Mặc dù có $ 250,000 trong tài trợ, dự án là một flop (Baker 2008) . Các dự án như GopherAnswers và Arden tiếc là phổ biến hơn nhiều so với các dự án như MovieLens. Cuối cùng, khi tôi nói rằng tôi không biết về bất kỳ nhà nghiên cứu khác đã xây dựng thành công sản phẩm cho các thử nghiệm lặp đi lặp lại ở đây là tiêu chí của tôi: 1) người tham gia sử dụng sản phẩm vì những gì nó cung cấp cho họ (ví dụ, họ không được trả lương và họ không tình nguyện viên giúp đỡ khoa học) và 2) các sản phẩm đã được sử dụng cho nhiều hơn một thí nghiệm khác nhau (tức là, không giống thí nghiệm nhiều lần với hồ bơi người tham gia khác nhau). Nếu bạn biết về các ví dụ khác, xin vui lòng cho tôi biết.

  • Đối tác với sự mạnh mẽ (Mục 4.5.2)

Tôi đã nghe những ý tưởng của Quadrant Pasteur đã được thảo luận thường xuyên tại các công ty công nghệ cao, và nó sẽ giúp bạn sắp nỗ lực nghiên cứu tại Google (Spector, Norvig, and Petrov 2012) .

Bond và nghiên cứu đồng nghiệp (2012) cũng cố gắng để phát hiện sự ảnh hưởng của các phương pháp điều trị trên những người bạn của những người nhận được chúng. Do thiết kế của thí nghiệm, các tác động lan tỏa rất khó phát hiện sạch; độc giả quan tâm nên thấy Bond et al. (2012) cho một cuộc thảo luận kỹ lưỡng hơn. Thí nghiệm này là một phần của một truyền thống lâu đời của các thí nghiệm khoa học chính trị về những nỗ lực để khuyến khích bỏ phiếu (Green and Gerber 2015) . Những thí nghiệm get-ra-the-bỏ phiếu là phổ biến một phần là vì họ đang có trong Quadrant Pasteur. Đó là, có rất nhiều người có động lực để tăng quyền biểu quyết và bầu cử có thể là một hành vi thú vị để kiểm tra lý thuyết tổng quát hơn về thay đổi hành vi và ảnh hưởng xã hội.

Các nhà nghiên cứu khác đã cung cấp lời khuyên về việc chạy thí nghiệm với các tổ chức đối tác như các đảng chính trị, các tổ chức NGO, và các doanh nghiệp (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Những người khác đã cung cấp lời khuyên về cách quan hệ đối tác với các tổ chức có thể ảnh hưởng đến các thiết kế nghiên cứu (Green, Calfano, and Aronow 2014; King et al. 2007) . Đối tác cũng có thể dẫn đến vấn đề đạo đức (Humphreys 2015; Nickerson and Hyde 2016) .

  • Tư vấn thiết kế (phần 4.6)

Nếu bạn đang tạo ra một kế hoạch phân tích trước khi chạy thử nghiệm của bạn, tôi đề nghị bạn nên bắt đầu bằng cách đọc hướng dẫn báo cáo. Các CONSORT (Hợp nhất Báo cáo chuẩn các Thử nghiệm) hướng dẫn này được phát triển trong y học (Schulz et al. 2010) và sửa đổi cho nghiên cứu xã hội (Mayo-Wilson et al. 2013) . Một bộ liên quan hướng dẫn đã được phát triển bởi các biên tập viên của tạp chí Journal of Experimental Khoa học Chính trị (Gerber et al. 2014) (xem thêm Mutz and Pemantle (2015)Gerber et al. (2015) ). Cuối cùng, hướng dẫn báo cáo đã được phát triển trong tâm lý học (Group 2008) , và thấy cũng Simmons, Nelson, and Simonsohn (2011) .

Nếu bạn tạo ra một kế hoạch phân tích bạn nên xem xét trước khi đăng ký nó vì đăng ký trước sẽ làm tăng sự tự tin mà những người khác có trong kết quả. Hơn nữa, nếu bạn đang làm việc với một đối tác, nó sẽ hạn chế khả năng của đối tác của bạn để thay đổi phân tích sau khi nhìn thấy kết quả. Pre-đăng ký ngày càng trở nên phổ biến trong tâm lý học (Nosek and Lakens 2014) , khoa học chính trị (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , và kinh tế (Olken 2015) .

Trong khi tạo ra kế hoạch trước khi phân tích của bạn, bạn cần phải nhận thức rằng một số nhà nghiên cứu cũng sử dụng hồi quy và phương pháp tiếp cận liên quan để cải thiện độ chính xác của các hiệu quả điều trị ước tính, và có một số cuộc tranh luận về cách tiếp cận này: Freedman (2008) , Lin (2013) , và Berk et al. (2013) ; thấy Bloniarz et al. (2016) để biết thêm thông tin.

Tư vấn thiết kế đặc biệt cho các thí nghiệm trực tuyến cũng được trình bày trong Konstan and Chen (2007)Chen and Konstan (2015) .

  • Tạo không dữ liệu chi phí biến đổi (Mục 4.6.1)

Để biết thêm về các thí nghiệm MusicLab, xem Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , và Salganik (2007) . Để biết thêm về người thắng được tất cả các thị trường, nhìn thấy Frank and Cook (1996) . Để biết thêm về bóc tách may mắn và kỹ năng nói chung, xem Mauboussin (2012) , Watts (2012) , và Frank (2016) .

Có một phương pháp khác để loại bỏ thanh toán tham gia mà các nhà nghiên cứu phải sử dụng một cách thận trọng: nghĩa vụ quân sự. Trong nhiều thí nghiệm trực tuyến tham gia được về cơ bản soạn thảo vào thí nghiệm và không bao giờ được đền bù. Ví dụ về các cách tiếp cận này bao gồm Restivo và van de Rijt của (2012) thử nghiệm trên phần thưởng trong Wikipedia và trái phiếu và đồng nghiệp của (2012) thử nghiệm trên khuyến khích người dân bỏ phiếu. Những thí nghiệm này không thực sự có bằng không chi phí biến đổi, họ có bằng không chi phí biến đổi để các nhà nghiên cứu. Mặc dù chi phí của rất nhiều các thí nghiệm là rất nhỏ để mỗi người tham gia, chi phí nhỏ đối với một số lượng lớn người tham gia có thể tăng lên một cách nhanh chóng. Các nhà nghiên cứu đang chạy thử nghiệm trực tuyến khổng lồ thường biện minh cho tầm quan trọng của hiệu quả điều trị nhỏ ước tính bằng cách nói rằng những tác động nhỏ có thể trở nên quan trọng khi áp dụng cho nhiều người. Những suy nghĩ chính xác cùng áp dụng cho chi phí mà các nhà nghiên cứu áp đặt vào người tham gia. Nếu các thí nghiệm của bạn gây ra một triệu người để lãng phí một phút, thí nghiệm không phải là rất có hại cho bất kỳ người nào cụ thể, nhưng trong tổng hợp nó đã bị lãng phí gần hai năm của thời gian.

Một cách khác để tạo ra không thanh toán chi phí biến đổi cho người tham gia là sử dụng một xổ số, một phương pháp cũng đã được sử dụng trong nghiên cứu khảo sát (Halpern et al. 2011) . Cuối cùng, để biết thêm về thiết kế thú vị sử dụng kinh nghiệm thấy Toomim et al. (2011) .

  • Thay thế, Refine, và giảm (mục 4.6.2)

Dưới đây là các định nghĩa ban đầu của ba R, từ Russell and Burch (1959) :

"Thay thế có nghĩa là sự thay thế cho ý thức sống động vật bậc cao của vật liệu không có cảm giác. Giảm có nghĩa là giảm số lượng các loài động vật sử dụng để có được thông tin của một số tiền nhất định và chính xác. Sàng lọc có nghĩa là bất kỳ giảm tỷ lệ hoặc mức độ nghiêm trọng của thủ tục vô nhân đạo áp dụng cho những động vật mà vẫn phải được sử dụng. "

Ba R mà tôi đề nghị không ghi đè lên các nguyên tắc đạo đức được mô tả trong Chương 6. Thay vào đó, họ là một phiên bản xây dựng nhiều hơn một trong những nguyên tắc-beneficence-đặc biệt cho các thiết lập của các thí nghiệm của con người.

Khi xem xét Contagion tình cảm, có ba vấn đề phi đạo đức để giữ trong tâm trí khi giải thích thí nghiệm này. Đầu tiên, nó không phải là rõ ràng như thế nào các chi tiết thực tế của thí nghiệm kết nối với các tuyên bố lý thuyết; nói cách khác, có những câu hỏi về tính hợp lệ xây dựng. Nó không phải là rõ ràng rằng số lượng từ tích cực và tiêu cực thực sự là một chỉ số tốt về các trạng thái cảm xúc của người tham gia vì 1) nó không phải là rõ ràng là từ mà mọi người gửi là một chỉ số tốt về cảm xúc của họ và 2) nó không phải là rõ ràng việc cụ thể phân tích tâm lý kỹ thuật mà các nhà nghiên cứu sử dụng có khả năng đáng tin cậy suy ra cảm xúc (Beasley and Mason 2015; Panger 2016) . Nói cách khác, có thể là một biện pháp xấu của một tín hiệu sai lệch. Thứ hai, việc thiết kế và phân tích thí nghiệm cho chúng ta biết gì về những người đã ảnh hưởng nhiều nhất (tức là, không có phân tích về tính không đồng nhất của hiệu quả điều trị) và những gì các cơ chế có thể được. Trong trường hợp này, các nhà nghiên cứu đã có rất nhiều thông tin về những người tham gia, nhưng về cơ bản họ bị đối xử như các vật dụng trong phân tích. Thứ ba, mức độ hiệu quả trong thí nghiệm này là rất nhỏ; sự khác biệt giữa các điều kiện điều trị và kiểm soát là khoảng 1 trong 1.000 từ. Trong bài báo của mình, Kramer và các đồng nghiệp làm cho các trường hợp đó ảnh hưởng của kích thước này là quan trọng bởi vì hàng trăm hàng triệu người truy cập tức của họ thức ăn mỗi ngày. Nói cách khác, họ lập luận rằng ngay cả các hiệu ứng có dung lượng nhỏ cho mỗi người họ là lớn trong tổng hợp. Thậm chí nếu bạn đã chấp nhận lập luận này, nó vẫn là không rõ ràng khi hiệu ứng của kích thước này là rất quan trọng liên quan đến các câu hỏi khoa học tổng quát hơn về lây lan cảm xúc. Để biết thêm về những tình huống mà các hiệu ứng nhỏ rất quan trọng xem Prentice and Miller (1992) .

Xét về mặt đầu tiên R (thay thế), so sánh các thí nghiệm về tình cảm Contagion (Kramer, Guillory, and Hancock 2014) và các thí nghiệm tự nhiên lan truyền cảm xúc (Coviello et al. 2014) cung cấp một số bài học chung về thương mại-off liên quan với di chuyển từ thí nghiệm để thí nghiệm tự nhiên (và các phương pháp khác như phù hợp với nỗ lực đó để gần đúng nghiệm trong dữ liệu phi thực nghiệm, xem Chương 2). Ngoài những lợi ích về đạo đức, chuyển đổi từ thí nghiệm để nghiên cứu phi thực nghiệm cũng cho phép các nhà nghiên cứu để nghiên cứu phương pháp điều trị mà họ là hậu cần không thể triển khai. Những lợi ích về đạo đức và hậu cần đến ở một mức chi phí, tuy nhiên. Với thí nghiệm tự nhiên các nhà nghiên cứu có kiểm soát ít hơn những thứ như việc tuyển dụng người tham gia, ngẫu nhiên, và bản chất của việc điều trị. Ví dụ, một trong những hạn chế của lượng mưa trong điều trị là nó cả tăng dương và giảm tiêu cực. Trong nghiên cứu thực nghiệm, tuy nhiên, Kramer và cộng sự có thể điều chỉnh độ tích cực và tiêu cực một cách độc lập.

Các biện pháp đặc biệt được sử dụng bởi Coviello et al. (2014) đã được nói rõ hơn trong Coviello, Fowler, and Franceschetti (2014) . Đối với một giới thiệu về biến công cụ xem Angrist and Pischke (2009) (không chính thức) hoặc Angrist, Imbens, and Rubin (1996) (chính thức hơn). Đối với một thẩm định hoài nghi về biến công cụ xem Deaton (2010) , và đối với một giới thiệu về biến công cụ với các nhạc cụ yếu (mưa là một cụ yếu), xem Murray (2006) .

Tổng quát hơn, một giới thiệu tốt để thí nghiệm tự nhiên là Dunning (2012) , và Rosenbaum (2002) , Rosenbaum (2009) , và Shadish, Cook, and Campbell (2001) cung cấp những ý tưởng tốt về ước lượng tác động nhân quả mà không thí nghiệm.

Xét về mặt thứ hai R (Sàng lọc), có khoa học và hậu cần thương mại-off khi xem xét việc thay đổi thiết kế của Contagion cảm xúc từ chặn bài viết để thúc đẩy bài viết. Ví dụ, nó có thể là trường hợp đó việc thực hiện kỹ thuật của News Feed làm cho nó dễ dàng hơn đáng kể để làm một thử nghiệm với chặn bài viết chứ không phải là một thử nghiệm với việc thúc đẩy bài viết (lưu ý rằng một thử nghiệm với chặn các bài viết có thể được thực hiện như một lớp trên đỉnh của hệ thống News Feed mà không cần thêm bất cứ sự thay đổi của hệ thống bên dưới). Khoa học, tuy nhiên, lý thuyết giải quyết bằng các thí nghiệm không cho thấy rõ ràng là một thiết kế trong khác.

Thật không may, tôi không nhận thức của nghiên cứu trước đáng kể về thành tích tương đối ngăn chặn và đẩy mạnh nội dung trong News Feed. Ngoài ra, tôi đã không được thấy nhiều nghiên cứu về tinh chỉnh phương pháp điều trị để làm cho họ ít có hại; một ngoại lệ là Jones and Feamster (2015) , trong đó xem xét các trường hợp đo kiểm duyệt Internet (một chủ đề tôi thảo luận trong chương 6 trong mối quan hệ với các nghiên cứu Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Xét về mặt thứ ba R (Giảm), một giới thiệu tốt để phân tích năng lượng truyền thống là Cohen (1988) . biến số tiền xử lý có thể được bao gồm trong các giai đoạn thiết kế và giai đoạn phân tích thí nghiệm; Chương 4 của Gerber and Green (2012) cung cấp một giới thiệu tốt cho cả hai phương pháp, và Casella (2008) cung cấp một sâu hơn điều trị. Kỹ thuật sử dụng thông tin trước khi điều trị này trong sự ngẫu nhiên thường được gọi là một trong hai bị chặn thiết kế thử nghiệm hoặc thiết kế thử nghiệm phân tầng (thuật ngữ không được sử dụng nhất quán trên các cộng đồng); những kỹ thuật có liên quan sâu sắc đến các kỹ thuật lấy mẫu phân tầng được thảo luận trong Chương 3. Xem Higgins, Sävje, and Sekhon (2016) để biết thêm về cách sử dụng các mẫu thiết kế trong các thí nghiệm lớn. Biến số tiền xử lý cũng có thể được bao gồm trong giai đoạn phân tích. McKenzie (2012) khám phá các cách tiếp cận khác biệt-trong-khác biệt để phân tích thí nghiệm chi tiết hơn. Xem Carneiro, Lee, and Wilhelm (2016) để biết thêm về thương mại-off giữa các cách tiếp cận khác nhau để tăng độ chính xác trong dự toán của hiệu quả điều trị. Cuối cùng, khi quyết định liệu có nên cố gắng bao gồm biến số tiền xử lý vào việc thiết kế hoặc phân tích giai đoạn (hoặc cả hai), có một vài yếu tố để xem xét. Trong một bối cảnh mà các nhà nghiên cứu muốn chứng tỏ rằng họ không phải là "cá" (Humphreys, Sierra, and Windt 2013) , sử dụng các biến số tiền xử lý trong giai đoạn thiết kế có thể hữu ích (Higgins, Sävje, and Sekhon 2016) . Trong trường hợp người tham gia đến tuần tự, thí nghiệm đặc biệt là trực tuyến, sử dụng thông tin trước khi điều trị trong giai đoạn thiết kế có thể khó khăn về hậu cần, xem ví dụ Xie and Aurisset (2016) .

Đó là giá trị thêm một chút về trực giác về lý do tại sao sự khác biệt-trong-khác biệt có thể rất hiệu quả hơn nhiều so với sự khác biệt-trong-phương tiện. Nhiều kết quả trực tuyến có sai rất cao (xem ví dụ, Lewis and Rao (2015)Lamb et al. (2015) ) và tương đối ổn định qua thời gian. Trong trường hợp này, số điểm thay đổi sẽ có sai nhỏ hơn đáng kể, tăng sức mạnh của các bài kiểm tra thống kê. Một lý do này tiếp cận không được sử dụng thường xuyên hơn là trước thời đại số đó không phải là phổ biến để có kết quả trước khi điều trị. Một cách cụ thể hơn để suy nghĩ về nó là để tưởng tượng một thử nghiệm để đánh giá liệu một thói quen tập thể dục cụ thể gây ra sự mất cân. Nếu bạn làm một cách tiếp cận khác biệt-trong-phương tiện, ước tính của bạn sẽ có thay đổi xuất phát từ những biến đổi trong trọng trong dân số. Nếu bạn làm một cách tiếp cận khác biệt-trong-khác biệt, tuy nhiên, sự biến đổi tự nhiên trong trọng lượng được gỡ bỏ và bạn có thể dễ dàng phát hiện ra sự khác biệt do điều trị.

Một trong những cách quan trọng để giảm bớt số lượng người tham gia thử nghiệm của bạn là tiến hành một phân tích năng lượng, mà Kramer và đồng nghiệp có thể thực hiện dựa trên các kích thước hiệu ứng quan sát được từ thí nghiệm tự nhiên của Coviello et al. (2014) hoặc sớm nghiên cứu phi thực nghiệm bởi Kramer (2012) (trong thực tế đây là những hoạt động ở phần cuối của chương này). Chú ý rằng điều này sử dụng các phân tích năng lượng là một chút khác nhau hơn so với thông thường. Trong độ tuổi tương tự, các nhà nghiên cứu nói chung đã phân tích năng lượng để đảm bảo rằng nghiên cứu của họ đã không quá nhỏ (tức là dưới-powered). Bây giờ, tuy nhiên, các nhà nghiên cứu phải làm phân tích năng lượng để đảm bảo rằng nghiên cứu của họ không phải là quá lớn (tức là, hơn-powered).

Cuối cùng, tôi coi thêm một R thứ tư: Repurpose. Đó là, nếu các nhà nghiên cứu tìm thấy chính mình với các dữ liệu thực nghiệm nhiều hơn họ cần để giải quyết các câu hỏi nghiên cứu ban đầu của họ, họ nên sử dụng lại dữ liệu để đặt câu hỏi mới. Ví dụ, hãy tưởng tượng rằng Kramer và đồng nghiệp đã sử dụng một ước lượng sự khác biệt-trong-khác biệt và tìm thấy chính mình với nhiều dữ liệu hơn cần thiết để giải quyết các câu hỏi nghiên cứu của họ. Thay vì phải sử dụng các dữ liệu đến mức tối đa, họ có thể đã nghiên cứu quy mô ảnh hưởng như một chức năng để thể hiện cảm xúc, điều trị trước. Cũng như Schultz et al. (2007) tìm thấy rằng tác động của việc điều trị là khác nhau cho người sử dụng ánh sáng và nặng, có lẽ ảnh hưởng của News Feed là khác nhau cho những người đã có xu hướng gửi thông điệp hạnh phúc (hay buồn). Đặt lại mục tiêu có thể dẫn đến "câu cá" (Humphreys, Sierra, and Windt 2013) và "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , nhưng những phần lớn được địa chỉ với một sự kết hợp của báo cáo trung thực (Simmons, Nelson, and Simonsohn 2011) , đăng ký trước (Humphreys, Sierra, and Windt 2013) , và các phương pháp học máy mà cố gắng để tránh quá phù hợp.