Thí nghiệm Lab cung cấp điều khiển, thí nghiệm lĩnh vực cung cấp thực, và thí nghiệm kỹ thuật số kết hợp kiểm soát và thực tế theo quy mô.
Thử nghiệm có nhiều hình dạng và kích thước khác nhau. Trong quá khứ, các nhà nghiên cứu đã thấy hữu ích khi tổ chức các thí nghiệm dọc theo sự liên tục giữa các thí nghiệm trong phòng thí nghiệm và các thí nghiệm thực địa . Tuy nhiên, hiện nay, các nhà nghiên cứu cũng nên tổ chức các thí nghiệm dọc theo sự liên tục thứ hai giữa các thí nghiệm tương tự và các thí nghiệm kỹ thuật số . Không gian thiết kế hai chiều này sẽ giúp bạn hiểu được điểm mạnh và điểm yếu của các cách tiếp cận khác nhau và làm nổi bật các khu vực có cơ hội lớn nhất (hình 4.1).
Một thứ nguyên dọc theo đó các thử nghiệm có thể được tổ chức là thứ nguyên trường trong phòng thí nghiệm. Nhiều thí nghiệm trong khoa học xã hội là các thí nghiệm trong phòng thí nghiệm nơi sinh viên đại học thực hiện các nhiệm vụ lạ trong một phòng thí nghiệm cho tín dụng khóa học. Loại thử nghiệm này thống trị nghiên cứu về tâm lý học vì nó cho phép các nhà nghiên cứu tạo ra các thiết lập có kiểm soát cao để cô lập chính xác và kiểm tra các lý thuyết cụ thể về hành vi xã hội. Tuy nhiên, đối với một số vấn đề, một điều gì đó hơi lạ về việc rút ra những kết luận mạnh mẽ về hành vi của con người từ những người bất thường như vậy thực hiện những nhiệm vụ bất thường như vậy trong bối cảnh bất thường như vậy. Những mối quan tâm này đã dẫn đến một phong trào hướng tới các thí nghiệm thực địa . Thử nghiệm thực địa kết hợp thiết kế mạnh mẽ của các thử nghiệm đối chứng ngẫu nhiên với nhiều nhóm đại diện tham gia thực hiện các tác vụ phổ biến hơn trong các cài đặt tự nhiên hơn.
Mặc dù một số người nghĩ về các thí nghiệm trong phòng thí nghiệm và thực địa như là các phương pháp cạnh tranh, tốt nhất là nghĩ về chúng như là bổ sung, với những điểm mạnh và điểm yếu khác nhau. Ví dụ, Correll, Benard, and Paik (2007) sử dụng cả thí nghiệm trong phòng thí nghiệm và thử nghiệm thực địa để tìm ra nguồn gốc của “hình phạt làm mẹ”. Tại Hoa Kỳ, các bà mẹ kiếm được ít tiền hơn phụ nữ không có con, ngay cả khi so sánh phụ nữ với các kỹ năng tương tự làm việc trong các công việc tương tự. Có nhiều giải thích có thể cho mô hình này, một trong số đó là người sử dụng lao động có khuynh hướng chống lại các bà mẹ. Correll và các đồng nghiệp đã chạy hai thí nghiệm: một trong phòng thí nghiệm và một thí nghiệm trong lĩnh vực này.
Đầu tiên, trong một thí nghiệm trong phòng thí nghiệm, họ nói với những người tham gia, những người đã tốt nghiệp đại học, rằng một công ty đang tiến hành tìm kiếm việc làm cho một người lãnh đạo bộ phận tiếp thị East Coast mới của họ. Các sinh viên được thông báo rằng công ty muốn được giúp đỡ trong quá trình tuyển dụng, và họ được yêu cầu xem lại hồ sơ của một số ứng viên tiềm năng và đánh giá các ứng cử viên trên một số khía cạnh, chẳng hạn như trí thông minh, sự ấm áp và cam kết làm việc. Hơn nữa, các sinh viên được hỏi liệu họ có nên giới thiệu việc thuê người nộp đơn và những gì họ sẽ giới thiệu như một mức lương khởi điểm. Tuy nhiên, các sinh viên chưa được biết rõ về cấu trúc đặc biệt, ngoại trừ một điều: một số tín hiệu cho thấy tình mẹ (bằng cách liệt kê sự tham gia vào một hội phụ huynh-giáo viên) và một số thì không. Correll và các đồng nghiệp thấy rằng các sinh viên ít có khả năng khuyên bạn nên thuê các bà mẹ và họ cung cấp cho họ mức lương khởi điểm thấp hơn. Hơn nữa, thông qua một phân tích thống kê về cả xếp hạng và các quyết định liên quan đến tuyển dụng, Correll và các đồng nghiệp nhận thấy rằng những bất lợi của bà mẹ phần lớn được giải thích bởi thực tế rằng chúng được đánh giá thấp hơn về thẩm quyền và cam kết. Do đó, thí nghiệm trong phòng thí nghiệm này đã cho phép Correll và các đồng nghiệp đo lường hiệu quả nhân quả và đưa ra lời giải thích có thể cho hiệu ứng đó.
Tất nhiên, người ta có thể hoài nghi về việc rút ra kết luận về toàn bộ thị trường lao động Mỹ dựa trên quyết định của vài trăm sinh viên đại học, những người có lẽ chưa bao giờ có việc làm toàn thời gian, chưa bao giờ thuê một ai đó. Do đó, Correll và các đồng nghiệp cũng tiến hành một thí nghiệm bổ sung thực địa. Họ trả lời hàng trăm lần mở quảng cáo việc làm với các thư xin việc và hồ sơ giả mạo. Tương tự như các tài liệu thể hiện cho các sinh viên đại học, một số hồ sơ đã báo hiệu tình trạng làm mẹ và một số thì không. Correll và các đồng nghiệp nhận thấy rằng các bà mẹ ít có khả năng được gọi trở lại để phỏng vấn hơn những phụ nữ không có năng lực như nhau. Nói cách khác, người sử dụng lao động thực sự đưa ra quyết định hậu quả trong một môi trường tự nhiên cư xử giống như các sinh viên đại học. Họ có đưa ra quyết định tương tự cho cùng một lý do không? Thật không may, chúng tôi không biết. Các nhà nghiên cứu không thể yêu cầu người sử dụng lao động đánh giá các ứng cử viên hoặc giải thích quyết định của họ.
Cặp thí nghiệm này cho thấy rất nhiều về các thí nghiệm trong phòng thí nghiệm và thực địa nói chung. Các thí nghiệm trong phòng thí nghiệm cho phép các nhà nghiên cứu kiểm soát gần như toàn bộ môi trường mà người tham gia đưa ra quyết định. Vì vậy, ví dụ, trong thí nghiệm trong phòng thí nghiệm, Correll và các đồng nghiệp đã có thể đảm bảo rằng tất cả các hồ sơ được đọc trong một khung cảnh yên tĩnh; trong thử nghiệm thực địa, một số hồ sơ có thể thậm chí không được đọc. Hơn nữa, bởi vì những người tham gia trong phòng thí nghiệm biết rằng họ đang được nghiên cứu, các nhà nghiên cứu thường có thể thu thập dữ liệu bổ sung có thể giúp giải thích tại sao người tham gia đưa ra quyết định của họ. Ví dụ, Correll và các đồng nghiệp đã yêu cầu những người tham gia thử nghiệm trong phòng thí nghiệm xếp hạng các ứng cử viên trên các thứ nguyên khác nhau. Loại dữ liệu quy trình này có thể giúp các nhà nghiên cứu hiểu các cơ chế đằng sau những khác biệt trong cách người tham gia xử lý hồ sơ.
Mặt khác, những đặc điểm chính xác tương tự mà tôi vừa mô tả là những ưu điểm đôi khi cũng được coi là bất lợi. Các nhà nghiên cứu thích thử nghiệm thực địa cho rằng những người tham gia thí nghiệm trong phòng thí nghiệm có thể hành động rất khác nhau vì họ biết rằng họ đang được nghiên cứu. Ví dụ, trong thử nghiệm trong phòng thí nghiệm, những người tham gia có thể đã đoán mục tiêu của nghiên cứu và thay đổi hành vi của họ để không bị thiên vị. Hơn nữa, các nhà nghiên cứu thích thí nghiệm trên đồng ruộng có thể cho rằng sự khác biệt nhỏ trong hồ sơ chỉ có thể nổi bật trong một môi trường phòng thí nghiệm vô trùng, sạch sẽ và do đó thí nghiệm sẽ đánh giá quá cao hiệu quả của việc làm mẹ. Cuối cùng, nhiều người ủng hộ thí nghiệm trên đồng ruộng chỉ trích sự phụ thuộc của các thí nghiệm vào các học viên WEIRD: chủ yếu là sinh viên từ các nước phương Tây, Giáo dục, Công nghiệp hóa, Giàu và Dân chủ (Henrich, Heine, and Norenzayan 2010a) . Các thí nghiệm của Correll và cộng sự (2007) minh họa cho hai thái cực trên sự liên tục trong phòng thí nghiệm. Ở giữa hai thái cực này, cũng có một loạt các thiết kế lai, bao gồm các cách tiếp cận như đưa học sinh không vào phòng thí nghiệm hoặc đi vào thực địa nhưng vẫn có người tham gia thực hiện một nhiệm vụ bất thường.
Ngoài quy mô phòng thí nghiệm đã tồn tại trong quá khứ, thời đại kỹ thuật số có nghĩa là các nhà nghiên cứu giờ đây có một chiều hướng chính thứ hai, trong đó các thí nghiệm có thể thay đổi: kỹ thuật số tương tự. Cũng giống như có các thí nghiệm trong phòng thí nghiệm thuần túy, thí nghiệm đồng ruộng thuần túy và một loạt các giống lai ở giữa, có những thí nghiệm tương tự thuần túy, thí nghiệm kỹ thuật số thuần túy và nhiều loại giống lai. Rất khó để đưa ra một định nghĩa chính thức về thứ nguyên này, nhưng một định nghĩa làm việc hữu ích là các thí nghiệm kỹ thuật số đầy đủ là các thí nghiệm tận dụng cơ sở hạ tầng kỹ thuật số để tuyển dụng người tham gia, phân ngẫu nhiên, cung cấp phương pháp điều trị và đo lường kết quả. Ví dụ, nghiên cứu của Restivo và van de Rijt (2012) về barnstars và Wikipedia là một thử nghiệm kỹ thuật số hoàn toàn bởi vì nó đã sử dụng các hệ thống kỹ thuật số cho cả bốn bước này. Tương tự như vậy, các thí nghiệm tương tự hoàn toàn không sử dụng cơ sở hạ tầng kỹ thuật số cho bất kỳ trong bốn bước này. Nhiều thí nghiệm cổ điển trong tâm lý học là những thí nghiệm tương tự hoàn toàn. Ở giữa hai thái cực này, có một số thí nghiệm kỹ thuật số sử dụng kết hợp các hệ thống analog và kỹ thuật số.
Khi một số người nghĩ về các thí nghiệm kỹ thuật số, họ ngay lập tức nghĩ về các thử nghiệm trực tuyến. Điều này là không may bởi vì các cơ hội để chạy thử nghiệm kỹ thuật số không chỉ trực tuyến. Các nhà nghiên cứu có thể chạy thử nghiệm kỹ thuật số một phần bằng cách sử dụng các thiết bị kỹ thuật số trong thế giới vật lý để cung cấp phương pháp điều trị hoặc đo lường kết quả. Ví dụ, các nhà nghiên cứu có thể sử dụng điện thoại thông minh để cung cấp phương pháp điều trị hoặc cảm biến trong môi trường xây dựng để đo lường kết quả. Trên thực tế, như chúng ta sẽ thấy ở phần sau của chương này, các nhà nghiên cứu đã sử dụng đồng hồ đo điện gia dụng để đo lường kết quả trong các thí nghiệm về tiêu thụ năng lượng liên quan đến 8,5 triệu hộ gia đình (Allcott 2015) . Khi các thiết bị kỹ thuật số ngày càng trở nên tích hợp vào cuộc sống và cảm biến của người dân được tích hợp vào môi trường xây dựng, những cơ hội này để chạy thử nghiệm kỹ thuật số một phần trong thế giới vật chất sẽ tăng lên đáng kể. Nói cách khác, các thử nghiệm kỹ thuật số không chỉ là các thử nghiệm trực tuyến.
Các hệ thống kỹ thuật số tạo ra các khả năng mới cho các thí nghiệm ở khắp mọi nơi dọc theo sự liên tục trong phòng thí nghiệm. Thí nghiệm trong phòng thí nghiệm thuần túy, ví dụ, các nhà nghiên cứu có thể sử dụng các hệ thống kỹ thuật số để đo lường tốt hơn hành vi của người tham gia; một ví dụ về loại phép đo được cải thiện này là thiết bị theo dõi mắt cung cấp các biện pháp đo vị trí chính xác và liên tục. Thời đại kỹ thuật số cũng tạo ra khả năng chạy thử nghiệm giống thí nghiệm trực tuyến. Ví dụ, các nhà nghiên cứu đã nhanh chóng áp dụng Amazon Mechanical Turk (MTurk) để tuyển dụng người tham gia cho các thí nghiệm trực tuyến (hình 4.2). MTurk phù hợp với "người sử dụng lao động" có nhiệm vụ cần phải được hoàn thành với "công nhân", những người muốn hoàn thành các nhiệm vụ đó vì tiền. Tuy nhiên, không giống như các thị trường lao động truyền thống, các nhiệm vụ liên quan thường chỉ cần một vài phút để hoàn thành, và toàn bộ sự tương tác giữa chủ lao động và nhân viên là trực tuyến. Bởi vì MTurk bắt chước các khía cạnh của các thí nghiệm trong phòng thí nghiệm truyền thống - trả tiền cho mọi người để hoàn thành các nhiệm vụ mà họ sẽ không làm miễn phí — nó hoàn toàn phù hợp với một số loại thử nghiệm nhất định. Về cơ bản, MTurk đã tạo ra cơ sở hạ tầng để quản lý một nhóm người tham gia — tuyển dụng và trả tiền cho mọi người — và các nhà nghiên cứu đã tận dụng cơ sở hạ tầng đó để khai thác một nhóm người tham gia luôn có sẵn.
Các hệ thống kỹ thuật số tạo ra nhiều khả năng hơn cho các thí nghiệm giống như trường. Đặc biệt, chúng cho phép các nhà nghiên cứu kết hợp chặt chẽ kiểm soát và xử lý dữ liệu có liên quan đến các thí nghiệm trong phòng thí nghiệm với những người tham gia đa dạng hơn và nhiều cài đặt tự nhiên hơn có liên quan đến các thí nghiệm trong phòng thí nghiệm. Ngoài ra, các thí nghiệm kỹ thuật số cũng cung cấp ba cơ hội có xu hướng khó khăn trong các thí nghiệm tương tự.
Đầu tiên, trong khi hầu hết các phòng thí nghiệm tương tự và các thí nghiệm hiện trường có hàng trăm người tham gia, các thí nghiệm kỹ thuật số có thể có hàng triệu người tham gia. Sự thay đổi về quy mô này là do một số thí nghiệm kỹ thuật số có thể tạo ra dữ liệu với chi phí biến đổi bằng không. Đó là, một khi các nhà nghiên cứu đã tạo ra một cơ sở hạ tầng thử nghiệm, việc tăng số lượng người tham gia thường không làm tăng chi phí. Tăng số lượng người tham gia bằng hệ số 100 hoặc hơn không chỉ là sự thay đổi định lượng ; nó là một sự thay đổi về chất lượng , vì nó cho phép các nhà nghiên cứu tìm hiểu những thứ khác nhau từ thí nghiệm (ví dụ, tính không đồng nhất của hiệu quả điều trị) và chạy các thiết kế thí nghiệm hoàn toàn khác nhau (ví dụ thí nghiệm nhóm lớn). Điểm này rất quan trọng, tôi sẽ quay lại phần cuối của chương khi tôi đưa ra lời khuyên về việc tạo các thí nghiệm kỹ thuật số.
Thứ hai, trong khi hầu hết các thí nghiệm tương tự và các thí nghiệm tại hiện trường coi những người tham gia là những vật dụng không thể phân biệt được, các thí nghiệm kỹ thuật số thường sử dụng thông tin cơ bản về những người tham gia trong giai đoạn thiết kế và phân tích của nghiên cứu. Thông tin cơ bản này, được gọi là thông tin tiền xử lý , thường có sẵn trong các thí nghiệm kỹ thuật số vì chúng được chạy trên các hệ thống đo lường luôn luôn (xem chương 2). Ví dụ, một nhà nghiên cứu tại Facebook có nhiều thông tin tiền xử lý hơn về những người trong thí nghiệm kỹ thuật số của cô ấy hơn là một nhà nghiên cứu trường đại học về những người trong thí nghiệm tương tự của cô ấy. Việc xử lý trước này cho phép thiết kế thử nghiệm hiệu quả hơn - chẳng hạn như chặn (Higgins, Sävje, and Sekhon 2016) và tuyển dụng đối tượng tham gia (Eckles, Kizilcec, and Bakshy 2016) - và phân tích sâu sắc hơn - chẳng hạn như ước lượng tính không đồng nhất của hiệu quả điều trị (Athey and Imbens 2016a) và điều chỉnh covariate để cải thiện độ chính xác (Bloniarz et al. 2016) .
Thứ ba, trong khi nhiều thí nghiệm tương tự và thực nghiệm trên đồng ruộng cung cấp phương pháp điều trị và đo lường kết quả trong một khoảng thời gian tương đối nén, một số thí nghiệm kỹ thuật số diễn ra trong khoảng thời gian dài hơn nhiều. Ví dụ, thí nghiệm của Restivo và van de Rijt có kết quả đo được hàng ngày trong 90 ngày, và một trong những thí nghiệm tôi sẽ nói với bạn sau này trong chương (Ferraro, Miranda, and Price 2011) Giá cả. Ba cơ hội này — thông tin về kích thước, tiền xử lý và dữ liệu kết quả và điều trị dọc - phát sinh phổ biến nhất khi các thí nghiệm được chạy trên các hệ thống đo lường luôn luôn (xem chương 2 để biết thêm về các hệ thống đo lường luôn).
Trong khi các thí nghiệm kỹ thuật số cung cấp nhiều khả năng, chúng cũng chia sẻ một số điểm yếu với cả phòng thí nghiệm tương tự và các thí nghiệm tương tự. Ví dụ, thí nghiệm không thể được sử dụng để nghiên cứu quá khứ, và họ chỉ có thể ước tính ảnh hưởng của phương pháp điều trị có thể được điều khiển. Ngoài ra, mặc dù các thí nghiệm chắc chắn hữu ích trong việc hướng dẫn chính sách, hướng dẫn chính xác mà chúng có thể cung cấp có phần hạn chế do các biến chứng như sự phụ thuộc môi trường, các vấn đề tuân thủ và các hiệu ứng cân bằng (Banerjee and Duflo 2009; Deaton 2010) . Các thí nghiệm trong lĩnh vực kỹ thuật số cũng mở rộng các mối quan tâm đạo đức được tạo ra bởi các thí nghiệm thực địa - một chủ đề mà tôi sẽ giải quyết sau trong chương này và trong chương 6.