Chúng tôi có thể gần đúng các thí nghiệm mà chúng ta không thể làm được. Hai cách tiếp cận đặc biệt là được hưởng lợi từ các đại kỹ thuật số được kết hợp và thí nghiệm tự nhiên.
Nhiều câu hỏi khoa học và chính sách quan trọng là quan hệ nhân quả. Hãy xem xét, ví dụ, những câu dưới đây: hiệu quả của một chương trình đào tạo nghề về tiền lương là gì? Một cách để trả lời câu hỏi này sẽ có một thí nghiệm kiểm soát ngẫu nhiên mà người lao động được phân ngẫu nhiên hoặc được đào tạo hay không được đào tạo. Sau đó, các nhà nghiên cứu có thể ước lượng hiệu quả đào tạo cho những người tham gia bằng cách so sánh mức lương của những người được huấn luyện để những người không nhận được nó.
Việc so sánh đơn giản là hợp lệ vì một điều gì đó sẽ xảy ra trước khi dữ liệu được thu thập thậm chí: sự ngẫu nhiên. Không ngẫu nhiên, vấn đề là phức tạp hơn nhiều. Một nhà nghiên cứu có thể so sánh mức lương của những người tự nguyện đăng ký đào tạo cho những người không đăng ký. so sánh đó có lẽ sẽ cho thấy những người được đào tạo kiếm được nhiều hơn, nhưng bao nhiêu trong số này là do đào tạo và bao nhiêu trong số này là do người đăng ký cho đào tạo là khác nhau từ những người không đăng ký đào tạo? Nói cách khác, nó là công bằng để so sánh mức lương của hai nhóm người?
Mối lo ngại này về sự so sánh công bằng dẫn một số nhà nghiên cứu tin rằng nó là không thể thực hiện ước tính nhân quả mà không cần chạy một thử nghiệm. Tuyên bố này đã đi quá xa. Trong khi đó là sự thật rằng những thí nghiệm cung cấp bằng chứng mạnh mẽ cho các hiệu ứng nhân quả, có những chiến lược khác mà có thể cung cấp các ước tính quan hệ nhân quả có giá trị. Thay vì nghĩ rằng ước tính nhân quả là hoặc là dễ dàng (trong trường hợp của thí nghiệm) hoặc không thể (trong trường hợp thụ động quan sát dữ liệu), nó là tốt hơn để nghĩ về các chiến lược để lập dự toán nhân quả ven liên tục từ mạnh đến yếu nhất (Hình 2.4). Vào cuối mạnh của sự liên tục được chọn ngẫu nhiên các thí nghiệm kiểm soát. Nhưng, cái này rất khó thực hiện trong nghiên cứu xã hội vì nhiều phương pháp điều trị đòi hỏi số lượng thực tế của sự hợp tác từ các chính phủ hoặc công ty; khá đơn giản là có rất nhiều thí nghiệm mà chúng ta không thể làm được. Tôi sẽ cống hiến tất cả chương 4 đến cả những điểm mạnh và điểm yếu của thí nghiệm kiểm soát ngẫu nhiên, và tôi sẽ tranh luận rằng trong một số trường hợp, có những lý do đạo đức mạnh mẽ để thích quan sát các phương pháp thực nghiệm.
Di chuyển dọc theo liên tục, có những tình huống mà các nhà nghiên cứu đã không ngẫu nhiên một cách rõ ràng. Đó là, các nhà nghiên cứu đang cố gắng tìm hiểu kiến thức thí nghiệm giống như không thực sự làm một cuộc thí nghiệm; tự nhiên, điều này là có thể được khôn lanh, nhưng dữ liệu lớn được cải thiện đáng kể khả năng của chúng tôi để có những ước tính quan hệ nhân quả trong những tình huống này.
Đôi khi có những nơi mà ngẫu nhiên trên thế giới xảy ra để tạo ra một cái gì đó giống như một thử nghiệm cho các nhà nghiên cứu. Những thiết kế này được gọi là thí nghiệm tự nhiên, và họ sẽ được xem xét chi tiết trong mục 2.4.3.1. Hai tính năng của các nguồn của dữ liệu lớn bản chất luôn luôn-on và họ size-giúp tăng cường khả năng của chúng tôi để học hỏi từ các thí nghiệm tự nhiên khi chúng xảy ra.
Di chuyển xa hơn từ các thí nghiệm kiểm soát ngẫu nhiên, đôi khi thậm chí không có một sự kiện trong tự nhiên mà chúng ta có thể sử dụng để xấp xỉ một thử nghiệm tự nhiên. Ở những nơi này, chúng tôi cẩn thận có thể xây dựng những so sánh bên trong dữ liệu phi thực nghiệm trong một nỗ lực để xấp xỉ một thử nghiệm. Những thiết kế này được gọi là phù hợp, và họ sẽ được xem xét chi tiết trong mục 2.4.3.2. Cũng giống như các thí nghiệm tự nhiên, phù hợp là một thiết kế mà còn có lợi từ các nguồn dữ liệu lớn. Đặc biệt, kích thước, cả lớn về số vụ và loại thông tin mỗi trường thuận lợi lớn cho phù hợp. Sự khác biệt chính giữa các thí nghiệm tự nhiên và phù hợp là trong các thí nghiệm tự nhiên các nhà nghiên cứu biết quá trình thông qua đó điều trị được giao và tin rằng nó là ngẫu nhiên.
Khái niệm về sự so sánh công bằng mà thúc đẩy ham muốn để làm thí nghiệm cũng là nguyên nhân hai cách tiếp cận khác: thí nghiệm tự nhiên và phù hợp. Những cách tiếp cận này sẽ cho phép bạn đánh giá những tác nhân quả từ dữ liệu quan sát thụ động bằng cách khám phá sự so sánh công bằng ngồi bên trong các dữ liệu mà bạn đã có.