हम प्रयोगों है कि हम ऐसा नहीं कर सकते अनुमानित कर सकते हैं। दो दृष्टिकोण है कि विशेष रूप से डिजिटल युग से लाभ मिलान और प्राकृतिक प्रयोगों हैं।
कई महत्वपूर्ण वैज्ञानिक और नीति सवालों कारण हैं। का विचार करते हैं, उदाहरण के लिए, निम्नलिखित प्रश्न: क्या मजदूरी पर एक नौकरी के प्रशिक्षण कार्यक्रम का प्रभाव है? एक तरह से इस सवाल का जवाब देने के लिए एक यादृच्छिक नियंत्रित प्रयोग जहां कार्यकर्ताओं को बेतरतीब ढंग से या तो प्रशिक्षण प्राप्त करने के लिए या प्रशिक्षण प्राप्त नहीं सौंपा गया के साथ होगा। फिर, शोधकर्ताओं बस लोग हैं, जो उन है कि इसे प्राप्त करने के लिए नहीं किया था प्रशिक्षण प्राप्त की मजदूरी की तुलना द्वारा इन प्रतिभागियों के लिए प्रशिक्षण के प्रभाव का आकलन कर सकता है।
यादृच्छिकीकरण: सरल तुलना में कुछ करने से पहले डेटा भी एकत्र किया गया था कि क्या होता है की वजह से वैध है। randomization के बिना, समस्या ज्यादा पेचीदा मामला है। एक शोधकर्ता जो लोग स्वेच्छा से जो उन लोगों के लिए साइन-अप नहीं किया है को प्रशिक्षण के लिए साइन अप की मजदूरी तुलना सकता है। यही कारण है कि तुलना शायद दिखा सकते हैं कि जो लोग प्रशिक्षण प्राप्त अधिक अर्जित की है, लेकिन इस बात का कितना प्रशिक्षण की वजह से है और इस बात का कितना क्योंकि लोगों के लिए साइन अप प्रशिक्षण के लिए कि उन है कि हस्ताक्षर करने के लिए नहीं है के लिए प्रशिक्षण से अलग हैं? दूसरे शब्दों में, यह लोगों के इन दो समूहों में से मजदूरी की तुलना करना उचित है?
निष्पक्ष तुलना के बारे में यह चिंता का विषय कुछ शोधकर्ताओं का मानना है कि यह असंभव है एक प्रयोग के बिना चल रहे कारण अनुमान बनाने के लिए होता है। यह दावा बहुत दूर चला जाता है। हालांकि यह सच है कि प्रयोगों कारण प्रभाव के लिए सबसे मजबूत सबूत उपलब्ध कराने, वहाँ अन्य रणनीति है कि मूल्यवान कारण अनुमान प्रदान कर सकते हैं। यह सोच कर कि कारण अनुमान (प्रयोगों के मामले में) या तो आसान या असंभव है (मामले में निष्क्रिय डेटा मनाया) के बजाय, यह बेहतर है एक सातत्य मजबूत करने से सबसे कमजोर (चित्रा के साथ झूठ बोल कारण अनुमान बनाने के लिए रणनीति के बारे में सोच 2.4)। सातत्य की सबसे मजबूत अंत में नियंत्रित प्रयोगों यादृच्छिक कर रहे हैं। लेकिन, इन अक्सर सामाजिक अनुसंधान में क्या करना है क्योंकि कई उपचार सरकारों या कंपनियों से सहयोग की अवास्तविक मात्रा की आवश्यकता मुश्किल हो जाता है; काफी बस वहाँ कई प्रयोगों है कि हम ऐसा नहीं कर सकते हैं। मैं दोनों शक्तियों और बेतरतीब नियंत्रित प्रयोगों की कमजोरियों को अध्याय 4 के सभी समर्पित करेंगे, और मैं बहस करेंगे कि कुछ मामलों में, वहाँ मजबूत नैतिक कारणों प्रयोगात्मक विधियों के अवलोकन के लिए पसंद करते हैं।
निरंतरता के साथ चल रहा है, वहाँ हालात जहां शोधकर्ताओं ने स्पष्ट रूप से बेतरतीब नहीं किया है। यही है, शोधकर्ताओं ने वास्तव में एक प्रयोग कर बिना प्रयोग की तरह ज्ञान जानने के लिए प्रयास कर रहे हैं; स्वाभाविक रूप से, यह मुश्किल होने जा रहा है, लेकिन बड़ा डेटा बहुत इन स्थितियों में कारण अनुमान बनाने के लिए हमारी क्षमता को बढ़ाता है।
कभी कभी वहाँ सेटिंग्स जहां दुनिया में randomness शोधकर्ताओं के लिए एक प्रयोग की तरह कुछ बनाने के लिए होता है। इन डिजाइनों प्राकृतिक प्रयोगों कहा जाता है, और वे धारा 2.4.3.1 में विस्तार से विचार किया जाएगा। बड़ा डेटा स्रोतों-उनकी हमेशा पर प्रकृति और उनके दो सुविधाओं आकार-बहुत प्राकृतिक प्रयोगों से जानने के लिए जब वे होते हैं हमारी क्षमता को बढ़ाता है।
आगे बेतरतीब नियंत्रित प्रयोगों से दूर चल रहा है, कभी कभी प्रकृति है कि हम एक प्राकृतिक प्रयोग लगभग करने के लिए उपयोग कर सकते हैं यहां तक कि एक घटना नहीं है। इन स्थितियों में, हम ध्यान से एक प्रयोग लगभग करने के प्रयास में गैर-प्रयोगात्मक डेटा के भीतर तुलना निर्माण कर सकते हैं। इन डिजाइनों मिलान कहा जाता है, और वे धारा 2.4.3.2 में विस्तार से विचार किया जाएगा। प्राकृतिक प्रयोगों की तरह, मिलान कि एक डिजाइन भी बड़ा डेटा स्रोतों से लाभ है। विशेष रूप से, विशाल आकार-दोनों और मामलों की संख्या प्रति जानकारी के प्रकार के मामले में मामला-बहुत मिलान की सुविधा। प्राकृतिक प्रयोगों और मिलान के बीच मुख्य अंतर यह है कि प्राकृतिक प्रयोगों में शोधकर्ता प्रक्रिया है जिसके माध्यम से उपचार सौंपा और यह यादृच्छिक का मानना था जानता है।
प्राकृतिक प्रयोगों और मिलान: निष्पक्ष तुलना कि इच्छाओं से प्रेरित प्रयोग करने के लिए की अवधारणा को भी दो वैकल्पिक तरीकों underlies। इन तरीकों निष्पक्ष डेटा आप पहले से ही है कि के अंदर बैठे तुलना की खोज के द्वारा निष्क्रिय मनाया डेटा से कारण प्रभाव अनुमान लगाने के लिए सक्षम हो जाएगा।