इस अध्याय में शामिल नहीं है कि एक तरह का निरीक्षण नृवंशविज्ञान है। डिजिटल रिक्त स्थान में नृवंशविज्ञान पर अधिक जानकारी के लिए, Boellstorff et al. (2012) देखें Boellstorff et al. (2012) , और मिश्रित डिजिटल और भौतिक रिक्त स्थान में नृवंशविज्ञान पर अधिक के लिए, Lane (2016) ।
"बड़े डेटा" की कोई भी आम सहमति परिभाषा नहीं है, लेकिन कई परिभाषाएं "3 बनाम" पर ध्यान केंद्रित करती हैं: मात्रा, विविधता, और वेग (उदाहरण के लिए, Japec et al. (2015) )। De Mauro et al. (2015) देखें De Mauro et al. (2015) परिभाषाओं की समीक्षा के लिए।
बड़े डेटा की श्रेणी में सरकारी प्रशासनिक डेटा को शामिल करना थोड़ा असामान्य है, हालांकि अन्य ने इस मामले को भी ले लिया है, जिसमें Legewie (2015) , Connelly et al. (2016) , और Einav and Levin (2014) । अनुसंधान के लिए सरकारी प्रशासनिक डेटा के मूल्य के बारे में अधिक जानकारी के लिए, Card et al. (2010) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) , और Grusky, Smeeding, and Snipp (2015) ।
सरकारी सांख्यिकीय प्रणाली, विशेष रूप से अमेरिकी जनगणना ब्यूरो के अंदर से प्रशासनिक शोध के दृष्टिकोण के लिए, Jarmin and O'Hara (2016) । सांख्यिकी स्वीडन में प्रशासनिक रिकॉर्ड शोध के एक पुस्तक-लंबाई उपचार के लिए, Wallgren and Wallgren (2007) ।
अध्याय में, मैंने संक्षेप में एक पारंपरिक सर्वेक्षण जैसे कि जनरल सोशल सर्वे (जीएसएस) की तुलना में ट्विटर जैसे सोशल मीडिया डेटा स्रोत के साथ तुलना की। पारंपरिक सर्वेक्षण और सोशल मीडिया डेटा के बीच पूरी तरह से और सावधानीपूर्वक तुलना के लिए, Schober et al. (2016) ।
बड़े डेटा की इन 10 विशेषताओं को विभिन्न लेखकों द्वारा विभिन्न तरीकों से वर्णित किया गया है। इस मुद्दे पर मेरी सोच को प्रभावित करने वाले लेखन में Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , के K. Lewis (2015b) Lazer (2015) K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) Japec et al. (2015) Horton and Tambe (2015) , Japec et al. (2015) , और Goldstone and Lupyan (2016) ।
इस अध्याय के दौरान, मैंने डिजिटल निशान शब्द का उपयोग किया है, जो मुझे लगता है कि अपेक्षाकृत तटस्थ है। डिजिटल निशान के लिए एक और लोकप्रिय शब्द डिजिटल फुटप्रिंट्स (Golder and Macy 2014) , लेकिन हैल एबेलसन, केन लेडिन और हैरी लुईस (2008) मुताबिक, अधिक उपयुक्त शब्द शायद डिजिटल फिंगरप्रिंट है । जब आप पैरों के निशान बनाते हैं, तो आप जानते हैं कि क्या हो रहा है और आपके पैरों के निशान आमतौर पर आपके लिए व्यक्तिगत रूप से नहीं खोजे जा सकते हैं। आपके डिजिटल निशान के लिए भी यह सच नहीं है। असल में, आप हर समय निशान छोड़ रहे हैं जिसके बारे में आपके पास बहुत कम ज्ञान है। और, हालांकि इन निशानों पर आपका नाम नहीं है, वे अक्सर आपको वापस लिंक कर सकते हैं। दूसरे शब्दों में, वे फिंगरप्रिंट की तरह अधिक हैं: अदृश्य और व्यक्तिगत रूप से पहचानना।
बड़े डेटासेट्स सांख्यिकीय परीक्षणों को समस्याग्रस्त क्यों करते हैं, इस बारे में अधिक जानकारी के लिए, M. Lin, Lucas, and Shmueli (2013) और McFarland and McFarland (2015) । इन मुद्दों को शोधकर्ताओं को सांख्यिकीय महत्व के बजाय व्यावहारिक महत्व पर ध्यान केंद्रित करना चाहिए।
राज चेटी और सहयोगियों ने टैक्स रिकॉर्ड तक पहुंच कैसे प्राप्त की, इसके बारे में अधिक जानकारी के लिए, Mervis (2014) ।
बड़े डेटासेट कम्प्यूटेशनल समस्याओं को भी बना सकते हैं जो आम तौर पर एक कंप्यूटर की क्षमताओं से परे होते हैं। इसलिए, बड़े डेटासेट पर कंप्यूटेशंस बनाने वाले शोधकर्ता अक्सर कई कंप्यूटरों पर काम फैलते हैं, एक प्रक्रिया जिसे कभी-कभी समांतर प्रोग्रामिंग कहा जाता है । समांतर प्रोग्रामिंग के परिचय के लिए, विशेष रूप से हडोप नामक एक भाषा, Vo and Silvia (2016) ।
डेटा पर हमेशा विचार करते समय, यह विचार करना महत्वपूर्ण है कि आप समय के साथ सटीक समान लोगों की तुलना कर रहे हैं या आप लोगों के कुछ बदलते समूह की तुलना कर रहे हैं; उदाहरण के लिए देखें, Diaz et al. (2016) ।
Nonreactive उपायों पर एक क्लासिक पुस्तक Webb et al. (1966) । उस पुस्तक के उदाहरण डिजिटल युग की भविष्यवाणी करते हैं, लेकिन वे अभी भी रोशनी में हैं। बड़े पैमाने पर निगरानी की उपस्थिति के कारण लोगों के व्यवहार को बदलने के उदाहरणों के लिए, Penney (2016) और Brayne (2014) ।
प्रतिक्रियाशीलता उन शोधकर्ताओं से निकटता से संबंधित है जो शोधकर्ताओं ने मांग प्रभाव (Orne 1962; Zizzo 2010) और हौथोर्न प्रभाव (Adair 1984; Levitt and List 2011) बुलाया।
रिकॉर्ड लिंकेज पर अधिक जानकारी के लिए, Dunn (1946) और Fellegi and Sunter (1969) और Fellegi and Sunter (1969) (ऐतिहासिक) और Larsen and Winkler (2014) (आधुनिक) देखें। कम्प्यूटर साइंस में डेटा deduplication, इंस्टेंस पहचान, नाम मिलान, डुप्लिकेट पहचान, और डुप्लिकेट रिकॉर्ड पहचान (Elmagarmid, Ipeirotis, and Verykios 2007) जैसे नामों के तहत इसी तरह के दृष्टिकोण भी विकसित किए गए हैं। ऐसे लिंक को रिकॉर्ड करने के लिए गोपनीयता-संरक्षण दृष्टिकोण भी हैं जिन्हें व्यक्तिगत रूप से पहचानने वाली जानकारी (Schnell 2013) के संचरण की आवश्यकता नहीं होती है। फेसबुक ने अपने रिकॉर्ड को वोटिंग व्यवहार से जोड़ने के लिए एक प्रक्रिया विकसित की है; यह एक प्रयोग का मूल्यांकन करने के लिए किया गया था जिसे मैं आपको अध्याय 4 (Bond et al. 2012; Jones et al. 2013) में बताऊंगा।
निर्माण वैधता पर अधिक जानकारी के लिए, Shadish, Cook, and Campbell (2001) अध्याय 3 देखें।
एओएल खोज लॉग हार पर अधिक जानकारी के लिए, Ohm (2010) । जब मैं प्रयोगों का वर्णन करता हूं तो मैं अध्याय 4 में कंपनियों और सरकारों के साथ साझेदारी के बारे में सलाह देता हूं। कई लेखकों ने शोध के बारे में चिंताओं को व्यक्त किया है जो पहुंचने योग्य डेटा पर निर्भर करता है, Huberman (2012) और boyd and Crawford (2012) ।
विश्वविद्यालय के शोधकर्ताओं डेटा का उपयोग प्राप्त करने के लिए एक अच्छा तरीका एक प्रशिक्षु या जाकर शोधकर्ता के रूप में एक कंपनी में काम करने के लिए है। डेटा उपयोग को सक्षम करने के अलावा, इस प्रक्रिया में भी मदद मिलेगी शोधकर्ता के बारे में कैसे डेटा बनाया गया था, जो विश्लेषण के लिए महत्वपूर्ण है और अधिक जानने के।
सरकारी आंकड़ों तक पहुंच प्राप्त करने के मामले में, Mervis (2014) चर्चा करता है कि कैसे राज चेटी और सहयोगियों ने सामाजिक गतिशीलता पर अपने शोध में उपयोग किए गए कर रिकॉर्ड तक पहुंच प्राप्त की।
एक अवधारणा के रूप में "प्रतिनिधित्वशीलता" के इतिहास पर अधिक Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) , Kruskal and Mosteller (1979c) और Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) , Kruskal and Mosteller (1979c) और Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) Kruskal and Mosteller (1979c) , और Kruskal and Mosteller (1979c) और Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) ।
बर्फ के काम और गुड़िया और पहाड़ी के काम के मेरे सारांश संक्षिप्त थे। कोलेरा पर बर्फ के काम पर अधिक जानकारी के लिए, Freedman (1991) । ब्रिटिश डॉक्टरों के अध्ययन पर अधिक जानकारी के लिए Doll et al. (2004) देखें Doll et al. (2004) और Keating (2014) ।
कई शोधकर्ता यह जानकर आश्चर्यचकित होंगे कि हालांकि गुड़िया और पहाड़ी ने महिला डॉक्टरों और 35 से कम डॉक्टरों से डेटा एकत्र किया था, लेकिन जानबूझकर उन्होंने इस डेटा का उपयोग अपने पहले विश्लेषण में नहीं किया था। जैसा कि उन्होंने तर्क दिया: "चूंकि फेफड़ों का कैंसर 35 वर्ष से कम आयु के महिलाओं और पुरुषों में अपेक्षाकृत दुर्लभ है, इसलिए कुछ वर्षों तक इन समूहों में उपयोगी आंकड़े प्राप्त होने की संभावना नहीं है। इस प्रारंभिक रिपोर्ट में हमने 35 साल और उससे अधिक आयु के पुरुषों पर हमारा ध्यान सीमित कर दिया है। " Rothman, Gallacher, and Hatch (2013) , जिसमें उत्तेजक शीर्षक है" क्यों प्रतिनिधित्वकारीता से बचा जाना चाहिए, "के मूल्य के लिए एक और सामान्य तर्क जानबूझकर गैर-प्रतिनिधि डेटा बनाते हैं।
गैर-प्रतिनिधित्वकारी शोधकर्ताओं और सरकारों के लिए एक बड़ी समस्या है जो पूरी आबादी के बारे में बयान देना चाहते हैं। यह कंपनियों के लिए चिंता का विषय नहीं है, जो आमतौर पर अपने उपयोगकर्ताओं पर केंद्रित होते हैं। सांख्यिकी नीदरलैंड्स व्यवसाय के बड़े डेटा की गैर-प्रस्तुतिकरण के मुद्दे को कैसे मानता है, इस बारे में अधिक जानकारी के लिए, Buelens et al. (2014) ।
बड़े डेटा स्रोतों की गैर-प्रतिनिधि प्रकृति के बारे में चिंता व्यक्त करने वाले शोधकर्ताओं के उदाहरणों के लिए, boyd and Crawford (2012) , के K. Lewis (2015b) Hargittai (2015) K. Lewis (2015b) , और Hargittai (2015) ।
सामाजिक सर्वेक्षण और महामारी विज्ञान अनुसंधान के लक्ष्यों की एक और विस्तृत तुलना के लिए, Keiding and Louis (2016) ।
मतदाताओं के बारे में नमूना सामान्यीकरण करने के लिए ट्विटर का उपयोग करने के प्रयासों के लिए, विशेष रूप से 200 9 के जर्मन चुनावों के मामले में, Jungherr (2013) और Jungherr (2015) । Tumasjan et al. (2010) के काम के बाद Tumasjan et al. (2010) दुनिया भर के शोधकर्ताओं ने विभिन्न प्रकार के चुनावों की भविष्यवाणी करने के लिए ट्विटर डेटा की क्षमता में सुधार करने के लिए पक्षियों के सकारात्मक और नकारात्मक उल्लेखों के बीच अंतर करने के लिए भावनात्मक विश्लेषण का उपयोग किया है (Gayo-Avello 2013; Jungherr 2015, chap. 7.) । यहां बताया गया है कि Huberty (2015) ने चुनावों की भविष्यवाणी करने के इन प्रयासों के परिणामों का सारांश दिया:
"सोशल मीडिया के आधार पर सभी ज्ञात पूर्वानुमान विधियां विफल रही हैं जब सही आगे बढ़ने वाले चुनावी भविष्यवाणियों की मांगों के अधीन है। ये विफलताओं को विधिवत या एल्गोरिदमिक कठिनाइयों के बजाय सोशल मीडिया के मौलिक गुणों के कारण प्रतीत होता है। संक्षेप में, सोशल मीडिया नहीं करता है, और शायद कभी नहीं, मतदाताओं की स्थिर, निष्पक्ष, प्रतिनिधि तस्वीर प्रदान करेगा; और सोशल मीडिया के सुविधा नमूने में इन समस्याओं को ठीक करने के लिए पर्याप्त डेटा की कमी है। "
अध्याय 3 में, मैं नमूनाकरण और आकलन का अधिक विस्तार से वर्णन करूंगा। यहां तक कि यदि डेटा गैर-प्रतिनिधि हैं, कुछ शर्तों के तहत, उन्हें अच्छे अनुमानों के उत्पादन के लिए भारित किया जा सकता है।
सिस्टम बहाव बाहर से देखने के लिए बहुत मुश्किल है। हालांकि, मूवीलेन्स प्रोजेक्ट (अध्याय 4 में और अधिक चर्चा) अकादमिक शोध समूह द्वारा 15 से अधिक वर्षों तक चलाया गया है। इस प्रकार, वे इस समय के बारे में जानकारी दस्तावेज और साझा करने में सक्षम हुए हैं कि सिस्टम समय के साथ कैसे विकसित हुआ है और यह विश्लेषण को कैसे प्रभावित कर सकता है (Harper and Konstan 2015) ।
कई विद्वानों ने ट्विटर में बहाव पर ध्यान केंद्रित किया है: Liu, Kliman-Silver, and Mislove (2014) और Liu, Kliman-Silver, and Mislove (2014) Tufekci (2014) ।
जनसंख्या बहाव से निपटने का एक दृष्टिकोण उपयोगकर्ताओं के एक पैनल को बनाना है, जो शोधकर्ताओं को समय के साथ एक ही लोगों का अध्ययन करने की अनुमति देता है, देखें Diaz et al. (2016) ।
मैंने पहली बार जॉन क्लेनबर्ग द्वारा एक बातचीत में "एल्गोरिदमिक रूप से उलझन" शब्द सुना, लेकिन दुर्भाग्य से मुझे याद नहीं आया कि कब या कहां दिया गया था। पहली बार जब मैंने प्रिंट में शब्द देखा तो Anderson et al. (2015) , जो एक दिलचस्प चर्चा है कि डेटिंग साइटों द्वारा उपयोग किए जाने वाले एल्गोरिदम शोधकर्ताओं की सामाजिक प्राथमिकताओं का अध्ययन करने के लिए इन वेबसाइटों से डेटा का उपयोग करने की क्षमता को जटिल बना सकते हैं। Anderson et al. (2014) जवाब में के K. Lewis (2015a) ने यह चिंता उठाई थी Anderson et al. (2014) ।
फेसबुक के अलावा, ट्विटर भी उपयोगकर्ताओं को त्रिभुज बंद करने के विचार के आधार पर अनुसरण करने की सिफारिश करता है; Su, Sharma, and Goel (2016) । तो ट्विटर में त्रिभुज बंद करने का स्तर त्रिभुज बंद करने और त्रिभुज बंद करने के लिए कुछ एल्गोरिदमिक प्रवृत्ति की ओर कुछ मानव प्रवृत्ति का संयोजन है।
निष्पादन पर अधिक जानकारी के लिए - विशेष रूप से यह विचार कि कुछ सामाजिक विज्ञान सिद्धांत "इंजन कैमरे नहीं हैं" (यानी, वे इसे वर्णित करने के बजाय दुनिया को आकार देते हैं) -से Mackenzie (2008) ।
सरकारी सांख्यिकीय एजेंसियां आंकड़ों को सांख्यिकीय डेटा संपादन की सफाई करती हैं । De Waal, Puts, and Daas (2014) सर्वेक्षण डेटा के लिए विकसित सांख्यिकीय डेटा संपादन तकनीकों का वर्णन करते हैं और बड़े डेटा स्रोतों पर लागू होने वाली सीमा की जांच करते हैं, और Puts, Daas, and Waal (2015) के लिए कुछ विचार प्रस्तुत करते हैं एक अधिक सामान्य दर्शक।
सामाजिक बॉट्स के अवलोकन के लिए, Ferrara et al. (2016) देखें Ferrara et al. (2016) । ट्विटर के स्पैम को खोजने पर केंद्रित अध्ययनों के कुछ उदाहरणों के लिए, Clark et al. (2016) और Chu et al. (2012) । अंत में, Subrahmanian et al. (2016) ट्विटर पर बॉट का पता लगाने के लिए दृष्टिकोण की तुलना करने के लिए डिजाइन किए गए एक बड़े सहयोग, डीएआरपीए ट्विटर बॉट चैलेंज के परिणामों का वर्णन करता है।
Ohm (2015) संवेदनशील सूचना के विचार पर पहले के शोध की समीक्षा करता है और एक बहु-कारक परीक्षण प्रदान करता है। उनके द्वारा प्रस्तावित चार कारक नुकसान की परिमाण, हानि की संभावना, गोपनीय संबंधों की उपस्थिति, और जोखिम प्रमुखता संबंधी चिंताओं को दर्शाता है।
न्यू यॉर्क में टैक्सी का Camerer et al. (1997) अध्ययन Camerer et al. (1997) द्वारा पहले के अध्ययन पर आधारित था Camerer et al. (1997) ने पेपर ट्रिप शीट के तीन अलग-अलग सुविधा नमूने का इस्तेमाल किया। इस पहले के अध्ययन में पाया गया कि ड्राइवर लक्षित कमाई करने लगते थे: उन्होंने उन दिनों पर कम काम किया जहां उनकी मजदूरी अधिक थी।
बाद के काम में, राजा और सहयोगियों ने चीन (King, Pan, and Roberts 2014, [@king_how_2016] ) में ऑनलाइन सेंसरशिप की खोज की है। चीन में ऑनलाइन सेंसरशिप को मापने के लिए संबंधित दृष्टिकोण के लिए, Bamman, O'Connor, and Smith (2012) । 11 मिलियन पदों की भावना का अनुमान लगाने के लिए King, Pan, and Roberts (2013) में इस्तेमाल किए गए सांख्यिकीय तरीकों के बारे में अधिक जानकारी के लिए, Hopkins and King (2010) । पर्यवेक्षित शिक्षा पर अधिक जानकारी के लिए, James et al. (2013) देखें James et al. (2013) (कम तकनीकी) और Hastie, Tibshirani, and Friedman (2009) (अधिक तकनीकी)।
पूर्वानुमान औद्योगिक डेटा विज्ञान का एक बड़ा हिस्सा है (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) । सामाजिक शोधकर्ताओं द्वारा आमतौर पर किया जाने वाला एक प्रकार का पूर्वानुमान जनसांख्यिकीय पूर्वानुमान है; उदाहरण के लिए, Raftery et al. (2012) ।
Google Flu Trends अब खोज इन्फ्लूएंजा प्रसार के लिए खोज डेटा का उपयोग करने वाली पहली परियोजना नहीं थी। वास्तव में, संयुक्त राज्य अमेरिका में शोधकर्ताओं (Polgreen et al. 2008; Ginsberg et al. 2009) और स्वीडन (Hulth, Rydevik, and Linde 2009) ने पाया है कि कुछ खोज शब्द (उदाहरण के लिए, "फ्लू") ने राष्ट्रीय सार्वजनिक स्वास्थ्य निगरानी की भविष्यवाणी की है इसे जारी करने से पहले डेटा। इसके बाद कई अन्य परियोजनाओं ने बीमारी निगरानी पहचान के लिए डिजिटल ट्रेस डेटा का उपयोग करने की कोशिश की है; Althouse et al. (2015) देखें Althouse et al. (2015) एक समीक्षा के लिए।
स्वास्थ्य परिणामों की भविष्यवाणी करने के लिए डिजिटल ट्रेस डेटा का उपयोग करने के अलावा, चुनाव परिणामों की भविष्यवाणी करने के लिए ट्विटर डेटा का उपयोग करके बड़ी मात्रा में काम भी किया गया है; समीक्षाओं को देखने के लिए Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (अध्याय 7), और Huberty (2015) । सकल घरेलू उत्पाद (जीडीपी) जैसे आर्थिक संकेतकों का नाकाबंदी, केंद्रीय बैंकों में भी आम है, Bańbura et al. (2013) । तालिका 2.8 में अध्ययन के कुछ उदाहरण शामिल हैं जो दुनिया में किसी प्रकार की घटना की भविष्यवाणी करने के लिए किसी प्रकार का डिजिटल ट्रेस का उपयोग करते हैं।
डिजिटल ट्रेस | परिणाम | उद्धरण |
---|---|---|
ट्विटर | अमेरिका में फिल्मों के बॉक्स ऑफिस राजस्व | Asur and Huberman (2010) |
लॉग खोजें | अमेरिका में फिल्में, संगीत, किताबें और वीडियो गेम की बिक्री | Goel et al. (2010) |
ट्विटर | डॉव जोन्स औद्योगिक औसत (यूएस शेयर बाजार) | Bollen, Mao, and Zeng (2011) |
सोशल मीडिया और खोज लॉग | संयुक्त राज्य अमेरिका, यूनाइटेड किंगडम, कनाडा और चीन में निवेशक भावनाओं और शेयर बाजारों के सर्वेक्षण | Mao et al. (2015) |
लॉग खोजें | सिंगापुर और बैंकॉक में डेंगू बुखार का प्रसार | Althouse, Ng, and Cummings (2011) |
आखिरकार, जॉन क्लेनबर्ग और सहयोगियों (2015) ने इंगित किया है कि पूर्वानुमान की समस्याएं दो अलग-अलग श्रेणियों में आती हैं और सामाजिक वैज्ञानिकों ने एक पर ध्यान केंद्रित करने और दूसरे को अनदेखा करने का प्रयास किया है। एक नीति निर्माता की कल्पना करो, मैं उसे अन्ना कहूंगा, जो सूखे का सामना कर रहा है और उसे यह तय करना होगा कि बारिश के अवसर को बढ़ाने के लिए बारिश नृत्य करने के लिए शमन किराए पर लेना है या नहीं। एक और नीति निर्माता, मैं उसे बेट्टी कहूंगा, यह तय करना होगा कि घर पर गीले होने से बचने के लिए काम करने के लिए छतरी लेनी है या नहीं। अगर वे मौसम समझते हैं तो अन्ना और बेट्टी दोनों बेहतर निर्णय ले सकते हैं, लेकिन उन्हें अलग-अलग चीजों को जानने की जरूरत है। अन्ना को यह समझने की जरूरत है कि बारिश नृत्य बारिश का कारण बनता है या नहीं। दूसरी तरफ बेटी को कारणता के बारे में कुछ भी समझने की जरूरत नहीं है; उसे सिर्फ एक सटीक पूर्वानुमान की जरूरत है। सामाजिक शोधकर्ता अक्सर अन्ना द्वारा सामना की जाने वाली समस्याओं पर ध्यान केंद्रित करते हैं- जो क्लेनबर्ग और सहयोगियों ने "बारिश नृत्य जैसी" नीति समस्याओं को बुलाया- क्योंकि उनमें कारणता के प्रश्न शामिल हैं। बेटी द्वारा सामना किए जाने वाले प्रश्न जैसे कि क्लेनबर्ग और सहयोगियों ने "छतरी जैसी" नीति समस्याओं को बुलाया- यह भी काफी महत्वपूर्ण हो सकता है, लेकिन सामाजिक शोधकर्ताओं से बहुत कम ध्यान प्राप्त हुआ है।
पत्रिका पीएस राजनीति विज्ञान में बड़े डेटा, कारण अनुमान, और औपचारिक सिद्धांत, और Clark and Golder (2015) सारांश था, प्रत्येक योगदान का सारांश। संयुक्त राज्य अमेरिका की नेशनल एकेडमी ऑफ साइंसेज की जर्नल कार्यवाही में मौलिक अनुमान और बड़े डेटा पर एक संगोष्ठी थी, और Shiffrin (2016) प्रत्येक योगदान का सारांश देता है। मशीन सीखने के दृष्टिकोण के लिए जो बड़े डेटा स्रोतों के अंदर स्वचालित रूप से प्राकृतिक प्रयोगों को खोजने का प्रयास करते हैं, Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , और Sharma, Hofman, and Watts (2016) ।
प्राकृतिक प्रयोगों के संदर्भ में, Dunning (2012) कई उदाहरणों के साथ एक प्रारंभिक, पुस्तक-लंबाई उपचार प्रदान करता है। प्राकृतिक प्रयोगों के एक संदिग्ध दृष्टिकोण के लिए, Sekhon and Titiunik (2012) Rosenzweig and Wolpin (2000) (अर्थशास्त्र) या Sekhon and Titiunik (2012) (राजनीतिक विज्ञान) देखें। Deaton (2010) और Heckman and Urzúa (2010) तर्क है कि प्राकृतिक प्रयोगों पर ध्यान केंद्रित करने से शोधकर्ताओं को महत्वहीन कारण प्रभावों का अनुमान लगाने पर ध्यान केंद्रित किया जा सकता है; Imbens (2010) इन तर्कों को प्राकृतिक प्रयोगों के मूल्य के अधिक आशावादी दृष्टिकोण के साथ काउंटर करते हैं।
जब एक शोधकर्ता सेवा के प्रभाव के लिए तैयार किए जाने के प्रभाव का अनुमान लगाने से कैसे जा सकता है, तो मैं वाद्ययंत्र चर नामक एक तकनीक का वर्णन कर रहा था। Imbens and Rubin (2015) , उनके अध्याय 23 और 24 में, एक परिचय प्रदान करते हैं और ड्राफ्ट लॉटरी का उदाहरण उदाहरण के रूप में उपयोग करते हैं। शिकायतों पर सैन्य सेवा के प्रभाव को कभी-कभी अनुपालन औसत कारण प्रभाव (सीएसीई) और कभी-कभी स्थानीय औसत उपचार प्रभाव (लेट) कहा जाता है। Sovey and Green (2011) , Sovey and Green (2011) Angrist and Krueger (2001) , और Bollen (2012) राजनीतिक विज्ञान, अर्थशास्त्र, और समाजशास्त्र में वाद्ययंत्र चर के उपयोग की समीक्षा प्रदान करते हैं, और Sovey and Green (2011) एक "पाठक की चेकलिस्ट" प्रदान करता है वाद्ययंत्र चर का उपयोग कर अध्ययन का मूल्यांकन।
यह पता चला है कि 1 9 70 का मसौदा लॉटरी वास्तव में यादृच्छिक रूप से याद नहीं किया गया था; शुद्ध यादृच्छिकता से छोटे विचलन थे (Fienberg 1971) । Berinsky and Chatfield (2015) का तर्क है कि यह छोटा विचलन काफी महत्वपूर्ण नहीं है और उचित ढंग से आयोजित यादृच्छिकरण के महत्व पर चर्चा करता है।
मिलान के मामले में, एक आशावादी समीक्षा के लिए Stuart (2010) और एक निराशावादी समीक्षा के लिए Sekhon (2009) । एक प्रकार का काटने के रूप में मिलान करने के लिए, Ho et al. (2007) । प्रत्येक व्यक्ति के लिए एक आदर्श मैच ढूंढना अक्सर मुश्किल होता है, और इसमें कई जटिलताओं को शामिल किया जाता है। सबसे पहले, जब सटीक मिलान उपलब्ध नहीं होते हैं, तो शोधकर्ताओं को यह तय करने की आवश्यकता होती है कि दो इकाइयों के बीच की दूरी को मापने के लिए और यदि दी गई दूरी पर्याप्त निकट है। एक दूसरी जटिलता तब उत्पन्न होती है जब शोधकर्ता उपचार समूह में प्रत्येक मामले के लिए कई मैचों का उपयोग करना चाहते हैं, क्योंकि इससे अधिक सटीक अनुमान हो सकते हैं। इन दोनों मुद्दों के साथ-साथ अन्य, Imbens and Rubin (2015) अध्याय 18 में विस्तार से वर्णित हैं। ( ??? ) का भाग II भी देखें।
एक उदाहरण के लिए Dehejia and Wahba (1999) देखें जहां मेलिंग विधियां यादृच्छिक नियंत्रित प्रयोग से संबंधित अनुमानों का उत्पादन करने में सक्षम थीं। लेकिन, Arceneaux, Gerber, and Green (2006) लिए Arceneaux, Gerber, and Green (2006) और Arceneaux, Gerber, and Green (2010) , जहां मिलान विधियां एक प्रयोगात्मक बेंचमार्क को पुन: उत्पन्न करने में विफल रहीं।
Rosenbaum (2015) और Hernán and Robins (2016) बड़े डेटा स्रोतों के भीतर उपयोगी तुलना की खोज के लिए अन्य सलाह देते हैं।