हा एक प्रकारचा निरीक्षण हा या प्रकरणात समाविष्ट नाही. नृवंशविज्ञान आहे. डिजिटल स्पेसमध्ये आथोग्राफीबद्दल अधिक जाणून Boellstorff et al. (2012) , आणि मिश्रित डिजिटल आणि शारीरिक स्थळांमधील आथोग्राफीबद्दल अधिक माहितीसाठी Lane (2016) .
"मोठे डेटा" अशी कोणतीही एकमत व्याख्या नाही, परंतु "3 बनाम" वर कित्येक व्याख्या करण्यात आले आहे: खंड, विविधता आणि वेग (उदा., Japec et al. (2015) ). De Mauro et al. (2015) पाहा De Mauro et al. (2015) परिभाषांच्या पुनरावलोकनासाठी
मोठ्या डेटाच्या श्रेणीमधील शासकीय प्रशासकीय डेटाचा माझा समावेश असाधारण असाधारण आहे, परंतु इतरांनी या प्रकरणात देखील Legewie (2015) , Connelly et al. (2016) , आणि Einav and Levin (2014) . संशोधनासाठी सरकारी प्रशासकीय डेटाच्या मूल्याबद्दल अधिक माहितीसाठी, Card et al. (2010) पहा Card et al. (2010) , Adminstrative Data Taskforce (2012) , आणि Grusky, Smeeding, and Snipp (2015) .
सरकारी सांख्यिकीय व्यवस्थेच्या अंतर्गत प्रशासकीय संशोधनास पहाण्यासाठी, विशेषत: अमेरिकन जनगणना ब्यूरो, Jarmin and O'Hara (2016) . स्टॅटिस्टिक्स स्वीडन येथे प्रशासकीय नोंदी संशोधनावर आधारित एक पुस्तक-लांबीच्या उपचारासाठी Wallgren and Wallgren (2007) .
अध्यायात, मी थोडक्यात पारंपारिक पाहणी सारख्या सामान्य सामाजिक सर्वेक्षण (जीएसएस) सारख्या सोशल मिडिया डेटा स्रोत जसे की ट्विटर पारंपारिक सर्वेक्षणे आणि सोशल मिडिया डेटामध्ये संपूर्ण आणि काळजीपूर्वक तुलना करण्यासाठी, Schober et al. (2016) पाहा Schober et al. (2016) .
मोठ्या संख्येच्या या 10 वैशिष्ट्यांचे विविध लेखक विविध प्रकारच्या विविध प्रकारे वर्णन केले गेले आहेत. या मुद्द्यांवरील माझ्या विचारांवर प्रभाव पाडणार्या Lazer et al. (2009) समावेश Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , आणि Goldstone and Lupyan (2016) .
या प्रकरणामध्ये, मी डिजिटल ट्रेस शब्द वापरला आहे, ज्यामुले मला वाटते की ते तुलनेने तटस्थ आहे. डिजिटल ट्रेसांसाठी आणखी एक लोकप्रिय पद डिजिटल फूटप्रिंट्स (Golder and Macy 2014) , परंतु सॅम ऍपलसन, केन लेडीन, आणि हॅरी लुईस (2008) यानुसार, एक अधिक योग्य पद कदाचित डिजिटल फिंगरप्रिंट आहे . आपण ठसे निर्माण करता तेव्हा, आपण काय घडत आहात याची आपल्याला जाणीव आहे आणि वैयक्तिकरित्या आपण वैयक्तिकरित्या आपल्या पायांचा शोध घेऊ शकत नाही. हे आपल्या डिजिटल ट्रेससाठी देखील खरे नाही. खरं तर, ज्या ज्या गोष्टींबद्दल तुमच्याकडे खूप थोडे ज्ञान आहे त्यावेळेस तुम्ही माघार घेत आहात. आणि, जरी या ट्रेसांवर आपले नाव नसले, तरी ते नेहमी आपल्याशी पुन्हा जोडले जाऊ शकतात. दुसऱ्या शब्दांत, ते फिंगरप्रिंटसारखे आहेत: अदृश्य आणि व्यक्तिशः ओळखण्यासारखे
मोठ्या डेटासेटने सांख्यिकीय चाचणीला समस्याग्रस्त कशासाठी प्रस्तुत केले याबद्दल अधिकसाठी M. Lin, Lucas, and Shmueli (2013) आणि McFarland and McFarland (2015) . या मुद्द्यांमधून संशोधकांना सांख्यिकीय महत्त्वे ऐवजी व्यावहारिक महत्त्व यावर लक्ष केंद्रित करणे आवश्यक आहे.
राज चेट्टी आणि सहकार्यांना कर अभिलेखांपर्यंत पोहोचता यावे यासाठी Mervis (2014) .
मोठ्या डेटासेट कॉम्प्युटेशनल समस्या देखील तयार करू शकतात जो साधारणपणे एका संगणकाच्या क्षमतेबाहेरील असतात. म्हणूनच, मोठ्या डेटासेटवरील संगणना करणारी संशोधक बहुतेक वेळा संगणकावर काम करतात, एक प्रक्रिया जी कधी कधी समांतर प्रोग्रामिंग म्हणून ओळखली जाते. समांतर प्रोग्रॅमिंगच्या परिचलनासाठी, विशेषतः हडोॉप नावाची भाषा, Vo and Silvia (2016) .
नेहमीच्या डेटावर विचार करतांना, आपण वेळोवेळी तंतोतंत समान लोकांशी तुलना करीत आहात किंवा आपण लोकांच्या काही बदलणार्या समूहांची तुलना करीत आहात की नाही हे विचारात घेणे महत्त्वाचे आहे; उदाहरणार्थ, Diaz et al. (2016) .
Nonreactive उपाययोजनांवरील एक क्लासिक पुस्तक म्हणजे Webb et al. (1966) . त्या पुस्तकातील उदाहरणे डिजिटल युगेच्या आधीपासून आहेत, परंतु ते अजूनही प्रकाशित होत आहेत. जनसंपर्कांच्या उपस्थितीमुळे लोकांची वागणूक बदलत असल्याच्या उदाहरणांसाठी, Penney (2016) आणि Brayne (2014) .
संशोधक जे शोध परिणाम (Orne 1962; Zizzo 2010) आणि हॅथॉर्न इफेक्ट (Adair 1984; Levitt and List 2011) या (Orne 1962; Zizzo 2010) .
रेकॉर्ड लिंकेजवर अधिक माहितीसाठी Dunn (1946) आणि Fellegi and Sunter (1969) (ऐतिहासिक) आणि Larsen and Winkler (2014) (आधुनिक) पहा. संगणकीय विज्ञानामध्ये डेटा डिडुप्लिकेशन्स, इन्स्टन्स आयडेंटिफिकेशन, (Elmagarmid, Ipeirotis, and Verykios 2007) डुप्लिकेट डिटेक्शन आणि डुप्लिकेट रेकॉर्ड डिटेक्शन (Elmagarmid, Ipeirotis, and Verykios 2007) . वैयक्तिकरित्या ओळखण्यासंबंधीची माहिती प्रसारित करण्याची आवश्यकता नसलेले दुवा जोडण्यासाठी गोपनीयतेचे संरक्षण पध्दती आहेत (Schnell 2013) फेसबुकने त्यांचे विक्रम मतदानासाठी जोडणे देखील विकसित केले आहे; हे एका प्रयोगाचे मूल्यमापन करण्यासाठी केले होते जे मी आपल्याला अध्याय 4 (Bond et al. 2012; Jones et al. 2013) .
अधिक वैधता निर्माण करण्यासाठी Shadish, Cook, and Campbell (2001) अध्याय 3 पहा.
एओएल सर्च लॉग डिसकेबिलबद्दल अधिक माहितीसाठी Ohm (2010) . जेव्हा मी प्रयोगांचे वर्णन करतो तेव्हा मी प्रकरण 4 मध्ये कंपन्या आणि सरकारच्या सहभागाबद्दल सल्ला देतो बर्याच लेखकांनी प्रवेशयोग्य डेटावर अवलंबून असलेल्या संशोधनांबद्दल चिंता व्यक्त केली आहे, Huberman (2012) आणि boyd and Crawford (2012) .
विद्यापीठ संशोधक डेटा प्रवेश प्राप्त करण्यासाठी एक चांगला मार्ग एक हद्दीच्या भेट संशोधक म्हणून एक कंपनी काम आहे. डेटा प्रवेश सक्षम व्यतिरिक्त, ही प्रक्रिया देखील संशोधक जे विश्लेषण महत्त्वाचे आहे, डेटा कसे तयार केले होते बद्दल अधिक जाणून घेण्यासाठी मदत करेल.
सरकारी आकडेवारीवर प्रवेश मिळवण्याशी संबंधित माहितीनुसार, Mervis (2014) राज चेट्टी आणि सहकार्यांना सामाजिक हालचालींवर केलेल्या संशोधनातील कर अभिलेखांकडे कसा प्रवेश मिळतो याबद्दल चर्चा करते.
Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , आणि Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) हे एक संकल्पना म्हणून "प्रतिनिधीत्व" च्या इतिहासावर अधिक माहितीसाठी.
स्नो आणि डब्लू आणि हिलच्या कामाचे माझे सारांश संक्षिप्त होते. Freedman (1991) . ब्रिटिश डॉक्टर अभ्यास अधिक जाणून घेण्यासाठी Doll et al. (2004) आणि Keating (2014) .
बर्याच संशोधकांना हे जाणून घेण्यास आश्चर्य वाटेल की जरी डल आणि हिल यांनी स्त्रिया डॉक्टर आणि 35 वर्षांखालील डॉक्टरांकडून माहिती गोळा केली असली तरी ते या माहितीचा त्यांच्या पहिल्या विश्लेषणात वापर करत नाहीत. त्यांनी असा युक्तिवाद केला: "स्त्रिया आणि पुरुष 35 पेक्षा कमी वयाच्या फुफ्फुसांचा कर्करोग तुलनेने दुर्मिळ आहे म्हणून, काही वर्षे येणे या गटांमध्ये उपयोगी आकडेवारी प्राप्त करणे अशक्य आहे. या प्रारंभिक अहवालात आम्ही 35 आणि त्यापेक्षा जास्त वयाच्या पुरुषांकडे आपले लक्ष मर्यादित केले आहे. " Rothman, Gallacher, and Hatch (2013) , ज्यामध्ये उत्तेजक शीर्षक आहे" का प्रतिनिधीत्वशीलता टाळली पाहिजे, "या मूल्याचे अधिक सामान्य तर्क जाणूनबुजून गैर-प्रतिनिधींनी डेटा तयार करणे.
संशोधक आणि सरकार संपूर्ण लोकसंख्या बद्दल स्टेटमेन्ट करा इच्छितात एक Nonrepresentativeness एक प्रमुख समस्या आहे. कंपन्यांसाठी हा एक चिंतेचा विषय आहे, जो विशेषत: त्यांच्या उपयोगकर्त्यांवर केंद्रित असतो. सांख्यिकी Buelens et al. (2014) व्यावसायिक बिझिनेस डेटाचे प्रतिनिधित्व न करण्याच्या मुद्दयावर कसे होते याबद्दल अधिक माहितीसाठी, Buelens et al. (2014) .
मोठ्या डेटा स्रोतांचे प्रतिनिधी नसलेल्या प्रकृतीविषयी चिंता व्यक्त करणारे संशोधकांच्या उदाहरणांसाठी, boyd and Crawford (2012) , K. Lewis (2015b) आणि Hargittai (2015) .
सामाजिक सर्वेक्षण आणि रोगपरिस्थितीविषयक संशोधनाची लक्षणे अधिक विस्तृत तुलनासाठी, Keiding and Louis (2016) .
Jungherr (2013) नमुना सामान्यीकरण करण्यासाठी ट्विटरचा वापर करण्याच्या अधिक प्रयत्नांविषयी अधिक माहितीसाठी, विशेषतः 2009 च्या जर्मन निवडणुकीत, Jungherr (2013) आणि Jungherr (2015) . Tumasjan et al. (2010) कामकाज Tumasjan et al. (2010) जगभरातील संशोधकांनी विविध प्रकारचे विविध प्रकारचे निवडणुका (Gayo-Avello 2013; Jungherr 2015, chap. 7.) अनुमान लावण्यासाठी ट्विटरच्या क्षमतेत सुधारणा करण्यासाठी पक्षांच्या सकारात्मक व नकारात्मक बाबींमधील फरक ओळखण्यासाठी भावनात्मक विश्लेषणांचा उपयोग केला. (Gayo-Avello 2013; Jungherr 2015, chap. 7.) Huberty (2015) निवडणुकीचा अंदाज येण्याच्या प्रयत्नांच्या निकालाचा सारांश येथे दिला:
खर्या फॉरवर्ड-दिसणार्या निवडणूक अंदाजानुसार मागण्यांची पूर्तता करताना सोशल मीडियावर आधारित सर्व ज्ञात अंदाजपत्रक अयशस्वी ठरले आहेत. हे अपयश पद्धतमाहिती किंवा अल्गोरिदमिक अडचणींपेक्षा सोशल मीडियाच्या मूलभूत गुणधर्मांमुळे असल्याचे दिसत आहे. थोडक्यात, सोशल मीडिया कधीच नाही आणि कदाचित कधीच असे करणार नाही, मतदारांची एक स्थिर, निःपक्षपाती, प्रतिनिधींची छायाचित्रे देऊ शकतील; सोशल मीडियाच्या सुविधा नमुन्यांना या अडचणींच्या निवारणासाठी पुरेशा डेटाची आवश्यकता नाही. "
अध्याय 3 मध्ये, मी सॅम्पलिंग आणि अंदाजे किती मोठ्या तपशीलांचे वर्णन करू. काही विशिष्ट परिस्थितीनुसार, डेटा अप्रतिष्ठित असला तरीही, त्यांना चांगले अंदाज तयार करण्यासाठी भारित केले जाऊ शकते.
प्रणालीच्या प्रवाहापासून बाहेर पहाणे फारच अवघड आहे. तथापि, मूव्ही लेंस प्रोजेक्ट (अध्याय 4 मध्ये अधिक चर्चा केल्या) शैक्षणिक संशोधन गटात 15 पेक्षा जास्त वर्षांपासून चालवले जाते. अशा प्रकारे, वेळोवेळी सिस्टीम विकसित होण्याच्या मार्गावर माहिती आणि कागदपत्रे शेअर करणे शक्य झाले आहे आणि यावरून विश्लेषण कसे होऊ शकते (Harper and Konstan 2015) .
अनेक विद्वान Twitter वर Liu, Kliman-Silver, and Mislove (2014) केंद्रित आहेत: Liu, Kliman-Silver, and Mislove (2014) आणि Tufekci (2014)
जनतेच्या विहिरीचा निपटारा करण्यासाठी एक दृष्टिकोन म्हणजे वापरकर्त्यांचे एक पॅनेल तयार करणे, जे संशोधकांना त्याच लोकांचा अभ्यास करण्यास वेळ देते, Diaz et al. (2016) पाहा Diaz et al. (2016) .
मी प्रथम जॉन कलेनबर्ग यांनी एका भाषणात "अल्गोरिथमपणे गोंधळून" हा शब्द ऐकला परंतु दुर्दैवाने मला हे आठवत नाही की जेव्हा चर्चा दिली गेली होती किंवा कुठे. पहिली वेळ जेव्हा मी प्रिंटमध्ये शब्द पाहिला तेव्हा Anderson et al. (2015) , जो डेटिंग साइटद्वारे वापरण्यात येणाऱ्या अल्गोरिदमचा एक मनोरंजक चर्चा आहे जी सामाजिक संशोधनांचा अभ्यास करण्यासाठी या वेबसाइटवरील डेटा वापरण्यासाठी संशोधकांच्या क्षमतेला त्रास देऊ शकते. Anderson et al. (2014) प्रतिसादात K. Lewis (2015a) यांनी या चिंतेची K. Lewis (2015a) Anderson et al. (2014) .
फेसबुकच्या व्यतिरिक्त, ट्विटरने वापरकर्त्यांना त्रयस्थ बंद करण्याच्या कल्पनेवर आधारित लोकांनी अनुसरण करण्यास शिफारस केली आहे; Su, Sharma, and Goel (2016) . तर ट्विटरमध्ये त्रिशूळ बंद होण्याचा स्तर त्रिदयात्मक बंद होण्याच्या काही मानवी प्रवृत्ती आणि त्रिदल समाप्तीस प्रोत्साहन देण्यासाठी काही अल्गोरिदमिक प्रवृत्तीचा संयोजन आहे.
कार्यक्षमतेबद्दल अधिक साठी- विशेषतः अशी कल्पना आहे की काही सामाजिक विज्ञान सिद्धांता "इंजिने नाहीत" (म्हणजेच ते फक्त त्याचे वर्णन करण्यापेक्षा जगाला आकार देतात) -मसेजेन्सी Mackenzie (2008) .
सरकारी सांख्यिकीय एजन्सीजना सांख्यिक डेटा संपादनाची स्वच्छता करणारे डेटा म्हणतात . De Waal, Puts, and Daas (2014) डेटासाठी विकसित केलेली सांख्यिकीय डेटा एडिटिंग De Waal, Puts, and Daas (2014) वर्णन करतात आणि मोठ्या डेटा स्रोतांवर ते Puts, Daas, and Waal (2015) लागू होतात हे तपासतात आणि Puts, Daas, and Waal (2015) यासारख्या काही कल्पनांना अधिक सामान्य प्रेक्षक
सामाजिक सांगकामेचे अवलोकन करण्यासाठी, Ferrara et al. (2016) पाहा Ferrara et al. (2016) . काही उदाहरणे ट्विटरवर स्पॅम शोधण्यावर लक्ष केंद्रित करतात, पहा Clark et al. (2016) आणि Chu et al. (2012) . शेवटी, Subrahmanian et al. (2016) Twitter वर बीट्स शोधण्याकरता पध्दतीची तुलना करण्यासाठी डिझाइन केलेली जनशक्ती सहयोग DARPA Twitter Bot Challenge च्या परिणामांचे वर्णन करतात.
Ohm (2015) संवेदनशील माहितीच्या संकल्पनावर पूर्वीचे संशोधन करते आणि बहु-घटक चाचणी देते. त्याने प्रस्तावित केलेले चार घटक हे हानीचे विशालत्व, हानीची संभाव्यता, एक गोपनीय संबंध उपस्थित करणे आणि धोका बहुपक्षीय चिंतेचे प्रतिबिंबित करते की नाही हे आहेत.
न्यू यॉर्कमधील Camerer et al. (1997) अभ्यास Camerer et al. (1997) पूर्वीच्या अभ्यासावर आधारित होता Camerer et al. (1997) यांनी पेपर ट्रिप शीटच्या तीन वेगवेगळ्या सोयीसाठी नमुन्यांचा वापर केला. या पूर्वीच्या अभ्यासात असे आढळून आले की चालक लक्ष्यधारक असण्याची शक्यता होती: त्यांनी त्या दिवसात कमी काम केले जेथे त्यांचे वेतन अधिक होते.
त्यानंतरच्या कामात, राजा आणि त्यांचे सहकाऱ्यांनी चीनमध्ये ऑनलाइन सेंसरशिप (King, Pan, and Roberts 2014, [@king_how_2016] ) आणखी शोध लावले. चीनमधील ऑनलाइन सेन्सॉरशिप मोजण्यासाठी संबंधित पध्दतीसाठी, Bamman, O'Connor, and Smith (2012) . King, Pan, and Roberts (2013) मध्ये वापरल्या जाणा-या स्टॅटिस्टीकल पध्दतींसाठी 11 मिलियन पदांच्या भावनांचा अंदाज घेण्यासाठी Hopkins and King (2010) . पर्यवेक्षी शिक्षण अधिक जाणून घेण्यासाठी James et al. (2013) (कमी तांत्रिक) आणि Hastie, Tibshirani, and Friedman (2009) (अधिक तांत्रिक).
अंदाज औद्योगिक डेटा विज्ञानाचा मोठा भाग आहे (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . सामान्यतः सामाजिक संशोधकांद्वारे केले जाणारे एक प्रकारचे अंदाज हे लोकसांख्यिक अंदाज आहे; उदाहरणार्थ, Raftery et al. (2012) .
Google फ्लू ट्रेंड हा इन्व्हे्लूएंझा प्रघात करण्यासाठी सर्च डेटा वापरण्यासाठीचा पहिला प्रोजेक्ट नव्हता. खरेतर, अमेरिकेतील संशोधक (Polgreen et al. 2008; Ginsberg et al. 2009) आणि स्वीडन (Hulth, Rydevik, and Linde 2009) असे आढळले की काही विशिष्ट शोध संज्ञा (उदा. "फ्लू") ने राष्ट्राच्या सार्वजनिक आरोग्य पाळकांची डेटा प्रकाशित होण्याआधी त्यानंतर बर्याच, इतर प्रकल्पांनी रोग पाळत ठेवण्यासाठी डिजीटल ट्रेस डेटा वापरण्याचा प्रयत्न केला; Althouse et al. (2015) पाहा Althouse et al. (2015) एका पुनरावलोकनासाठी
आरोग्य परिणामांचा अंदाज लावण्यासाठी डिजिटल ट्रेस डेटाच्या व्यतिरीक्त, निवडणूक निकालांविषयी अंदाज देण्यासाठी ट्विटर डेटाचा वापर करून मोठ्या प्रमाणावर काम केले गेले आहे; पुनरावलोकनांसाठी Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (अध्याय 7), आणि Huberty (2015) . आर्थिक निर्देशक, जसे की सकल देशांतर्गत उत्पादन (जीडीपी), आता मध्य किनार्यांमध्ये देखील सामान्य आहे, Bańbura et al. (2013) . टेबल 2.8 मध्ये काही अभ्यासाच्या काही उदाहरणे समाविष्ट आहेत जी काही प्रकारचे डिजिटल ट्रेस वापरतात जेणेकरुन जगामध्ये कुठल्या प्रकारचे कार्यक्रम सांगता येईल.
डिजिटल ट्रेस | परिणाम | उद्धरण |
---|---|---|
ट्विटर | अमेरिकेत चित्रपटांचा बॉक्स ऑफिस महसूल | Asur and Huberman (2010) |
लॉग शोधा | यूएस मधील चित्रपट, संगीत, पुस्तके आणि व्हिडिओ गेमची विक्री | Goel et al. (2010) |
ट्विटर | डॉव जोन्स इंडस्ट्रीयल सरासरी (अमेरिकी शेअर बाजार) | Bollen, Mao, and Zeng (2011) |
सोशल मीडिया आणि शोध नोंदी | युनायटेड स्टेट्स, युनायटेड किंग्डम, कॅनडा आणि चीन मधील गुंतवणूदार भावना आणि शेअर बाजारांचे सर्वेक्षण | Mao et al. (2015) |
लॉग शोधा | सिंगपुर आणि बँगकॉकमध्ये डेंग्यू तापांचा प्रभाव | Althouse, Ng, and Cummings (2011) |
अखेरीस, जॉन क्लेनबर्ग आणि सहकाऱ्यांनी (2015) असे भाकीत केले आहे की अंदाजतणा-या अडचणी दोन, सुबकपणे भिन्न श्रेणींमध्ये येतात आणि सामाजिक शास्त्रज्ञांनी एकावर लक्ष केंद्रित करणे आणि इतरकडे दुर्लक्ष करणे पसंत केले आहे एका धोरणकर्त्याची कल्पना करा, मी तिला अण्णा असे म्हणतो, जो दुष्काळाला तोंड देत आहे आणि पाऊस पडण्याची शक्यता वाढवण्यासाठी एक जादूगार भाड्याने घेण्याचा निर्णय घ्यावा. आणखी एक पॉलिसी मेकर, मी तिच्या बेट्टीला फोन करेन, घराची वाहतुक न होण्याकरता एक छत्री कामावर घेण्याबाबत निर्णय घेणे आवश्यक आहे. अण्णा आणि बेट्टी दोघे जर हवामान समजतील तर ते अधिक चांगले निर्णय घेऊ शकतात, परंतु त्यांना वेगवेगळ्या गोष्टी जाणून घ्यायच्या असतील. पाऊस डान्समुळे पाऊस पडतो की नाही हे अण्णा समजून घेणे आवश्यक आहे. दुसरीकडे, बेट्टीला कारणास्तव काहीही समजणे आवश्यक नाही; तिला फक्त अचूक अंदाज आवश्यक आहे सामाजिक संशोधक अनेकदा अण्णा ह्यांच्यासमोर असलेल्या समस्यांवर लक्ष केंद्रित करतात - क्लेनबर्ग आणि सहकर्मी "पाऊस नाचण्याच्या" धोरणांच्या समस्येचा सामना करतात- कारण त्यांच्यात कारणास्तव प्रश्नांचा समावेश असतो. क्लेनबर्ग आणि सहकर्मींना "छत्रीसारखी" धोरणात्मक समस्यांची "बेल्टी" भेटली जाणारी प्रश्न जसे-"छत्रीसारखी" धोरणात्मक समस्या- हे खूपच महत्वपूर्ण असू शकते परंतु सामाजिक संशोधकांकडे फारच कमी लक्ष मिळालेले आहे.
जर्नल पी. एस. पॉलिटिकल सायन्समध्ये मोठ्या प्रमाणावरील माहिती, कारण अनुमान आणि औपचारिक सिद्धांतावर एक संगोष्ठी होती आणि Clark and Golder (2015) प्रत्येक Clark and Golder (2015) सारांश देतात. जर्नल प्रोसिडिंग्स ऑफ द नॅशनल ऍकॅडमी ऑफ सायन्सेस ऑफ द युनायटेड स्टेट्स ऑफ अमेरिकेशी कारणाचा निष्कर्ष आणि मोठ्या प्रमाणावरील परिचर्चा होती आणि Shiffrin (2016) प्रत्येक Shiffrin (2016) सारांश देतात मशीन शिकण्याच्या पध्दतींसाठी जे मोठ्या डेटा स्रोतांच्या आत स्वयंचलितपणे नैसर्गिक प्रयोग शोधण्याचा प्रयत्न करतात, Jensen et al. (2008) पहा Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , आणि Sharma, Hofman, and Watts (2016) .
नैसर्गिक प्रयोगांच्या संदर्भात, Dunning (2012) अनेक उदाहरणे एक प्रास्ताविक, पुस्तक-लांबी उपचार प्रदान करते. नैसर्गिक प्रयोगांचा एक संशयास्पद दृश्यासाठी, Rosenzweig and Wolpin (2000) (इकॉनॉमिक्स) किंवा Sekhon and Titiunik (2012) (राजकीय विज्ञान) पाहा. Deaton (2010) आणि Heckman and Urzúa (2010) मत मांडतात की नैसर्गिक प्रयोगांवर लक्ष केंद्रित करण्यामुळे संशोधकांना महत्त्वपूर्ण कारणास्तव अंदाजांवर लक्ष केंद्रित करणे शक्य होते; Imbens (2010) हे वितर्क नैसर्गिक प्रयोगांच्या मूल्याच्या अधिक आशावादी दृश्यांसह दर्शविते.
एक संशोधक सेवेचा परिणाम म्हणून कसा तयार केला जाऊ याचा परिणाम सांगू शकतो हे मी वर्णन करताना, मी इंस्ट्रूमेन्ट व्हेरिएबल्स म्हटल्या जाणार्या तंत्राचा वर्णन करीत होतो. Imbens and Rubin (2015) , त्यांच्या अध्याय 23 आणि 24 मध्ये, एक परिचय प्रदान आणि एक उदाहरण म्हणून मसुदा लॉटरी वापर. Compliers वर लष्करी सेवेचा परिणाम कधीकधी क्वचितच सरासरी कारण प्रभाव (सीएसीई) आणि कधीकधी स्थानिक सरासरी उपचाराचा परिणाम (उशीरा) म्हटले जाते. Sovey and Green (2011) , Angrist and Krueger (2001) , आणि Bollen (2012) राजकारणातील विज्ञान, अर्थशास्त्र आणि समाजशास्त्र Sovey and Green (2011) साधनसंपत्तीच्या उपयोगाच्या पुनरावलोकनांची ऑफर देतात आणि Sovey and Green (2011) एक "वाचकांची चेकलिस्ट" प्रदान करते इंस्ट्रूमेंटल व्हेरिएबल्स वापरून अभ्यासांचे मूल्यांकन करणे.
1 9 70 च्या ड्राफ्ट लॉटरीमध्ये हे ठीक नाही असे लक्षात येते; शुद्ध रॅंडॅमेन्स (Fienberg 1971) छोट्या (Fienberg 1971) . Berinsky and Chatfield (2015) असा युक्तिवाद करतात की या लहानशा विचलनाचे महत्त्वपूर्ण महत्त्व नाही आणि योग्यरित्या आयोजित यादृच्छिकतेचे महत्त्व यांची चर्चा करा.
जुळणी करण्याच्या दृष्टीने, आशावादी पुनरावलोकनासाठी Stuart (2010) आणि निराशावादी आढाव्यासाठी Sekhon (2009) पहा. रोपांची छाटणी म्हणून जुळवण्याबद्दल अधिक जाणून घेण्यासाठी, Ho et al. (2007) . प्रत्येक व्यक्तीसाठी एकच परिपूर्ण सामना शोधणे अनेकदा अवघड असते, आणि यामध्ये अनेक जटिलतांचा समावेश होतो प्रथम, जेव्हा अचूक जुळण्या उपलब्ध नसतील तेव्हा संशोधकांना दोन युनिट्समधील अंतर मोजण्यासाठी आणि एखाद्यास दिलेला अंतर किती जवळचा आहे हे ठरविण्याची आवश्यकता आहे. दुसरे जटिलता उद्भवते जर संशोधक उपचार समूहातील प्रत्येक बाबतीत एकापेक्षा जास्त सामन्यांचा वापर करू इच्छित असतील तर यामुळे अधिक अचूक अंदाज येऊ शकतात. Imbens and Rubin (2015) अध्याय 18 मध्ये या दोन्ही विषयांचे तपशीलवार वर्णन केले आहे. ( ??? ) भाग II सुद्धा पहा.
एक उदाहरण म्हणून Dehejia and Wahba (1999) पहा, जेथे जुळणारी पद्धती यादृच्छिक नियंत्रित प्रयोगांप्रमाणेच अंदाज तयार करण्यास सक्षम होते. परंतु, Arceneaux, Gerber, and Green (2006) आणि Arceneaux, Gerber, and Green (2010) या उदाहरणांसाठी पहा जेथे जुळणारे पद्धती प्रायोगिक बेंचमार्क पुनरुत्पादित करण्यात अयशस्वी झाले.
मोठ्या डेटा स्त्रोतांमध्ये उपयुक्त तुलना शोधण्यासाठी Rosenbaum (2015) आणि Hernán and Robins (2016) इतर सल्ला देतात