एक प्रकारको अवलोकन यो अध्यायमा समावेश गरिएको छैन नैतिकता हो। डिजिटल रिक्त स्थानहरुमा नैतिकता को बारे मा अधिक को लागि, Boellstorff et al. (2012) , र मिश्रित डिजिटल र भौतिक रिक्त स्थानहरुमा नैतिकता को बारे मा अधिक को लागि, Lane (2016) हेर्नुहोस।
"ठूलो डेटा," को कुनै पनि सहमतिको परिभाषा छैन "तर धेरै परिभाषा" 3 बनाउ "मा ध्यान केन्द्रित देखिन्छ: भोल्युम, किस्म, र वेग (जस्तै, Japec et al. (2015) )। De Mauro et al. (2015) हेर्नुहोस De Mauro et al. (2015) परिभाषाहरूको समीक्षाको लागि।
ठूला डेटाको वर्गमा सरकारी प्रशासनिक डेटाको मेरो समावेश एकदम असामान्य छ, यद्यपि अन्यले यो मामला बनाएका छन्, Legewie (2015) , Connelly et al. (2016) , र Einav and Levin (2014) । अनुसन्धानको लागि सरकारी प्रशासनिक डाटाको मूल्यको बारेमा, Card et al. (2010) हेर्नुहोस् Card et al. (2010) , Adminstrative Data Taskforce (2012) , र Grusky, Smeeding, and Snipp (2015) ।
सरकारी तथ्याङ्क प्रणाली, विशेष गरी अमेरिकाको जनगणना ब्यूरो भित्र प्रशासनिक अनुसन्धानको दृश्यको लागि, Jarmin and O'Hara (2016) हेर्नुहोस्। तथ्याङ्क स्वीडेनमा प्रशासनिक रेकर्ड अनुसन्धानको पुस्तक-लम्बाइ उपचारको लागि, Wallgren and Wallgren (2007) हेर्नुहोस्।
अध्यायमा, म छोटो रूपमा एक सामाजिक सर्वेक्षण जस्तै सामान्य सामाजिक सर्वेक्षण (जीएसएस) एक चहचहाना जस्तै सामाजिक मीडिया डेटा स्रोत संग तुलना। पारंपरिक सर्वेक्षण र सोशल मिडिया डाटाको बीचमा पूर्ण र सावधानीपूर्वक तुलनाको लागि, Schober et al. (2016) ।
बिभिन्न डेटाको यी 10 विशेषताहरू विभिन्न किसिमका विभिन्न किसिमका विभिन्न तरिकामा वर्णन गरिएको छ। यी मुद्दाहरूमा मेरो सोचलाई असर गर्ने लेखन Lazer et al. (2009) Groves (2011) Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) Lazer (2015) K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , र Goldstone and Lupyan (2016) ।
यस अध्यायमा, मैले डिजिटल निशान शब्द प्रयोग गरेको छु, जुन मलाई लाग्छ कि अपेक्षाकृत तटस्थ छ। डिजिटल निशान को लागि एक अन्य लोकप्रिय शब्द डिजिटल पैचिश (Golder and Macy 2014) , तर हिल एबिलन, केन लेडीन, र हैरी लुईस (2008) बिंदु को रूप मा, एक अधिक उपयुक्त शब्द शायद डिजिटल औंला छाप हो । जब तपाईंले पादप्रिन्टहरू बनाउनुहुन्छ भने, तपाईं के गर्दै हुनुहुन्छ भन्ने बारे सचेत हुनुहुन्छ र तपाईंको पदचिन्ह सामान्यतया तपाईँलाई व्यक्तिगत रूपमा पत्ता लगाउन सक्दैन। तपाईंको डिजिटल निशानको लागि यो सही छैन। वास्तव मा, तपाईं सबै समय को लागी छोड्नु भएको छ जसको बारेमा तपाईसँग धेरै ज्ञान छ। र, यद्यपि यी निशानहरूले तपाईंको नाममा कुनै नाम छैन, तिनीहरू प्राय: तपाईंसँग फिर्ता लिङ्क गर्न सकिन्छ। अर्को शब्दमा, तिनीहरू औठाछापहरू जस्तै छन्: अदृश्य र व्यक्तिगत रूपमा पहिचान।
किन ठूलो डेटासेट सांख्यिकीय परीक्षण समस्याग्रस्त रूपमा प्रस्तुत गर्दछ, हेर्नुहोस् M. Lin, Lucas, and Shmueli (2013) र McFarland and McFarland (2015) । यी मुद्दाहरूले शोधकर्ताहरूलाई सांख्यिकीय महत्त्वको सट्टा व्यावहारिक महत्त्वमा ध्यान केन्द्रित गर्नुपर्छ।
राजेता र सहकर्मीहरूले कर रिकार्डमा कसरी पहुँच पाए भन्ने बारे थप जानकारी दिएका छन्, Mervis (2014) हेर्नुहोस्।
ठूला डाटासेटले कम्प्युटिटिकल समस्याहरू पनि सिर्जना गर्न सक्छ जुन सामान्य कम्प्युटरको क्षमताहरू भन्दा बाहिर छन्। यसैले, शोधकर्ताहरू ठूलो डाटासेटहरूमा कम्प्युटेशनहरू बनाउने प्रायः प्रायः कम्प्यूटरहरू, प्रक्रियामा कहिलेकाँही समानांतर प्रोग्रामिङ भनिन्छ। समानांतर प्रोग्रामिंग को एक परिचय को लागि, विशेष रूप मा Hadoop भनिन्छ भाषा मा Vo and Silvia (2016) हेर्नुहोस।
सँधै डेटामा विचार गर्दा, तपाईं समयावधिको साथ उस्तै उस्तै व्यक्तिहरूको तुलना गर्दै हुनुहुन्छ वा विचार गर्न महत्त्वपूर्ण छ कि तपाईं मानिसहरूका केही परिवर्तन समूहको तुलना गर्दै हुनुहुन्छ; उदाहरणका लागि हेर्नुहोस्, Diaz et al. (2016) ।
अनावश्यक उपासनाहरूमा क्लासिक पुस्तक Webb et al. (1966) । त्यो किताबमा उदाहरणहरू डिजिटल उमेरको भविष्यवाणी गर्दछ, तर तिनीहरू अझै उज्ज्वल छन्। जनसङ्ख्याको उपस्थितिको कारण मानिसहरूको उदाहरण परिवर्तनका लागि, Penney (2016) र Brayne (2014) ।
प्रतिक्रियाशीलता कुन किसिमका शोधकर्ताहरूले माग प्रभावहरू (Orne 1962; Zizzo 2010) र हौर्थर्न प्रभाव (Adair 1984; Levitt and List 2011) लाई नजिकबाट सम्बन्धित छन्।
रेकर्ड लिङ्कमा अधिकको लागि, Dunn (1946) र Fellegi and Sunter (1969) (ऐतिहासिक) र Larsen and Winkler (2014) (आधुनिक) हेर्नुहोस्। कम्प्युटर साइन्समा पनि डेटा डिप्लिकप्पेशन, उदाहरणको पहिचान, नाम मिलान, डुप्लिकेट पत्ता लगाउने, र डुप्लिकेट रेकर्ड पत्ता लगाउने (Elmagarmid, Ipeirotis, and Verykios 2007) समान दृष्टिकोणहरू पनि विकसित गरिएका छन्। लिङ्क रेकर्ड गर्न गोपनीयता-संरक्षित दृष्टिकोणहरू पनि छन् जुन व्यक्तिगत रूपमा पहिचान पहिचानको प्रसारणको आवश्यकता पर्दैन (Schnell 2013) । फेसबुकले पनि उनीहरूको रेकर्डिङ व्यवहारमा लिङ्क गर्न एक प्रक्रिया विकसित गरेको छ; यो प्रयोग को मूल्यांकन गर्न को लागी कि मैले तपाईंलाई अध्याय 4 (Bond et al. 2012; Jones et al. 2013) बारेमा बताऊँगा।
वैधता निर्माणको बारेमा Shadish, Cook, and Campbell (2001) अध्याय 3 हेर्नुहोस्।
AOL खोज लग क्यामेराको बारेमा बढीका लागि, Ohm (2010) हेर्नुहोस्। मैले प्रयोगको वर्णन गर्दा अध्याय 4 मा कम्पनीहरू र सरकारहरूसँग साझेदारी गर्ने बारेमा सल्लाह प्रदान गर्दछु। धेरै लेखकहरूले दुर्गम डाटामा निर्भर गर्ने अनुसन्धानको बारेमा चिन्ता व्यक्त गरेका छन्, Huberman (2012) र boyd and Crawford (2012) ।
विश्वविद्यालय शोधकर्ताओं डाटा पहुँच प्राप्त गर्न को लागि एक राम्रो तरिका एक प्रशिक्षार्थी वा भ्रमण शोधकर्ता रूपमा एक कम्पनी मा काम गर्न छ। डाटा पहुँच सक्षम गर्न साथै, यो प्रक्रिया पनि शोधकर्ता डाटा जो विश्लेषण लागि महत्त्वपूर्ण छ सिर्जना गरिएको थियो कसरी बारेमा थप जान्न मद्दत गर्नेछ।
सरकारी डेटाको पहुँच प्राप्त गर्ने सन्दर्भमा, Mervis (2014) छलफल गर्दा कसरी राजेता र सहकर्मीहरूले सामाजिक गतिशीलतामा उनीहरूको अनुसन्धानमा प्रयोग गरेर कर रिकार्डहरूमा कसरी पहुँच पाए।
एक अवधारणा को रूप मा "प्रतिनिधित्व" को इतिहास मा अधिक को लागि, Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) , और Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) ।
हिमपातको काम र गुडिया र हिलको कामको सारांश छोटो थियो। कोलेरामा बर्फको काममा बढीको लागि, Freedman (1991) हेर्नुहोस्। ब्रिटिश डाक्टरहरु को बारे मा अधिक को लागि अध्ययन Doll et al. (2004) र Keating (2014) ।
धेरै शोधकर्ताहरू जान्न चकित हुनेछन् कि यद्यपि गुडिया र हिलले महिला चिकित्सकहरु र 35 बर्ष भन्दा कम उमेरका चिकित्सकहरु लाई एकत्र गरेको थियो, उनीहरु जान्दछन् यो डेटा आफ्नो पहिलो विश्लेषणमा प्रयोग गर्दैनन्। उनीहरूले तर्क गरे: "महिलाहरु र 35 वर्ष भन्दा कम उमेरमा फेफड़ोंको क्यान्सर अपेक्षाकृत दुर्लभ भएकोले, केही वर्ष आउन उपयोगी सङ्ख्या यी समूहहरूमा प्राप्त गर्न सम्भव छैन। यस प्रारम्भिक रिपोर्टमा हामीले हामीले 35 बर्ष वा माथि उमेरका पुरुषहरूलाई हाम्रो ध्यान राखेका छौ। " Rothman, Gallacher, and Hatch (2013) , जुन उत्प्रेरक शीर्षक छ" किन प्रतिनिधितावादीताबाट जोगिनै पर्छ " जानबूझेर गैर-असामान्य डेटा सिर्जना गर्नुहोस्।
Nonrepresentativeness शोधकर्ताहरु र सरकारहरु जो एक सम्पूर्ण जनसंख्या को बारे मा बयान गर्न चाहन्छन को लागि एक प्रमुख समस्या हो। यो कम्पनीहरु को लागि एक चिन्ता कम छ, जो सामान्यतया आफ्ना प्रयोगकर्ताहरूमा ध्यान केन्द्रित छन्। तथ्याङ्कले कसरी नेदरल्यान्डले व्यापारको ठूलो डेटाको Buelens et al. (2014) को मुद्दा मान्दछ भन्ने बारे थप Buelens et al. (2014) , Buelens et al. (2014) हेर्नुहोस् Buelens et al. (2014) ।
ठूलो डाटा स्रोतहरूको गैर-प्रतिनिधि प्रकृतिको बारेमा चिन्ता व्यक्त गर्ने शोधकर्ताहरूको उदाहरणका लागि, boyd and Crawford (2012) , K. Lewis (2015b) Hargittai (2015) K. Lewis (2015b) र Hargittai (2015) ।
सामाजिक सर्वेक्षण र महामारी विज्ञान अनुसन्धान को लक्ष्य को अधिक विस्तृत तुलना को लागी Keiding and Louis (2016) हेर्नुहोस्।
मतदाताहरूको बारेमा विशेष गरी Jungherr (2013) र Jungherr (2015) हेर्नुहोस्, विशेष गरी Jungherr (2013) मतदानको बारेमा चहचहाना प्रयोग गर्न प्रयास गर्नको लागी अधिक प्रयासका लागि। Tumasjan et al. (2010) को काम पछि Tumasjan et al. (2010) विश्वभरका शोधकर्ताहरूले फ्यान्टेरियर तरिकाहरू प्रयोग गरेका छन् - जस्तै कि भावनात्मक विश्लेषण प्रयोग गरेर पार्टनरको सकारात्मक र नकारात्मक उल्लेखहरू बीचमा फरक पार्ने - यसका लागि विभिन्न प्रकारका चुनावहरूको भविष्यवाणी गर्नको लागि ट्विटर डेटाको क्षमता सुधार गर्न (Gayo-Avello 2013; Jungherr 2015, chap. 7.) । यहाँ छ कसरी Huberty (2015) चुनावको भविष्यवाणी गर्न यी प्रयासहरूको नतिजालाई संक्षेप दिए:
"सोशल मिडियाको आधारमा सबै ज्ञात भविष्यवाणी गर्ने तरिकाहरू असफल भएका छन् जब साँचो अग्रेषित-हेर्दै छनोटको भविष्यवाणीको मागहरूको अधीनमा छ। यी विफलता पद्धति या एल्गोरिदममिक कठिनाइहरूको सट्टा सामाजिक सञ्जालको मौलिक गुणहरूको कारणले देखा पर्दछ। छोटोमा, सोशल मिडियाले सम्भावना नगर्ने, एक स्थिर, निष्पक्ष, मतदाताको प्रतिनिधित्व चित्र प्रदान गर्दछ; र सामाजिक मीडिया को सुविधा नमूने को यस समस्या को पछि पोस्ट को हल को लागि पर्याप्त डेटा को कमी छैन। "
अध्याय 3 मा, म नमूना र अनुमान धेरै वर्णनमा वर्णन गर्दछु। यद्यपि यदि डेटा अप्रासंगिक हो भने, केही परिस्थितिहरूमा, तिनीहरू राम्रो अनुमानहरू उत्पादन गर्न वजनमा राख्न सकिन्छ।
बाहिरबाट हेर्न प्रणाली बहाव धेरै गाह्रो छ। यद्यपि, मूवीएलन्स परियोजना (अध्याय 4 मा थप छलफल गरिएको) 15 शैक्षिकका लागि एक शैक्षणिक अनुसन्धान समूह द्वारा चलाइएको छ। यसैले, तिनीहरू कागजात गर्न र त्यस समयको बारे जानकारी को बारेमा जानकारी साझा गर्न सक्षम भएका छन् जसको समय समय संग विकसित भएको छ र यो कसरी विश्लेषण (Harper and Konstan 2015) हुन सक्छ।
Liu, Kliman-Silver, and Mislove (2014) र Tufekci (2014) ।
आबादी बहावसँग व्यवहार गर्ने एक तरिका प्रयोगकर्ताहरूको प्यानल सिर्जना गर्ने हो, जसले शोधकर्ताहरूलाई समयको साथमा धेरै मानिसहरूको अध्ययन गर्न अनुमति दिन्छ, Diaz et al. (2016) ।
मैले पहिलो शब्द "एल्गोरिदममिक रूपले भंग" शब्दको बारेमा सुनेको थियो जोन क्लेनबर्गले एक कुरामा प्रयोग गरे, तर दुर्भाग्यवश मलाई सम्झना छैन जब उक्त कुरा वा कहाँ दिइयो। पहिलो पटक मैले छाप छापेको शब्द Anderson et al. (2015) , जो डेटिङ साइट्स द्वारा प्रयोग गरिएको एल्गोरिदम कसरी कसरी एक रोचक चर्चा हो यो सामाजिक वेबसाइटहरु को लागि यो वेबसाइटहरु को डेटा को प्रयोग गर्न को शोधकर्ताओं को क्षमता को जटिल हुन सक्छ। यो चिन्ता Anderson et al. (2014) जवाफमा K. Lewis (2015a) द्वारा उठाएको थियो Anderson et al. (2014) ।
फेसबुकको अतिरिक्त, ट्विटरले प्रयोगकर्ताहरूको लागि ट्रयाडिक बन्द गर्ने विचारको आधारमा पछ्याउन सिफारिस गर्दछ; Su, Sharma, and Goel (2016) । त्यसो त चहचहानामा ट्रयाडिक बन्देजको स्तर तीन तन्त्रिक बन्दोबस्त र तीन एल्गोरिथ्म प्रवृत्तिका लागि केहि मानव प्रवृत्तिको एक संयोजन हो जुन ट्रयाडिक बन्द गर्ने को लागी बढावा दिन सक्छ।
कार्यक्षमतामा अधिकका लागि - विशेष गरी केही सोसायटी सिद्धान्तहरू "इन्जिन क्यामेराहरू" हुन् (जस्तै, उनीहरूले वर्णन गर्नु भन्दा सट्टा संसारलाई हेर्छन्) -से Mackenzie (2008) ।
सरकारी सांख्यिकीय एजेन्सीहरू डेटा सफाई तथ्याङ्क डाटा सम्पादनमा कल गर्छन्। De Waal, Puts, and Daas (2014) सर्वेक्षण डाटाको लागि विकसित तथ्याङ्कको तथ्याङ्क वर्णन गर्नुहोस् र उनीहरूको ठूलो डेटा स्रोतहरूमा लागू हुने हदसम्मको जाँच गर्नुहोस्, र Puts, Daas, and Waal (2015) केही विचारहरू अधिक सामान्य दर्शकहरू।
सामाजिक बटहरूको समीक्षाको लागि, Ferrara et al. (2016) । ट्विटरमा स्प्याम फेला पार्न ध्यान केन्द्रित केहि उदाहरणहरूको लागि, Clark et al. (2016) हेर्नुहोस् Clark et al. (2016) र Chu et al. (2012) । अन्तमा, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge को परिणामहरुको वर्णन गर्नुहोस्, चहचहानामा बट पत्ता लगाउने दृष्टिकोणहरूको तुलना गर्न डिजाइन गरिएको एक सामूहिक सहयोग।
Ohm (2015) संवेदनशील जानकारी को विचार मा पहिले अनुसन्धान को समीक्षा र एक बहु-फाईल परीक्षण प्रदान गर्दछ। उहाँले चारवटा कारक प्रस्तावित हानिको परिमाण, हानिको सम्भावना, गोपनीय सम्बन्धको उपस्थिति, र चाहे जोखिमले बहुपक्षीय चिन्तालाई प्रतिबिम्बित गर्दछ।
न्यूयर्कमा Camerer et al. (1997) अध्ययन Camerer et al. (1997) द्वारा पहिलेको अध्ययनमा आधारित थियो Camerer et al. (1997) कि कागज पेपर पानाहरूको तीन अलग सुविधा सुविधाहरू प्रयोग गर्थे। यो अघिल्लो अध्ययनले पत्ता लगाइयो कि ड्राइभरहरू लक्षित कमाउनेहरू लगिरहेका थिए: तिनीहरूले दिनभरि काम गरे जहाँ उनीहरूको वेतन उच्च थियो।
पछिको काममा, राजा र सहकर्मीहरूले चीनमा (King, Pan, and Roberts 2014, [@king_how_2016] ) अनलाइन सेंसरशिपलाई अन्वेषण गरेको छ। चीनमा अनलाईन सेन्सरशिपको मापदण्डको लागि, Bamman, O'Connor, and Smith (2012) । 11 मिलियन पदहरु को भावना को अनुमान गर्न को लागी King, Pan, and Roberts (2013) उपयोग की जाने वाला सांख्यिकीय विधिहरु मा अधिक को लागि, Hopkins and King (2010) हेर्नुहोस। पर्यवेक्षित शिक्षाको बारेमा बढीको लागि, James et al. (2013) हेर्नुहोस् James et al. (2013) (कम टेक्नोलोजी) र Hastie, Tibshirani, and Friedman (2009) (अधिक टेक्निकल)।
पूर्वानुमानन औद्योगिक डेटा विज्ञानको एक ठूलो भाग (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) । एक प्रकारको भविष्यवाणी जुन सामान्यतया सामाजिक शोधकर्ताहरूले गरेको छ, जनसांख्यिकीय भविष्यवाणी हो; उदाहरणका लागि, Raftery et al. (2012) ।
Google फ्लू ट्रान्जिट हालको इन्फ्लुएंजा प्रसारको खोजी खोजी प्रयोग गर्ने पहिलो प्रोजेक्ट थिएन। वास्तवमा, संयुक्त राज्यमा शोधकर्ताहरू (Polgreen et al. 2008; Ginsberg et al. 2009) र स्वीडेन (Hulth, Rydevik, and Linde 2009) ले फेला पारेका छन् कि केही खोजी सर्तहरू (उदाहरणका लागि, "फ्लू") राष्ट्रिय जन स्वास्थ्य निगरानीको अनुमान गरिएको छ। डाटा जारी गर्नु अघि। त्यसपछि धेरै, धेरै अन्य परियोजनाहरूले रोग निगरानी सर्वेक्षणका लागि डिजिटल ट्रेस डेटा प्रयोग गर्न खोजेको छ; Althouse et al. (2015) एक समीक्षाको लागि।
स्वास्थ्य परिणामहरूको अनुमान गर्न डिजिटल ट्रेस डेटा प्रयोग गर्ने क्रममा, ट्विटर परिणाम प्रयोग गर्ने चुनाव परिणामहरूको भविष्यवाणी गर्न पनि प्रयोग भएको छ। समीक्षाका लागि Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (अध्याय 7), र Huberty (2015) । आर्थिक संकेतकहरू, जस्तै सकल घरेलु उत्पादन (जीडीपी) को Bańbura et al. (2013) , केन्द्रीय बैंकहरूमा पनि सामान्य छ, Bańbura et al. (2013) । तालिका 2.8 ले केहि उदाहरणहरु को अध्ययन मा शामिल गर्दछ जुन केहि प्रकार को डिजिटल ट्रेस को उपयोग को दुनिया मा केहि प्रकार को घटना को भविष्यवाणी गर्न को लागी गर्दछ।
डिजिटल ट्रेस | परिणाम | उद्धरण |
---|---|---|
ट्विटर | अमेरिकामा चलचित्रहरूको बक्स अफिस राजस्व | Asur and Huberman (2010) |
लग लगहरू | अमेरिकामा चलचित्रहरू, संगीत, पुस्तकहरू, र भिडीयो खेलहरू बिक्री | Goel et al. (2010) |
ट्विटर | डाउ जोन्स इन्डियन औसत (यूएस शेयर बजार) | Bollen, Mao, and Zeng (2011) |
सामाजिक मिडिया र खोजी लगहरू | संयुक्त राज्य, यूनाइटेड किंगडम, क्यानाडा र चीनका लगानीकर्ता भावना र स्टक बजारहरूको सर्वेक्षण | Mao et al. (2015) |
लग लगहरू | सिंगापुर र बैंककमा डेंगू फेवरको प्रवृति | Althouse, Ng, and Cummings (2011) |
अन्ततः, जुन क्लेनबर्ग र सहकर्मीहरू (2015) ले बताएका छन् कि भविष्यवाणीहरू समस्याहरू दुई, सबभन्दा फरक फरक श्रेणीहरूमा आउँछ र सोशल वैज्ञानिकहरूले एकमा ध्यान केन्द्रित गर्न र अर्कोलाई बेवास्ता गर्न लगाएका छन्। एक नीति निर्माता बनाउने कल्पना गर्छु, म उनको अन्ना भन्छु, जसले सूखेको सामना गरिरहेको छ र तयारी गर्नुपर्दछ कि वर्षाको मौका बढ्नको लागी एक वर्षा नृत्य गर्न को लागी छ कि छैन। अर्को नीति निर्माता, म उनको बेट्टीलाई फोन गर्नेछु, निर्णय गर्नु पर्छ कि घरमा गीला पाईनबाट बच्न काम गर्न छाता लिन। अन्ना र बेट्टीले मौसम बुझ्न भने अझ राम्रो निर्णय गर्न सक्छ, तर तिनीहरू फरक कुराहरू जान्नुपर्छ। अन्नालाई बुझ्न आवश्यक छ कि वर्षाको नृत्यले वर्षा गर्दछ। Betty, अर्कोतर्फ, causality को बारेमा केहि बुझ्न आवश्यक छैन; त्यो सिर्फ एक सटीक पूर्वानुमान चाहिन्छ। सामाजिक शोधकर्ताहरूले अक्सर समस्याहरूमा ध्यान केन्द्रित गर्छन् जस्तै अन्ना-जो क्लिन्बर्ग र साथीहरूले "वर्षा नृत्य-जस्तो" नीति समस्यालाई बुझेका छन् किनभने तिनीहरू कारणताका प्रश्नहरू छन्। बेटी-जो क्लिन्बर्ग र सहकर्मीहरूले "छाता-जस्तो" नीतिको समस्यालाई बुझेको जस्तो प्रश्नहरू निकै महत्त्वपूर्ण हुन सक्छ, तर सामाजिक शोधकर्ताहरूबाट निकै कम ध्यान पाए।
पत्रिका पीएस राजनैतिक विज्ञानले ठूलो डेटा, कारण आविष्कार र औपचारिक सिद्धान्तमा एक सिमोजोमियम थियो, र Clark and Golder (2015) प्रत्येक योगदानको सारांश। संयुक्त राज्य अमेरिका को राष्ट्रीय एकेडेमी ऑफ साइंसेज की कार्यवाही causal inference र ठूलो डेटा मा एक संगोष्ठी थियो, र Shiffrin (2016) प्रत्येक योगदान को संक्षेप मा। ठूलो डेटा स्रोत भित्र प्राकृतिक प्रयोगहरू पत्ता लगाउन प्रयास गर्ने मेशिन सिकाउने दृष्टिकोणहरूको लागि, Jensen et al. (2008) हेर्नुहोस् Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , र Sharma, Hofman, and Watts (2016) ।
प्राकृतिक प्रयोगहरु को संदर्भ मा, Dunning (2012) ले धेरै उदाहरणहरु संग एक परिचयात्मक, बुक लम्बाई उपचार प्रदान गर्दछ। प्राकृतिक प्रयोगहरु को एक शंकास्पद दृष्टिकोण को लागि, Rosenzweig and Wolpin (2000) (अर्थशास्त्र) या Sekhon and Titiunik (2012) (राजनीतिक विज्ञान) हेर्नुहोस्। Deaton (2010) र Heckman and Urzúa (2010) तर्क गर्दछ कि प्राकृतिक प्रयोगहरूमा फोकस गर्न शोधकर्ताहरूको नेतृत्वले अनन्त प्रभावकारी प्रभावहरूको अनुमानमा ध्यान केन्द्रित गर्न सक्छ; Imbens (2010) यी तर्कहरूलाई प्राकृतिक प्रयोगहरूको मूल्यको थप आशावादी दृश्यको साथ काउन्टर गर्दछ।
जब प्रस्तुतीकरण को प्रभाव मा मस्यौदा को प्रभाव को अनुमान ले शोधकर्ता कसरि जान सक्छ, मैले टूल चर को रूप मा एक प्रविधी को वर्णन गरिरहेको थियो। Imbens and Rubin (2015) , तिनीहरूका अध्याय 23 र 24 मा, परिचय प्रदान गर्नुहोस् र ड्राफ्ट लटरीको उदाहरणको रूपमा प्रयोग गर्नुहोस्। अनुयायीहरूमा सैन्य सेवाको असर कहिलेकाहीं प्रकर्तक औसत कारण प्रभाव (CAcE) र कहिलेकाहीं स्थानीय औसत उपचार प्रभाव (लेट) भनिन्छ। Sovey and Green (2011) , Angrist and Krueger (2001) , र Bollen (2012) ले राजनीतिक विज्ञान, अर्थशास्त्र, र समाजशास्त्रमा सहायक चरको प्रयोगको समीक्षाहरू प्रदान गर्दछ, र Sovey and Green (2011) लागि "पाठक जाँच सूची" प्रदान गर्दछ। औँल्यात्मक प्रयोगको प्रयोग गरेर अध्ययनहरू मूल्याङ्कन गर्दै।
यो थाहा पाउँछ कि 1 9 70 मस्यौदा लटरीको थिएन, वास्तवमा ठीक तरिकाले अनियमित भयो; शुद्ध अनियमितताबाट सानो विचलनहरू थिए (Fienberg 1971) । Berinsky and Chatfield (2015) तर्क गर्दछ कि यो सानो विचलन अत्यन्त महत्त्वपूर्ण छैन र राम्रो तरिकाले Berinsky and Chatfield (2015) को महत्व को बारे मा चर्चा गर्दछ।
मिल्दो सर्तमा, Stuart (2010) लाई आशावादी समीक्षाका लागि हेर्नुहोस्, र Sekhon (2009) एक निराशावादी समीक्षाको लागि। एक प्रकार को प्रजाति को रूप मा मिल्दो मा अधिक को लागि, Ho et al. (2007) । प्रत्येक व्यक्तिको लागि एक एकदम सही मिलान पत्ता लगाउँदा प्राय: गाह्रो छ, र यो धेरै जटिलताहरु परिचय। पहिलो, जब सटीक मिलानहरू उपलब्ध छैनन्, शोधकर्ताहरूलाई निर्णय गर्न आवश्यक छ कि दुई एकाइहरू बीचको दूरी कसरी निर्धारण गर्ने र यदि दिइएको दूरी पर्याप्त नजिक छ। दोस्रो जटिलता उत्पन्न हुन्छ यदि शोधकर्ताहरूले प्रत्येक समूहको उपचार समूहमा बहुविध म्याचहरू प्रयोग गर्न चाहन्छन्, यसले यसले थप सटीक अनुमानहरूको सामना गर्न सक्छ। यी दुवै मुद्दाहरू र साथै अरूहरू दुवै विवरणमा वर्णन गरिएका छन् Imbens and Rubin (2015) अध्याय 18 मा Imbens and Rubin (2015) । को भाग II ( ??? ) पनि हेर्नुहोस्।
उदाहरण को लागि Dehejia and Wahba (1999) हेर्नुहोस जहाँ मिल्दो तरिकाहरु को एक randomized controlled experiment from those similar to estimates उत्पादन गर्न सक्षम थिए। तर, Arceneaux, Gerber, and Green (2006) र Arceneaux, Gerber, and Green (2010) जहाँ मिल्ने तरिकाहरू प्रयोगात्मक बेंचमार्क पुन: पेश गर्न असफल भयो।
Rosenbaum (2015) र Hernán and Robins (2016) ठूलो डाटा स्रोत भित्र उपयोगी तुलना खोज्न अन्य सल्लाह प्रदान गर्दछ।