यह खंड के बजाय एक कथा के रूप में पढ़ा जा करने के लिए एक संदर्भ के रूप में इस्तेमाल किया जा करने के लिए बनाया गया है।
के देख रहा है कि इस अध्याय में शामिल नहीं है एक तरह नृवंशविज्ञान है। डिजिटल रिक्त स्थान में नृवंशविज्ञान पर अधिक के लिए देख Boellstorff et al. (2012) , और मिश्रित डिजिटल और शारीरिक रिक्त स्थान में नृवंशविज्ञान पर अधिक के लिए देख Lane (2016) ।
आप डेटा repurposing रहे हैं, वहाँ दो मानसिक चालें आप संभव समस्याओं है कि आप मुठभेड़ हो सकता है समझ में मदद कर सकते हैं। सबसे पहले, आप अपनी समस्या के लिए आदर्श डाटासेट कल्पना करने की कोशिश कर सकते हैं और डाटासेट है कि आप प्रयोग कर रहे हैं कि तुलना करें। वे कैसे समान हैं और वे कैसे अलग हैं? आप अपने आप को अपने डेटा जमा नहीं किया है, वहाँ आप क्या चाहते हैं और क्या आपके पास बीच का अंतर हो जाने की संभावना है। लेकिन, आप अगर इन मतभेदों को छोटी या बड़ी हैं फैसला करना है।
दूसरा, याद है कि किसी को बनाया है और किसी कारण के लिए अपने डेटा एकत्र। आप उनके तर्क को समझने की कोशिश करनी चाहिए। रिवर्स इंजीनियरिंग के इस तरह आप अपने डेटा repurposed में संभावित समस्याओं और पूर्वाग्रहों की पहचान में मदद कर सकते हैं।
वहाँ "बिग डाटा" का कोई भी आम सहमति परिभाषा है, लेकिन कई परिभाषाएं 3 बनाम पर ध्यान केंद्रित करने लगते हैं: (उदाहरण के लिए, मात्रा, विविधता, और वेग Japec et al. (2015) )। बल्कि डेटा की विशेषताओं पर ध्यान केंद्रित से, मेरी परिभाषा क्यों डेटा बनाया गया था पर अधिक केंद्रित है।
बड़ा डेटा की श्रेणी के अंदर सरकार प्रशासनिक डेटा मेरे लिए शामिल किए जाने के एक सा असामान्य रूप से है। दूसरों को, जो इस मामले बना दिया है, शामिल हैं Legewie (2015) , Connelly et al. (2016) , और Einav and Levin (2014) । अनुसंधान के लिए सरकार प्रशासनिक डेटा के मूल्य के बारे में अधिक जानकारी के लिए, वहाँ Card et al. (2010) , Taskforce (2012) , और Grusky, Smeeding, and Snipp (2015) ।
सरकार सांख्यिकीय प्रणाली, विशेष रूप से अमेरिकी जनगणना ब्यूरो के अंदर से प्रशासनिक अनुसंधान के एक दृश्य के लिए, देखें Jarmin and O'Hara (2016) । सांख्यिकी स्वीडन में प्रशासनिक रिकॉर्ड अनुसंधान की एक किताब लंबाई उपचार के लिए, देखें Wallgren and Wallgren (2007) ।
अध्याय में, मैं संक्षेप में इस तरह के सामान्य सामाजिक सर्वेक्षण (जीएसएस) एक सामाजिक मीडिया डेटा स्रोत के लिए इस तरह के ट्विटर के रूप में के रूप में एक पारंपरिक सर्वेक्षण की तुलना में। पारंपरिक सर्वेक्षण और सामाजिक मीडिया डेटा के बीच एक पूरी तरह से और सावधान तुलना के लिए, वहाँ Schober et al. (2016) ।
बड़े डेटा के इन 10 विशेषताओं अलग अलग तरीकों की एक किस्म में विभिन्न लेखकों की एक किस्म से वर्णित किया गया है। लेखन है कि इन मुद्दों पर मेरी सोच को प्रभावित शामिल हैं: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , और Goldstone and Lupyan (2016) ।
इस अध्याय के दौरान, मैं अवधि डिजिटल निशान है, जो मुझे लगता है कि अपेक्षाकृत तटस्थ है का उपयोग किया है। डिजिटल निशान के लिए एक अन्य लोकप्रिय शब्द डिजिटल पैरों के निशान है (Golder and Macy 2014) , लेकिन हैल Abelson, केन Ledeen, और हैरी लुईस के रूप में (2008) का कहना है, एक अधिक उपयुक्त शब्द शायद डिजिटल उंगलियों के निशान है। जब आप पैरों के निशान बनाते हैं, आप क्या हो रहा है और अपने पैरों के निशान आम तौर पर व्यक्तिगत रूप से आप को पता नहीं लगाया जा सकता है के बारे में पता कर रहे हैं। एक ही अपने डिजिटल निशान के लिए सही नहीं है। वास्तव में, आप निशान छोड़ जाते हैं सब समय के बारे में जो आप बहुत कम ज्ञान है। और, यद्यपि इन निशान उन पर अपने नाम की जरूरत नहीं है, वे अक्सर वापस करने के लिए जोड़ा जा सकता है। दूसरे शब्दों में, वे और अधिक उंगलियों के निशान की तरह हैं: अदृश्य और व्यक्तिगत पहचान।
बड़े
यही कारण है कि बड़े डेटासेट, सांख्यिकीय परीक्षण समस्याग्रस्त प्रस्तुत करना पर अधिक के लिए, देखें Lin, Lucas, and Shmueli (2013) और McFarland and McFarland (2015) । इन मुद्दों शोधकर्ताओं का नेतृत्व सांख्यिकीय महत्व के बजाय व्यावहारिक महत्व पर ध्यान केंद्रित करना चाहिए।
हमेशा बने रहें
जब विचार हमेशा पर डेटा, यह महत्वपूर्ण विचार करने के लिए है कि क्या आप समय के साथ ठीक उसी लोगों तुलना कर रहे हैं या कि क्या आप लोगों में से कुछ को बदलने के समूह की तुलना कर रहे है; उदाहरण के लिए देखें, Diaz et al. (2016) ।
गैर प्रतिक्रियाशील
गैर प्रतिक्रियाशील उपायों पर एक क्लासिक किताब है Webb et al. (1966) । किताब पूर्व की तारीख में उदाहरण डिजिटल युग है, लेकिन वे अभी भी रोशन कर रहे हैं। बड़े पैमाने पर निगरानी की मौजूदगी की वजह से उनके व्यवहार को बदलने लोगों के उदाहरण के लिए, देखें Penney (2016) और Brayne (2014) ।
अधूरा
रिकॉर्ड संबंध के बारे में अधिक के लिए, देखें Dunn (1946) और Fellegi and Sunter (1969) (ऐतिहासिक) और Larsen and Winkler (2014) (आधुनिक)। इसी तरह के डेटा का दरवाजा खटखटाया deduplication, उदाहरण पहचान, नाम मिलान के रूप में भी नाम के तहत कंप्यूटर विज्ञान के क्षेत्र में विकसित किया गया है, का पता लगाने नकल, और रिकार्ड का पता लगाने नकल (Elmagarmid, Ipeirotis, and Verykios 2007) । वहाँ भी गोपनीयता लिंकेज जो व्यक्तिगत रूप से जानकारी की पहचान के संचरण की आवश्यकता नहीं है रिकॉर्ड करने के लिए दृष्टिकोण को जीवित रखा है (Schnell 2013) । फेसबुक भी एक मतदान व्यवहार करने के लिए उनके रिकॉर्ड से जोड़ने के लिए आगे बढ़ना विकसित की है; यह एक प्रयोग है कि मैं तुम्हें अध्याय 4 में के बारे में बताता हूँ मूल्यांकन करने के लिए किया गया था (Bond et al. 2012; Jones et al. 2013) ।
निर्माण वैधता के बारे में अधिक के लिए, देखें Shadish, Cook, and Campbell (2001) , अध्याय 3।
दुर्गम
एओएल खोज लॉग पराजय के बारे में अधिक के लिए, देखें Ohm (2010) । मैं कंपनियों और अध्याय 4 में सरकारों के साथ साझेदारी के बारे में सलाह देने के लिए जब मैं प्रयोगों का वर्णन है। लेखकों में से एक नंबर अनुसंधान कि दुर्गम डेटा पर निर्भर करता है के बारे में चिंता व्यक्त की है, वहाँ Huberman (2012) और boyd and Crawford (2012) ।
विश्वविद्यालय के शोधकर्ताओं डेटा का उपयोग प्राप्त करने के लिए एक अच्छा तरीका एक प्रशिक्षु या जाकर शोधकर्ता के रूप में एक कंपनी में काम करने के लिए है। डेटा उपयोग को सक्षम करने के अलावा, इस प्रक्रिया में भी मदद मिलेगी शोधकर्ता के बारे में कैसे डेटा बनाया गया था, जो विश्लेषण के लिए महत्वपूर्ण है और अधिक जानने के।
गैर प्रतिनिधि
गैर-प्रातिनिधिकता शोधकर्ताओं और सरकारों को जो एक पूरी आबादी के बारे में बयान देने के लिए इच्छा के लिए एक बड़ी समस्या है। यह कंपनियों है कि आम तौर पर उनके उन पर ध्यान केंद्रित कर रहे हैं के लिए चिंता का कम है। कैसे सांख्यिकी नीदरलैंड व्यापार बड़ा डेटा के गैर प्रातिनिधिकता के मुद्दे पर विचार के लिए पर अधिक के लिए, देखें Buelens et al. (2014) ।
अध्याय 3 में, मैं बहुत अधिक विस्तार में नमूना और आकलन का वर्णन करेंगे। यहां तक कि अगर डेटा गैर प्रतिनिधि, कुछ शर्तों के तहत कर रहे हैं, वे अच्छे अनुमान के उत्पादन के लिए भारित किया जा सकता है।
बहती
प्रणाली बहाव बाहर से देखने के लिए बहुत मुश्किल है। हालांकि, MovieLens परियोजना (अध्याय 4 में अधिक चर्चा) एक शैक्षिक अनुसंधान समूह द्वारा 15 से अधिक वर्षों के लिए चलाया जा रहा है। इसलिए, वे दस्तावेज और साझा तरीका है कि सिस्टम में समय के साथ विकसित किया गया है और कैसे के बारे में जानकारी है इस विश्लेषण को प्रभावित कर सकता है (Harper and Konstan 2015) ।
विद्वानों की एक संख्या ट्विटर में बहाव पर ध्यान केंद्रित किया है: Liu, Kliman-Silver, and Mislove (2014) और Tufekci (2014) ।
एल्गोरिदम मुंह काला
मैं पहली बार सुना शब्द "एल्गोरिदम मुंह काला" एक बात में जॉन Kleinberg द्वारा इस्तेमाल किया। Performativity के पीछे मुख्य विचार यह है कि कुछ सामाजिक विज्ञान के सिद्धांतों "इंजन नहीं कैमरों" कर रहे है (Mackenzie 2008) । यही है, वे वास्तव में दुनिया को आकार के बजाय सिर्फ यह कब्जा।
गंदा
सरकारी सांख्यिकीय एजेंसियों डेटा सफाई, सांख्यिकीय डेटा संपादन कहते हैं। De Waal, Puts, and Daas (2014) सर्वेक्षण के आंकड़ों के लिए विकसित सांख्यिकीय डेटा संपादन तकनीकों का वर्णन है और जांच करने के लिए किस हद तक वे बड़े डेटा स्रोतों के लिए लागू है, और Puts, Daas, and Waal (2015) एक अधिक सामान्य दर्शकों के लिए ही विचारों में से कुछ प्रस्तुत करता है।
ट्विटर, में स्पैम पर ध्यान केंद्रित अध्ययन के कुछ उदाहरणों के लिए Clark et al. (2016) और Chu et al. (2012) । अंत में, Subrahmanian et al. (2016) DARPA ट्विटर बीओटी चैलेंज के परिणामों का वर्णन है।
संवेदनशील
Ohm (2015) की समीक्षा संवेदनशील जानकारी के विचार पर पहले अनुसंधान और एक बहु-कारक परीक्षण प्रदान करता है। चार कारकों वह प्रस्ताव कर रहे हैं: नुकसान की संभावना; नुकसान की संभावना; एक गोपनीय रिश्ते की उपस्थिति; और क्या जोखिम बहुसंख्यकों की चिंताओं को प्रतिबिंबित।
न्यूयॉर्क में टैक्सियों की फार्बर के अध्ययन से पहले के एक अध्ययन पर आधारित था Camerer et al. (1997) है कि कागज यात्रा शीट कागज चालकों द्वारा इस्तेमाल के लिए यात्रा शुरू करने का समय रिकॉर्ड करने के लिए रूपों, अंत समय और किराया के तीन अलग अलग सुविधा के नमूनों का इस्तेमाल किया। यह पहले के अध्ययन में पाया गया है कि ड्राइवरों लक्ष्य अर्जक होना प्रतीत होता है: वे दिन जहां उनकी मजदूरी अधिक थे पर कम काम किया।
Kossinets and Watts (2009) सामाजिक नेटवर्क में homophily के मूल पर ध्यान केंद्रित किया गया। देखें Wimmer and Lewis (2010) में एक ही समस्या है जो फेसबुक से डेटा का उपयोग करने के लिए एक अलग दृष्टिकोण के लिए।
बाद के काम में, राजा और उनके सहयोगियों के आगे चीन में ऑनलाइन सेंसरशिप का पता लगाया है (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) । चीन में ऑनलाइन सेंसरशिप को मापने के लिए एक संबंधित दृष्टिकोण के लिए, देखें Bamman, O'Connor, and Smith (2012) । में इस्तेमाल एक तरह सांख्यिकीय तरीकों पर अधिक के लिए King, Pan, and Roberts (2013) में 11 लाख पदों की भावना अनुमान लगाने के लिए, यह देखने Hopkins and King (2010) । निगरानी की शिक्षा पर अधिक के लिए, देखें James et al. (2013) (कम तकनीकी) और Hastie, Tibshirani, and Friedman (2009) (अधिक तकनीकी)।
पूर्वानुमान औद्योगिक डेटा विज्ञान का एक बड़ा हिस्सा है (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) । भविष्यवाणी का एक प्रकार है कि आमतौर पर सामाजिक शोधकर्ताओं द्वारा किया जाता है, उदाहरण के लिए, जनसांख्यिकीय भविष्यवाणी कर रहे हैं Raftery et al. (2012) ।
Google फ़्लू रुझान इन्फ्लूएंजा प्रसार nowcast करने के लिए खोज डेटा का उपयोग करने के लिए पहली परियोजना नहीं था। वास्तव में, संयुक्त राज्य अमेरिका में शोधकर्ताओं (Polgreen et al. 2008; Ginsberg et al. 2009) और स्वीडन (Hulth, Rydevik, and Linde 2009) ने पाया है कि कुछ खोज शब्द (जैसे, "फ्लू") की भविष्यवाणी की राष्ट्रीय सार्वजनिक स्वास्थ्य निगरानी यह पहले डेटा जारी किया गया था। इसके बाद कई, कई अन्य परियोजनाओं रोग निगरानी का पता लगाने के लिए डिजिटल ट्रेस डेटा का उपयोग करने के लिए, यह देखने की कोशिश की है Althouse et al. (2015) एक समीक्षा के लिए।
स्वास्थ्य के परिणामों की भविष्यवाणी करने के लिए डिजिटल ट्रेस डेटा का उपयोग करने के अलावा, वहाँ भी ट्विटर डेटा का उपयोग कर चुनाव परिणाम की भविष्यवाणी करने के लिए काम की एक बड़ी राशि की गई है; समीक्षा के लिए देख Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (सी एच। 7), और Huberty (2015) ।
इन्फ्लूएंजा प्रसार की भविष्यवाणी और भविष्यवाणी करने के लिए चुनाव दुनिया में घटना की किसी तरह की भविष्यवाणी करने के लिए डिजिटल ट्रेस किसी तरह का उपयोग दोनों के उदाहरण हैं ट्विटर डेटा का उपयोग करने के लिए खोज डेटा का उपयोग कर। वहाँ अध्ययनों से यह सामान्य संरचना है कि एक विशाल संख्या है। टेबल 2.5 कुछ अन्य उदाहरण भी शामिल है।
डिजिटल ट्रेस | परिणाम | उद्धरण |
---|---|---|
ट्विटर | अमेरिका में फिल्मों के बॉक्स ऑफिस राजस्व | Asur and Huberman (2010) |
खोज लॉग | अमेरिका में सिनेमा, संगीत, किताबें, और वीडियो गेम की बिक्री | Goel et al. (2010) |
ट्विटर | डॉव जोंस इंडस्ट्रियल एवरेज (अमेरिकी शेयर बाजार) | Bollen, Mao, and Zeng (2011) |
पत्रिका पी एस राजनीति विज्ञान बड़े डेटा, कारण अनुमान, और औपचारिक सिद्धांत पर एक विचार गोष्ठी की थी, और Clark and Golder (2015) प्रत्येक योगदान का सार। संयुक्त राज्य अमेरिका की नेशनल एकेडमी ऑफ साइंसेज के जर्नल कार्यवाही कारण अनुमान और बड़े डेटा पर एक संगोष्ठी थी, और Shiffrin (2016) प्रत्येक योगदान का सार।
प्राकृतिक प्रयोगों के संदर्भ में, Dunning (2012) एक उत्कृष्ट पुस्तक लंबाई उपचार प्रदान करता है। एक प्रयोग के रूप में प्राकृतिक वियतनाम मसौदा लॉटरी के उपयोग पर अधिक के लिए, देखें Berinsky and Chatfield (2015) । मशीन सीखने दृष्टिकोण स्वचालित रूप से बड़े डेटा स्रोतों के अंदर प्राकृतिक प्रयोगों की खोज करने का प्रयास है कि के लिए, देखें Jensen et al. (2008) और Sharma, Hofman, and Watts (2015) ।
मिलान के संदर्भ में, एक आशावादी समीक्षा के लिए, वहाँ Stuart (2010) , और एक निराशावादी समीक्षा के लिए देख Sekhon (2009) । छंटाई का एक प्रकार के रूप में मिलान पर अधिक के लिए, वहाँ Ho et al. (2007) । किताबें है कि मिलान के उत्कृष्ट उपचार प्रदान के लिए, देखें Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , और Imbens and Rubin (2015) ।