पुढील भाष्य

या विभागात एक गोष्ट म्हणून वाचले पाहिजे ऐवजी, एक संदर्भ म्हणून वापर करण्यासाठी केली आहे.

  • परिचय (विभाग 2.1,)

त्या या प्रकरणात मध्ये समाविष्ट नाही पाहणी एक प्रकारची ethnography आहे. डिजिटल मोकळी जागा ethnography अधिक पहा Boellstorff et al. (2012) , आणि मिश्र डिजिटल आणि भौतिक मोकळी जागा ethnography अधिक पाहू Lane (2016) .

  • मोठे डेटा (विभाग 2.2)

आपण डेटा repurposing करता, तेव्हा आपण आपल्याला आढळतात, यासाठी की, शक्य समस्या समजण्यास मदत करू शकता दोन मानसिक युक्त्या आहेत. प्रथम, आपण आपल्या समस्या आदर्श डेटासेटमध्ये कल्पना करण्याचा प्रयत्न करू शकता तसेच आपण वापरत असलेल्या त्या डेटासेटच्या की तुलना करा. ते कसे समान आहेत आणि ते कसे वेगळे आहेत? आपण आपला डेटा स्वत: ला गोळा नाही, तर आपण करू आणि काय आहे काय फरक पडण्याची शक्यता आहे. पण, आपण हे मतभेद लघू आणि मुख्य आहेत, तर निर्णय लागेल.

दुसरी गोष्ट म्हणजे, कोणीतरी तयार केले आणि काही कारणास्तव आपला डेटा गोळा लक्षात ठेवा. आपण आहे कारण समजून घेण्याचा प्रयत्न करू नये. उलट-अभियांत्रिकी या प्रकारची आपण आपल्या repurposed डेटा शक्य समस्या आणि चुका ओळखण्यास मदत करू शकते.

(उदा, वॉल्यूम, विविध, आणि गती: ", मोठे डेटा" नाही एकच एकमत व्याख्या आहे, पण अनेक व्याख्या 3 वि लक्ष केंद्रित दिसत Japec et al. (2015) ). उलट डेटा वैशिष्ट्ये लक्ष केंद्रित पेक्षा, माझ्या व्याख्या डेटा तयार होते का जास्त आहे.

मोठे डेटा श्रेणी आत सरकारने प्रशासकीय डेटा माझे समावेश थोडा विलक्षण आहे. इतर या प्रकरणात केला आहे, समावेश Legewie (2015) , Connelly et al. (2016) , आणि Einav and Levin (2014) . संशोधन केंद्र सरकारने प्रशासकीय डेटा मूल्य याबद्दल अधिक माहितीसाठी, पहा Card et al. (2010) , Taskforce (2012) , आणि Grusky, Smeeding, and Snipp (2015) .

सरकार संख्याशास्त्रीय प्रणाली, विशेषतः अमेरिकन जनगणना ब्यूरो आतून प्रशासकीय संशोधन एक दृश्य, पहा Jarmin and O'Hara (2016) . सांख्यिकी स्विडन येथे प्रशासकीय रेकॉर्ड संशोधन एक पुस्तक लांबी उपचार, पहा Wallgren and Wallgren (2007) .

अध्यायात मी थोडक्यात अशा ट्विटर म्हणून सामान्य सामाजिक सर्वेक्षण (GSS) हा एक सामाजिक माध्यम डेटा स्त्रोत म्हणून एक पारंपारिक सर्वेक्षण तुलनेत. पारंपारिक सर्वेक्षण आणि सामाजिक माध्यम डेटा दरम्यान कसून आणि काळजी घ्या तुलनेत, हे पहा Schober et al. (2016) .

  • मोठे डेटा सामान्य वैशिष्ट्ये (िवभाग 2.3)

मोठे डेटा या 10 वैशिष्ट्ये विविध लेखक विविध विविध प्रकारे विविध वर्णन केले आहे. लेखन या विषयांवर माझे विचार प्रभाव समावेश: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , आणि Goldstone and Lupyan (2016) .

या प्रकरणात संपूर्ण, मी मला वाटतं जे तुलनेने तटस्थ हा शब्द डिजिटल मागोवा वापर केला आहे. डिजिटल मागोवा दुसर्या लोकप्रिय टर्म डिजिटल पाऊलखुणा आहे (Golder and Macy 2014) , पण मारतच Abelson, केन Ledeen, आणि हॅरी लुईस म्हणून (2008) दाखविणे, एक अधिक योग्य शब्द कदाचित डिजिटल फिंगरप्रिंट्स आहे. आपण पाऊलखुणा निर्माण तेव्हा, आपण काय आणि आपल्या ठसे साधारणपणे तुम्हाला सापडले जाऊ शकत नाही काय आहे याची जाणीव आहे. त्याच आपल्या डिजिटल मागोवा खरे नाही. खरं तर, आपण मागोवा सर्व वेळ आपण खूप थोडे ज्ञान आहे, जे बद्दल सोडून निघाले आहेत. आणि का नाही या मागोवा त्यांना आपले नाव नाही तरी, ते अनेकदा आपण परत दुवा साधला जाऊ शकतो. दुसऱ्या शब्दांत, ते अधिक ठसा आहेत: अदृश्य आणि वैयक्तिकरित्या ओळखण्यायोग्य.

बिग

मोठ्या डेटाबेस प्रस्तुत का संख्याशास्त्रीय चाचण्या समस्याप्रधान अधिक माहितीसाठी, पहा Lin, Lucas, and Shmueli (2013) आणि McFarland and McFarland (2015) . या समस्या व्यावहारिक महत्व ऐवजी संख्याशास्त्रीय महत्व लक्ष केंद्रित संशोधक होऊ नये.

नेहमी सुरू

विचार करताना नेहमी डेटा, हे महत्त्वाचे आहे आपण वेळेत तंतोतंत समान लोक तुलना करत आहोत किंवा आपण लोक काही बदलून गट तुलना करत आहोत की नाही हे लक्षात आहे; उदाहरणादाखल पाहा Diaz et al. (2016) .

नॉन reactive

नॉन reactive उपाय एक क्लासिक पुस्तक आहे Webb et al. (1966) . पुस्तक प्री-तारीख उदाहरणे डिजिटल वय, पण तरीही त्यांना साग आहेत. कारण वस्तुमान पाळत ठेवणे उपस्थिती त्यांच्या वर्तन बदलत लोक उदाहरणं, पाहू Penney (2016) आणि Brayne (2014) .

अपूर्ण

रेकॉर्ड संबंध अधिक माहितीसाठी, पहा Dunn (1946) आणि Fellegi and Sunter (1969) (ऐतिहासिक) आणि Larsen and Winkler (2014) (आधुनिक). समान असा डेटा डुप्लिकेशन, उदाहरणार्थ ओळख, नाव जुळणारे संपर्क साधला देखील नावे अंतर्गत संगणक विज्ञान विकसित केले आहेत, ओळख, डुप्लिकेट, आणि रेकॉर्ड शोध नक्कल (Elmagarmid, Ipeirotis, and Verykios 2007) . देखील कोणते वैयक्तिकरित्या माहिती असते प्रसारित आवश्यकता नाही लिंकेज रेकॉर्ड पध्दती तशीच गोपनीयता आहेत (Schnell 2013) . फेसबुक एक मतदान वर्तन त्यांचे रेकॉर्ड दुवा पुढे विकसित केले आहे; हे मी धडा 4 सांगू शकाल की एक प्रयोग मूल्यमापन केले (Bond et al. 2012; Jones et al. 2013) .

बांधकाम वैधता अधिक माहितीसाठी, पहा Shadish, Cook, and Campbell (2001) , 3.

प्रवेश

AOL शोध लॉग बोजवारा अधिक माहितीसाठी, पहा Ohm (2010) . मी प्रयोग वर्णन तेव्हा कंपन्या आणि 4 सरकार भागीदारी बद्दल सल्ला देतात. लेखक अनेक प्रवेश डेटा वर आधारीत आहे जे संशोधन चिंता व्यक्त केली, पाहू Huberman (2012) आणि boyd and Crawford (2012) .

विद्यापीठ संशोधक डेटा प्रवेश प्राप्त करण्यासाठी एक चांगला मार्ग एक हद्दीच्या भेट संशोधक म्हणून एक कंपनी काम आहे. डेटा प्रवेश सक्षम व्यतिरिक्त, ही प्रक्रिया देखील संशोधक जे विश्लेषण महत्त्वाचे आहे, डेटा कसे तयार केले होते बद्दल अधिक जाणून घेण्यासाठी मदत करेल.

नॉन-प्रतिनिधी

नॉन-representativeness संपूर्ण लोकसंख्या सुमारे विधाने करू इच्छिणाऱ्या संशोधक आणि सरकार एक मोठी समस्या आहे. हे सामान्यत: त्यांच्या वापरकर्त्यांना लक्ष केंद्रित आहेत की कंपन्या चिंता कमी आहे. सांख्यिकी नेदरलँड्स व्यवसाय मोठे डेटा न representativeness जारी असणारी याबद्दल अधिक पहा Buelens et al. (2014) .

3, मी खूप जास्त तपशील नमूना आणि अंदाज वर्णन करू. डेटा विशिष्ट परिस्थिती अंतर्गत बिगर प्रतिनिधी, तरीही, ते चांगले अंदाज निर्मिती सरासरी केले जाऊ शकते.

दिशेने प्रवाहित

प्रणाली वाहून नेणे बाहेर पाहू खूप कठीण आहे. तथापि, MovieLens प्रकल्प (धडा 4 अधिक चर्चा) एक शैक्षणिक संशोधन गट करून 15 पेक्षा जास्त वर्षे चालवा गेले आहे. त्यामुळे ते दस्तऐवजीकरण आणि सामायिक प्रणाली वेळ सीडी तयार झाली आहे की मार्ग आणि याबद्दल माहिती आहे हे विश्लेषण परिणाम करतात हे (Harper and Konstan 2015) .

विद्वान अनेक ट्विटर वाहून नेणे लक्ष केंद्रीत केले आहे: Liu, Kliman-Silver, and Mislove (2014) आणि Tufekci (2014) .

अल्गोरिदमपणे दु: खी

मी प्रथम ऐकले पद चर्चा मध्ये जॉन Kleinberg वापरले जाणारे "अल्गोरिदमपणे दु: खी". Performativity मागे मुख्य कल्पना काही विज्ञान सामाजिक सिद्धांत "इंजिन नाही कॅमेरे" आहे (Mackenzie 2008) . म्हणजे, ते प्रत्यक्षात जग आकार ऐवजी फक्त तो काबीज.

डर्टी

सरकारी आकडेवारी संस्था डेटा स्वच्छता, सांख्यिकीय माहिती संपादन कॉल. De Waal, Puts, and Daas (2014) सर्वेक्षण डेटा विकसित सांख्यिकीय माहिती संपादन तंत्र वर्णन आणि ते मोठे डेटा सूत्रांनी लागू, आणि जे प्रमाणात परीक्षण Puts, Daas, and Waal (2015) अधिक सामान्य प्रेक्षकांसाठी त्याच काही कल्पना सादर करतो.

ट्विटर, स्पॅम लक्ष केंद्रित अभ्यास काही उदाहरणे Clark et al. (2016) आणि Chu et al. (2012) . शेवटी, Subrahmanian et al. (2016) DARPA ट्विटर बॉट आव्हान परिणाम वर्णन.

संवेदनशील

Ohm (2015) संवेदनशील माहिती कल्पना पूर्वीचे संशोधन पुनरावलोकन आणि मल्टि-घटक चाचणी देते. तो प्रस्ताव चार घटक आहेत: हानी शक्यता; हानी शक्यता; एक गोपनीय संबंध उपस्थिती; ती राजवट म्हणजे बहुसंख्याकांचा चिंता प्रतिबिंबित धोका नाही.

  • गोष्टी मोजणी (विभाग 2.4.1)

न्यू यॉर्क मध्ये टॅक्सी च्या Farber अभ्यास करून पूर्वीच्या अभ्यास आधारित होती Camerer et al. (1997) कागद ट्रिप पत्रके-पेपर फॉर्म ट्रिप प्रारंभ वेळ रेकॉर्ड ड्राइव्हर्स् तर्फे केला, शेवटी वेळ, आणि धन तीन वेगवेगळ्या सोयीसाठी नमुने वापरले. ते दिवस वेतन उच्च होते जेथे कमी काम: या पूर्वीचे अभ्यास ड्राइवर लक्ष्य कमावती असणे होती असे आढळले.

Kossinets and Watts (2009) सामाजिक नेटवर्क homophily उगम लक्ष केंद्रित केले. पहा Wimmer and Lewis (2010) फेसबुक डेटा वापरते त्याच समस्या भिन्न दृष्टिकोन आहे.

त्यानंतरच्या काम, राजा आणि सहकारी पुढील चीन मध्ये ऑनलाइन सेन्सॉरशिप शोध लावला आहे (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . चीन मध्ये ऑनलाइन सेन्सॉरशिप मोजण्यासाठी एक संबंधित दृष्टिकोन, पहा Bamman, O'Connor, and Smith (2012) . मध्ये वापरल्या सारखे सांख्यिकीय पद्धती अधिक King, Pan, and Roberts (2013) 11 दशलक्ष पोस्ट भावना अंदाज पाहू, Hopkins and King (2010) . पर्यवेक्षण शिक्षण अधिक माहितीसाठी, पहा James et al. (2013) (कमी तांत्रिक) आणि Hastie, Tibshirani, and Friedman (2009) (अधिक तांत्रिक).

  • अंदाज (विभाग 2.4.2)

अंदाज औद्योगिक डेटा विज्ञान एक मोठा भाग आहे (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . सामान्यपणे सामाजिक संशोधक केल्या आहेत, अंदाज एक प्रकार उदाहरणार्थ, डेमोग्राफिक अंदाज आहेत Raftery et al. (2012) .

म्हणून Google Flu Trends शोध डेटा वापरू इन्फ्लूएन्झा प्रभाव nowcast प्रथम प्रकल्प नाही. खरं तर, युनायटेड स्टेट्स मध्ये संशोधक (Polgreen et al. 2008; Ginsberg et al. 2009) आणि स्वीडन (Hulth, Rydevik, and Linde 2009) की विशिष्ट शोध संज्ञा (उदा, "फ्लू") राष्ट्रीय सार्वजनिक आरोग्य पाळत ठेवणे अंदाज आढळले आहेत तो आधी आकडेवारी जाहीर करण्यात आली होती. त्यानंतर अनेक, अनेक इतर प्रकल्प, रोग पाळत ठेवणे ओळख डिजिटल ट्रेस डेटा वापरू पाहू प्रयत्न केला आहे Althouse et al. (2015) पुनरावलोकनासाठी.

आरोग्य परिणाम अंदाज डिजिटल ट्रेस डेटा वापर व्यतिरिक्त, देखील Twitter वर डेटा वापरून निवडणूक परिणाम अंदाज काम एक प्रचंड रक्कम झाली आहे; परीक्षण पाहू Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), आणि Huberty (2015) .

शीतज्वर प्रभाव भाकित आणि ट्विटर डेटा वापरून अंदाज निवडणुकीत जगातील कार्यक्रम काही प्रकारचे अंदाज डिजिटल शोध काढूण काही प्रकारचे वापरून दोन्ही उदाहरणे आहेत शोध डेटा वापरून. या सर्वसाधारण रचना आहे की अभ्यास एक प्रचंड संख्या. टेबल 2.5 काही इतर उदाहरणे समावेश आहे.

टेबल 2.5: अभ्यास अर्धवट यादी काही कार्यक्रम अंदाज काही डिजिटल शोध काढूण वापरा.
डिजिटल शोध काढूण परिणाम उतारा
ट्विटर यूएस मध्ये चित्रपट बॉक्स ऑफिस महसूल Asur and Huberman (2010)
नोंदी शोध यूएस मध्ये चित्रपट, संगीत, पुस्तके, आणि व्हिडिओ गेम विक्री Goel et al. (2010)
ट्विटर डो जोन्स औद्योगिक सरासरी (अमेरिका शेअर बाजारात) Bollen, Mao, and Zeng (2011)
  • अंदाज प्रयोग (विभाग 2.4.3)

जर्नल PS राज्यशास्त्र, मोठे डेटा कार्यकारण भाव तर्क, आणि औपचारिक सिद्धांत एक परिषद होती, आणि Clark and Golder (2015) प्रत्येक योगदान सारांश. नॅशनल ऍकॅडमी ऑफ युनायटेड स्टेट्स ऑफ अमेरिका च्या सायन्स जर्नल कामकाज कार्यकारण भाव तर्क आणि मोठे डेटा एक परिषद होती, आणि Shiffrin (2016) प्रत्येक योगदान सारांश.

नैसर्गिक प्रयोग दृष्टीने, Dunning (2012) एक उत्कृष्ट पुस्तक लांबी उपचार उपलब्ध आहे. एक नैसर्गिक प्रयोग म्हणून व्हिएतनाम मसुदा लॉटरी वापर करून अधिक, पहा Berinsky and Chatfield (2015) . मशीन लर्निंग पध्दती आत मोठे डेटा स्रोत नैसर्गिक प्रयोग आपोआप शोधण्याचा प्रयत्न आहे, पाहू Jensen et al. (2008) आणि Sharma, Hofman, and Watts (2015) .

जुळणारे शब्द, एक आशावादी पुनरावलोकन पाहू, Stuart (2010) , आणि एक नैराश्यपूर्ण पुनरावलोकन पाहू Sekhon (2009) . रोपांची छाटणी एक प्रकारचा म्हणून जुळणारे अधिक माहितीसाठी, पहा Ho et al. (2007) . की जुळणारे उत्कृष्ट उपचार प्रदान पुस्तके, पहा Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , आणि Imbens and Rubin (2015) .