இந்த பிரிவு ஒரு கதை என படிக்க வேண்டும் விட, ஒரு ஒப்பீடு பயன்படுத்த வேண்டும் வடிவமைக்கப்பட்டுள்ளது.
என்று இந்த அத்தியாயம் சேர்க்கப்படவில்லை கவனித்து ஒரு வகையான இன அமைப்பியல் உள்ளது. டிஜிட்டல் இடங்களில் மக்கள் இன பற்றி மேலும் பார்க்க Boellstorff et al. (2012) , மற்றும் கலப்பு டிஜிட்டல் மற்றும் உடல் இடங்களில் மக்கள் இன மீது மேலும் பார்க்க Lane (2016) .
நீங்கள் தரவு repurposing போது, நீங்கள் நீங்கள் சந்திக்கும் சாத்தியமான பிரச்சினைகள் புரிந்து கொள்ள உதவும் என்று இரண்டு மன தந்திரங்களை உள்ளன. முதல், நீங்கள் உங்கள் பிரச்சனை ஏற்றதாக தரவுத்தொகுப்பின் கற்பனை முயற்சி செய்யலாம் மற்றும் நீங்கள் பயன்படுத்தும் என்று தரவுத்தொகுப்பின் என்று ஒப்பிட்டு. அவர்கள் எப்படி ஒத்த அவர்கள் எப்படி வேறுபடுகிறது? நீங்கள் உங்கள் தரவு உங்களை சேகரிக்க முடியவில்லை என்றால், நீங்கள் விரும்பும் மற்றும் நீங்கள் என்ன என்ன வித்தியாசம் இருக்க வாய்ப்பு உள்ளன. ஆனால், நீங்கள் இந்த வேறுபாடுகள் சிறிய அல்லது பெரிய இருந்தால் முடிவு செய்ய வேண்டும்.
இரண்டாவது, ஒருவர் உருவாக்கப்பட்ட மற்றும் சில காரணங்களால் உங்கள் தரவு சேகரிக்கப்பட்ட என்று ஞாபகம். நீங்கள் அவர்களின் பகுத்தறிவு புரிந்து கொள்ள முயற்சிக்க வேண்டும். மீளுருவாக்கத்துக்கு இந்த வகையான நீங்கள் உங்கள் repurposed தரவு சாத்தியமான பிரச்சினைகள் மற்றும் தவறான அடையாளம் உதவ முடியும்.
"பெரிய தரவு" ஒற்றை ஒருமித்த வரையறை உள்ளது, ஆனால் பல வரையறைகள் 3 எதிராக கவனம் செலுத்த தெரிகிறது: (எ.கா., தொகுதி, பல்வேறு, மற்றும் திசைவேகம் Japec et al. (2015) ). மாறாக தரவு பண்புகள் மீது கவனம் விட, என் வரையறை ஏன் தரவு உருவாக்கப்பட்டது மீது அதிகம் கவனம் செலுத்துகிறது.
பெரிய தரவு வகையை உள்ளே அரசாங்கம் நிர்வாக தரவு என் சேர்ப்பதற்காக ஒரு பிட் வழக்கத்திற்கு மாறாக உள்ளது. இந்த வழக்கில் அமைத்துள்ள, அடங்கும் Legewie (2015) , Connelly et al. (2016) , மற்றும் Einav and Levin (2014) . ஆராய்ச்சி அரசாங்கம் நிர்வாக தரவு மதிப்பு பற்றி மேலும் காண்க, Card et al. (2010) , Taskforce (2012) , மற்றும் Grusky, Smeeding, and Snipp (2015) .
அரசு புள்ளிவிவர அமைப்பு, குறிப்பாக அமெரிக்க மக்கள்தொகை கணக்கெடுப்பு உள்ளே இருந்து நிர்வாக ஆராய்ச்சி ஒரு பார்வை கிடைக்கும், பார்க்க Jarmin and O'Hara (2016) . புள்ளியியல் ஸ்வீடன் நிர்வாக பதிவுகளை ஆராய்ச்சி ஒரு புத்தகம் நீளம் சிகிச்சை, பார்க்க Wallgren and Wallgren (2007) .
அதிகாரத்தில், நான் சுருக்கமாக போன்ற ஒரு சமூக ஊடக தரவு மூல பொது சமூக கணக்கெடுப்பு (GSS) ட்விட்டர் போன்ற ஒரு பாரம்பரிய கணக்கெடுப்பு ஒப்பிடும்போது. பாரம்பரிய ஆய்வுகள் மற்றும் சமூக ஊடக தரவு இடையே ஒரு முழுமையான மற்றும் கவனமாக ஒப்பிட்டு, பார்க்க Schober et al. (2016) .
பெரிய தரவு இந்த 10 பண்புகள் பல்வேறு ஆசிரியர்கள் பல்வேறு பல்வேறு வழிகளில் பல்வேறு விவரிக்கப்பட்டுள்ளன. இந்த பிரச்சினைகளை என் சிந்தனை தாக்கம் என்று எழுதுதல் ஆகியவை அடங்கும்: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , மற்றும் Goldstone and Lupyan (2016) .
இந்த அத்தியாயம் முழுவதும், நான் ஒப்பீட்டளவில் நடுநிலை என்று எந்த கால டிஜிட்டல் தடயங்கள், பயன்படுத்தப்படும். டிஜிட்டல் தடயங்கள் மற்றொரு பிரபலமான கால டிஜிட்டல் தடயங்களை ஆகும் (Golder and Macy 2014) , ஆனால் ஹால் Abelson, கென் லீடன், மற்றும் ஹாரி லூயிஸ் (2008) சுட்டிக்காட்ட, மிகவும் பொருத்தமான கால ஒருவேளை டிஜிட்டல் கைரேகைகள் உள்ளது. நீங்கள் தடயங்களை உருவாக்கும் போது, நீங்கள் நடக்கிறது மற்றும் உங்கள் கால்தடங்களை பொதுவாக தனிப்பட்ட முறையில் நீங்கள் ஆண்டுவாக்கில் முடியாது என்ன தெரியும். அதே உங்கள் டிஜிட்டல் தடயங்கள் உண்மை இல்லை. உண்மையில், நீங்கள் தடயங்கள் நீங்கள் மிக சிறிய அறியாத விஷயத்தைப் பற்றி அனைத்து நேரம் விட்டு வெளியேறுகிறார்கள். மேலும், இந்த தடயங்கள் அவர்கள் மீது உங்கள் பெயர் இல்லை என்றாலும், அவர்கள் பெரும்பாலும் மீண்டும் நீங்கள் இணைக்க முடியும். கண்ணுக்கு தெரியாத மற்றும் தனிப்பட்ட முறையில் அடையாளம்: வேறு வார்த்தைகளில் கூறுவதானால், அவர்கள் இன்னும் கைரேகைகள் போன்ற உள்ளன.
பிக்
ஏன் பெரிய தரவுக்குழுக்களைப், சிக்கல் புள்ளியியல் சோதனைகள் வழங்க மீது மேலும் காண்க, Lin, Lucas, and Shmueli (2013) மற்றும் McFarland and McFarland (2015) . இந்த பிரச்சினைகள் விட புள்ளிவிவர முக்கியத்துவமும் நடைமுறை முக்கியத்துவம் கவனம் செலுத்த ஆராய்ச்சியாளர்கள் வழிவகுக்கும் வேண்டும்.
எப்போதும்
கருத்தில் போது எப்போதும் தரவு, அதை நீங்கள் காலப்போக்கில் அதே மக்கள் ஒப்பிட்டு அல்லது என்பதை நீங்கள் மக்கள் சிலவற்றை மாற்றுவதில் குழு ஒப்பிட்டு என்பதை கருத்தில் கொள்ள வேண்டும்; உதாரணமாக பார்க்க, Diaz et al. (2016) .
எதிர்வினையற்ற
அல்லாத எதிர்வினை நடவடிக்கைகளை ஒரு உன்னதமான புத்தகம் Webb et al. (1966) . டிஜிட்டல் வயது புத்தகம் முன் இன்றுவரை உள்ள உதாரணங்கள், ஆனால் அவர்கள் இன்னும் விளக்கேற்றுகிறாய். ஏனெனில் பாரிய கண்காணிப்பு முன்னிலையில் தங்கள் நடத்தை மாற்ற மக்கள் உதாரணங்களாக பார்க்க Penney (2016) மற்றும் Brayne (2014) .
முழுமையற்ற
சாதனை இத்தொடர்பு மீது மேலும் காண்க, Dunn (1946) மற்றும் Fellegi and Sunter (1969) (வரலாற்று) மற்றும் Larsen and Winkler (2014) (நவீன). போன்ற தரவு மறுநகலாக்கப், உதாரணமாக அடையாள, பெயர் பொருத்தம் இதே அணுகி பெயர்கள் கீழ் கணினி அறிவியல் உருவாக்கப்பட்டு வருகின்றன, கண்டறிதல் நகல், மற்றும் பதிவு கண்டறிதல் நகல் (Elmagarmid, Ipeirotis, and Verykios 2007) . இது தனிப்பட்ட முறையில் தகவல் அடையாளம் பரிமாற்றம் தேவையில்லை இத்தொடர்பு பதிவு செய்ய அணுகுமுறைகள் பாதுகாத்தல் தனியுரிமை உள்ளன (Schnell 2013) . பேஸ்புக் ஒரு வாக்களிக்கும் முறை தங்கள் பதிவுகளை இணைக்க தொடர உருவாக்கியுள்ளது; இந்த நான் பாடம் 4 இல் பற்றி சொல்கிறேன் என்று ஒரு சோதனை மதிப்பீடு செய்ய செய்யப்பட்டது (Bond et al. 2012; Jones et al. 2013) .
கட்டமைப்பாக செல்லுபடிக்காலத்திலேயே மேலும் காண்க, Shadish, Cook, and Campbell (2001) , அத்தியாயம் 3.
அணுகக்கூடியதாக
ஏஓஎல் தேடல் பதிவு படுதோல்வி குறித்து மேலும் காண்க, Ohm (2010) . நான் சோதனைகள் விவரிக்க போது நான் நிறுவனங்கள் மற்றும் பாடம் 4 இல் அரசாங்கங்கள் இணைந்துள்ளமை பற்றி ஆலோசனை வழங்க. எழுத்தாளர்களும் அணுக தரவு நம்பியுள்ளது என்று ஆய்வு பற்றி கவலை தெரிவித்துள்ளனர், பார்க்க Huberman (2012) மற்றும் boyd and Crawford (2012) .
பல்கலைக்கழக ஆராய்ச்சியாளர்கள் தரவு அணுகல் பெற ஒரு நல்ல வழி ஒரு பயிற்சி அல்லது வருகை ஆராய்ச்சியாளர் ஒரு நிறுவனத்தில் வேலை உள்ளது. தரவு அணுகல் செயல்படுத்த கூடுதலாக, இந்த வழிமுறை ஆராய்ச்சியாளர் ஆய்வு முக்கியம், எப்படி தரவு உருவாக்கப்பட்டது பற்றி மேலும் அறிய உதவும்.
அல்லாத பிரதிநிதி
அல்லாத பிரதிநிதித்துவங்களின் ஆராய்ச்சியாளர்கள் மற்றும் ஒரு முழு மக்கள் தொகையில் பற்றி அறிக்கைகள் செய்ய விரும்பும் அரசாங்கங்கள் ஒரு பெரிய பிரச்சினையாக உள்ளது. இது பொதுவாக, அவர்கள் செய்த கவனம் என்று நிறுவனங்கள் கவலை குறைவாக உள்ளது. புள்ளியியல் நெதர்லாந்து வணிக பெரிய தரவு அல்லாத பிரதிநிதித்துவங்களின் பிரச்சினை கருதுகிறது எப்படி என்று அறிய, பார்க்க Buelens et al. (2014) .
3 வது அத்தியாயத்தில், நான் கூடுதலான விவரம் மாதிரி கணக்கீடு விவரிக்க வேண்டும். தரவு சில நிலைமைகளின் கீழ் அல்லாத பிரதிநிதி, கூட, அவர்கள் நல்ல மதிப்பீடுகள் தயாரிக்க நிறை முடியும்.
டிரிஃப்டிங்
கணினி சறுக்கல் வெளியில் இருந்து பார்க்க மிகவும் கடினமாக உள்ளது. எனினும், MovieLens திட்டம் (மேலும் அத்தியாயம் 4 விவாதிக்கப்பட்டுள்ளது) ஒரு கல்வி ஆராய்ச்சி குழு 15 ஆண்டுகளுக்கும் மேலாக செயல்பட்டு வந்தன. எனவே, அவர்கள் ஆவணங்கள் மற்றும் பகிர்வு முறைமை காலப்போக்கில் உருவாகியுள்ளது என்று வழி மற்றும் எப்படி பற்றிய தகவல்களை இந்த பாதிக்கும் என்று ஆய்வு (Harper and Konstan 2015) .
அறிஞர்களும் ட்விட்டர் நகர்வு பற்றி கவனம் செலுத்தி: Liu, Kliman-Silver, and Mislove (2014) மற்றும் Tufekci (2014) .
வழிமுறை எல்லாம் கலங்கும்
நான் முதல் கால ஒரு பேச்சில் ஜான் க்ளெய்பெர்க் மோதல்கள் பயன்படுத்தப்படும் "வழிமுறை எல்லாம் கலங்கும்" கேட்டேன். Performativity பின்னால் முக்கிய யோசனை சில சமூக அறிவியல் கோட்பாடுகள் "என்ஜின்கள் கேமராக்கள்" என்று ஆகிறது (Mackenzie 2008) . என்று, அவர்கள் உண்மையில் விட உலக வடிவமைக்கும் அதை கைப்பற்ற.
அழுக்கு
அரசு புள்ளிவிவர நிறுவனங்களால் தரவு சுத்தம், புள்ளிவிவர தரவு எடிட்டிங் அழைக்க. De Waal, Puts, and Daas (2014) ஆய்வு தரவு உருவாக்கப்பட்டது புள்ளியியல் தரவு திருத்தல் நுட்பங்களை விவரிக்க அவர்கள் எந்த அளவிற்கு பெரிய தரவு மூலங்கள் பொருந்தும், மற்றும் உள்ளன ஆராய Puts, Daas, and Waal (2015) ஒரு பொது பார்வையாளர்களுக்கு அதே கருத்துக்கள் சில அளிக்கிறது.
ட்விட்டர், ஸ்பேம் கவனம் ஆய்வுகள் சில உதாரணங்கள் Clark et al. (2016) மற்றும் Chu et al. (2012) . இறுதியாக, Subrahmanian et al. (2016) , DARPA ட்விட்டர் பாட் சவால் முடிவு விவரிக்கிறது.
உணர்வு
Ohm (2015) முக்கிய தகவல்களை யோசனை முந்தைய ஆராய்ச்சி reviews மற்றும் ஒரு பல காரணி சோதனை வழங்குகிறது. அவர் முன்வைக்கும் நான்கு காரணிகள்: தீங்கு சாத்தியமாகும் தீங்கு சாத்தியமாகும் ஒரு ரகசிய உறவு முன்னிலையில்; மற்றும் பெரும்பான்மை கவலைகளை பிரதிபலிக்கின்றன ஆபத்து என்பதை.
நியூயார்க் டாக்சிகள் ஃபார்பர் ஆய்வு நடத்திய ஒரு முந்தைய ஆய்வை அடிப்படையாகக் கொண்டே Camerer et al. (1997) பயணம் தொடக்க நேரம் பதிவு செய்ய இயக்கிகள் பயன்படுத்தப்படும் காகித பயணம் தாள்கள்-காகித வடிவங்கள், இறுதி நேரம், மற்றும் கட்டணம் மூன்று வெவ்வேறு வசதிக்காக மாதிரிகள் பயன்படுத்தப்படும் என்று. தமது ஊதியம் அதிகமாக இருந்தன அங்கு நாட்கள் குறைவாக வேலை: இந்த முந்தைய ஆய்வு டிரைவர்கள் இலக்கு வருவாய் ஈட்டுவதாக தோன்றியது என்று கண்டறியப்பட்டது.
Kossinets and Watts (2009) சமூக வலைப்பின்னல்களில் homophily தோற்றங்கள், கவனம். பார்க்க Wimmer and Lewis (2010) , ஃபேஸ்புக் இருந்து தரவு பயன்படுத்துகிறது அதே பிரச்சினைக்கு ஒரு வித்தியாசமான அணுகுமுறை.
அடுத்த பணியில், கிங் மற்றும் சக மேலும் சீனாவில் ஆன்லைன் தணிக்கை ஆராய்ந்துள்ளன (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . சீனாவில் ஆன்லைன் தணிக்கை அளவிடும் ஒரு தொடர்புடைய அணுகுமுறை, பார்க்க Bamman, O'Connor, and Smith (2012) . பயன்படுத்தப்படுவதைப் போல புள்ளியியல் முறைகள் பற்றி மேலும் King, Pan, and Roberts (2013) , 11 மில்லியன் பதிவுகள் உணர்வை மதிப்பிட பார்க்க Hopkins and King (2010) . மேற்பார்வையில் கற்றலில் மீது மேலும் காண்க, James et al. (2013) (குறைந்த தொழில்நுட்ப) மற்றும் Hastie, Tibshirani, and Friedman (2009) (மேலும் தொழில்நுட்ப).
தொலைநோக்கு தொழில்துறை தரவு அறிவியல் ஒரு பெரிய பகுதியாகும் (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . பொதுவாக சமூக ஆராய்ச்சியாளர்கள் செய்யப்படுகிறது என்று முன்னறிவிப்பு ஒரு வகை உதாரணமாக, மக்கள் தொகை கணிக்கின்றனர் Raftery et al. (2012) .
கூகிள் காய்ச்சல் போக்குகள் காய்ச்சல் நோய் பரவி வருவதை nowcast தேடல் தரவு பயன்படுத்த முதல் திட்டம் இல்லை. உண்மையில், அமெரிக்காவில் ஆராய்ச்சியாளர்கள் (Polgreen et al. 2008; Ginsberg et al. 2009) மற்றும் ஸ்வீடன் (Hulth, Rydevik, and Linde 2009) குறிப்பிட்ட தேடல் சொற்கள் (எ.கா., "காய்ச்சல்") கணித்து என்று தேசிய பொது சுகாதார கண்காணிப்பு கிடைத்தது அது முன் தரவு வெளியிடப்பட்டது. பின்னர் பல, பல திட்டங்கள், நோய் கண்காணிப்பு கண்டறிதல் டிஜிட்டல் சுவடு தரவு பயன்படுத்த பார்க்க முயற்சித்தேன் Althouse et al. (2015) ஒரு ஆய்வு.
சுகாதார விளைவுகள் கணிக்க டிஜிட்டல் சுவடு தரவு பயன்படுத்தி கூடுதலாக, அங்கு தேர்தல் விளைவுகளை கணிக்க ட்விட்டர் தரவு பயன்படுத்தி வேலை ஒரு பெரிய அளவு வருகிறது; விமர்சனங்களை பார்க்க Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (அத். 7), மற்றும் Huberty (2015) .
தேடல் தரவு காய்ச்சல் நோய் பரவி வருவதை கணிக்கும் மற்றும் தேர்தல் உலகில் நிகழ்வு சில வகையான கணிக்க டிஜிட்டல் சுவடு சில வகையான பயன்படுத்தி இரு உதாரணங்களாகும் கணிக்க ட்விட்டர் தரவைப் பயன்படுத்தி பயன்படுத்தி. இந்த பொது அமைப்பு வேண்டும் என்று ஆய்வுகள் ஒரு மகத்தான எண். அட்டவணை 2.5 ஒரு சில உதாரணங்கள் அடங்கும்.
டிஜிட்டல் சுவடு | முடிவு | சான்று |
---|---|---|
ட்விட்டர் | அமெரிக்க திரைப்படம் பாக்ஸ் ஆபிஸ் வருவாய் | Asur and Huberman (2010) |
தேடல் பதிவுகள் | அமெரிக்க திரைப்படம், இசை, புத்தகங்கள், மற்றும் வீடியோ விளையாட்டுகள் விற்பனை | Goel et al. (2010) |
ட்விட்டர் | டவ் ஜோன்ஸ் தொழில்துறை சராசரி (அமெரிக்க பங்குச் சந்தை) | Bollen, Mao, and Zeng (2011) |
பத்திரிகை, PS அரசியல் விஞ்ஞானம், பெரிய தரவு காரண அனுமானம் மற்றும் சாதாரண கோட்பாடு பற்றிய கருத்தரங்கை இருந்தது, Clark and Golder (2015) ஒவ்வொரு பங்களிப்பு சுருக்கமாக. அமெரிக்கா ஐக்கிய நாடுகள் தேசிய அறிவியல் அகாடமி ஜர்னல் ஆஃப் நடவடிக்கைக்குப் காரண அனுமானம் மற்றும் பெரிய தரவு பற்றிய கருத்தரங்கை இருந்தது, மற்றும் Shiffrin (2016) ஒவ்வொரு பங்களிப்பு சுருக்கமாக.
இயற்கை சோதனைகள் அடிப்படையில், Dunning (2012) ஒரு சிறந்த புத்தகம் நீளம் சிகிச்சை அளிக்கப்படுகிறது. ஒரு இயற்கை சோதனையாக வியட்நாம் வரைவு லாட்டரி பயன்படுத்தி மேலும் காண்க, Berinsky and Chatfield (2015) . தானாக பெரிய தரவு மூலங்கள் உள்ளே இயற்கை சோதனைகள் கண்டறிய முயற்சிக்க என்று இயந்திரக் கற்றல் அணுகுமுறைகள், பார்க்க Jensen et al. (2008) மற்றும் Sharma, Hofman, and Watts (2015) .
பொருந்தும் வகையில், ஒரு நம்பிக்கை மதிப்புரைக்குப் பார்க்க Stuart (2010) , மற்றும் ஒரு அவநம்பிக்கை பரிசீலனைக்கு பார்க்க Sekhon (2009) . கத்தரித்து ஒரு வகையான பொருந்தும் மேலும் காண்க, Ho et al. (2007) . பொருத்தம் சிறந்த சிகிச்சைகள் வழங்கும் புத்தகங்கள் Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , மற்றும் Imbens and Rubin (2015) .