ይህ ክፍል አንድ ትረካ ይነበባሉ ይልቅ, ማጣቀሻ ሆኖ ጥቅም ላይ የተቀየሰ ነው.
በዚህ ምዕራፍ ውስጥ አልተካተተም መጠበቅ አንዱ ዓይነት ጂኦግራፊና ነው. ዲጂታል ቦታዎች ውስጥ ጂኦግራፊና ላይ ተጨማሪ ለማግኘት ይህንን ይመልከቱ Boellstorff et al. (2012) , እና የተቀላቀሉ ዲጂታል እና አካላዊ ቦታዎች ውስጥ ጂኦግራፊና ላይ ተጨማሪ ይመልከቱ Lane (2016) .
የውሂብ repurposing ጊዜ, አንተ ካጋጠሙህ ዘንድ የሚችለውን ችግሮች ለመረዳት ሊረዱን የሚችሉ ሁለት የአእምሮ ዘዴዎች አሉ. በመጀመሪያ, የእርስዎን ችግር ተስማሚ የውሂብ ስብስብ መገመት መሞከር ይችላሉ, እና እየተጠቀሙ ያሉት የውሂብ ስብስብ መሆኑን አወዳድር. እንዴት ተመሳሳይ ናቸው እና የተለያዩ እንዴት ነው? የእርስዎን ውሂብ ራስህን ለመሰብሰብ ቀርተው ከሆነ, የሚፈልጉትን እና ምን ነገር መካከል ያለውን ልዩነት መሆኑ አይቀርም አሉ. ነገር ግን, እነዚህ ልዩነቶች ጥቃቅን ወይም ዋና ዋና ከሆኑ መወሰን ይኖርባቸዋል.
ሁለተኛ, አንድ ሰው ፈጠረ እና አንዳንድ ምክንያት ውሂብዎን የተሰበሰበ መሆኑን አስታውስ. አንተ ሐሳባቸውን ለመረዳት ጥረት ማድረግ ይኖርባችኋል. በ ሪቨርስ-የምህንድስና ይህ አይነት በእርስዎ ከለጠፉ ውሂብ ውስጥ በተቻለ ችግሮች እና አድሏዊነት ለመለየት ሊረዳን ይችላል.
አለ "ትልቅ ውሂብ" ምንም ነጠላ ስምምነት ላይ ትርጉም ነው, ነገር ግን ብዙ ትርጓሜዎች 3 በእኛ ላይ ትኩረት ማድረግ ይመስላል: (ለምሳሌ, ድምጽ, የተለያዩ, ከግዝፈቱ Japec et al. (2015) ). ከዚህ ይልቅ ውሂብ ባህርያት ላይ ከማተኮር ይልቅ, የእኔ ትርጉም ውሂብ የተፈጠረው ለምን ላይ ያተኮረ ነው.
ትልቅ ውሂብ ምድብ ውስጥ መንግስት የአስተዳደር ውሂብ የእኔ መካተት ትንሽ ለየት ያለ ነው. ይህን ጉዳይ ያደረጉ ሌሎች ሰዎች ይገኙበታል Legewie (2015) , Connelly et al. (2016) , እና Einav and Levin (2014) . ምርምር መንግስት የአስተዳደር ውሂብ ዋጋ ተጨማሪ ለማግኘት Card et al. (2010) , Taskforce (2012) , እና Grusky, Smeeding, and Snipp (2015) .
መንግስት የሆነ የስታትስቲክስ ሥርዓት, በተለይ የአሜሪካ የሕዝብ ቆጠራ ቢሮ ውስጥ ከ አስተዳደራዊ ምርምር እይታ ለማግኘት Jarmin and O'Hara (2016) . ስታትስቲክስ በስዊድን ላይ አስተዳደራዊ መዛግብት ምርምር መጽሐፍ ርዝመት ሕክምና ለማግኘት Wallgren and Wallgren (2007) .
ምዕራፍ ውስጥ, በአጭሩ እንዲህ እንደ Twitter እንደ የማህበራዊ ሚዲያ የውሂብ ምንጭ ወደ አጠቃላይ የማህበራዊ ጥናት (GSS) እንደ ባህላዊ ጥናት ጋር አመሳስሎታል. ባህላዊ ጥናቶች እና ማህበራዊ የሚዲያ ውሂብ መካከል የተሟላ እና ጥንቃቄ ንጽጽር ለማግኘት Schober et al. (2016) .
ትልቅ ውሂብ እነዚህ 10 ባሕርያት የተለያዩ ደራሲዎች የተለያዩ የተለያዩ በተለያዩ መንገዶች ላይ በተደጋጋሚ ሲገለጽ ቆይቷል. በእነዚህ ጉዳዮች ላይ ያለኝን አስተሳሰብ ላይ ተጽዕኖ መሆኑን በጽሑፍ ያካትታሉ: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , እና Goldstone and Lupyan (2016) .
በዚህ ምዕራፍ ሁሉ, እኔ በአንጻራዊ ሁኔታ ገለልተኛ ነው ይመስለኛል ይህም ቃል ዲጂታል መከታተያዎች, ጥቅም አግኝተናል. ዲጂታል መከታተያዎች ሌላው ታዋቂ ቃል ዲጂታል ዱካ ነው (Golder and Macy 2014) , ነገር ግን ሃል Abelson, ኬን Ledeen, እና ሃሪ ሉዊስ እንደ (2008) ልትጠቅስ, ይበልጥ ተገቢ ምናልባትም ቃሉ ዲጂታል አሻራ ነው. እናንተ ዱካ ለመፍጠር ጊዜ, ምን እየሆነ ነው እና ዱካ በአጠቃላይ በግለሰብ ደረጃ በመነጩ አይችልም ነገር ዐዋቂ ነው. ተመሳሳይ ዲጂታል መከታተያዎች እውነት አይደለም. እንዲያውም መከታተያዎች በጣም ትንሽ እውቀት ያላቸው ስለ ሁሉ ጊዜ እየወጡ ነው. እነዚህን ፍንጮች በእነርሱ ላይ የእርስዎ ስም አለህ ነገር ባይኖርም, ብዙውን ጊዜ ወደ አንተ መልሼ ጋር የተገናኘ ሊሆን ይችላል. በሌላ አነጋገር, ይበልጥ የጣት እንደ ናቸው: የማይታይ እና በግል የሚለይ.
ትልቅ
ትልቅ የውሂብ, ችግር ስታትስቲካዊ ፈተናዎች እናስረክብ ለምን እንደሆነ ተጨማሪ ለማግኘት Lin, Lucas, and Shmueli (2013) እና McFarland and McFarland (2015) . እነዚህ ችግሮች ተግባራዊ ትርጉም ይልቅ ስታትስቲካዊ ትርጉም ላይ ትኩረት ተመራማሪዎች መምራት አለባቸው.
ሁልጊዜ-ላይ
ስትወያዩ ሁልጊዜ-ላይ ውሂብ, ይህ በጊዜ ሂደት ትክክለኛ ተመሳሳይ ሰዎች የምታወዳድረው ወይም አለመሆኑን ሰዎች አንዳንድ በመለወጥ ቡድን በማወዳደር አለመሆናችንን ግምት ውስጥ በጣም አስፈላጊ ነው; ለምሳሌ ያህል ማየት, Diaz et al. (2016) .
ያልሆነ ምላሽ
ያልሆኑ ምላሽ እርምጃዎች ላይ አንድ ክላሲክ መጽሐፍ ነው Webb et al. (1966) . መጽሐፍ ቅድመ-ቀን ውስጥ ምሳሌ, ዲጂታል ዕድሜ, ነገር ግን አሁንም ያደርጉታል. ምክንያቱም በመገናኛ ክትትል ላይ መገኘት ባህሪያቸውን መቀየር ሰዎች ምሳሌዎችን ለማግኘት Penney (2016) እና Brayne (2014) .
ሙሉ ያልሆነ
መዝገብ ትስስር ላይ ተጨማሪ ለማግኘት Dunn (1946) እና Fellegi and Sunter (1969) (ታሪካዊ) እና Larsen and Winkler (2014) (ዘመናዊ). ተመሳሳይ እንደ ውሂብ የድግግሞሽ, ለምሳሌ መለያ, ስም ተዛማጅ ደግሞ እንደ ስሞች በታች በኮምፒውተር ሳይንስ እያደገ ቆይተዋል ቀርቦ, መዝገብ ለይቶ ማወቅ ማወቂያ የተባዛ, እና የተባዙ (Elmagarmid, Ipeirotis, and Verykios 2007) . በግል መረጃ ለይቶ ማስተላለፍ የማያስፈልጋቸው ይህም ትስስር ለመመዝገብ አቀራረቦች ጠብቆ የግላዊነት ደግሞ አሉ (Schnell 2013) . ፌስቡክ ደግሞ የድምፅ አሰጣጥ ጠባይ ያላቸውን መዛግብት ለማገናኘት መቀጠል አዘጋጅቷል; ይህ እኔ ምዕራፍ 4 ላይ ስለ እነግራችኋለሁ አንድ ሙከራ ለመገምገም የተደረገ ነበር (Bond et al. 2012; Jones et al. 2013) .
CONSTRUCT ፀንቶ ላይ ተጨማሪ ለማግኘት Shadish, Cook, and Campbell (2001) , ምዕራፍ 3.
የማይደረሰበት
የ AOL ፍለጋ መዝገብ debacle ላይ ተጨማሪ ለማግኘት Ohm (2010) . እኔ ሙከራዎች ይገልጻሉ ጊዜ ኩባንያዎች እና ምዕራፍ 4 ላይ መንግሥታት ጋር በመተባበር ስለ ምክር ይሰጣሉ. ደራሲዎች በርካታ በማይችሉ ውሂብ ላይ ይተማመናል ምርምር በተመለከተ ስጋት ገልጸዋል ተመልከት Huberman (2012) እና boyd and Crawford (2012) .
ዩኒቨርሲቲ ተመራማሪዎች ውሂብ መዳረሻ ማግኘት አንዱ ጥሩ መንገድ አንድ እሥረኛ ወይም ለቤት ተመራማሪ እንደ ኩባንያ ላይ መስራት ነው. የውሂብ መዳረሻ በማንቃት በተጨማሪ, ይህ ሂደት ደግሞ ተመራማሪ የውሂብ ትንታኔ አስፈላጊ ነው, ይህም የተፈጠረው እንዴት ይበልጥ ለማወቅ ይረዳናል.
ያልሆነ ተወካይ
ያልሆነ ወኪል መላው ሕዝብ መግለጫዎች ለማድረግ የሚፈልጉ ተመራማሪዎች እና መንግሥታት ዋነኛ ችግር ነው. ይሄ በተለምዶ ያላቸውን ተጠቃሚዎች ላይ ያተኮሩ ናቸው ኩባንያዎች አሳቢነት ያነሰ ነው. ስታትስቲክስ የኔዘርላንድ የንግድ ትልቅ ውሂብ የማይመለስ ወኪል ጉዳይ ያብራራል እንዴት ተጨማሪ ለማግኘት Buelens et al. (2014) .
ምዕራፍ 3 ውስጥ, እጅግ የላቀ በዝርዝር ናሙና እና ግምት እናብራራለን. ውሂብ በአንዳንድ ሁኔታዎች ስር ያልሆኑ ተወካይ ናቸው እንኳ, እነርሱ መልካም ግምቶች ለማምረት የሚጫነው ይችላል.
እየራቀ
የስርዓት ልንዋጋው ወደ ውጭ ማየት በጣም ከባድ ነው. ይሁን እንጂ, (በተጨማሪ ምዕራፍ 4 ላይ ይብራራል) ያለውን MovieLens ፕሮጀክት አንድ የትምህርት የምርምር ቡድን ከ 15 ዓመታት ይሮጣሉ ተደርጓል. ስለዚህ, እነዚህ ሰነዶች እና የስርዓት ጊዜ ላይ በዝግመተ ለውጥ መሆኑን መንገድ እንዴት መረጃ አጋርተዋል በዚህ ተፅዕኖ ትንተና (Harper and Konstan 2015) .
በርካታ ምሁራን በ Twitter ላይ መንሳፈፍ ላይ ያተኮረ ሊሆን: Liu, Kliman-Silver, and Mislove (2014) እና Tufekci (2014) .
በአልጎሪዝም የሚሉትን አጡ
እኔ በመጀመሪያ ቃል በአንድ ንግግር ላይ ጆን Kleinberg ጥቅም "በአልጎሪዝም አስረድቶ" ሰማ. Performativity ጀርባ ያለው ዋና ሃሳብ አንዳንድ የማህበራዊ ሳይንስ ንድፈ "ሞተሮች ሳይሆን ካሜራዎች" እንደሆኑ ነው (Mackenzie 2008) . ይህም ማለት, እነሱ በተጨባጭ ወደ ዓለም ቅርፅ ይልቅ ብቻ ያዛት.
ቁሻሻ
የመንግስት ስታትስቲካዊ ድርጅቶች ውሂብ ጽዳት, ስታትስቲካዊ መረጃ አርትዖት ይደውሉ. De Waal, Puts, and Daas (2014) ጥናት ውሂብ እያደገ ስታቲስቲክስ አርትዖት ዘዴዎችን መግለጽ እና የትኛው ያህል እነሱ ትልቅ ውሂብ ምንጮች አግባብነት እንዲሁም ነን መመርመር Puts, Daas, and Waal (2015) ይበልጥ ለጠቅላላ ተመልካቾች ተመሳሳይ ሃሳቦችን አንዳንድ ያቀርባል.
በትዊተር, ውስጥ አይፈለጌ ላይ ያተኮሩ ጥናቶች አንዳንድ ምሳሌዎች ለማግኘት Clark et al. (2016) እና Chu et al. (2012) . በመጨረሻም, Subrahmanian et al. (2016) ወደ DARPA በትዊተር Bot ፈተና ውጤት ይገልጻል.
ሚስጥራዊነት
Ohm (2015) ስሱ መረጃዎችን ሃሳብ ላይ ቀደም ሲል ምርምር ይገመግማል እና ባለብዙ-መንስኤ ፈተና ይሰጣል. እርሱ ሃሳብ አራት ምክንያቶች ናቸው; ጉዳት እድል; ጉዳት ይሁንታ; አንድ ሚስጢራዊ ግንኙነት መገኘት; እና አደጋ እንደሆነ majoritarian ጉዳዮች ያንጸባርቃሉ.
ኒው ዮርክ ውስጥ ታክሲዎች Farber ያለው ጥናት በማድረግ ቀደም ሲል ጥናት ላይ የተመሠረተ ነበር Camerer et al. (1997) ጉዞ መጀመሪያ ሰዓት ለመመዝገብ ሾፌሮች ጥቅም ላይ በወረቀት ጉዞ ወረቀቶች-የወረቀት ቅጾች, የመጨረሻ ጊዜ, እና አጋጠማቸው ሦስት የተለያዩ ምቾት ናሙናዎች ተጠቅመዋል. እነርሱ ደመወዝ ከፍተኛ የት እንደነበሩ ቀናት ላይ ያነሰ ይሠራ ነበር: ይህም ቀደም ሲል ጥናት አሽከርካሪዎች ዒላማ ላላቸው የአካባቢው ይመስል ደርሰውበታል.
Kossinets and Watts (2009) ማህበራዊ አውታረ መረቦች ላይ homophily አመጣጥ ላይ ያተኮረ ነበር. ተመልከት Wimmer and Lewis (2010) ከ Facebook ውሂብ ይጠቀማል ተመሳሳይ ችግር ለየት ያለ ዘዴ ነው.
ቀጣይ ሥራ, ንጉሥ እና ባልደረቦቻቸው ተጨማሪ በቻይና ውስጥ በመስመር ላይ ሳንሱር ዳስሰናል (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . ቻይና ውስጥ በመስመር ላይ ሳንሱር መለካት ጋር ተዛማጅ የሆነ አቀራረብ ለማግኘት Bamman, O'Connor, and Smith (2012) . ውስጥ ጥቅም ላይ እንደ አንዱ ስታትስቲካዊ ዘዴዎች ላይ ተጨማሪ ለማግኘት King, Pan, and Roberts (2013) ማየት, የ 11 ሚሊዮን ልጥፎች እንዲህ ዓይነት ስሜት ለመገመት Hopkins and King (2010) . ክትትል የሚደረግበት ትምህርት ላይ ተጨማሪ ለማግኘት James et al. (2013) (ያነሰ የቴክኒክ) እና Hastie, Tibshirani, and Friedman (2009) (በተጨማሪ የቴክኒክ).
ትንበያ የኢንዱስትሪ ውሂብ ሳይንስ አንድ ትልቅ ክፍል ነው (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . በተለምዶ ማህበራዊ ተመራማሪዎች ምንድር ናቸው ትንበያ አንዱ አይነት ለምሳሌ ያህል, የስነ ሕዝብ ትንበያ ናቸው Raftery et al. (2012) .
በ Google የጉንፋን አዝማሚያዎች ኢንፍሉዌንዛ የበሽታው nowcast የፍለጋ ውሂብ መጠቀም የመጀመሪያው ፕሮጀክት አልነበረም. እንዲያውም, በዩናይትድ ስቴትስ ውስጥ ተመራማሪዎች (Polgreen et al. 2008; Ginsberg et al. 2009) እና ስዊድን (Hulth, Rydevik, and Linde 2009) የተወሰኑ የፍለጋ ቃላትን (ለምሳሌ, "ጉንፋን") ብሔራዊ የሕዝብ የጤና ክትትል ትንቢትን ተገንዝበዋል ይህም በፊት ውሂብን ወጥቶ ነበር. በቀጣይነትም ብዙ ብዙ ሌሎች ፕሮጀክቶች ማየት, በሽታ ክትትል ማወቂያ ዲጂታል መከታተያ ውሂብ ሊጠቀሙበት ሞክረዋል, Althouse et al. (2015) ግምገማ ነው.
በጤና ውጤት መተንበይ በዲጂታል ርዝራዥ ውሂብ በመጠቀም በተጨማሪ ደግሞ የምርጫ ውጤት ለመተንበይ Twitter ውሂብ በመጠቀም ሥራ ትልቅ መጠን ይሆናል ማለት ነው; ግምገማዎች ማየት Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (CH. 7), እና Huberty (2015) .
ኢንፍሉዌንዛ ስርጭት መተንበይ እና ምርጫ በዓለም ላይ ክስተት አንድ ዓይነት መተንበይ ዲጂታል ርዝራዥ አንዳንድ ዓይነት በመጠቀም ሁለቱም ምሳሌዎች ናቸው ለመተንበይ Twitter ውሂብ በመጠቀም የፍለጋ ውሂብ በመጠቀም. አለ ይህ አጠቃላይ መዋቅር ያላቸውን ጥናቶች ከፍተኛ ቁጥር. ሠንጠረዥ 2.5 ሌሎች ጥቂት ምሳሌዎችን ያካትታል.
ዲጂታል መከታተያ | ውጤት | መጥቀስ |
---|---|---|
በ twitter | በአሜሪካ ውስጥ ያሉ ፊልሞች ሳጥን ቢሮ ገቢ | Asur and Huberman (2010) |
የፍለጋ ምዝግብ ማስታወሻዎች | በአሜሪካ ውስጥ ፊልሞች, ሙዚቃ, መጽሐፍት እና የቪዲዮ ጨዋታዎች ሽያጭ | Goel et al. (2010) |
በ twitter | መስኮት ዝጋ ጆንስ ኢንዱስትሪያል አማካኝ (የአሜሪካ የአክሲዮን ገበያ) | Bollen, Mao, and Zeng (2011) |
መጽሔት PS የፖለቲካ ሳይንስ ትልቅ ውሂብ, በሲጋራና አባባሉ, እና መደበኛ ንድፈ ሐሳብ ላይ ሲምፖዚየም ነበር, እና Clark and Golder (2015) እያንዳንዱ አስተዋጽኦ ጠቅለል. አሜሪካ የዩናይትድ ስቴትስ ብሔራዊ የሳይንስ አካዳሚ መጽሔት ሂደቶች በሲጋራና አባባሉ እና ትልቅ ውሂብ ላይ ሲምፖዚየም ነበር; Shiffrin (2016) እያንዳንዱ አስተዋጽኦ ጠቅለል.
የተፈጥሮ ሙከራዎች አንፃር, Dunning (2012) አንድ ግሩም መጽሐፍ ርዝመት ህክምና ይሰጣል. በተፈጥሮ ሙከራ እንደ በቬትናም ረቂቅ ሎተሪ መጠቀም ላይ ተጨማሪ ለማግኘት Berinsky and Chatfield (2015) . ውስጥ ትልቅ የመረጃ ምንጮች የተፈጥሮ ሙከራዎች በራስ-ሰር ለማግኘት ከሚሞክሩ የማሽን መማሪያ እየተቃረበ ለማግኘት Jensen et al. (2008) እና Sharma, Hofman, and Watts (2015) .
ተዛማጅ አንፃር ውስጥ, አንድ ብሩህ ግምገማ ተመልከት Stuart (2010) , እና አንድ አፍራሽ ግምገማ ለማየት Sekhon (2009) . ጦራቸውንም አንድ አይነት ሆኖ በማዛመድ ላይ ተጨማሪ ለማግኘት Ho et al. (2007) . ተዛማጅ ግሩም ሕክምና የሚሰጡ መጻሕፍት ለማግኘት Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , እና Imbens and Rubin (2015) .