[ , ] Algorithmic confounding በ Google የፍሉ ዝማኔዎች ላይ ችግር ነበር. ወረቀቱን በ Lazer et al. (2014) ያንብቡ Lazer et al. (2014) , እና Google ችግሩን ለማብራራት እና ችግሩን እንዴት እንደሚያስተካክለው ሀሳብ ለማቅረብ አንድ አጭር እና ግልጽ ኢሜይል ይጻፉ.
[ ] Bollen, Mao, and Zeng (2011) መረጃዎችን ለመተንበይ በ Twitter ላይ መረጃ እንደሚሰራ ይገልጻል. ይህ ግኝት ከ Twitter (Jordan 2010) በተሰበሰበው መረጃ ላይ ተመስርቶ በትራክተር ገበያ ላይ ለመዋዕለ ንዋይ ለማፍሰስ የተበደረ-ፈንድ-ዱዌንት ካፒታል ገበያዎች እንዲፈጥር አድርጓል. በገንዘብዎ ውስጥ ገንዘብዎን ከማስገባትዎ በፊት ምን ማስረጃ ለማየት ይፈልጋሉ?
[ ] አንዳንድ የህዝብ ጤና ጥበቃ ተሟጋቾች ለሲጋራ ማቆም የሚያግዙ ውጤታማ እርዳታዎችን ሲያደርጉ, ሌሎች ደግሞ እንደ ከፍተኛ መጠን የኒኮቲን መጠን ሊያስከትሉ ስለሚችሉ አደጋዎች ያስጠነቅቃሉ. አንድ ተመራማሪ በኢ-ሲጋር ላይ የተመሠረቱ የ Twitter ታሪኮችን በመሰብሰብ ስሜታዊ ትንተናን በመሰብሰብ ለኤሌክትሮኒክስ የህዝብ አስተያየት ለማጥናት ይወስናል.
[ እ.ኤ.አ. በኖቬምበር 2009, Twitter ጥያቄውን "ምን እያደረጉ ነው?" ወደ "ምን እየሆነ ነው?" የሚለውን (https://blog.twitter.com/2009/whats-happening) ውስጥ ባለው ጥያቄ ውስጥ ለውጦታል.
[ ] "ድራፕቶፖች" ብዙውን ጊዜ በትዊተር ላይ ተጽእኖውን ለመለካት እና ተጽዕኖውን ለመለካት ጥቅም ላይ ይውላሉ. መጀመሪያ ላይ ተጠቃሚዎች የሚወዷቸውን ቴይሎች መገልበጥ እና መለጠፍ, ኦርጅናል ደራሲን በእቅዳቸው / ቧንቧው / በሂደቱ ላይ መለጠፍ እና እራሱን ከቲዊዲው በፊት ቴት ዘግቶ እንደነበረ የሚያሳይ ነው. ከዚያም እ.ኤ.አ በ 2009 Twitter "Retweet" አዝራርን ታክሏል. እ.ኤ.አ. ሰኔ 2016 ትዊተር ተጠቃሚዎች የራሳቸውን ትዊቶች መልሰው እንዲያወሩ አስችሏቸዋል (https://twitter.com/twitter/status/742749353689780224). እነዚህ ለውጦች በምርምርዎ ውስጥ «retweets» እንዴት እንደሚጠቀሙበት የሚያስቡ ይመስልዎታል? ለምን ወይም ለምን አይሆንም?
[ , , , ] ሚሼል እና ባልደረቦቹ (2011) በሰፊው በተጠቀሰ ወረቀት ላይ, ከ 5 ሚሊዮን በላይ የሚሆኑ አሀዛዊ መጻሕፍት የረዥም ጊዜ ባህላዊ አዝማሚያዎችን ለመለየት ሙከራ ላይ ትንታኔ ሰጥተዋል. አሁን ጥቅም ላይ የዋሉት ውሂብ አሁን እንደ የ Google NGrams ውሂብ ስብስብ ተለቅቋል, እና ስለሆነም አንዳንድ ስራቸውን ለመሰረዝ እና ለማስፋፋት ውሂቡን መጠቀም እንችላለን.
በወረቀቱ ላይ ካሉት ውጤቶች ውስጥ አንዱ ሚሼልና ባልደረቦቹ በፍጥነት እና በፍጥነት ረሳነው. ለተወሰኑ ዓመታት "1883" ይበሉ "ከ 1875 እስከ 1875 ባለው ጊዜ ውስጥ በ 1875 እና በ 1975 የታተመ የ 1 ግራም ቅዝቃዜን አስቀምጠዋል. ይህ አመት በዚያ ዓመት የተከሰቱ ክስተቶች ላይ ተፅዕኖ ያሳርፋሉ ብለው ነበር. በቁጥር 3 ሀ ውስጥ, የሶስት አመታት አመታት የአጠቃቀም አሰራሮችን አስቀምጠዋል. እነዚህ ሶስት አመታት የተለመደው ንድፍ ያካትታሉ. ይህም ከዚያ አመት በፊት ትንሽ ጥቅም ላይ ይውላል, ከዚያም መበጥበጥ እና ከዚያም መበጥበጥ. በመቀጠልም ሚሼልና ባልደረቦቹ በየዓመቱ በ 1875 እና በ 1975 ውስጥ በየዓመቱ "ግማሽ ሕይወትን" ሲሰሉ ይለካሉ.በእስዕራፍ 3 ሀ ላይ (በግርጌው), የእያንዳንዳቸው አንድ ግማሽ ያሳያሉ. ዓመት እየቀነሰ በመምጣቱ ይህ ማለት ያለፈውን ያለፈበት ፍጥነት እና ፈጣን እየረሳን ነው. እነሱ የእንግሊዝኛ ቋንቋ ኮፒ 1 ስሪት ይጠቀማሉ, ነገር ግን ከዚያ በኋላ Google ሁለተኛውን ስዕላዊ መግለጫ አወጣ. ኮድ ከመጀመርዎ በፊት የመፍትሄዎቹን ሁሉንም ክፍሎች ያንብቡ.
ይህ እንቅስቃሴ ተደጋጋሚ ኮድ መጻፍ, ትርጉምን መተርጎም, እና የውሂብ አለመግባባት (እንደ ጎጂ ፋይሎች መስራት እና የጎደለ ውሂብን ማከም የመሳሰሉትን) መስራት ልምድ ያቀርብልዎታል. ይህ እንቅስቃሴ ከተነሱ እና ደስ የሚሉ የውሂብ ስብስቦች ጋር ተነስተው እንዲሮጡ ይረዳዎታል.
ጥሬ ውሂቡን ከ Google መጽሃፍት የ NGram መመልከቻ ድር ጣቢያ ያግኙ. በተለይም ደግሞ ሐምሌ 1, 2012 ተለቀቀው የእንግሊዝኛ ቋንቋ ኮፒ 2 ስሪት መጠቀም አለብዎት. ያልተጠናቀቅ, ይህ ፋይል 1.4 ጊባ ነው.
የ Michel et al. (2011) ቁጥር 3 ሀ ዋነኛውን ክፍል እንደገና ይፍጠሩ Michel et al. (2011) . ይህንን ምስል ለመፍጠር ሁለት ፋይሎችን ያስፈልገዎታል: በከፊል (a) እና በ "ጠቅላላ ቁጥሮች" ፋይል ውስጥ የወረዱት ጥሬ እቁጥር ወደ ጥቀቄዎች ለመቀየር ሊጠቀሙበት ይችላሉ. የጠቅላላ ቁጥሮችን ፋይሉ ለመንበብ ከባድ እንዲሆን የሚያደርገው መዋቅር እንዳለ ልብ ይበሉ. የ NGram ውሂብ 2 ኛ ክፍል Michel et al. (2011) ሠንጠረዥ ላይ ተመሳሳይ ውጤት ያስመጣል Michel et al. (2011) , በ 1 የስሪት 1 ውሂብ ላይ የተመሰረቱ ናቸው?
አሁን በ NGram መመልከቻ በተፈጠረው ግራፍ ላይ ግራፍዎን ይመልከቱ.
ምስል 3a ን (ዋናውን ቁጥር) እንደገና ይፍጠሩ, ነገር ግን \(y\) -ክሲዎችን ጥሬ እጽዋት (በጥርጥር የተጠቀሰ) አይደለም.
በ (a) እና (መ) መካከል ያለው ልዩነት ሚሼል እና ሌሎች ያሉትን ውጤቶች ለመገምገም ይመራዎታል? (2011). ለምን ወይም ለምን አይሆንም?
አሁን የተጠቀሱትን መረጃዎች ብዛት በመጠቀም ቁጥር 3 ሀ ውስጥ ያለውን ፊደል ተከትሎ ማባዛት. ይህም ማለት በ 1875 እና በ 1975 መካከል ለሚመዘገበው አመት የአንድ ዓመት ግማጭ ያሰሉ ማለት ነው. ግማሽ ሕይወቱ የተነገረው የንጥል ግማሽ ግማሽ ግማሽ ደረጃ ላይ ከመድረሱ በፊት የተላለፉት ዓመታት ቁጥር ነው. Michel et al. (2011) ግማሽ ህይወት ግምት-ክፍል III.6 ድጋፍ ሰጪ የመስመር ላይ መረጃን ለመገመት የበለጠ ውስብስብ ነገር ያድርጉ-ነገር ግን ሁለቱም አቀራረቦች ተመሳሳይ ውጤቶችን ያመነጫሉ ይላሉ. የ NGram ውሂብ 2 ስሪት ተመሳሳይ የሆኑ ውጤቶችን በ Michel et al. (2011) , በ 1 የስሪት 1 ውሂብ ላይ የተመሰረቱ ናቸው? (ፍንጭ; የማይገባ ከሆነ አትደነቅ.)
በከፍተኛ ፍጥነት ወይም በዝቅተኛነት ተረስተው የነበሩ አመታት እንደ ውጫዊው ዓመታት ነበሩ? ለዚህ ንድፍ ምክንያቶች በአጭሩ ብላችሁ ግምትና ምን ያመለጡ እንደሆኑ ያስቡ.
አሁን በቻይንኛ, ፈረንሳይኛ, ጀርመንኛ, ዕብራይስጥኛ, ጣልያንኛ, ራሽያኛ እና ስፓንኛ ቅጂዎች ለ 2 ኛ የ NGrams ውሂብ ይህን ውጤት መልሰህ አዘጋጅ.
ከሁሉም ቋንቋዎች ጋር በማወዳደር በተለይ በከፍተኛ ፍጥነት ወይም በዝቅተኛነት የተረሱ አመታት ያለባቸው ዓመታት ነበሩ? ለዚህ ሞዴል ሊሆኑ የሚችሉ ምክንያቶችን በአጭሩ ብላችሁ አስቡ.
[ , , , ] Penney (2016) በጁን 2013 ውስጥ ስለ የ NSA / PRISM ክትትል (ለምሳሌ, የሶውዴን አብደ-መገለጦች) በሰፊው የሚታወቀው የግላዊነት ስጋቶችን በሚነሱ ርእሶች ላይ ወደ ዊኪፔዲያ ጽሁፎች በንዴት እና ድንገት በሰፊው እንደሚዛመን ይመረምራል. ይህ ከሆነ, ይህ የባህሪ ለውጥ በጅምላ ክትትል ምክንያት ከሚያስከትል የማቀዝቀዝ ውጤት ጋር የሚሄድ ይሆናል. የ Penney (2016) አቀራረብ አንዳንድ ጊዜ የተቋረጠ የጊዜ ተከታታይ ንድፍ ተብሎ ይጠራል, እና በክፍል 2.4.3 ከተገለፁት አቀማመጦች ጋር ይዛመዳል.
የርዕስ ቁልፍ ቃላትን ለመምረጥ, የፔንኤን የአሜሪካን የአገር ውስጥ ደህንነት ማህበር ለህብረተሰቡ ማህደረ መረጃ ለመከታተል እና ለመከታተል ጥቅም ላይ የዋለውን ዝርዝር ይጠቅሳል. የዲ.ኤች.ኤስ ዝርዝር አንዳንድ የፍለጋ ቃላትን በተለያዩ ጉዳዮች ላይ ማለትም "ጤና አጠባበቅ", "መሰረተ ልማት ደህንነት", እና "ሽብርተኝነት" በማለት ለይቶ ያስቀምጣል. ለፔን ጥናት ቡድኑ ከ "ሽብርተኝነት" ጋር የተያያዙ 48 ቁልፍ ቃላትን ተጠቅሟል. ). በጥር ወር 2012 መጨረሻ እስከ ነሐሴ 2014 መጨረሻ ድረስ የ 48 ወራት የ Wikipedia ገጾችን በወር ሁሇት የዊኪሊን መጣጥፎችን ያጠቃሌሊሌ. የክርክር ጭብቱን ሇማጠናከር በርካታ የመነሻ ቡድኖችን በመፍጠር ፅሁፎች በሌሎች ርዕሶች ላይ ይመልከቱ.
አሁን, Penney (2016) ማባዛትና ማራዘም ትፈልጋለህ. ለዚህ እንቅስቃሴ የሚያስፈልጉት ሁሉም ጥሬ ውሂቦች ከ Wikipedia የተሰጡ ናቸው. ወይም ከ R-pack wikipediatrend (Meissner and R Core Team 2016) . ምላሾችዎን በሚጽፉበት ጊዜ, እባክዎ የትኛዉን የውሂብ ምንጭ መጠቀም እንዳለብዎ ይገንዘቡ. (ይህ ተመሳሳይ እንቅስቃሴ በምዕራፍ 6 ውስጥም እንደሚጠቀስ ልብ ይበሉ) ይህ እንቅስቃሴ በትልቅ የውሂብ ምንጮች ውስጥ ስለ ተፈጥሯዊ ሙከራዎች በውሂብ ውዝግብ እና ልምድ ላይ ይሰጥዎታል. ለወደፊቱ ፕሮጀክቶች (ፕሮጀክት) ሊነሳሳ ይችላል.
[ ] Efrati (2016) መረጃ መሰረት በፌስቡክ "ጠቅላላ ማጋራት" በጠቅላላ ከ 5.5% ጋር ሲነፃፀር እንደዘገበው "የመጀመሪያው ስርጭት መጋራት" በ 21% ቀንሷል. ከ 30 ዓመት በታች ከሆኑት የፌስቡክ ተጠቃሚዎች ጋር ይህ በጣም ዝቅተኛ ነበር. ሪፖርቱ በሁለቱ ምክንያቶች መቀነስ ላይ እንደሆነ ተናግረዋል. አንደኛው በፌስቡክ ውስጥ በ "ጓደኞች" ቁጥር መጨመር ነው. ሌላውኛው ደግሞ አንዳንድ የማጋራት እንቅስቃሴ ወደ መልዕክት እና ተፎካካሪዎችን እንደ Snapchat ለውጦታል. እንደዚሁም ሪፖርቱ Facebook የተሰራባቸውን በርካታ ስልቶች አሳይቷል. ይህም የ "ዚሬ ቀን" ባህርይ "የመጀመሪያዎቹ ልኡክ ጽሁፎች" ይበልጥ ታዋቂነት ያላቸውን የኒውሪውሪው አጅሪዝም ማስተካከያዎችን ጨምሮ. እነዚህ ግኝቶች Facebook ን እንደ ውሂብ ምንጭ አድርገው ለሚጠቀሙ ተመራማሪዎች ምን አይነት እንድምታዎች አላቸው?
[ ] በአንድ ሶሺዮሎጂስት እና በታሪክ ተመራማሪ መካከል ያለው ልዩነት ምንድነው? በጎዘርቶፕ (1991) መሰረት ዋናው ልዩነት በመረጃ አሰባሰብ ላይ ቁጥጥር ነው. የታሪክ ሊቃውንት ታሪኮችን እንዲጠቀሙ ይገደዳሉ, ነገር ግን የማኅበራዊ ኑዛዜ ባለሙያዎች የውሂብ መሰብሰብን ለተለዩ ዓላማዎች ማመቻቸት ይችላሉ. Goldthorpe (1991) ን ያንብቡ. በብልሃተ ጥበብ እና በታሪክ መካከል ያለው ልዩነት የብጁ ትረካዎች እና የኪነጥበብ አስተሳሰብ?
[ ] ይህ በአለፈው ጥያቄ ላይ ይመሰረታል. Goldthorpe (1991) የተወሰኑ ወሳኝ ምላሾችን ጨምሮ, የጆክቶር ሃርትን (1994) በመጥቀስ መረጃን ለማስተካከል የቃለ-ፓትሮስን ፍቅር ያሳጣ ነበር. በሀገሪቱ ውስጥ በ 1960 ዎቹ አጋማሽ ጎትርቶፕ እና ባልደረባዎች ያካሂዳሉ በሚለው ማህበራዊ መደብ እና የድምፅ አሰጣጥ ግንኙነቶች መካከል ያለውን ግንኙነት ለመለካት ከፍተኛ መጠን ያለው ሀብታም የሠራተኛ ፕሮጀክት ያለውን ጠቀሜታ በሀሳባዊ የሠራተኛውን መረጃ ግልጽ ለማድረግ. አንድ ሰው በተገኘው መረጃ ላይ ተመራጭ መረጃን ከሚደግፍ ምሁር እንደሚጠብቀው ሁሉ, ሀብታዊው የሠራተኛ ፕሮጀክት የከፍተኛ ደረጃ የኑሮ ደረጃን በሚመለከት በነበረው የማህበራዊ ደረጃ ላይ ስለሚመጣው የወደፊት ንድፈ ሐሳብ ምላሽ ለመስጠት የተነደፈ መረጃን ይዟል. ሆኖም ጎትሮፕ እና የስራ ባልደረቦች ስለሴቶች የድምፅ አሰጣጥ ባህርይ መረጃን ለመሰብሰብ "ይረሳሉ". የኒሂ ሃርት (1994) ሙሉውን ክፍል ጠቅለል አድርጎ ያብራራል-
"... ይህ" ባለሙያ መስሪያ "የውሂብ ስብስብ የሴት ተሞክሮ ያልተካተተበት በ" ንድፍ አውጪ "ስብስብ የተገደበ ስለሆነ መደምደሚያን ለማስወገድ አስቸጋሪ ነው. የመደብ ንቃተ ህሊና እና የወንድ ሀሳብ ቅድመ-ገጽታዎችን በተመለከተ በንድፈ-ሀሳባዊ ራዕይ ይራመዳል ..., ጎልድቶፕ እና ባልደረቦቹ የራሳቸውን የንድፈ-ሀሳባዊ አመለካቶች በመመገብ ትክክለኛ የሙከራ ፍተሻ ከማሳየት ይልቅ ገንቢ እና ተጨባጭ ማስረጃዎችን ገንብተዋል. "
ሃርት ቀጥሏል-
"ሀብታም ሰራተኛ ፕሮጄክት የተደረሰበት ግኝት በመካከለኛው ምዕተ-ዓመት የሶሺዮሎጂ ትምህርት ለወንዶች እኩልነት, ስለ እርጥብ, የፖለቲካ እና የቁሳቁስ ሂደቶች መረጃ ሰጥቷል."
በአግባቡ የተጣመረ የውሂብ ስብስብ የመረጃ ሰበሮው ተጨባጭ እክል ያለውበትን ሌሎች ምሳሌዎችን ማሰብ ይችላሉን? ይህ ከ algorithmic ግራ መጋባት ጋር እንዴት ይስተካከላል? ተመራማሪዎቹ የቃላቶቹን ቋንቋዎች ለምን መጠቀም እንዳለባቸው እና መቼ መጠቀም እንዳለባቸው በሚወስኑበት ጊዜ ምን ሊሆኑ ይችላሉ?
[ ] በዚህ ምዕራፍ ውስጥ, ተመራማሪዎች በድርጅቶች እና በመንግሥታት በተፈጠሩ አስተዳደራዊ መዝገቦች ለ ተመራማሪዎቹ የሰጡት መረጃ ተለዋዋጭ ነው. አንዳንድ ሰዎች እነዚህን የተቃራኒው መዛግብት "ከተመረጠ መረጃ" ጋር በማነፃፀር "የተገኘ መረጃ" ብለው ይጠሩታል. አስተዳደራዊ መዛግብት በተመራማሪዎች የተገኙ ቢሆኑም በጣም የተዋቀሩ ናቸው. ለምሳሌ, ዘመናዊ የቴክኖሎጂ ኩባንያዎች ውሂባቸውን ለመሰብሰብ እና ለማስተባበር በጣም ተግተው ይሰራሉ. ስለዚህ, እነዚህ አስተዳደራዊ መዛግብቶች ሁለቱም ተገኝተው እና የተነደፉ ናቸው, በርስዎ አመለካከት ላይ ብቻ ይመኛሉ (ስዕል 2.12).
ያገኘነው መረጃ እንደ ተገኝ እና የተቀረፀው ለዋና ምርምር ሲጠቀም ጠቃሚ ሆኖ ከተገኘ የውሂብ ምንጭን ያቅርቡ.
[ በክርስትያኖች ሳንድቪግ እና እስሱር ሃግሪታይ (2015) የዲጂታል ምርምርን ዲጂታል ስርዓትን እንደ "መሳሪያ" ወይም "የጥናት እቅድ" አድርገው ይመለከታሉ. (2011) በሄይቲ ከደረሰው የመሬት መንቀጥቀጥ በኋላ እ.ኤ.አ. ከኤች.ሲ.ሲ. በኋላ የመሬት መንቀጥቀጥን ለመከታተል በሞባይል ስልክ (ሞባይል (2011) የስልክ መረጃ በመጠቀም በቢንሻሰን እና ባልደረባዎች (2011) የተደረገው ጥናት ነው. የጀንቬንሽን ምርምር - (2007) በኬላላ, ህንድ ውስጥ የሞባይል ስልቶችን ማስተዋወቅ እንዴት ለገበሬው አሠራር ከፍተኛ አስተዋጽኦ አድርጓል. ይህ ልዩነት ጠቃሚ ነው ምክንያቱም ዲጂታል የመረጃ ምንጮችን ተጠቅሞ ጥናቶች የተለያዩ ግቦች ሊኖራቸው እንደሚችል ግልጽ ያደርጋል. ይህን ልዩነት ለማብራራት, እርስዎ ያዩትን አራት ጥናቶችን ያብራሩ-ዲጂታል ስርዓቶችን እንደ መሳሪያ እና ሁለት ዲጂታል ስርዓቶችን እንደ የጥናት ዓላማ የሚጠቀሙ ሁለት. በዚህ ምእራፍ ውስጥ ምሳሌዎችን መጠቀም ይችላሉ.