[ , ] Algorithmic confounding waxay dhibaato ku tahay Google Flu Trends. Ka akhri wargeyska Lazer et al. (2014) , kuna qor email gaaban oo cadeynaya injineerka Google ee sharaxaya dhibaatada oo bixinaya fikrad ah sida loo hagaajiyo.
[ ] Bollen, Mao, and Zeng (2011) ayaa sheeganaya in macluumaadka laga helo Twitter loo isticmaali karo si loo saadaaliyo suuqa saamiyada. Natiijadani waxay keentay in la abuuro sanduuqa hedge-Derwent Capital Markets - si ay u maal gashadaan suuqa saamiyada oo ku saleysan xogta laga soo qaaday Twitter (Jordan 2010) . Waa maxay caddaynta aad rabto inaad aragto ka hor inta aanad lacagtaada ku gelin sanduuqaas?
[ ] Inkastoo qaar ka mid ah u doodayaasha caafimaadka dadweynaha waxay tixgeliyaan sigaarka elektarooniga joojinta joojinta sigaarka, qaar kalena waxay ka digayaan halista iman karta, sida heerarka sare ee nicotiinta. Ka fikir in cilmi-baaruhu uu go'aansado inuu barto fikradda dadweynaha ee ku saabsan sigaarka elektarooniga ah isagoo soo ururinaya email-yada sigaarka ee la xidhiidha Twitter-ka iyo samaynta falanqaynta dareenka.
[ ] Bishii Nofembar 2009, Twitter ayaa su'aasha ku bedelay sanduuqa tweet ka "Maxaad samaynaysaa?" Ilaa "Maxaa dhacaya?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" waxaa inta badan loo isticmaalaa in lagu cabbiro saameynta iyo faafitaanka saameynta ku leh Twitter. Ugu horreyntii, isticmaalayaashu waa inay nuqul ka sameeyaan oo ay daabacaan fariimaha ay jecelyihiin, ku qor qoraalka asalka ah ee uu la socdo, iyo manida "RT" ka hor intaan la daabacin si ay u muujiso in ay ahayd retweet. Kadib, sannadkii 2009, Twitter wuxuu ku daray barta "retweet". Bishii Juun 2016, Twitter ayaa suurtogal u ah in dadka isticmaala ay ku faafiyaan fikradoodooda gaarka ah (https://twitter.com/twitter/status/742749353689780224). Miyaad u maleyneysaa in isbedeladani ay saameynayaan sida aad u isticmaasho "retweets" ee cilmi-baaristaada? Sababta ama sababta
[ , , , ] Qoraal aad u falanqeynaya, Michel iyo asxaabtiisaba (2011) falanqeeyay mawduuc ka badan shan milyan oo buugaag digitized ah oo isku dayey in ay aqoonsadaan isbedelka dhaqameed ee muddada dheer. Xogta ay adeegsadeen ayaa haatan la sii daayay sida Google NGrams dataset, sidaas darteed waxaan u isticmaali karnaa xogta si ay u sooceliyaan una kordhiyaan qaar ka mid ah shaqadooda.
Mid ka mid ah natiijooyinka badan ee wargeyska, Michel iyo asxaabtooyadu waxay ku doodeen in aanu si dhakhso ah u illoobi doono. Sannad gaar ah, waxaad tidhaahdaan "1883," waxay xisaabiyeen saamiga 1-garaam ee la daabacay sanad walba intii u dhexeysay 1875 iyo 1975 oo ahaa "1883". Waxay ku doodeen in saamigaan uu yahay cabbiraadda xiisaha dhacdooyinka dhacay sanadkan. Marka la eego sawirka 3a, waxay u qorsheeyeen saddexda sano ee soo socda: 1883, 1910, iyo 1950. Saddexda sano waxay wadaagaan nidaam caadi ah: Isticmaal yar oo ka horeysa sanadka, ka dibna kor u kaca. Marka xigta, si loo qiimeeyo heerka qalalaasaha sannad walba, Michel iyo asxaabtooyadu waxay xisaabiyeen "nuskii nolosha" sannad kasta inta u dhexeysa 1875 iyo 1975. Tiradooda 3a (kudhowaad), waxay muujiyeen in nolosha nuska mid kasta sanadka ayaa hoos u dhacaya, waxayna ku doodeen in tani ay ka dhigan tahay in aan ilaawineyno dhaqsihii hore iyo dhaqso. Waxay adeegsadeen Version 1 ee dhismaha luuqadda Ingiriisiga, laakiin ka dib Google ayaa sii daayay version labaad oo ka mid ah dhismaha. Fadlan akhri dhamaan qaybaha su'aasha ka hor intaadan bilaabin codsiga.
Hawlgalkani wuxuu ku siin doonaa inaad ku tababarto qoraalka dib loo isticmaali karo, turjumidda natiijooyinka, iyo warbxinta xogta (sida ka shaqeynta faylalka qarsoodiga ah iyo la socodka xogta maqan). Hawlgalkani wuxuu sidoo kale kaa caawinayaa inaad kor u qaaddo oo la ordo dataset oo xiiso iyo xiiso leh.
Qaado xogta qarsoon ee buuga Google ee NGram Viewer bogga. Gaar ahaan, waa inaad isticmaashaa qaybta 2 ee dhismaha luuqadda Ingiriisiga, oo la sii daayey July 1, 2012. Fikrado aan la soo koobin, faylkan waa 1.4GB.
Dib u samee qeybta ugu muhiimsan ee sawirka 3a ee Michel et al. (2011) . Si aad u sameysid sawirkan, waxaad u baahan doontaa laba fayl oo: midkii aad soo dejisay qayb ahaan (a) iyo "total counts", oo aad isticmaali karto si aad u bedesho xisaabaadka qadarka ee u dhigma. Ogsoonow in faylka guud ee xisaabtu uu leeyahay qaab dhismeed oo ka dhigi kara mid adag in la akhriyo. Qaybta 2aad ee xogta NGram waxay soo saartaa natiijooyin lamid ah kuwa lagu soo bandhigay Michel et al. (2011) , oo ku saleysan xogta 1aad?
Hadda ka fiiri garaafkaaga garaafka uu sameeyay NGram Viewer.
Dib u samee sawirka 3a (sawirka ugu muhiimsan), laakiin bedel \(y\) -axis si aad u noqotid tirinta xusuusta (ma ahan heerka qiimaha).
Faraqa u dhexeeya (b) iyo (d) wuxuu kugu hogaaminayaa dib u qiimeynta mid ka mid ah natiijooyinka Michel iyo al. (2011). Sababta ama sababta
Hada, adigoo isticmaalaya saamiga ku-saleysiga, ku soo celi farqiga shaxda 3a. Taasi waa sannad kasta inta u dhaxaysa 1875 iyo 1975, xisaabinta nolosha nuska ah ee sannadkaas. Nolosha badhkeed waxaa lagu qeexay inay tahay tirada sanadka ee dhaafaya inta ka horeysa qirashooyinka la gaaro badhka qiimaha ugu sarreeya. Ogsoonow in Michel et al. (2011) samee waxyaabo aad u adag in la qiimeeyo nolosha nuska-eeg qaybta III.6 ee macluumaadka taageerada internetka-laakiin waxay ku andacoonayaan in labadaba ay soo saaraan natiijooyin isku mid ah. Qaybta 2 ee xogta NGram waxay soo saartaa natiijooyin isku mid ah kuwii lagu soo bandhigay Michel et al. (2011) , oo ku saleysan xogta 1aad? (Tilmaam: Ha la yaabin haddii aysan sidaas ahayn.)
Miyey jiraan sanadihii ay ahaayeen kuwa soo baxa sida sanadaha la illoobay si gaar ah si dhakhso ah ama si tartiib ah? Si kooban u qadariyaan sababo macquul ah oo ku saabsan qaabkaas oo aad u sharaxi lahayd sida aad u aqoonsatay kuwa soo baxa.
Iminka natiijada natiijadan dib u eegista 2aad ee xogta NGrams ee Shiineys, Faransiis, Jarmal, Ciraaq, Talyaani, Ruush iyo Isbaanish.
Isku-barbardhig luuqadaha oo idil, ma jiraa sanad kasta oo soo baxay, sida sanadihii la illoobey gaar ahaan si dhakhso ah ama si tartiib ah? Si kooban u qadariyaan sababo macquul ah ee qaabkani.
[ , , , ] Penney (2016) waxay sahamisay in faafinta baahsan ee ku saabsan sahaminta NSA / PRISM (sida, muujinta Snowden) bishii Juun 2013 ay la xiriirtay hoos u dhac weyn oo degdeg ah ee taraafikada maqaalada Wikipedia oo ku saabsan mowduucyo kor u qaadaya cabashooyinka asturnaanta. Hadday sidaas tahay, isbedelkan habdhaqanku wuxuu ku salaysan yahay saameyn xoqaysan oo ka timaadda kormeer ballaaran. Nidaamka Penney (2016) waxaa mararka qaarkood loo yaqaannaa naqshad waqti taxadar leh, waxaana la xidhiidhaa qaababka lagu sharaxay cutubka 2.4.3.
Si aad u dooratid mawduuca ereyada muhiimka ah, Penney wuxuu soo gudbiyay liiska ay isticmaaleen Wasaaradda Arrimaha Gudaha ee Mareykanka si loo raadiyo loona ilaaliyo warbaahinta bulshada. Liistada DHS waxay qeexaysaa shuruudaha raadinta qaarkood oo ku saabsan arrimo badan oo kala duwan, tusaale ahaan, "Walaaca Caafimaadka," "Nabadgalyada Amaanka," iyo "Argaggixisada." Kooxda Daraasaadka, Penney waxay isticmaashey 48 erey oo muhiim ah oo la xidhiidha "Argaggixisannimo" (fiiri jadwalka dambe ee 8 ). Ka dibna wuxuu soo uruuriyay qoraallada Wikipedia oo ku salaysan bil kasta 48 bog oo ku jira munaasabadda Wikipedia, muddadii u dhaxaysay Jannaayo 2012 ilaa dhammaadka Agoosto 2014. Si loo xoojiyo doodiisa, wuxuu sidoo kale abuuray kooxo isbarbardhigaya dhowr kooxood oo la socdo aragtida maqaallada mawduucyada kale.
Hadda, waxaad dooneysaa inaad ku soo celiso kuna kordhiso Penney (2016) . Dhamaan xogta qaaska ah ee aad u baahan tahay hawshaan waxaa laga helaa Wikipedia. Ama waxaad ka heli kartaa R-packet vikipediatrend (Meissner and R Core Team 2016) . Markaad qorayso jawaabahaaga, fadlan ogow meesha aad ka soo xigatay. (Fiiro u yeel in howlahaas oo kale ay sidoo kale ka muuqdaan cutubka 6aad). Hawlgalkani wuxuu ku siin doonaa inaad ku tababarato wareysiga xogta iyo ka fikirida tijaabooyinka dabiiciga ah ee ilaha xogta waaweyn. Waxay sidoo kale kaa qaadi doontaa oo ay la socon doontaa ilaha xogta ee xiisaha leh ee mashaariicda mustaqbalka.
[ ] Efrati (2016) ayaa ku warbixisay, iyada oo ku saleysan xog qarsoodi ah, in "wadarta guud" ee Facebook ay hoos u dhacday boqolkiiba 5.5 sannadkii sannadkii "halka wadaagadii asalka ahaa ee asalkiisu ahaa hoos u dhacay 21% sannadkii. Hoosudhacaasi ayaa si gaar ah u cakirnaa dadka isticmaala Facebook ka yar 30 jir. Warbixinta ayaa sababtay hoos u dhaca laba arrimood. Mid ka mid ah koritaanka tirada "asxaabta" dadka waxay ku leeyihiin Facebook. Kale ayaa ah in qaar ka mid ah hawlaha wadaagista ay u wareegeen farriimaha iyo tartamayaasha sida Snapchat. Warbixinta ayaa sidoo kale shaaca ka qaaday dhowr xeeladood oo Facebook ah ay isku dayeen in ay kor u qaadaan wadaagista, oo ay ku jiraan twitter Feed algorithm tweaks taasoo ka dhigaysa asalka asalka ah oo aad u caan ah, iyo sidoo kale xusuusta xilliyada asalka ah ee asalka ah "On This Day". Maxaa saameyn ah, haddii ay jiraan, ma jiraan waxyaalahani waxay leeyihiin cilmi-baarayaasha doonaya in ay Facebook u isticmaalaan ilaha xogta?
[ ] Waa maxay farqiga u dhexeeya cilmi nafsiga iyo taariikhyahan? Sida laga soo xigtay Goldthorpe (1991) , farqiga ugu wayni wuxuu xakameynayaa ururinta xogta. Taariikhyahanada waxaa lagu qasbay inay isticmaalaan qalab, halka cilmi-nafistu waxay u habeyn karaan xog ururintooda ujeedooyin gaar ah. Akhriso Goldthorpe (1991) . Sidee bay u kala duwan yihiin jinsiyada iyo taariikhda la xidhiidha fikradda maareynta iyo diyaarinta?
[ ] Tani waxay dhistaa quusiton hore. Goldthorpe (1991) ayaa soo jiitay dhowr jawaab-celin oo muhiim ah, oo ay ku jiraan mid ka mid ah Nicky Hart (1994) oo ku adkaatay Goldthorpe si ay u muujiyaan xogta. Si loo caddeeyo xaddidaadaha xaddidan ee xogta loo diyaariyay, Hart wuxuu ku sharraxay Mashruuca Shaqaalaha Gargaarka ah, sahan ballaaran oo lagu cabbirayo xiriirka ka dhexeeya fasalka bulshada iyo cod-bixinta ay qabatay Goldthorpe iyo asxaabteeda bartamihii 1960-yadii. Maaddaama mid ka mid ah laga yaabo inuu ka filanayo aqoonyahan oo ka faa'iideysanaya xogta laga helay xogta la helay, Mashruuca Shaqaalaha Abaaruhu wuxuu soo uruuriyay xogta loo qorsheeyay in lagu wajaho aragti dhawaan la soo jeediyey oo ku saabsan mustaqbalka fasalka bulshada xilligii heerarka nololeed ee kordhaya. Hase yeeshee, Goldthorpe iyo asxaabtu waxay bartaan "illowday" si ay u ururiyaan macluumaadka ku saabsan habdhaqanka codbixinta ee haweenka. Halkan waxaa ah sida Nicky Hart (1994) soo koobatay dhammaan dhacdooyinka:
"... waa ay adag tahay in laga fogaado gabagabadii in haweenka laga saaray sababtoo ah 'dharbaaxada' loo yaqaan 'dataset' waxaa lagu xakumay macquul-maskaxeed oo ka baxsan waaya-aragnimada haweenka. Dareenka aragtida aragtida miyiga iyo ficil ahaan sida xoojinta haweenka, Goldthorpe iyo asxaabtiisuba waxay dhisteen caddaymo anshaxeed oo nuujiyay oo kobciyay fikradaha fikradeed ee u gaarka ah meeshii ay u soo bandhigayeen baadhitaan sax ah oo ku filan. "
Hart ayaa sii waday:
"Natiijooyinka xeeldheer ee" Project Worker Project "wuxuu inoo sheegayaa waxyaabo badan oo ku saabsan qiimaha maskaxda ee qarniyadii qarniga illaa ay ka warramaan geeddi-socodka qaab-dhismeedka, siyaasadda iyo nolol-maalmeedka."
Miyaad ka fikiri kartaa tusaalooyin kale oo ah meesha ururinta macluumaadka qashin-qaadidu leedahay khaanadaha xog ururiyaha xogta lagu dhejiyay? Sidee tani u isbarbardhigtaa algorithmic khalkhalka? Maxaa saameyn ah u yeelan kara tani marka ay cilmi-baarayaashu isticmaalaan diyaar-garowyada iyo goorta ay tahay inay isticmaalaan xannaaneynta?
[ ] Cutubkan dhexdiisa, waxaan ka soo horjeedaa xogta ay soo ururiyeen cilmi-baadhayaasha cilmi-baarayaasha oo leh diiwaannada maamulka ee ay sameeyeen shirkadaha iyo dawladaha. Dadka qaarkood waxay ku magacaabaan diiwaanadan maamul ee "helitaanka xogta," taas oo ka soo horjeeda "xogta la qorsheeyey." Waa run in diiwaannada maamulka ay ka helaan cilmi-baadhayaasha, laakiin sidoo kale waxay yihiin kuwo aad u qaabaysan. Tusaale ahaan, shirkadaha casriga casriga ah waxay u shaqeeyaan si adag si ay u ururiyaan oo u curiyaan macluumaadkooda. Sidaa daraadeed, diiwaanadan maamuleed waxaa laga helaa oo loo qaabeeyey, waxay ku xiran tahay aragtidaada (jaantuska 2.12).
Sii tusaale tusaale ah ilaha xogta halkaa oo la arko labadaba sida loo helay iyo naqshadeyntu waa waxtar leh markaad u isticmaalayso ilaha macluumaadka ee cilmi-baarista.
[ ] Qoraal feker ah, Christian Sandvig iyo Eszter Hargittai (2015) ayaa cilmi baaris ah u kala qaybiyay laba qaybood oo ballaaran iyadoo ku xiran in nidaamka dijitaalku yahay "qalab" ama "sheyga daraasadda." Tusaale ahaan nooca koowaad-meesha nidaamku qalabka - waa cilmi baarista Bengtsson iyo jalayaashiisa (2011) iyagoo isticmaalaya xogta taleefanka gacanta si ay ula socdaan socdaalka ka dib dhulgariirka Haiti 2010. Tusaale ahaan nooca labaad-meesha nidaamku uu yahay sheyga daraasadda-cilmi-baaris uu sameeyay Jensen (2007) sida loo soo bandhigo telefoonnada gacanta oo dhan Kerala, India waxay saameyn ku yeelatay shaqeynta suuqa ee kalluunka. Waxaan ka helayaa farqigaas waxtar leh maxaa yeelay waxay caddaynaysaa in daraasadaha isticmaalaya ilaha macluumaadka dijitaalka ah ay lahaan karaan hadafyo aad u kala duwan xitaa haddii ay isticmaalayaan nooc isku mid ah xogta. Si loo sii cadeeyo farqiga u dhexeeya, sharax afar darood oo aad aragtay: laba isticmaala nidaam dijital ah oo ah qalab iyo laba isticmaala nidaamka dijitalka oo ah sheyga daraasadda. Waxaad isticmaali kartaa tusaalooyinka cutubkan haddii aad rabto.