[ , ] Roedd gwrthdaro algorithmig yn broblem gyda Google Flu Trends. Darllenwch y papur gan Lazer et al. (2014) , ac ysgrifennwch e-bost byr, clir i beiriannydd yn Google yn esbonio'r broblem a chynnig syniad o sut i'w atgyweirio.
[ ] Mae Bollen, Mao, and Zeng (2011) honni y gellir defnyddio data o Twitter i ragweld y farchnad stoc. Arweiniodd y canfyddiad hwn at greu Marchnadoedd Cyfalaf Cronfa Gwrych-Derwent-i fuddsoddi yn y farchnad stoc yn seiliedig ar ddata a gasglwyd o Twitter (Jordan 2010) . Pa dystiolaeth yr hoffech ei weld cyn rhoi eich arian yn y gronfa honno?
[ ] Er bod rhai eiriolwyr iechyd cyhoeddus yn ystyried e-sigaréts yn gymorth effeithiol ar gyfer rhoi'r gorau i ysmygu, mae eraill yn rhybuddio am y risgiau posibl, megis lefelau uchel o nicotin. Dychmygwch fod ymchwilydd yn penderfynu astudio barn y cyhoedd tuag at e-sigaréts trwy gasglu swyddi Twitter cysylltiedig â e-sigaréts a chynnal dadansoddiad teimladau.
[ ] Ym mis Tachwedd 2009, newidiodd Twitter y cwestiwn yn y blwch tweet o "Beth ydych chi'n ei wneud?" I "Beth sy'n digwydd?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Defnyddir "Retweets" yn aml i fesur dylanwad a lledaeniad dylanwad ar Twitter. I ddechrau, roedd yn rhaid i ddefnyddwyr gopïo a gludo'r tweet yr oeddent yn ei hoffi, tagio'r awdur gwreiddiol gyda'i ddull, a'i deipio'n "RT" â llaw cyn y tweet i nodi ei fod yn retweet. Yna, yn 2009, ychwanegodd Twitter botwm "retweet". Ym mis Mehefin 2016, fe wnaeth Twitter ei gwneud yn bosibl i ddefnyddwyr ail-lywio eu tweets eu hunain (https://twitter.com/twitter/status/742749353689780224). Ydych chi'n meddwl y dylai'r newidiadau hyn effeithio ar sut rydych chi'n defnyddio "retweets" yn eich ymchwil? Pam neu pam?
[ , , , ] Mewn papur a drafodwyd yn eang, dadansoddodd Michel a chydweithwyr (2011) gynnwys mwy na phum miliwn o lyfrau digidol mewn ymgais i nodi tueddiadau diwylliannol hirdymor. Mae'r data a ddefnyddiwyd bellach wedi'i ryddhau fel set ddata Google NGrams, ac felly gallwn ddefnyddio'r data i ddyblygu ac ymestyn peth o'u gwaith.
Mewn un o'r nifer o ganlyniadau yn y papur, dadleuodd Michel a chydweithwyr ein bod yn anghofio yn gyflymach ac yn gyflymach. Am flwyddyn benodol, dywedwch "1883," maent yn cyfrifo'r gyfran o 1-gram a gyhoeddwyd ym mhob blwyddyn rhwng 1875 a 1975 a oedd yn "1883". Roeddent yn rhesymu bod y gyfran hon yn fesur o'r diddordeb mewn digwyddiadau a ddigwyddodd yn y flwyddyn honno. Yn eu ffigwr 3a, maent yn plotio'r trajectories defnydd am dair blynedd: 1883, 1910, a 1950. Mae'r tair blynedd hyn yn rhannu patrwm cyffredin: ychydig o ddefnydd cyn y flwyddyn honno, yna spike, yna pydredd. Yn nes ymlaen, i fesur cyfradd y pydredd am bob blwyddyn, cyfrifodd Michel a chydweithwyr "hanner oes" bob blwyddyn am y blynyddoedd rhwng 1875 a 1975. Yn eu ffigwr 3a (mewnosod), dangosodd fod hanner oes pob mae'r flwyddyn yn gostwng, a dadleuon fod hyn yn golygu ein bod yn anghofio y gorffennol yn gyflymach ac yn gyflymach. Defnyddiant Fersiwn 1 o'r corff Saesneg, ond wedi hynny, mae Google wedi rhyddhau ail fersiwn o'r corpus. Darllenwch holl rannau'r cwestiwn cyn i chi ddechrau codio.
Bydd y gweithgaredd hwn yn rhoi cod ymarferol y gellir ei hailddefnyddio, gan ddehongli canlyniadau, a gwiflo data (megis gweithio gyda ffeiliau lletchwith a thrin data ar goll). Bydd y gweithgaredd hwn hefyd yn eich helpu i gael ei sefydlu gyda set ddata gyfoethog a diddorol.
Cael y data amrwd o wefan Google Books NGram Viewer. Yn benodol, dylech ddefnyddio fersiwn 2 o'r corff Saesneg, a ryddhawyd ar 1 Gorffennaf 2012. Wedi'i ddadgywasgu, mae'r ffeil hon yn 1.4GB.
Ail-greu prif ran ffigur 3a o Michel et al. (2011) . Er mwyn ail-greu'r ffigur hwn, bydd angen dau ffeil arnoch: yr un y gwnaethoch ei lawrlwytho yn rhan (a) a'r ffeil "cyfrif cyfanswm", y gallwch ei ddefnyddio i drosi'r cyfrifon amrwd yn gyfrannedd. Noder fod gan y ffeil cyfrif cyfrifon strwythur a all ei gwneud yn anodd i'w ddarllen. A yw fersiwn 2 o'r data NGram yn cynhyrchu canlyniadau tebyg i'r rhai a gyflwynir yn Michel et al. (2011) , sy'n seiliedig ar ddata fersiwn 1?
Nawr gwiriwch eich graff yn erbyn y graff a grëwyd gan yr NGram Viewer.
Ail-greu ffigur 3a (prif ffigwr), ond newid y \(y\) echel i fod yn gyfrif sôn amrwd (nid y gyfradd o sôn).
A yw'r gwahaniaeth rhwng (b) a (ch) yn eich arwain i ail-werthuso unrhyw un o ganlyniadau Michel et al. (2011). Pam neu pam?
Yn awr, gan ddefnyddio cyfran y cyfeiriadau, mae'n dyblygu'r mewnosodiad o ffigur 3a. Hynny yw, am bob blwyddyn rhwng 1875 a 1975, cyfrifwch hanner oes y flwyddyn honno. Mae'r hanner oes wedi'i ddiffinio i fod yn nifer y blynyddoedd sy'n pasio cyn bod y gyfran o sôn yn cyrraedd hanner ei werth uchaf. Sylwch fod Michel et al. (2011) gwneud rhywbeth yn fwy cymhleth i amcangyfrif hanner bywyd - gweler adran III.6 o'r Gwybodaeth Cefnogi Ar-lein - ond maen nhw'n honni bod y ddwy ymagwedd yn cynhyrchu canlyniadau tebyg. A yw fersiwn 2 o'r data NGram yn cynhyrchu canlyniadau tebyg i'r rhai a gyflwynir yn Michel et al. (2011) , sy'n seiliedig ar ddata fersiwn 1? (Hint: Peidiwch â synnu os nad ydyw.)
A oedd yna unrhyw flynyddoedd oedd y tu allan fel blynyddoedd a anghofiwyd yn arbennig o gyflym neu'n arbennig o araf? Yn fyr, dyfeisiwch am resymau posibl ar gyfer y patrwm hwnnw ac esboniwch sut yr ydych wedi nodi'r allaniadau.
Nawr yn dyblygu'r canlyniad hwn ar gyfer fersiwn 2 o'r data NGrams yn Tsieineaidd, Ffrangeg, Almaeneg, Hebraeg, Eidaleg, Rwsieg a Sbaeneg.
Yn cymharu ar draws yr holl ieithoedd, a oedd unrhyw flynyddoedd oedd yn hen amser, fel blynyddoedd a anghofiwyd yn arbennig o gyflym neu'n arbennig o araf? Yn fyr, dyfalu am resymau posibl ar gyfer y patrwm hwnnw.
[ , , , ] Edrychodd Penney (2016) a oedd y cyhoeddusrwydd eang ynghylch gwyliadwriaeth NSA / PRISM (hy, y datganiadau Snowden) ym Mehefin 2013 yn gysylltiedig â gostyngiad sydyn a sydyn mewn traffig i erthyglau Wicipedia ar bynciau sy'n codi pryderon preifatrwydd. Os felly, byddai'r newid hwn mewn ymddygiad yn gyson ag effaith oeri sy'n deillio o wyliadwriaeth màs. Gelwir weithiau ymagwedd Penney (2016) yn ddyluniad cyfres o amser wedi'i amharu , ac mae'n gysylltiedig â'r dulliau a ddisgrifir yn adran 2.4.3.
I ddewis allweddeiriau'r pwnc, cyfeiriodd Penney at y rhestr a ddefnyddiwyd gan Adran Diogelwch y Famwlad yr Unol Daleithiau ar gyfer olrhain a monitro cyfryngau cymdeithasol. Mae'r rhestr DHS yn categoreiddio termau chwilio penodol i amrywiaeth o faterion, hy "Iechyd Concern," "Diogelwch Seilwaith," a "Terfysgaeth." Ar gyfer y grŵp astudio, defnyddiodd Penney y 48 allweddair sy'n gysylltiedig â "Terfysgaeth" (gweler atodiad tabl 8 ). Yna, mae barn erthyglau Wikipedia gyfangryn yn cyfrif yn fisol ar gyfer yr 48 o erthyglau Wikipedia cyfatebol dros gyfnod o 32 mis, o ddechrau mis Ionawr 2012 hyd ddiwedd mis Awst 2014. I gryfhau ei ddadl, creodd hefyd nifer o grwpiau cymharu trwy olrhain erthyglau ar bynciau eraill.
Nawr, byddwch yn dyblygu ac ymestyn Penney (2016) . Mae'r holl ddata amrwd y bydd ei angen arnoch ar gyfer y gweithgaredd hwn ar gael o Wikipedia. Neu gallwch ei gael o'r pecyn R-wikipediatrend (Meissner and R Core Team 2016) . Pan ysgrifennwch eich ymatebion, nodwch pa ffynhonnell ddata a ddefnyddiwyd gennych. (Sylwch fod yr un gweithgaredd hwn hefyd yn ymddangos ym mhennod 6.) Bydd y gweithgaredd hwn yn rhoi ymarfer i chi wrth wraidd data a meddwl am arbrofion naturiol mewn ffynonellau data mawr. Bydd hefyd yn eich cynnal chi gyda ffynhonnell ddata ddiddorol bosibl ar gyfer prosiectau yn y dyfodol.
[ ] Adroddodd Efrati (2016) , yn seiliedig ar wybodaeth gyfrinachol, bod "rhannu cyfanswm" ar Facebook wedi gostwng tua 5.5% flwyddyn dros y flwyddyn tra bod "rhannu darllediadau gwreiddiol" wedi gostwng 21% flwyddyn dros y flwyddyn. Roedd y dirywiad hwn yn arbennig o ddifrifol gyda defnyddwyr Facebook o dan 30 oed. Roedd yr adroddiad yn priodoli'r dirywiad i ddau ffactor. Un yw'r twf yn nifer y bobl "ffrindiau" sydd ar Facebook. Y llall yw bod rhywfaint o weithgarwch rhannu wedi symud i negeseuon ac i gystadleuwyr megis Snapchat. Datgelodd yr adroddiad hefyd y sawl tactegau y mae Facebook wedi ceisio rhoi hwb i'w rannu, gan gynnwys tweaks newyddion algorithm News Feed sy'n gwneud swyddi gwreiddiol yn fwy amlwg, yn ogystal ag atgoffa cyfnodol o'r swyddi gwreiddiol gyda'r nodwedd "Ar y Diwrnod". Pa oblygiadau, os o gwbl, a oes gan y canfyddiadau hyn i ymchwilwyr sydd am ddefnyddio Facebook fel ffynhonnell ddata?
[ ] Beth yw'r gwahaniaeth rhwng cymdeithasegydd a hanesydd? Yn ôl Goldthorpe (1991) , y prif wahaniaeth yw rheolaeth dros gasglu data. Mae haneswyr yn cael eu gorfodi i ddefnyddio cliriau, tra gall cymdeithasegwyr deilwra eu casglu data at ddibenion penodol. Darllenwch Goldthorpe (1991) . Sut mae'r gwahaniaeth rhwng cymdeithaseg a hanes yn gysylltiedig â'r syniad o custommades a readymades?
[ ] Mae hyn yn adeiladu ar y quesiton blaenorol. Tynnodd Goldthorpe (1991) nifer o ymatebion beirniadol, gan gynnwys un gan Nicky Hart (1994) a heriodd ymroddiad Goldthorpe i ddata wedi'i deilwra. Er mwyn egluro cyfyngiadau posibl data wedi'u teilwra, disgrifiodd Hart y Prosiect Gweithiwr Llifog, arolwg mawr i fesur y berthynas rhwng dosbarth cymdeithasol a phleidleisio a gynhaliwyd gan Goldthorpe a chydweithwyr yng nghanol y 1960au. Fel y gellid disgwyl gan ysgolheigion a oedd yn ffafrio data a gynlluniwyd dros ddata a ganfuwyd, casglodd y Prosiect Gweithiwr Llifog data a oedd wedi'i deilwra i fynd i'r afael â theori a gynigiwyd yn ddiweddar am ddyfodol dosbarth cymdeithasol mewn cyfnod o gynyddu'r safonau byw. Ond, mae Goldthorpe a chydweithwyr rywsut "wedi anghofio" i gasglu gwybodaeth am ymddygiad pleidleisio menywod. Dyma sut mae Nicky Hart (1994) crynhoi'r bennod gyfan:
"... mae'n [anodd] osgoi'r casgliad bod menywod yn cael eu hepgor oherwydd bod y set ddata 'wedi'i theilwra' hon wedi'i gyfyngu gan rhesymeg paradigmatig a oedd yn eithrio profiad merched. Wedi'i ysgogi gan weledigaeth ddamcaniaethol o ymwybyddiaeth y dosbarth a gweithredu fel pryderon gwrywaidd ..., adeiladodd Goldthorpe a'i gydweithwyr set o brawfau empirig a oedd yn bwydo a meithrin eu tybiaethau damcaniaethol eu hunain yn hytrach na'u datgelu i brawf dilys o ddigonolrwydd. "
Parhaodd Hart:
"Mae canfyddiadau empirig y Prosiect Gweithiwr Llif yn dweud mwy wrthym am werthoedd gweniniaeth cymdeithaseg canol ganrif nag y maent yn llywio'r prosesau o haenu, gwleidyddiaeth a bywyd materol."
A allwch chi feddwl am enghreifftiau eraill lle mae casgliadau data wedi'u teilwra'n cynnwys rhagfarn y casglwr data a adeiladwyd ynddi? Sut mae hyn yn cymharu â gwrthdaro algorithmig? Pa oblygiadau allai hyn eu cael ar gyfer pryd y dylai ymchwilwyr ddefnyddio darlleniadau a phryd y dylent ddefnyddio custommades?
[ ] Yn y bennod hon, rwyf wedi cyferbynnu data a gasglwyd gan ymchwilwyr i ymchwilwyr â chofnodion gweinyddol a grëwyd gan gwmnïau a llywodraethau. Mae rhai pobl yn galw'r cofnodion gweinyddol hyn "yn dod o hyd i ddata," y maent yn cyferbynnu â "data a gynlluniwyd." Mae'n wir bod ymchwilwyr yn dod o hyd i gofnodion gweinyddol, ond maent hefyd wedi'u dylunio'n dda. Er enghraifft, mae cwmnïau technoleg modern yn gweithio'n galed iawn i gasglu a churo eu data. Felly, mae'r cofnodion gweinyddol hyn wedi'u canfod a'u dylunio, dim ond yn dibynnu ar eich safbwynt (ffigur 2.12).
Rhowch enghraifft o ffynhonnell ddata pan welwch y ddau fel y canfyddir a dyluniwyd yn ddefnyddiol wrth ddefnyddio'r ffynhonnell ddata honno ar gyfer ymchwil.
[ ] Mewn traethawd meddylgar, rhannodd Christian Sandvig ac Eszter Hargittai (2015) ymchwil ddigidol i ddau gategori eang yn dibynnu a yw'r system ddigidol yn "offeryn" neu "wrthrych o astudio". Enghraifft o'r math cyntaf lle mae'r system yn offeryn-yw'r ymchwil gan Bengtsson a chydweithwyr (2011) ar ddefnyddio data ffôn symudol i olrhain mudo ar ôl y daeargryn yn Haiti yn 2010. Enghraifft o'r ail fath-lle mae'r system yn wrthrych o astudiaeth - yn ymchwil gan Jensen (2007) ar sut y mae cyflwyno ffonau symudol trwy Kerala, India wedi effeithio ar weithrediad y farchnad ar gyfer pysgod. Yr wyf yn canfod y gwahaniaeth hwn yn ddefnyddiol oherwydd mae'n egluro y gall astudiaethau gan ddefnyddio ffynonellau data digidol gael amcanion eithaf gwahanol hyd yn oed os ydynt yn defnyddio'r un math o ffynhonnell ddata. Er mwyn egluro'r gwahaniaeth hwn ymhellach, disgrifiwch bedwar astudiaeth yr ydych wedi'i weld: dau sy'n defnyddio system ddigidol fel offeryn a dau sy'n defnyddio system ddigidol fel gwrthrych astudio. Gallwch ddefnyddio enghreifftiau o'r bennod hon os ydych chi eisiau.