aktiviteiten

Kaai:

  • mjitte fan muoite: maklik maklik , medium medium , hurd hurd , hiel dreech hiel dreech
  • freget math ( freget math )
  • freget taalkodearjen ( freget taalkodearjen )
  • data kolleksje ( data kolleksje )
  • myn favoriten ( myn favorite )
  1. [ medium , myn favorite ] Algorithmic confounding wie in probleem mei Google Flu Trends. Lês it papier troch Lazer et al. (2014) , en skriuw in koarte, dúdlike e-mail nei in yngenieur by Google it ferklearjen fan it probleem en it oanbieden fan in idee fan hoe't dizze swierrichheid te herstellen.

  2. [ medium ] Bollen, Mao, and Zeng (2011) beweart dat gegevens fan Twitter kin brûkt wurde om foarsizze de stock merk. Dizze finding late ta de oprjochting fan in hage fûns-Derwent Haadstêd Merken-te ynvestearjen yn de stock merk basearre op gegevens sammele fan Twitter (Jordan 2010) . Wat bewiis soe jo wolle sjen foardat sette jo jild yn dat fûns?

  3. [ maklik ] Wylst guon folkssûnens foarsprekkers hail e-sigaretten as in effektive stipe foar roken cessation, oaren warskôgje oer de mooglike risiko, lykas de hege-nivo fan nicotine. Yntinke dat in ûndersiker beslút te studearjen publike miening nei e-sigaretten troch sammeljen e-sigaretten-ferbân Twitter berjochten en it fieren fan fiellen analyze.

    1. Wat binne de trije mooglik biases dat jo binne meast soargen oer yn dit ûndersyk?
    2. Clark et al. (2016) rûn krekt sa'n ûndersyk. Earst, se sammele 850,000 tweets dy't brûkt e-cigarette-relatearre keywords út jannewaris 2012 troch desimber 2014. Op tichter ynspeksje, se realisearre dat in protte fan dizze tweets waarden automatisearre (dat wol sizze, net produsearre troch minsken) en in protte fan dizze automatisearre tweets wienen yn wêzen reklamespotsjes. Se ûntwikkele in Human Detection algoritme te skieden Automated tweets fan organyske tweets. Mei help fan dizze Human Detect algoritme se fûn dat 80% fan de tweets waarden automatisearre. Hat dit finding feroarje jo antwurd ta diel (a)?
    3. Doe't se ferlike it fiellen yn organyske en Automated tweets se fûn dat de Automated tweets binne positiver as biologyske tweets (6,17 fersus 5,84). Hat dit finding feroarje jo antwurd ta (b)?
  4. [ maklik ] Yn novimber 2009, Twitter feroare de fraach yn de tweet box fan "Wat dogge jimme?" Oan "Wat bart?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hoe tinke de feroaring fan prompts sil gefolgen hawwe dy't tweet en / of wat se tweet?
    2. Name ien ûndersyk projekt dêr't jo leaver de prompt "Wat dogge jimme?" Lis wêrom.
    3. Name ien ûndersyk projekt dêr't jo leaver de prompt "Wat bart?" Lis wêrom.
  5. [ medium ] Kwak et al. (2010) analysearre 41.7 miljoen brûker profilen, 1.47 miljard sosjale relaasjes, 4262 Trending topics, en 106 miljoen tweets tusken juny 6e en June 31, 2009. Op grûn fan dizze analyze se konkludearre dat Twitter tsjinnet mear as in nije medium fan ynformaasje dielen as in sosjaal netwurk.

    1. Yn betinken nommen Kwak et al syn finding, hokker type ûndersyk soe jo dwaan mei Twitter gegevens? Wat type ûndersyk soe jo net dwaan mei Twitter gegevens? Wêrom?
    2. Yn 2010, Twitter tafoege in Who Om Folgje tsjinst meitsjen ôfstimd suggestje foar brûkers. Trije oanbefellings wurde werjûn op in tiid op 'e wichtichste side. Oanbefellings binne faak tekene fan ien fan "freonen-fan-freonen," en ûnderlinge kontakten wurde ek werjûn wurde yn de oanbefelling. Brûkers kinne ferfarskjen om te sjen in nije set fan oanbefellingen of besykje in side mei in langere list fan de oanrikkemedaasjes. Hawwe jo tinke dizze nije funksje soe feroarje jo antwurd ta diel a)? Wêrom of wêrom net?
    3. Su, Sharma, and Goel (2016) evaluearre it effekt fan Who Om Folgje tsjinst en fûn dat wylst brûkers oer de populariteit spektrum profitearre fan de oanbefellings, de meast populêre brûkers profitearret substansjeel mear as gemiddeld. Hat dit finding feroarje jo antwurd ta diel b)? Wêrom of wêrom net?
  6. [ maklik ] "Retweets" wurde faak brûkt om te mjitten ynfloed en ferspraat fan ynfloed op Twitter. Earst, brûkers moasten kopiearje en plak de tweet se graag, kich de oarspronklike skriuwer mei syn / har handle, en sels typ "RT" foar de tweet te jaan dat it in retweet. Dêrnei, yn 2009 Twitter tafoege in "retweets" knop. Yn juny 2016, Twitter makke it mooglik foar brûkers om retweets harren eigen tweets (https://twitter.com/twitter/status/742749353689780224). Hawwe jo tinke dizze feroarings moatte beynfloedzje hoe't jo brûke "retweets" yn jo ûndersyk? Wêrom of wêrom net?

  7. [ medium , data kolleksje , freget taalkodearjen ] Michel et al. (2011) oanlein in korpus opkommende fan Google ynspanning te digitalisearjen boeken. Mei help fan de earste ferzje fan it korpus, dat waard publisearre yn 2009 en befette mear as 5 miljoen digitalisearre boeken, de auteurs analysearre wurd usage frekwinsje te ûndersykjen taalkundige feroarings en kulturele trends. Gau de Google Books Corpus waard in populêr gegevens boarne foar ûndersikers, en in 2e ferzje fan de databank waard útbrocht yn 2012.

    Mar, Pechenick, Danforth, and Dodds (2015) warskôge dat ûndersikers moatte folslein karakteriseren de sampling proses fan it korpus foardat brûke it foar tekenjen breed konklúzjes. De wichtichste dei is dat it korpus is biblioteek-as, mei ien fan elk boek. As resultaat, in yndividu, produktyf skriuwer is by steat om te merkber ynfoegje nije útdrukkings yn de Google Books leksikon. Boppedat, wittenskiplike teksten foarmje in hieltyd ynhâldlik part fan it korpus yn de 1900. Boppedat, troch fergelykjen twa ferzjes fan it Ingelske Fiction datasets, Pechenick et al. fûn bewiis dat ûnfoldwaande filterjen waard brûkt yn it produsearjen fan de earste ferzje. Alle fan de gegevens nedich foar aktiviteit is beskikber hjir: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Yn Michel et al. Syn oarspronklike papier (2011) , se brûkten de 1e ferzje fan de Ingelske gegevens set, útset de frekwinsje fan brûkme fan de jierren "1880", "1912" en "1973", en konkludearre dat "wy binne ferjit ús ferline flugger mei elk lâns jier "(Fig. 3A, Michel et al.). Replicate deselde plot mei help fan 1) 1e ferzje fan it korpus, Ingelsk dataset (itselde as Fig. 3A, Michel et al.)
    2. No replicate itselde perseel mei de 1e ferzje, Ingelske fiksje dataset.
    3. No replicate itselde perseel mei de 2e ferzje fan it korpus, Ingelske dataset.
    4. Ta beslút, replicate deselde plot mei de 2e ferzje, Ingelske fiksje dataset.
    5. Beskriuwen de ferskillen en oerienkomsten tusken dizze fjouwer perselen. Hawwe jo iens mei Michel et al. Syn oarspronklike ynterpretaasje fan de waarnommen trend? (Tip: c) en d) wêze moat deselde as Figure 16 yn Pechenick et al.)
    6. No, dat jimme hawwe replicated dit iene finding mei help fan ferskillende Google Books taalkorpora, kies in oare taalkundige feroaring of kulturele ferskynsels presintearre yn Michel et al. Syn oarspronklike papier. Hawwe jo iens mei harren ynterpretaasje yn it ljocht fan de beheinings presintearre yn Pechenick et al.? Om jo argumint sterker, besykje replicate deselde grafyk mei help fan ferskillende ferzjes fan gegevens ynsteld as boppe.
  8. [ hiel dreech , data kolleksje , freget taalkodearjen , myn favorite ] Penney (2016) ûndersiket oft it wiidfersprate publisiteit oer NSA / prisma tafersjoch (dat wol sizze, de Snowden Revelations) yn juny 2013 wurdt yn ferbân brocht mei in skerp en hommels delgong yn it ferkear nei Wikipedy artikels oer ûnderwerpen dy't ferheegje privacy soargen. As sa, dizze feroaring yn hâlden en dragen soe wêze oerienstimming mei in ysbaarlike wurking fuortkomme út massa tafersjoch. De oanpak fan Penney (2016) wurdt ek wol in ôfbrutsen tiid rige ûntwerp en wurdt yn ferbân mei de oanpak yn it haadstik oer approximating eksperiminten út feiten 't waarnimming (paragraaf 2.4.3).

    Om kiezen it ûnderwerp keywords, Penney neamd nei de list brûkt troch US Department of Homeland Feiligens foar folgjen en kontrôle op sosjale media. De DHS list categorizes bepaalde syktermen yn in berik fan saken, dus "Health Concern," "Ynfrastruktuer Feiligens," en "Terrorisme." Foar de stúdzje groep, Penney brûkt de fjirtich-acht keywords yn ferbân mei "Terrorisme" (sjoch Tabel 8 Taheakke). Hy dan byinoar opteld; Wikipedia article view telt op in moanlikse basis foar de korrespondearjende fjirtich-acht Wikipedy artikels oer in tritich-twa moanne perioade, út it begjin fan jannewaris 2012 oant de ein fan augustus 2014. Om fersterkjen syn argumint, er ek makke ferskate ferliking groepen troch folgjen artikel views op oare ûnderwerpen.

    No, jo geane te replicate en útwreidzje Penney (2016) . Alle de rauwe gegevens dy't jo nedich foar dizze aktiviteit is beskikber from Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Of jo kinne it út 'e R pakket wikipediatrend (Meissner and Team 2016) . As jo ​​skriuwe-up jo antwurden, dan derom hokker gegevensboarne jo brûkt. (Tink derom: Dizze deselde aktiviteit ek ferskynt yn haadstik 6)

    1. Read Penney (2016) en replicate Figuer 2 dy't sjen lit de side views foar "Terrorisme" -related siden foar en nei de Snowden iepenbiering. Interpret de befinings.
    2. Folgjende, replicate Fig 4A, dat fergeliket de stúdzje groep ( "Terrorisme" -related artikels) mei in Dirigeant groep mei help keywords kategory ûnder "DHS & Oare reisbureau" út de DHS list (sjoch taheakke tabel 10). Interpret de befinings.
    3. Yn diel b) jo ferlike de stúdzje groep oan ien Dirigeant groep. Penney ek ferlike mei twa oare Dirigeant groepen: "Ynfrastruktuer Security" -related artikels (bijlage Tabel 11) en populêre Wikipedia siden (bijlage tabel 12). Kom op mei in alternatyf Dirigeant groep, en test oft de befinings út diel b) is gefoelich foar jo kar fan Dirigeant groep. Hokker kar fan Dirigeant groep makket de measte sin? Wêrom?
    4. De skriuwer dat keywords oangeande "Terrorisme" waarden brûkt om te selektearjen de Wikipedy artikels omdat it Amerikaanske regear oanhelle terrorisme as in kaai rjochtfeardiging foar syn online tafersjoch praktiken. As in kontrôle fan dy 48 "Terrorisme" -related keywords, Penney (2016) ek útfierd in ûndersyk op MTurk freget respondinten te beöardielje elk fan keywords yn termen fan Government Trouble, Privacy-Sensitive, en mijen (Taheakke Tabel 7 en 8). Replicate it ûndersyk op MTurk en ferlykje jo resultaten.
    5. Op grûn fan de resultaten yn diel d) en jo lêzen fan it artikel, do jo akkoard mei de skriuwer syn kar fan ûnderwerp keywords yn 'e stúdzje groep? Wêrom of wêrom net? As net, wat soe jim foarstelle ynstee?
  9. [ maklik ] Efrati (2016) ferslaggen, basearre op fertroulike ynformaasje, dy't "totaal dielen" op Facebook hie sakke troch likernôch 5,5% jier over jier wylst "oarspronklike útstjoering dielen" wie del 21% jier oer jier. Dizze delgong wie benammen akute mei Facebook brûkers ûnder 30 jier fan leeftyd. It rapport taskreaun de delgong nei twa faktoaren. Ien is de groei yn it tal "freonen" minsken ha op Facebook. De oare is dat guon dielen aktiviteit hat ferskood nei messaging en oan konkurrinten lykas Snapchat. It rapport ek bliken de ferskate taktyk Facebook hie besocht te stimulearjen dielen, ynklusyf News Feed algoritme oanpassingen dy't meitsje oarspronklike berjochten mear prominent, likegoed as periodyk herinneringen fan de oarspronklike berjochten brûkers "Op dizze Day" ferskate jierren lyn. Wat konsekwinsjes, as alle, hat dizze befinings hawwe foar ûndersikers dy't wolle brûke Facebook as gegevens boarne?

  10. [ medium ] Tumasjan et al. (2010) melden dat oanpart fan tweets oanjaan fan in politike partij matched it oanpart fan de stimmen dy't partij krige yn de Dútske parlemintêre ferkiezings yn 2009 (figuer 2.9). Yn oare wurden, die bliken dat dy koe brûke Twitter te foarsizze de ferkiezing. Op it stuit dizze stúdzje waard publisearre waard as tige spannend omdat it like te suggerearje in weardefolle gebrûk foar in mienskiplike boarne fan grutte gegevens.

    Mei it each op de minne eigenskippen fan grutte gegevens, lykwols, jo moatte daliks wêze skeptysk fan dit resultaat. Dútsers op Twitter yn 2009 wienen nochal in net-represintatyf groep, en oanhingers fan ien partij soe tweet oer polityk faker. Sa, it liket nuver dat al it mooglike biases dat jo koenen yntinke soe een of andere manier ôfbrekke út. Yn feite, de resultaten yn Tumasjan et al. (2010) die bliken te wêzen te goed te wêzen wier. Yn harren papier, Tumasjan et al. (2010) beskôge seis politike partijen: kristen-demokraten (CDU), kristlik Sosjale demokraten (CSU), SPD, liberalen (FDP), De Linker (Die Linke), en de Griene Partij (Grüne). Lykwols, de measte neamd Dútske politike partij op Twitter op dat stuit wie de Pirate Partij (Piraten), in partij dy't striidt bestjoer regeling fan it ynternet. Doe't de Pirate Partij waard opnommen yn 'e analyze, Twitter neamt wurdt in skriklike foarsizzer fan ferkiezingsútslach (Figure 2,9) (Jungherr, Jürgens, and Schoen 2012) .

    Figure 2.9: Twitter neamt ferskine te foarsizze de resultaten fan de 2009 Dútske ferkiezings (Tumasjan et al. 2010), mar dit resultaat blykt te ôfhinklik op guon willekeurige en sûnder grûn karren (Jungherr, Jürgens, en Schoen 2012).

    Figure 2.9: Twitter neamt ferskine te foarsizze de resultaten fan de 2009 Dútske ferkiezings (Tumasjan et al. 2010) , mar dit resultaat blykt te ôfhinklik op guon willekeurige en sûnder grûn karren (Jungherr, Jürgens, and Schoen 2012) .

    Dêrnei, oare ûndersikers om de wrâld hawwe brûkt fancier metoaden-lykas mei help fan fiellen analyze te ûnderskieden tusken posityf en negatyf fermeldings fan de partijen-om te ferbetterjen de mooglikheid fan Twitter gegevens te foarsizze in ferskaat oan ferskillende typen fan ferkiezings (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hjir is hoe't Huberty (2015) gearfette de resultaten fan dizze besocht te foarsizzen ferkiezings:

    "Alle bekende forecasting metoaden basearre op sosjale media hawwe mislearre doe't ûnderwurpen wurde oan de easken fan de wiere foaren-looking elektorale forecasting. Dy mislearre ferskine te wêzen troch fûnemintele eigenskippen fan sosjale media, ynstee fan nei metodologyske of algorithmic swierrichheden. Yn koarte, sosjale media dogge net, en nei alle gedachten nea sil, biede in stabile, Unbiased, represintatyf byld fan de Electorate; en gemak gebrûk fan sosjale media misse foldwaande gegevens te lossen dizze problemen post hoc. "

    Lês wat fan it ûndersyk dat liede Huberty (2015) oan, dat konklúzje, en skriuw in iene side memo om in politike kandidaat beskriuwing oft en hoe't Twitter moatte brûkt wurde om für ferkiezings.

  11. [ medium ] Wat is it ferskil tusken in sosjolooch en in histoarikus? Neffens Goldthorpe (1991) , de wichtichste ferskil tusken in sosjolooch en in histoarikus is kontrôle oer gegevens kolleksje. Skiedkundigen binne twongen te brûken reliken wylst sosjologen kinne ôfstimme harren gegevens samling nei spesifike doelen. Read Goldthorpe (1991) . Hoe is it ferskil tusken sosjology en skiednis yn ferbân mei it idee fan Custommades en Readymades?

  12. [ hurd ] Bouwe op de foarige fraach, Goldthorpe (1991) luts in oantal krityske reaksjes, wêrûnder ien út Nicky Hart (1994) , dy't passearde Goldthorpe fan devoasje om maat makke gegevens. Om dúdlikens oer de mooglike beheinings fan tailor-made gegevens, Hart beskreau de begoedige Worker Project, in grut ûndersyk te mjitten de relaasje tusken sosjale klasse en fan stimmen dat waard útfierd troch Goldthorpe en kollega yn 'e mids-1960. As men ferwachtsje soe fan in gelearde dy't favoured ûntwurpen gegevens oer fûn gegevens, de begoedige Worker Projekt sammele gegevens dy't waard ôfstimd op pakken in koartlyn útstel teory oer de takomst fan sosjale klasse yn in tiid fan tanimmende libbene noarmen. Mar, Goldthorpe en kollega oft oare manear "fergetten" te sammeljen ynformaasje oer it stimgedrach fan de froulju. Hjir is hoe't Nicky Hart (1994) gearfettings de hiele episoade:

    ". . . it [is] dreech te kommen de konklúzje dat froulju waarden weilitten omdat dit 'kleanmakker makke' dataset waard beheind troch in paradigmatic logika dy't útsletten froulike ûnderfining. Dreaun troch in teoretyske fizioen fan klasse bewustwêzen en aksje as manlike preokkupaasjes. . . , Goldthorpe en syn kollega oanlein in set fan empiryske bewizen dy't nocht en nurtured harren eigen teoretyske oannames ynstee fan ûntbleatsjen se nei in jildich test fan adequacy. "

    Hart fierder:

    "It empiryske befinings fan de begoedige Worker Project fertel ús mear oer it masculinist wearden fan mids-ieu sosjology as se ynformearje de prosessen fan stratification, polityk en materiaal libben."

    Kin jo tinke fan oare foarbylden dêr't tailor-made gegevens samling hat de biases fan de gegevens samler boud yn it? Hoe hat dit ferlykje nei algorithmic confounding? Wat gefolgen kin dit hawwe foar as ûndersikers moatte brûke Readymades en doe't se moatte brûke Custommades?

  13. [ medium ] Yn dit haadstik, ik contrasted gegevens sammele troch ûndersikers foar ûndersikers mei bestjoerlike records makke troch bedriuwen en oerheden. Guon minsken neame dizze bestjoerlike records "fûn gegevens," dat se kontrast mei "ûntwurpen gegevens." It is wier dat bestjoerlike records binne fûn troch ûndersikers, mar se binne ek sterk ûntwurpen. Bygelyks, moderne tech bedriuwen besteegje enoarme bedraggen fan tiid en middels te sammeljen en curate harren gegevens. Sa, dy bestjoerlike records binne sawol fûn en ûntwurp, dat krekt ôfhinklik fan jo perspektyf (Figure 2.10).

    Figuer 2.10: De foto is sawol in ein en in knyn; wat jo sjogge hinget ôf fan jo perspektyf. Oerheid en it bedriuwslibben bestjoerlike records binne sawol fûn en ûntwurpen; wat jo sjogge hinget ôf fan jo perspektyf. Bygelyks, de oprop gegevens records sammele troch in sel telefoan bedriuw binne fûn gegevens út it perspektyf fan in ûndersiker. Mar, dy krekte deselde records binne ûntwurpen gegevens perspektyf fan immen wurkjen yn de billing ôfdieling fan de telefoan bedriuw. Boarne: Wikipedy

    Figuer 2.10: De foto is sawol in ein en in knyn; wat jo sjogge hinget ôf fan jo perspektyf. Oerheid en it bedriuwslibben bestjoerlike records binne sawol fûn en ûntwurpen; wat jo sjogge hinget ôf fan jo perspektyf. Bygelyks, de oprop gegevens records sammele troch in sel telefoan bedriuw binne fûn gegevens út it perspektyf fan in ûndersiker. Mar, dy krekte deselde records binne ûntwurpen gegevens perspektyf fan immen wurkjen yn de billing ôfdieling fan de telefoan bedriuw. Boarne: Wikipedy

    Jouwe in foarbyld fan gegevens boarne dêr't sjen dat sawol as fûn en ûntwurpen is brûkber by it brûken fan dy gegevens boarne foar ûndersyk.

  14. [ maklik ] Yn in betochtsume essay, Christian Sandvig en Eszter Hargittai (2015) beskriuwe twa soarten fan digitale ûndersyk, dêr't de digitale systeem is "ynstrumint" of "objekt fan stúdzje." In foarbyld fan it earste soarte fan ûndersyk is dêr't Bengtsson en kollega (2011) brûkt mobile tillefoan gegevens te track migraasje nei de ierdskodding yn Haïty yn 2010. in foarbyld fan de twadde soarte is dêr't Jensen (2007) stúdzjes hoe't de ynfiering fan mobile tillefoans yn Kerala, India beynfloede it funksjonearjen fan 'e merk foar fisken. Ik fyn dit helpful omdat it clarifies dat stúdzjes mei help fan digitale gegevens boarnen kinne hawwe hiel ferskillende doelen sels as se mei help fan deselde soarte fan gegevens boarne. Om fierder ferdúdlikjen dit ûnderskie, beskriuwe fjouwer ûndersiken dy't jo ha sjoen: twa dy't gebrûk meitsje fan in digitale systeem as in ynstrumint en twa dy't gebrûk meitsje fan in digitale systeem as in foarwerp fan stúdzje. Jo kinne gebrûk meitsje fan foarbylden fan dit haadstik as jo wolle.