aktiwiteite

  • moeilikheidsgraad: maklik maklik , medium medium , hard hard , baie hard baie hard
  • vereis wiskunde ( vereis wiskunde )
  • vereis kodering ( vereis kodering )
  • data-insameling ( data-insameling )
  • my Gunstelinge ( my gunsteling )
  1. [ medium , my gunsteling ] Algoritmiese verwarring was 'n probleem met Google Grense-tendense. Lees die koerant deur Lazer et al. (2014) , en skryf 'n kort, duidelike e-pos aan 'n ingenieur by Google wat die probleem verduidelik en bied 'n idee van hoe om dit reg te stel.

  2. [ medium ] Bollen, Mao, and Zeng (2011) beweer dat data van Twitter gebruik kan word om die aandelemark te voorspel. Hierdie bevinding het gelei tot die skepping van 'n verskansingsfonds-Derwent Capital Markets-om te belê in die aandelemark gebaseer op data wat van Twitter (Jordan 2010) . Watter getuienis wil jy sien voordat jy jou geld in daardie fonds plaas?

  3. [ maklik ] Terwyl sommige voorstanders van openbare gesondheid e-sigarette beskou as 'n doeltreffende hulpmiddel vir rookstaking, waarsku ander ander oor die potensiële risiko's, soos die hoë vlakke van nikotien. Stel jou voor dat 'n navorser besluit om die publieke opinie na e-sigarette te bestudeer deur e-sigarette-verwante Twitter-plasings te versamel en sentimentanalise te doen.

    1. Wat is die drie moontlike vooroordele waaroor u die meeste bekommerd is?
    2. Clark et al. (2016) het net so 'n studie gehardloop. Eerstens het hulle 850,000 tweets versamel wat e-sigaretverwante sleutelwoorde van Januarie 2012 tot Desember 2014 gebruik het. By nadere ondersoek het hulle besef dat baie van hierdie tweets geoutomatiseer is (dit is nie deur mense vervaardig nie) en baie van hierdie outomatiese tweets was in wese advertensies. Hulle het 'n menslike opsporing algoritme ontwikkel om geoutomatiseerde tweets van organiese tweets te skei. Met behulp van hierdie menslike opsporing algoritme het hulle gevind dat 80% van tweets geoutomatiseer is. Verander hierdie bevinding jou antwoord op deel (a)?
    3. Toe hulle die sentiment vergelyk met organiese en outomatiese tweets, het hulle bevind dat die geoutomatiseerde tweets meer positief was as organiese tweets (6.17 teenoor 5.84). Verander hierdie bevinding jou antwoord op (b)?
  4. [ maklik ] In November 2009 het Twitter die vraag in die tweetkassie van "Wat doen jy?" Verander na "Wat gebeur?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hoe dink jy sal die verandering van vrae beïnvloed wie tweets en / of wat hulle tweet?
    2. Noem een ​​navorsingsprojek waarvoor u die volgende vra: "Wat doen u?" Verduidelik hoekom.
    3. Noem een ​​navorsingsprojek waarvoor u die spoed "Wat gaan gebeur?" Verkies. Verduidelik hoekom.
  5. [ maklik ] "Retweets" word dikwels gebruik om invloed en verspreiding van Twitter op Twitter te meet. Aanvanklik moes gebruikers die tweet wat hulle gehou het, kopieer en plak, die oorspronklike skrywer met sy handvatsel tag, en manueel tik "RT" voor die tweet om aan te dui dat dit 'n retweet was. Dan het Twitter in 2009 'n "retweet" -knoppie bygevoeg. In Junie 2016 het Twitter dit moontlik gemaak vir gebruikers om hul eie tweets te retweet (https://twitter.com/twitter/status/742749353689780224). Dink u hierdie veranderinge moet beïnvloed hoe u "retweets" in u navorsing gebruik? Hoekom of hoekom nie?

  6. [ baie hard , data-insameling , vereis kodering , my gunsteling ] In 'n wydverspreide referaat het Michel en kollegas (2011) die inhoud van meer as vyf miljoen gedigitaliseerde boeke geanaliseer in 'n poging om langtermyn kulturele tendense te identifiseer. Die data wat hulle gebruik het, is nou as die Google NGrams-datastel vrygestel, en daarom kan ons die data gebruik om van hul werk te repliseer en uit te brei.

    In een van die vele uitslae in die koerant het Michel en kollegas aangevoer dat ons vinniger en vinniger vergeet. Vir 'n bepaalde jaar, sê "1883," het hulle bereken die verhouding van 1 gram wat in elke jaar tussen 1875 en 1975 gepubliseer is, wat "1883" was. Hulle het geredeneer dat hierdie verhouding 'n mate is van die belangstelling in gebeure wat in daardie jaar gebeur het. In hul figuur 3a het hulle die gebruikstrajecten vir drie jaar geprojecteerd: 1883, 1910 en 1950. Hierdie drie jaar deel 'n gemeenskaplike patroon: min gebruik voor die jaar, dan 'n piek, dan verval. Vervolgens, om die jaarlikse verval van elke jaar te bereken, het Michel en kollegas die jaarlikse helfte van elke jaar tussen 1875 en 1975 bereken. In hul figuur 3a (inset) het hulle getoon dat die halfleeftyd van elkeen jaar neem af, en hulle het geargumenteer dat dit beteken dat ons die verlede vinniger en vinniger vergeet. Hulle gebruik Weergawe 1 van die Engelse corpus, maar daarna het Google 'n tweede weergawe van die corpus vrygestel. Lees asseblief al die dele van die vraag voordat u begin met kodering.

    Hierdie aktiwiteit sal jou oefen om herbruikbare kode te skryf, resultate te interpreteer en data wrangling (soos om met ongemaklike lêers te werk en om data te ontbreek). Hierdie aktiwiteit sal jou ook help om op hoogte te bly met 'n ryk en interessante datastel.

    1. Kry die rou data van die Google Books NGram Viewer webwerf. In die besonder, moet jy weergawe 2 van die Engelse taalkorpus gebruik, wat op 1 Julie 2012 vrygestel is. Ongekomprimeer, hierdie lêer is 1.4GB.

    2. Onthou die hoofdeel van figuur 3a van Michel et al. (2011) . Om hierdie figuur te herskep, sal jy twee lêers benodig: die een wat jy afgelaai het in deel (a) en die "totale tellings" -lêer, wat jy kan gebruik om die ruwe tellings in proporsies te omskep. Let daarop dat die totale tellingslêer 'n struktuur het wat dit moeilik kan maak om in te lees. Verskaf weergawe 2 van die NGram-data soortgelyke resultate as dié wat in Michel et al. (2011) , wat gebaseer is op weergawe 1 data?

    3. Gaan nou jou grafiek na die grafiek wat deur die NGram Viewer geskep is.

    4. Onthou figuur 3a (hooffiguur), maar verander die \(y\) -axis om die rou-meldingstelling te wees (nie die koers van noem nie).

    5. Lei die verskil tussen (b) en (d) jou om enige van die resultate van Michel et al te herwaardeer. (2011). Hoekom of hoekom nie?

    6. Gebruik nou die inskrywing van figuur 3a deur die proporsie van noem te gebruik. Dit is, vir elke jaar tussen 1875 en 1975, die halfleeftyd van daardie jaar bereken. Die halfleeftyd word gedefinieer as die aantal jare wat verbygaan voordat die deel van die verwysings die helfte van die piekwaarde bereik. Let daarop dat Michel et al. (2011) doen iets meer ingewikkeld om die halfleeftyd-kyk afdeling III.6 van die ondersteunende aanlyn-inligting te skat - maar hulle beweer dat beide benaderings soortgelyke resultate lewer. Verskaf weergawe 2 van die NGram data soortgelyke resultate as dié wat in Michel et al. (2011) , wat gebaseer is op weergawe 1 data? (Wenk: Moenie verbaas wees as dit nie.)

    7. Was daar jare wat uitskieters was, soos jare wat veral vinnig of besonder stadig vergeet is? Bespreek kortliks oor moontlike redes vir die patroon en verduidelik hoe jy die uitskieters geïdentifiseer het.

    8. Herhaal nou hierdie uitslag vir weergawe 2 van die NGrams-data in Sjinees, Frans, Duits, Hebreeus, Italiaans, Russies en Spaans.

    9. In vergelyking oor alle tale, was daar jare wat uitskieters was, soos jare wat veral vinnig of veral stadig vergeet is? Bespreek kortliks oor moontlike redes vir daardie patroon.

  7. [ baie hard , data-insameling , vereis kodering , my gunsteling ] Penney (2016) ondersoek ingestel of die wydverspreide publisiteit oor NSA / PRISM-toesig (dws die Snowden-onthullings) in Junie 2013 geassosieer word met 'n skerp en skielike afname in die verkeer na Wikipedia-artikels oor onderwerpe wat privaatheidskwessies betref. As dit so is, sal hierdie verandering in gedrag in ooreenstemming wees met 'n verkoeling-effek as gevolg van massa-toesig. Die benadering van Penney (2016) word soms 'n onderbrekende tydreeksontwerp genoem , en dit hou verband met die benaderings beskryf in afdeling 2.4.3.

    Om die onderwerp sleutelwoorde te kies, verwys Penney na die lys wat gebruik word deur die Amerikaanse Departement van Binnelandse Veiligheid vir die opsporing en monitering van sosiale media. Die DHS-lys kategoriseer sekere soekterme in 'n verskeidenheid probleme, naamlik "Gesondheidsorg," "Infrastruktuurveiligheid" en "Terrorisme." Vir die studiegroep gebruik Penney die 48 sleutelwoorde wat verband hou met "Terrorisme" (sien bylaag tabel 8 ). Hy het dan maandeliks Wikipedia-artikels opgemerk vir die ooreenstemmende 48 Wikipedia-artikels oor 'n tydperk van 32 maande vanaf die begin van Januarie 2012 tot die einde van Augustus 2014. Om sy argument te versterk, het hy ook verskeie vergelykingsgroepe geskep deur dop te hou artikel aansigte oor ander onderwerpe.

    Nou gaan jy Penney (2016) repliseer en uitbrei. Al die rou data wat u vir hierdie aktiwiteit benodig, is beskikbaar vanaf Wikipedia. Of jy kan dit kry van die R-pakket wikipediatrend (Meissner and R Core Team 2016) . Wanneer u u antwoorde opskryf, let asseblief op watter data bron u gebruik het. (Let daarop dat dieselfde aktiwiteit ook in hoofstuk 6 voorkom.) Hierdie aktiwiteit sal jou oefen in data-wrangling en dink aan natuurlike eksperimente in groot databronne. Dit sal jou ook aan die gang met 'n potensieel interessante databron vir toekomstige projekte.

    1. Lees Penney (2016) en herhaal sy figuur 2 wat die bladsybeskouings vir "Terrorisme" -verwante bladsye voor en na die Snowden-onthullings toon. Interpreteer die bevindinge.
    2. Vervolgens, herhaal figuur 4A, wat die studiegroep ("Terrorisme" -verwante artikels) vergelyk met 'n vergelykende groep met sleutelwoorde gekategoriseer onder "DHS & Other Agencies" van die DHS-lys (sien bylae tabel 10 en voetnoot 139). Interpreteer die bevindinge.
    3. In deel (b) het u die studiegroep vergelyk met een vergelykende groep. Penney word ook vergelyk met twee ander vergelykende groepe: "Infrastruktuur Sekuriteit" verwante artikels (Bylaag tabel 11) en gewilde Wikipedia-bladsye (Bylaag tabel 12). Kom op met 'n alternatiewe vergelykingsgroep, en toets of die bevindinge van deel (b) sensitief is vir jou keuse van vergelykende groep. Watter keuse maak die meeste sin? Hoekom?
    4. Penney het gesê dat sleutelwoorde met betrekking tot "Terrorisme" gebruik is om Wikipedia-artikels te selekteer omdat die Amerikaanse regering terrorisme aangehaal het as 'n sleutelregverdiging vir sy aanlyn-toesigspraktyke. As 'n tjek van hierdie 48 "Terrorisme" -verwante sleutelwoorde, het Penney (2016) ook 'n opname op MTurk gedoen, waarin respondente gevra is om elkeen van die sleutelwoorde te evalueer in terme van Staatsprobleme, Privaatheidsgevoeligheid en Vermyding (bylae tabel 7 en 8 ). Replikeer die opname op MTurk en vergelyk jou resultate.
    5. Op grond van die resultate in deel (d) en jou lees van die artikel stem jy saam met Penney se keuse van onderwerpwoorde in die studiegroep? Hoekom of hoekom nie? Indien nie, wat sal jy eerder voorstel?
  8. [ maklik ] Efrati (2016) het op grond van vertroulike inligting gerapporteer dat "totale deel" op Facebook met meer as 5,5% oor die jaar gedaal het, terwyl die "oorspronklike uitruildeling" 21% hoër was as die jaar. Hierdie afname was veral akuut met Facebook-gebruikers onder 30 jaar. Die verslag het die afname aan twee faktore toegeskryf. Een is die groei in die aantal "vriende" wat mense op Facebook het. Die ander is dat sommige deelaktiwiteite verskuif het na boodskappe en aan mededingers soos Snapchat. Die verslag het ook die verskeie taktieke onthul. Facebook het probeer om deel te verbeter, insluitend die nuus-algoritme-tweaks wat oorspronklike boodskappe meer prominent maak, asook periodieke herinneringe aan die oorspronklike plasings met die "On This Day" -funksie. Watter implikasies, indien enige, het hierdie bevindinge vir navorsers wat Facebook as 'n databron wil gebruik?

  9. [ medium ] Wat is die verskil tussen 'n sosioloog en 'n historikus? Volgens Goldthorpe (1991) is die belangrikste verskil beheer oor data-insameling. Geskiedkundiges word verplig om oorblyfsels te gebruik, terwyl sosioloë hul data-insameling kan aanpas vir spesifieke doeleindes. Lees Goldthorpe (1991) . Hoe is die verskil tussen sosiologie en geskiedenis verwant aan die idee van custommades en readymades?

  10. [ hard ] Dit bou voort op die vorige quesiton. Goldthorpe (1991) het 'n aantal kritiese antwoorde opgestel, waaronder een van Nicky Hart (1994) wat Goldthorpe se toewyding aan persoonlike data uitgedaag het. Om die potensiële beperkings van maatstawwe te verduidelik, het Hart die Affluent Worker Project beskryf, 'n groot opname om die verhouding tussen sosiale klas en stemme wat deur Goldthorpe en kollegas in die middel van die 1960's uitgevoer is, te meet. Soos 'n mens van 'n geleerde kon verwag wat data oor gegewenseerde data ontwerp het, het die Affluent Worker Project data versamel wat aangepas is om 'n onlangs voorgestelde teorie oor die toekoms van die sosiale klas in 'n era van toenemende lewenstandaard aan te spreek. Maar Goldthorpe en kollegas het een of ander manier "vergeet" om inligting oor die stemgedrag van vroue in te samel. Hier is hoe Nicky Hart (1994) die hele episode opgesom het:

    "... dit is moeilik om die gevolgtrekking te vermy dat vroue weggelaat word omdat hierdie" persoonlike "datastel beperk is tot 'n paradigmatiese logika wat vroulike ervaring uitgesluit het. Gedryf deur 'n teoretiese visie van klasbewustheid en optrede as manlike bekommernisse ... het Goldthorpe en sy kollegas 'n stel empiriese bewyse gebou wat hul eie teoretiese aannames aangevoer en gekoester het in plaas daarvan om hulle bloot te stel aan 'n geldige toets van toereikendheid.

    Hart het voortgegaan:

    "Die empiriese bevindings van die Affluent Worker Project vertel ons meer oor die manlikeswaardes van die middel-eeuse sosiologie as wat hulle die prosesse van stratifikasie, politiek en materiële lewe inlig."

    Kan jy aan ander voorbeelde dink waar pasgemaakte data-insameling die vooroordeel van die data-versamelaar daarin het? Hoe vergelyk dit met algoritmiese verwarring? Watter implikasies kan dit hê wanneer navorsers leesmoue moet gebruik en wanneer hulle hulself moet gebruik?

  11. [ medium ] In hierdie hoofstuk het ek kontrasteer data versamel deur navorsers vir navorsers met administratiewe rekords wat deur maatskappye en regerings geskep is. Sommige mense noem hierdie administratiewe rekords "gevind data", wat hulle kontrasteer met "ontwerpte data." Dit is waar dat administratiewe rekords deur navorsers gevind word, maar hulle is ook hoogs ontwerp. Byvoorbeeld, moderne tegnologie maatskappye werk baie moeilik om hul data te versamel en te kureer. Dus, hierdie administratiewe rekords word beide gevind en ontwerp, dit hang net van jou perspektief af (figuur 2.12).

    Figuur 2.12: Die prentjie is beide 'n eend en 'n haas; wat jy sien hang af van jou perspektief. Groot databronne word beide gevind en ontwerp; weer, wat jy sien hang af van jou perspektief. Byvoorbeeld, die oproep data rekords versamel deur 'n selfoon maatskappy gevind data uit die perspektief van 'n navorser. Maar, presies dieselfde rekords is ontwerp data vanuit die perspektief van iemand wat in die rekeningkundige afdeling van die telefoonmaatskappy werk. Bron: Populêre Wetenskap Maandelikse (1899) / Wikimedia Commons.

    Figuur 2.12: Die prentjie is beide 'n eend en 'n haas; wat jy sien hang af van jou perspektief. Groot databronne word beide gevind en ontwerp; weer, wat jy sien hang af van jou perspektief. Byvoorbeeld, die oproep data rekords versamel deur 'n selfoon maatskappy gevind data uit die perspektief van 'n navorser. Maar, presies dieselfde rekords is ontwerp data vanuit die perspektief van iemand wat in die rekeningkundige afdeling van die telefoonmaatskappy werk. Bron: Populêre Wetenskap Maandelikse (1899) / Wikimedia Commons .

    Gee 'n voorbeeld van data bron waar dit beide gesien word as gevind en ontwerp is nuttig wanneer u daardie databron gebruik vir navorsing.

  12. [ maklik ] In 'n deurdagte opstel verdeel Christian Sandvig en Eszter Hargittai (2015) digitale navorsing in twee breë kategorieë, afhangende van of die digitale stelsel 'n "instrument" of "objek van studie" is. 'N Voorbeeld van die eerste soort waar die stelsel is 'n instrument - is die navorsing deur Bengtsson en kollegas (2011) oor die gebruik van selfoondata om migrasie na die aardbewing in Haiti in 2010 op te spoor. 'n Voorbeeld van die tweede soort waar die stelsel 'n objek van studie is, is navorsing deur Jensen (2007) oor hoe die bekendstelling van selfone regdeur Kerala, Indië die funksionering van die mark vir vis beïnvloed het. Ek vind hierdie onderskeid nuttig omdat dit verduidelik dat studies met behulp van digitale databronne redelik verskillende doelwitte kan hê, selfs al gebruik hulle dieselfde soort data bron. Om hierdie onderskeiding verder te verduidelik, beskryf vier studies wat jy gesien het: twee wat 'n digitale stelsel as instrument gebruik en twee wat 'n digitale stelsel as 'n objek van studie gebruik. U kan voorbeelde van hierdie hoofstuk gebruik as u wil.