aktiviteiten

  • mjitte fan muoite: maklik maklik , medium medium , hurd hurd , hiel dreech hiel dreech
  • freget math ( needsaak math )
  • nedich kodearring ( nedich kodearring )
  • data kolleksje ( data kolleksje )
  • myn favoriten ( myn favorite )
  1. [ medium , myn favorite ] Algoritmyske ferfeling wie in probleem mei Google Flu Trends. Lês it papier fan Lazer et al. (2014) , en skriuwe in koarte, dúdlike e-post ta in yngenieur by Google om it probleem te ferklearjen en in idee oan te meitsjen hoe't jo it beheine.

  2. [ medium ] Bollen, Mao, and Zeng (2011) beklamme dat gegevens fan Twitter brûkt wurde om de boarnemint te foarsjen. Dizze fûns liedt ta it oprjochtsjen fan in hedgefonds-Derwent Capital Markets - te ynvestearjen yn 'e boarnemerk basearre op gegevens dy't sammele binne fan Twitter (Jordan 2010) . Hokker bewiis sil jo sjen sille foardat jo jild yn dat fûns sette?

  3. [ maklik ] Wylst in publyk sûnens foar e-sigaretten in effektive help foar oankocht wurde, oaren warskôgje oer de potinsjele risiko's, lykas de hege nivo's fan nikotine. Stel dan ris dat in ûndersiker beslút om it publike miening te ûndersiikjen nei e-sigaretten troch it sammeljen fan e-sigaretten-ferbûne Twitterposten en it ferdujen fan sentimens analyze.

    1. Wat binne de trije mominten dy't de measte soargen binne yn dizze stúdzje?
    2. Clark et al. (2016) rûn krekt sa'n stúdzje. Earst sammelje se 850.000 tweets dy't fan jannewaris 2012 oant desimber 2014 e-sigarette-ferwiderjende kaarten brûkten. Mei tichterby ynspeksje realisearren se dat in protte fan dizze tweets automatisearre waarden (nammentlik net troch minsken makke) en in soad fan dizze automatisearre tweets wiene essentiel reklame. Se ûntwikkele in humoristyske algoritme om automatyske tweets te ûnderskieden fan organyske tweets. Mei dit algemiene algoritme fan 'e minsk fine se dat 80% fan de tweets automatisearre waarden. Beslút dit beäntwurding jo antwurd op diel (a)?
    3. Doe't se de gefoel yn organike en automatisearre tweets fergelykje, fûnen se dat automatisearre tweets mear positive binne as organyske tweets (6,17 versus 5,84). Is dit beäntwurding feroaret jo antwurd op (b)?
  4. [ maklik ] Yn novimber 2009 feroare Twitter de fraach yn it tweetkoffer fan "Wat dogge jo?" Nei "Wat is it gefal?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hoe tinke jo dat de feroaring fan prompts beynfloedzje wa't tweett en / of wat se tweetje?
    2. Namme ien ûndersyksprojekt foar wa't jo de promoasje foarkomme "wat dogge jo?" Utlis wêrom.
    3. Nim ien ûndersyksprojekt foar wêrfoar jo de promoasje foarkomme "Wat is it gefal?" Utlis wêrom.
  5. [ maklik ] "Retweets" wurde faak brûkt om ynfloed te mjitten en spraak fan ynfloed op Twitter. Ynearsten moasten de brûkers it kopje en pakje de tweet dy't se graach markearje, markearje de orizjinele skriuwer mei syn / har manier, en typearje "RT" foar it tweet omtinken te jaan dat it in retweet is. Dwaande, yn 2009, tafoege Twitter in "retweet" knop. Yn juny 2016 makke Twitter it mooglik foar brûkers om har eigen tweets (https://twitter.com/twitter/status/742749353689780224) werom te retweetjen. Wolle jo tinke dat dizze wizigingen effekt ha moatte hoe't jo "skriuwt" yn jo ûndersyk brûke? Wêrom of wêrom net?

  6. [ hiel dreech , data kolleksje , nedich kodearring , myn favorite ] Yn in breed besprutsen papier analysearre Michel en kollega's (2011) de ynhâld fan mear as fiif miljoen digitalisearre boeken yn in besykjen om lange termynlike kulturele trends te identifisearjen. De gegevens dy't se brûkten binne no frijjûn as it Google NGrams dataset, en dus kinne wy ​​de gegevens brûke om wer wat fan har wurk te replikaarjen en te ferlingjen.

    Yn ien fan 'e protte resultaten yn it papier stelde Michel en kollega's dat wy ferneare en flugger ferjitte. Foar in bepaalde jier, sizze "1883", berekkene se it diel fan 1-gram út elk jier útjûn tusken 1875 en 1975 dat '1883' wienen. Se hawwe fan betinken dat dit oanpart in maat is fan 'e belangstelling foar eveneminten dy't yn dat jier barde. Yn har figuer 3a plottere se foar trije jier de brûkte trajektoares op: 1883, 1910, en 1950. Dizze trije jier dielen in mienskiplik patroan: lyts gebrûk foar dat jier, dan in spits, dan ferfal. Dêrnei bepale Michel en kollega's it "heale leven" fan elke jier foar alle jierren tusken 1875 en 1975 te kwantearjen. Yn har figuer 3a (ynsette) hawwe se te sjen dat it heale libben fan elk jier It jier is ôfnommen, en hja argulearre dat dit betsjut dat wy it ferline faker en flugger ferjitte. Se brûkte ferzje 1 fan 'e Ingelske taalkorpus, mar letter hat Google in twadde ferzje fan' e corpus útbrocht. Lês allegearre de ûnderdielen fan 'e fraach foardat jo begjinne mei kodearring.

    Dizze aktiviteit sil jo brûke om skriuwbere werjeftige koade te meitsjen, resultaten út te sprekken, en gegevens ferrinnewearje (lykas wurkje mei skruten triemmen en ferpleatse fan gegevens). Dizze aktiviteit sil jo ek helpe om op te leegjen en te rinnen mei in ryk en nijsgjirrige dataset.

    1. Krij de rûge gegevens fan de webside fan Google Books NGram Viewer. Bysûnder moatte jo ferzje 2 fan 'e Ingelske taalkorpus brûke, dy't op 1 july 2012 frijlitten wurde. Unverfrede, dizze bestân is 1.4GB.

    2. Rekkenje it haaddiel fan figuer 3a fan Michel et al. (2011) . Om dizze sifers opnij te meitsjen, sille jo twa bestannen nedich hawwe: de ien dy't jo dield downloade (a) en de "folsleine betingsten" triem, wêrmei jo gebrûk meitsje kinne om de rûge beoarders yn prestaasjes te feroarjen. Tink derom dat de folsleine bepalende triem in struktuer hat dy't it in bytsje hurder meitsje kin om yn te lêzen. Ferzjes 2 fan 'e NGram-gegevens produsearje sa'n resultaten oan dyjingen dy't presintearre binne yn Michel et al. (2011) , dy't basearre binne op ferzje 1 gegevens?

    3. Kontrolearje jo grafyk tsjin de grafyk dy't makke wurdt troch de NGram Viewer.

    4. Ferklearje figuer 3a (haadfiguer), mar feroarje de \(y\) -aks om de rûge ferwizing te meitsjen (net de taryf fan meldingen).

    5. Does it ferskil tusken (b) en (d) liede jo ta ien fan 'e resultaten fan Michel et al. (2011). Wêrom of wêrom net?

    6. Tsjintwurdich brûke jo it oanpart fan it ferwizing, de ynset fan figuer 3a. Dat is, foar elke jier tusken 1875 en 1975, it halde libje fan dat jier berekkene. It heale leeftyd is definiearre om it oantal jierren dy't passe foardat it oanpart fan 'e neikommende meldings de helte fan har peak wearde berikt. Notysje dat Michel et al. (2011) dogge wat mear komplisearre om de heulich libben - sjoch ôfdieling III.6 fan 'e Stipe Online Ynformaasje - te beoardielje - mar se beweitsje dat beide oanwêzigen inoar ferantwurdlik meitsje. Is ferzje 2 fan 'e NGram-gegevens produsearre ferlykbere resultaten nei de presintearingen yn Michel et al. (2011) , dy't basearre binne op ferzje 1 gegevens? (Tink: Wês net fernuvere as it net.)

    7. Wiene der dan in jier dy't útrinners wie as jierren, dy't benammen snel of spesjaal stadich fergetten binne? Kies spesifyk oer mooglike redenen foar dat patroan en ferklearje hoe't jo de útlanners identifisearje.

    8. Sesje dit resultaat foar ferzje 2 fan 'e NGram's gegevens yn Sineesk, Frânsk, Dútsk, Hebrieusk, Italiaansk, Russysk en Spaansk.

    9. Fergeliking oer alle talen, wiene der alle jierren in útlieder, lykas jierren dy't benammen fluch of spesjaal stadich fergetten binne? Koart spekulearje oer mooglike redenen foar dat patroan.

  7. [ hiel dreech , data kolleksje , nedich kodearring , myn favorite ] Penney (2016) ûndersocht oft de wiidferspraate publisiteit oer NSA / PRISM-tafersjoch (dus de Snowden-iepenbieringen) yn juny 2013 ferbûn is mei in skerpe en hommelse fermindering fan ferkear nei Wikipedia artikels oer ûnderwerpen dy't privacybelesting oproppe. As dat sa is, soe de feroaring yn gedrach konsekwint wêze mei in waarme effekt fan resultaat fan massaugeraasje. De oanpak fan Penney (2016) wurdt soms in ûnderbrutsen tiidrige- ûntwerp neamd, en it is relatearre oan de oanwêzigen beskreaun yn haadstik 2.4.3.

    Om kiezen te kiezen oer de titel fan it ûnderwerp, lei Penney op 'e list dy't brûkt waard troch de US Department of Homeland Security foar it foljen en kontrolearjen fan sosjale media. De DHS-list befettet beskate sykkommunikaasjes yn in soad ûnderwerpen, dus "Health Concern", "Infrastruktuerfeiligens" en "Terrorisme". Foar de stúdzje groep brûkte Penney de 48 keunstwurden yn ferbân mei "terrorisme" (sjoch taheakke tabel 8 ). Dêrnei aggregearre er it artikel fan artikel oer in mooglike basis foar de bywurke 48 Wikipedia-artikels oer in 32-moanne perioade, fan begjin fan jannewaris 2012 oant ein augustus 2014. Om syn argumint te fersterkjen makke hy ek ferskate fergeliking-groepen troch te foljen artikelwerken oer oare ûnderwerpen.

    No sille jo Penney (2016) replikaarje en útwreidzje. Alle rûge gegevens dy't jo nedich binne foar dizze aktiviteit binne beskikber fan Wikipedia. Of jo kinne it krije fan it R-package wikipediatrend (Meissner and R Core Team 2016) . As jo ​​jo antwurden opskriuwe, markearje de hokker gegevensboarne jo brûkt. (Tink derom dat dizze selde aktiviteit ek foarkomt yn haadstik 6.) Dizze aktiviteit sil jo praktyk jaan yn data ferwiderje en tinke oer natuerlike eksperiminten yn grutte data boarnen. It sil jo ek ophelje en rinne mei in potinsjeel nijsgjirrige gegevensboarne foar takomstige projekten.

    1. Lês Penney (2016) en fertsjintwurdigje syn figuer 2 dy't de sidewerjefte foar "Terrorism" -relaasje siden foar en nei de Snowden revelaasjes sjen lit. Meitsje de fynsten ynterpretearje.
    2. Dêrnei ferfetsje de figuer 4A, dy't de studintgroep ("terrorisme" -relatearre artikels) fergelike mei in komparatorgroup mei gebrûk meitsje fan kaaiwurden dy't ynsteld binne ûnder "DHS & Other Agencies" fan 'e DHS-list (sjoch taheakke tabel 10 en fuotnota 139). Meitsje de fynsten ynterpretearje.
    3. Yn diel (b) fergelike jo de stúdzje groep mei ien komparator-groep. Penney fergelike ek mei twa oare komparatorgruppen: "Infrastruktuerfeiligens" relatearre artikels (appendiks tabel 11) en populêre Wikipedia siden (appendiks tabel 12). Komm op mei in alternative komparatorgroup, en besykje oft de befinings fan diel (b) gefoelich binne foar jo kar foar komparatorgroup. Hokker kar foar makket it meastens? Wêrom?
    4. Penney fertelde dat keywords by "terrorisme" brûkt waarden om de artikel-artikels te selektearjen om't de Amerikaanske regearing Terrorismus as tema-justysje foar syn online-tafoegingspraktiken foarkaam. As kontrôle fan dizze 48 "Terrorisme" -relaasje-kaaiwurden hat Penney (2016) ek in survey oer MTurk útfierd, freegje de respondinten om elk fan ht-keywords te fertsjinjen yn betingsten fan Government Trouble, Privacy-Sensitive en Avoidance (appendiks tabel 7 en 8 ). Ferfange de survey oer MTurk en fergelykje jo resultaten.
    5. Op grûn fan 'e resultaten yn diel (d) en jo lêzing fan it artikel, stelle jo oerien mei Penney's keuze fan ûnderwerpen-toetsen yn' e stúdzjegroep? Wêrom of wêrom net? As net, wat soe men foarstelle?
  8. [ maklik ] Efrati (2016) rapportearre, basearre op fertroude ynformaasje, dat "totale dieling" op Facebook hat in jier fan 'e likernôch 5,5% fan' Dizze ferfal wie benammen acute mei Facebook-brûkers ûnder 30 jier. De rapport presintearret de ferfal op twa faktoaren. Ien is it groei fan it tal "freonen" minsken op Facebook. De oare is dat guon dielsaktiviteiten ferpleatst binne nei messaging en oan kompetysjes lykas Snapchat. It rapport ferskynde ek dat de ferskate taktiken Facebook besocht te dielen te dielen, ynklusyf Nijs Feed algoritme-tweaks dy't oarspronklike berjochten mear promininte meitsje, en ek periodike herinneringen fan 'e orizjinele berjochten mei de funksje "Op dizze dei". Hokker gefolgen, as der binne, sille dizze befiningen hawwe foar ûndersikers dy't Facebook as in gegevensboarne brûke wolle?

  9. [ medium ] Wat is it ferskil tusken in sosjolooch en in histoarikus? Neffens Goldthorpe (1991) is it haadferdrach de kontrôle oer gegevensammeling. De histoarisy wurde twongen om relics te brûken, wylst sosjologen har gegevens sammele kinne oan spesifike doelen. Lês Goldthorpe (1991) . Hoe is it ferskil tusken sosjology en skiednis ferbûn mei it idee fan kustommades en klearmaden?

  10. [ hurd ] Dit boud op 'e eardere quesiton. Goldthorpe (1991) tekene in oantal krityske antwurden, ûnder oaren ien fan Nicky Hart (1994) dy't de duorsumens fan Goldthorpe om oanpast gegevens te meitsjen. Om de potinsjele beheiningen fan tailorre-gegevens te klikken, beskreau Hart it Unbefêstige arbeiderprojekt, in grutte perioade om de relaasje tusken sosjale klasse en stimmen te bepalen dy't troch de Midsieuwen fan 'e Goldthorpe útfierd waard en kollega's. As men ferwachte kin fan in gelearde dy't begeliedende gegevens oer fûnen gegeven befrijd, sammele it Affluent Worker Project dat gegevens oanpast oan in adres fan 'e takomst fan' e maatskippij yn in tiidrek fan ferheegjende libbensnormen. Mar, Goldthorpe en kollega 's binne "fergetten" om ynformaasje te sammeljen oer it stimbehear fan froulju. Hjir is hoe Nicky Hart (1994) de folsleine ôflevering fermelde:

    "... it is dreech om de konklúzje te foarkommen dat froulju wegere waarden omdat dizze" maatregel makke "dataset waard troch in paradigmatyske logika beheind, dy't de froulike ûnderfining útsluten. Ferfolgens troch in teoretyske fyzje fan klassenbewustwêzen en aksje as manlike besunigingen ..., makke Goldthorpe en syn kollega's in set fan empiryske bewiisen dy't har eigen teoretyske assumpenissen fiedde en nourreinige hienen ynstee fan it opjaan oan in jildich test fan adequacy. "

    Hart fierder:

    "De empiryske befiningen fan it lestige arbeidersprojekt fertel ús mear oer de masculinistyske wearden fan 'e midden fan' e midden fan 'e ieu as se ynformearje oer de prosessen fan stratifikaasje, polityk en materiaal."

    Kinne jo tinke oan oare foarbylden dêr't maat makke makke gegevens-sammeljen de beëasten fan de datammekollektor ynboud hat? Hoe fergelyk mei dit algoritmyske ferfeling? Hokker ymplikaasjes kinne dat hawwe foar wannear't ûndersikers klearmoades brûke moatte en wannear't se kustommades brûke moatte?

  11. [ medium ] Yn dit haadstik haw ik kontroversje gegevens sammele troch ûndersikers foar ûndersikers mei bestjoersakten dy't makke binne troch bedriuwen en oerheden. Guon minsken neame dizze bestjoerlike rekken "data fûn", dy't sy kontrast mei "ûntworpen data". It is wier dat bestjoersaksjes fûn binne troch ûndersikers, mar se binne ek tige ûntwurpen. Bygelyks moderne technysk bedriuwen wurkje tige hurd om har gegevens te sammeljen en te curearjen. Sa wurde dizze bestjoersakten fûn en ûntwikkele, it is gewoan hingje fan jo perspektyf (figuer 2.12).

    Figur 2.12: It byld is beide in do en in knyn; Wat jo sjogge hinget ôf fan jo perspektyf. Grutte gegevensboarnen wurde fûn en ûntwikkele; Hjir, wat jo sjogge, hinget ôf fan jo perspektyf. Bygelyks wurde de oanroppen databonnings sammele troch in mobyl-telefoanbedriuw binne gegevens fûn fan 'e perspektyf fan in ûndersiker. Mar, krektlyk deselde stikken binne ûntwurpen gegevens fan 'e perspektyf fan ien dy't wurket yn' e ôfdieling fan tapassing fan it tillefoansbedriuw. Boarne: Popular Science Monthly (1899) / Wikimedia Commons.

    Figur 2.12: It byld is beide in do en in knyn; Wat jo sjogge hinget ôf fan jo perspektyf. Grutte gegevensboarnen wurde fûn en ûntwikkele; Hjir, wat jo sjogge, hinget ôf fan jo perspektyf. Bygelyks wurde de oanroppen databonnings sammele troch in mobyl-telefoanbedriuw binne gegevens fûn fan 'e perspektyf fan in ûndersiker. Mar, krektlyk deselde stikken binne ûntwurpen gegevens fan 'e perspektyf fan ien dy't wurket yn' e ôfdieling fan tapassing fan it tillefoansbedriuw. Boarne: Popular Science Monthly (1899) / Wikimedia Commons .

    Gebe in foarbyld fan boarne foar boarne wêr't it sawol as fûn en ûntwurpen is is brûkber by it brûken fan dy gegevensboarne foar ûndersyk.

  12. [ maklik ] Yn in yndiedige essay split Christian Sandvig en Eszter Hargittai (2015) digitale ûndersyks nei twa brede kategoryen ôfhinklik fan of it digitale systeem in "ynstrumint" of "objekt fan stúdzje". In foarbyld fan 'e earste soarte wêr' t it systeem is in ynstrumint - is it ûndersyk fan Bengtsson en kollega's (2011) om gebrûk fan mobile tillefoan te folgjen om de migraasje nei it ierdbeving yn Haïti yn 2010 te folgjen. In foarbyld fan 'e twadde soarte - wêr't it systeem in objekt fan stúdzje is, is ûndersyk troch Jensen (2007) oer hoe't de ynfiering fan mobyl tillefoans yn 'e hiele Kerala, Yndia, beynfloede is op it funksjonearjen fan' e merk foar fisken. Ik fyn dit dizze ûnderskieding faaks om't it klikt dat stúdzjes mei digitale gegevensboarnen hiel ferskillende doelen hawwe kinne, sels as se itselde soarte fan gegevensboarne brûke. Om dizze ûnderskieding fierder te klikken, beskriuwe fjouwer stúdzjes dy't jo sjoen hawwe: twa dy't digitaal systeem brûke as in ynstrumint en twa dy't digitaal systeem as in objekt fan stúdzje brûke. Jo kinne foarbylden fan dit haadstik brûke as jo wolle.