jarduerak

Gakoa:

  • Zailtasun-maila: erraza erraza , ertain medium , hard gogor , Oso gogorra Oso gogorra
  • math eskatzen ( math eskatzen )
  • eskatzen kodifikazioa ( eskatzen kodetze )
  • datu bilketa ( datu bilketa )
  • Nire gogokoetara ( nire gogokoena )
  1. [ medium , nire gogokoena ] Algoritmikoa nahastarazterainoko Google Gripearen joerak arazo bat izan zen. Irakurri by paper Lazer et al. (2014) , eta, arazoa azalduz eta arazoa nola konpondu ideia bat eskainiz Google ingeniariak behar email argi labur bat idatzi.

  2. [ medium ] Bollen, Mao, and Zeng (2011) aldarrikatu Twitter-etik datu hori burtsa iragartzeko erabil daitezke. Aurkikuntza honek bat hedge fund-Derwent Capital Merkatuak-burtsa inbertitzeko oinarritutako Twitter bildutako datuak on sortzea ekarri zuen (Jordan 2010) . Zer froga litzateke zure dirua jarriz fondo hori aurretik ikusi nahi dituzu?

  3. [ erraza ] Zenbait osasun publikoaren defendatzaileak kazkabarra e-zigarroak bitartean erretzeari uzteko laguntzak eraginkor gisa, besteen balizko arriskuak, hala nola txarra goi-mailetan bezala buruz ohartarazteko. Imajinatu ikertzaile duten e-zigarroak aldera iritzi publikoa aztertzeko e-zigarroak erlazionatutako Twitter mezu biltzeko eta sentimendu analisia eginez erabakitzen.

    1. Zer dira hiru lodirik posible zarela ikerketa honetan kezkatzen?
    2. Clark et al. (2016) ran besterik Horrelako ikerketa bat. Lehenik eta behin, 850.000 tweets e-zigarro erlazionatutako 2012ko urtarriletik keywords erabiltzen duten ikuskatzeko hurbilago Bazen 2014ko abenduaren bitartez jasotzen dute, tweets horietako asko automatizatu ziren (hau da, ez gizakiak sortutako) konturatu dira eta tweets automatizatu horiek asko izan ziren, funtsean iragarki. Giza Detection Algorithm garatu dute automatizatuetan tweets bereizteko tweets organikoa. Giza hau detektatu Algorithm tweets% 80 automatizatu ziren aurkitu zuten erabiltzea. Aurkikuntza hau da aldatuko zure erantzuna (a) parte den?
    3. Noiz tweets organikoa eta automatizatuetan sentimendu aztertu zuten automatizatuetan tweets duten tweets organikoa (6,17 versus 5.84) baino gehiago dira positiboak aurkitu zuten. Aurkikuntza hau da aldatuko zure erantzuna (b)?
  4. [ erraza ] 2009ko azaroan, Twitter auzia aldatu tweet-koadroko "Zer egiten ari zara?" Ra "Zer ari da gertatzen?" (Https://blog.twitter.com/2009/whats-happening).

    1. Nola eskatuz aldaketaren nor tweet eta / edo zer dute tuiteatzen du eraginik izango dela uste duzu?
    2. Izena ikerketa proiektu bat den gonbita nahiago duzu "zertan ari zara?" Azaldu zergatik.
    3. Izena ikerketa proiektu bat den gonbita nahiago duzu "Zer ari da gertatzen?" Azaldu zergatik.
  5. [ medium ] Kwak et al. (2010) aztertu 41,7 milioi erabiltzaile profilak, 1,47 milioi gizarte harremanak, 4262 trending topics, eta 106 milioi ekainaren 6an eta ekainaren 31ra bitartean tweets, 2009. Azterketa honek Twitter hori baino partekatzen informazio baliabide berri bat bezala gehiago balio ondorioztatu dute gizarte sarea.

    1. Kwak et al aurkikuntzak kontuan hartuta, zer motako ikerketa egingo zenuke Twitter datuekin? Zer nolako ikerketa ez litzateke Twitter datuak kontuan? Zergatik?
    2. 2010an, Twitter gehitu a Who zerbitzua neurrira egindako iradokizun egiteko erabiltzaile jarraitu. Hiru gomendio orri nagusian aldi berean erakusten dira. Gomendioak dira askotan norberaren ateratako "lagun-of-lagunak," eta elkarrekiko kontaktuak ere gomendioa bistaratzen dira. Erabiltzaileek gomendio multzo berri bat ikusteko edo orri bat bisitatzeko gomendioak zerrenda luzeagoa freskatu. Ez Ezaugarri berri hau zure erantzuna parte izatera pasatuko litzateke uste duzu)? Zergatik ez?
    3. Su, Sharma, and Goel (2016) Nor zerbitzua Jarraitu To efektua ebaluatu eta aurki ospea espektro osoan erabiltzaile gomendioak onuradun bitartean, ezagunena erabiltzaile probetchu nabarmen batez bestekoa baino gehiago. Aurkikuntza hau da aldatuko zure erantzuna parte b)? Zergatik ez?
  6. [ erraza ] "Txertatu" askotan eragina neurtzeko erabiltzen dira, eta eragin Twitterren zabaldu. Hasieran, erabiltzaile kopiatu tweet dute gustatu, bere / bere heldulekua jatorrizko egilearen etiketatzeko, eta eskuz "RT" tweet aurretik retweet bat dela adierazteko izan. Gero, 2009an, Twitter gehitu "retuiteatzea" botoia. 2016ko ekainean, Twitter egin erabiltzaileek beren tweets egin retweet (https://twitter.com/twitter/status/742749353689780224) posible da. Ez aldaketa horiek "retweet" nola erabili zure ikerketan duzun eragina izango duela uste duzu? Zergatik ez?

  7. [ medium , datu bilketa , eskatzen kodetze ] Michel et al. (2011) eraiki Google ahalegina liburuak digitalizatzeko hasi berri diren corpus bat. corpus du, eta horrek 2009an argitaratu eta 5 milioi digitalizatuta liburu baino gehiago jasotzen zen lehen bertsioa erabiliz, egileek aztertu hitza erabileraren maiztasuna hizkuntz aldaketa eta kultur joerak ikertzeko. Laster Google Books Corpus datuak ikertzaile iturria ezaguna bihurtu zen, eta 2an datu-basearen bertsio bat 2012an kaleratu zen.

    Hala ere, Pechenick, Danforth, and Dodds (2015) ohartarazi ikertzaileak erabat karakterizatzeko laginketa corpus-prozesua hura erabiltzen ondorioen zabala marrazteko aurretik behar. Gai nagusia da corpus hori liburutegi-bezalakoa da, liburu bakoitzeko bat daukan. Ondorioz, pertsona bat bezala, Idazle oparo esaldi berriak nabarmen txertatu Google Books lexikoari sartu ahal da. Gainera, testu zientifiko 1900s zehar corpus-zati gero eta substantibo bat osatzen dute. Horrez gain, bi ingeles Narratiba datu multzoak Pechenick et al bertsioak alderatuz. aurkitutako froga nahikoak iragazketa duten lehen bertsioa ekoizteko erabili zen. jarduera egiteko beharrezkoak diren datu guztiak eskuragarri dago hemen: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Michel et al. Jatorrizko paper batean (2011) , 1etik English datu multzo bertsioa erabiliko dute, urteen "1880" erabilera-maiztasuna marrazten, "1912" eta "1973", eta ondorioztatu duenez, "gauden gure iragana ahantzi azkarrago bakoitzean pasatzen urte "(Fig. 3A, Michel et al.). Erreplika grafiko berean erabiliz 1) 1go corpusean, English multzoaren (Fig. 3A, Michel et al berdina bertsio.)
    2. Orain errepikatzeko 1go bertsioa, ingelesezko fikzioaren multzoaren lursail bera.
    3. Orain errepikatzeko 2. corpusean, English multzoaren bertsio batera lursaila bera.
    4. Azkenik, errepikatzeko 2. bertsioa, ingelesezko fikzioaren multzoaren lursail bera.
    5. lau lursailetan horien arteko desberdintasunak eta antzekotasunak deskribatu. Ez Michel et al. Hamarkadan ikusitako joera interpretazio original ados al zaude? (Argibidea: c) eta d) 16. irudiak berdina izan behar Pechenick et al).
    6. Orain dela erreplikatu duzu bat Aurkikuntza honek ezberdinak Google Books corpus erabiliz, aukeratu beste hizkuntza aldaketaren edo kultur fenomeno Michel et al. Jatorrizko paper aurkeztu. Ez bere interpretazioarekin ados duzu Pechenick et al aurkeztutako mugak kontuan hartuz.? Zure argudio indartsuago egin, saiatu errepikatzeko grafikoan bera bezala goian aipatutako datuak bertsio ezberdinak erabiliz.
  8. [ Oso gogorra , datu bilketa , eskatzen kodetze , nire gogokoena ] Penney (2016) buruzko NSA / PRISM zaintza (hau da, Snowden errebelazio) 2013ko ekainean hedatuago publizitate trafikoaren beherakada handia eta bat-batean Wikipedia artikuluen gaiak pribatutasuna kezka goratzen duten on lotutako ote da esploratzen. Hala bada, portaera aldaketa honek masa zaintza ondoriozko eragin chilling bat koherentea izango litzateke. Planteamendua Penney (2016) da, batzuetan, eten denbora serie diseinua deritzo, eta planteamendu zerikusia kapituluan esperimentu hurbiltzen datuak behaketa (2.4.3 atala) tik buruz.

    Gai keywords aukeratzeko, Penney US Batuetako Segurtasun sailak erabilitako jarraipen eta social media jarraipena egiteko zerrendan aipatzen. DHS zerrendan sailkatu zenbait bilaketa-terminoak gaiak, hau da, "Osasun kezka," "Azpiegitura Segurtasuna," eta "Terrorismoaren. Sorta bat sartu" ikerketa talde baterako, Penney erabiltzen berrogeita zortzi keywords lotutako "Terrorismoaren" (ikus 8. taula eranskina). gero agrega He Wikipedia Artikuluari dagokion berrogeita zortzi Wikipedia hogeita bi hilabeteko epean artikulu for hilero, 2012ko urtarrilaren hasieran 2014. abuztuaren bukaera arte bere argudioa indartzeko, zenbait konparazio halaber sortu zuen artikulu aldiz segimendua beste gaiei buruzko talde.

    Orain, errepikatzeko eta zabaltzeko zoazen Penney (2016) . gordinak datu guztiak erabiltzen jarduera horretarako izango duzu behar da Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/) eskuragarri. Edo bertan eskuratu ahal izango duzu R paketea wikipediatrend batetik (Meissner and Team 2016) . Noiz idatzi-up duzu zure erantzunak, kontuan izan zein datu iturria erabiltzen dituzu. (Oharra: jarduera hori bera 6. kapituluan agertzen)

    1. Irakurri Penney (2016) eta errepikatzeko 2. irudia eta orri "Terrorismoaren" orrialdeek lotua aurretik eta Snowden errebelazio ondoren ikuspegiak erakusten ditu. Interpretatzea aurkikuntzak.
    2. Hurrengoa, errepikatzeko Fig 4A, eta horrek ikerketa talde ( "Terrorismoaren" lotua artikuluak) konparatzen comparator talde bat "DHS & Beste Agentziak" DHS zerrendatik sailkatuta hitz batzuekin batera (ikus 10. eranskina taula). Interpretatzea aurkikuntzak.
    3. parte b urtean) azterketa konparatzaileak talde bat taldearen aldean duzu. Penney, gainera, beste bi comparator taldeei: "Azpiegitura segurtasuna" lotua artikulu (11 eranskina taula) eta popular Wikipedia orrialdeak (eranskina Table 12). Zatoz gora alternatiba comparator talde batekin, eta probatu parte b aurkikuntza) zure comparator talde aukeratu sentikorra bada. Zein aukera comparator talde gehienak zentzua? Zergatik?
    4. egileak azpimarratu zuen "Terrorismoaren" erlazionatutako keywords Wikipedia artikuluen hautatzeko Batuetako gobernuak aipatzen delako terrorismoaren bere online zaintza praktika gakoa justifikatzeko erabiltzen ziren. 48 "Terrorismoaren" lotua hitz hauetako txeke bat bezala, Penney (2016) keywords bakoitzaren baloratzeko Jaurlaritzak Trouble, Pribatutasun-sentiberak, eta saihesteari dagokionez inkestatuen eskatuz MTurk buruzko inkesta bat ere zuzendu (eranskina 7. taula eta 8). Erreplika MTurk buruzko inkesta eta zure emaitzak alderatu.
    5. Oinarritutako zatiko d emaitzak) eta zure artikuluaren irakurketa, ez da egilearen gaia keywords aukeratu ikerketa talde batean ados al zaude? Zergatik ez? Hala ez bada, zer litzateke ordez proposatzen duzu?
  9. [ erraza ] Efrati (2016) txostenak, informazio konfidentziala, "guztira partekatzea" Facebook-en arabera,% 5,5 inguru urtean jaitsi zen urte baino gehiago "jatorrizko difusio partekatzea", berriz, behera urtean baino% 21 urtean. Beherakada hau bereziki 30 urtetik beherako Facebook erabiltzaile batzuekin akutua izan zen. Txostenak gainbehera egotzitako bi arrazoi. One "lagun" Jende Facebooken dute kopuruaren hazkundea da. Bestea da partekatzea jarduera batzuk ditu mezularitza eta, besteak beste, SnapChat lehiakide pasa. Txostena ere agerian hainbat taktika Facebook partekatzea sustatzeko saiatu zela, News Feed algoritmoa Tweaks jatorrizko mezu gehiago destacados egin duten, baita mezu jatorrizko erabiltzaile "egun honetan" Duela zenbait urte abisuak aldizkako barne. Zein ondorio, baldin badago, ez du aurkikuntza horiek Facebook datuak iturri gisa erabili nahi duten ikertzaileentzat dute?

  10. [ medium ] Tumasjan et al. (2010) du tweets alderdi politiko bat aipatzea proportzio hori datorren boto party, Alemaniako hauteskunde parlamentario jaso zuen 2009an (2.9 irudia) proportzioa. Beste era batera esanda, Twitter erabil ditzakezun hauteskunde iragartzeko agertu da. denboraren azterketa hau argitaratu zen At jotzen zen oso zirraragarria big datuak iturri komun bat erabiltzeko baliotsua iradokitzen zirudien delako.

    Emandako datuak big ezaugarri txarrak, ordea, berehala izango Emaitza honen eszeptikoa behar duzu. Twitterren alemanak 2009 urtean nahiko ez adierazgarri taldea izan da, eta festa bat aldekoak politikari buruz tweet maizago. Horrela, harrigarria badirudi ere imajinatu ahal izango duzu, ahalik eta lodirik guztiak, nolabait, hori luketela. Izan ere, emaitzak Tumasjan et al. (2010) aktibatuta too ona izan egia izan. Bere paper batean, Tumasjan et al. (2010) jotzen sei alderdi politikoak: Christian demokratak (CDU), Christian Social demokraten (CSU), SPD, liberalek (FDP), Ezker (Die Linke), eta Green Party (Grüne). Hala ere, gehien aipatutako German alderdiaren politiko Twitterren garai hartan Pirate Party (Piraten), festa bat gobernuak Internet arautzeko borroka zela. Noiz Pirate Alderdi azterketatik kanpo utzi zuten, Twitter aipamen terrible emaitzak hauteskunde (2.9 irudia) predictor bat bihurtzen (Jungherr, Jürgens, and Schoen 2012) .

    2.9 irudia: Twitter aipamen agertzen da 2009ko Alemaniako hauteskunde emaitzak aurreikusteko (Tumasjan et al 2010)., Baina emaitza hori bihurtzen den zenbait aukerak arbitrarioa eta justifikatu (Jungherr, Jürgens, eta Schoen 2012) araberakoa izango da.

    2.9 irudia: Twitter aipamen agertzen da 2009ko Alemaniako hauteskunde emaitzak aurreikusteko (Tumasjan et al. 2010) , Baina emaitza hori bihurtzen den zenbait aukerak arbitrarioa eta justifikatu mendekoak (Jungherr, Jürgens, and Schoen 2012) .

    Ondoren, mundu osoko beste ikertzaileek erabili duten fancier metodo-hala nola sentimendu analisia erabiliz positiboak eta negatiboak artean bereizteko gisa aipatzen ordena Twitter datuen gaitasuna hauteskunde motei hainbat iragartzea hobetzeko alderdi-en (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hona nola Huberty (2015) laburbildu Saiakera horiek hauteskundeetan iragartzeko emaitzak:

    "Oinarritutako hedabide sozialetan guztiak ezagutzen aurreikuspeneko sistema huts egin du benetako etorkizunera begira hauteskunde aurreikuspena eskaerei jasaten. porrotak horiek agertzen social media oinarrizko propietate, baizik eta zailtasun metodologiko edo algoritmikoak baino ondorioz izan da. Laburbilduz, social media, ez egin, eta ziurrenik inoiz izango,, inpartziala, ordezkari hautesleak irudi egonkor bat eskaintzen; eta erosotasuna social media laginak arazo horiek idazteko hoc konpondu behar adinako datuak falta. "

    Irakurri ikerketa eramango duten batzuk Huberty (2015) ondorio horretara, eta orri bat ohar bat idatzi hautagai politiko bat Twitter erabili behar bada, eta nola hauteskundeetan aurreikustea deskribatzeko.

  11. [ medium ] Zer da soziologo eta historialari baten arteko aldea? Goldthorpe dioenez (1991) , soziologo eta historialari baten arteko ezberdintasun nagusia datu bilketa kontrolatzea. Historialariek behartutako erlikiak erabili soziologoak, berriz, beren datu bilketa neurrira, helburu jakin bat. Irakurri Goldthorpe (1991) . Nola soziologia eta historia arteko aldea Custommades eta Readymades ideia lotuta dago?

  12. [ gogor ] Aurreko galderan eraikitzea, Goldthorpe (1991) Drew erantzunak kritikoa kopuru bat, inork Nicky Hart barne (1994) Goldthorpe en debozio desafioa egin duten datuak neurrira. neurrira egindako datu mugak potentziala argitzeko, Hart affluent Langileen Project, inkesta handi bat klase sozial eta boto arteko harremana zela Goldthorpe eta lankideek zuzendaritzapean 1960ko hamarkadaren erdialdean hasi neurtzeko deskribatu. scholar bat Favorecidas diseinatu aurkitutako datuen gaineko datuak ditzakeela, espero bezala, aberats Langileen Project bildutako hori egokitutako zen duela gutxi proposatu klase sozialaren etorkizunari buruzko teoria bat aurre egiteko bizimodu maila handituz garai batean datuak. Baina, Goldthorpe eta lankideek nolabait "ahaztua" emakumeen boto portaera buruzko informazioa biltzeko. Hemen da Nicky Hart nola (1994) osoa pasartea laburpenak:

    ". . . Zaila egiten [da] ondorioztatu emakumeak ez dira agertzen honek 'neurrira egindako' multzoaren zen logika paradigmatikoa zein emakumezkoak esperientzia baztertuen mugatzen delako saihesteko. Klase kontzientzia eta ekintza gizonezkoa kezka gisa ikuspen teoriko bat bultzatuta. . . , Goldthorpe eta bere lankideek eraiki froga enpirikoak zein elikatzen eta beren hipotesi teoriko propioak elikatu ordez horiek agerian uzten baliozko egokitasun-proba bat egiteko multzo bat. "

    Hart jarraitu:

    "Affluent Langileen Project aurkikuntza enpiriko digute erdialdean mendeko soziologia balioak masculinist buruz gehiago estratifikazioa, politika eta material bizitza prozesuak informatzeko baino."

    Ezin beste adibide non neurrira egindako datu bilketa barneratzen datuak biltzen du lodirik du uste duzu? Nola hau alderatu algoritmikoak nahastarazterainoko den? Zer ondorio horixe denean ikertzaileek Readymades erabili beharko dute eta noiz Custommades erabili behar dira?

  13. [ medium ] Kapitulu honetan, administrazio-erregistroak enpresen eta gobernuen sortu dituzten ikertzaileentzat ikertzaileek bildutako datuak kontrastatu dut. Batzuek deitu administrazio-erregistro horiek "aurkitutako datuak," horrek kontrastatu dute "diseinatu datuak." Egia da administrazio-erregistroak, ikertzaileek aurkitu dira, baina aldi berean oso diseinatuta daude. Adibidez, teknologiako enpresa modernoak pasatzeko denbora kantitate eta baliabide izugarria bildu eta euren datuak komisario. Horrela, administrazio-erregistro horiek biak topatu eta diseinatu zuen, besterik gabe, zure ikuspegitik (2.10 irudia) araberakoa.

    2.10 irudia: Irudian bi ahate bat eta untxi bat da; zer ikusi duzu zure ikuspegitik araberakoa. Jaurlaritzak eta enpresa erregistro administratiboak dira biak topatu eta diseinatuta; zer ikusi duzu zure ikuspegitik araberakoa. Adibidez, dei datuak erregistroak telefono enpresa batek jasotzen aurkitu dira datuak ikertzaile baten ikuspuntutik. Baina, zehatza erregistro horiek bereko datuak norbait fakturazio telefono konpainiak departamenduan lanean ikuspegitik diseinatu dira. Iturria: Wikimedia Commons

    2.10 irudia: Irudian bi ahate bat eta untxi bat da; zer ikusi duzu zure ikuspegitik araberakoa. Jaurlaritzak eta enpresa erregistro administratiboak dira biak topatu eta diseinatuta; zer ikusi duzu zure ikuspegitik araberakoa. Adibidez, dei datuak erregistroak telefono enpresa batek jasotzen aurkitu dira datuak ikertzaile baten ikuspuntutik. Baina, zehatza erregistro horiek bereko datuak norbait fakturazio telefono konpainiak departamenduan lanean ikuspegitik diseinatu dira. Iturria: Wikimedia Commons

    Datu iturria adibide bat eskaintzea non ikusten topatu eta diseinatu lagungarria da, bai, datu-ikerketako iturriak erabiltzean.

  14. [ erraza ] Pentsakor saiakera batean, Christian Sandvig eta Eszter Hargittai (2015) bi ikerketa digitala, non sistema digital "tresna" edo da mota deskribatzeko "ikerketa objektu." Ikasketen lehenengo mota adibide bat da non Bengtsson eta lankideek (2011) telefono mugikorraren datuen erabilitako migrazio jarraitzeko Haitiko lurrikararen ondoren 2010ean bigarren motako adibide bat da, non Jensen (2007) ikasketak nola Kerala osoan telefono mugikorrak sarrera, India arrain merkatuan funtzionamendua eragin. zaio hau aurkitu dut datu digital iturriak erabiliz ikasketak helburuak oso desberdinak Datu-iturri mota bera erabiltzen ari bada ere, izan daiteke argitzen duelako. bi sistema digital bat erabiltzen duten tresna gisa, eta bi sistema digital bat erabiltzen duten ikerketa objektu bat bezala: ordena, argiago bereizketa honetan, lau ikasketak duzula ikusi deskribatzeko. Adibide erabil dezakezu kapitulu honetan nahi baduzu.