Starfsemi

Key:

  • hversu erfitt: auðvelt auðvelt , miðlungs miðlungs , erfitt erfitt , mjög erfitt mjög erfitt
  • krefst stærðfræði ( krefst stærðfræði )
  • krefst erfðaskrá ( krefst erfðaskrá )
  • gagnasafn ( gagnasafn )
  • mín uppáhalds ( uppáhaldið mitt )
  1. [ miðlungs , uppáhaldið mitt ] Algrími truflandi var vandamál með Google Flensa Trends. Lesið blaðið eftir Lazer et al. (2014) , og skrifað stutt, skýr tölvupóst til verkfræðingur hjá Google útskýrir vandamálið og bjóða hugmynd um hvernig á að leysa vandann.

  2. [ miðlungs ] Bollen, Mao, and Zeng (2011) heldur því fram að gögn frá Twitter má nota til að spá fyrir um hlutabréfamarkaðinn. Þessi niðurstaða leiddi til stofnunar vogunarsjóður-Derwent Markaðsviðskipti-að fjárfesta í hlutabréfamarkaðinn byggt á gögnum frá Twitter (Jordan 2010) . Hvaða sannanir myndir þú vilja sjá áður en að setja peningana þína í sjóðnum?

  3. [ auðvelt ] Þó að sumir opinberir talsmenn heilsa él E-sígarettur sem áhrifarík aðstoð til að hætta reykingum, vara aðra um hugsanlega áhættu, svo sem hár-láréttur flötur af nikótíni. Ímyndaðu þér að rannsóknir ákveður að læra almenningsálitið gagnvart e-sígarettur með því að safna e-sígarettur tengdum Twitter færslur og framkvæma viðhorfskönnun greiningu.

    1. Hverjar eru þrjár mögulegar bjagi sem þú ert mest áhyggjur af í þessari rannsókn?
    2. Clark et al. (2016) hljóp bara slíka rannsókn. First, þeir safnað 850.000 kvak sem notuð E-Sígaretta-tengd leitarorð frá janúar 2012 til desember 2014. Við nánari skoðun, áttaði þeir að margir af þessum kvak voru sjálfvirk (þ.e. ekki framleidd af mönnum) og margir af þessum sjálfvirku kvak voru í raun auglýsingar. Þeir þróað Human uppgötvun reiknirit til að aðskilja sjálfvirkar kvak úr lífrænum kvak. Using this Human Detect reiknirit sem þeir fundu að 80% af kvak voru sjálfvirk. Er þessi niðurstaða breytir svar þitt við hluta (a)?
    3. Þegar þeir saman á viðhorf í lífrænum og sjálfvirkum kvak þeir fundu að sjálfvirk kvak eru fleiri jákvæðir en lífræn tweets (6,17 á móti 5,84). Er þessi niðurstaða breytir svar þitt við (b)?
  4. [ auðvelt ] Í nóvember 2009, Twitter breytt spurningu í kvak kassi frá "Hvað ertu að gera?" "Hvað er að gerast?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hvernig heldur þú að breyting á leiðbeiningunum mun hafa áhrif hver kvak og / eða hvað þeir kvak?
    2. Nefna eina rannsóknarverkefni sem þú myndir kjósa hvetja "Hvað ertu að gera?" Útskýrðu hvers vegna.
    3. Nefna eina rannsóknarverkefni sem þú myndir vilja hvetja "Hvað er að gerast?" Útskýrðu hvers vegna.
  5. [ miðlungs ] Kwak et al. (2010) greindu 41,7 milljónum notandi snið, 1,47 milljarðar félagsleg samskipti, 4262 deiglunni og 106 milljónir kvak á milli 6. júní og 31. júní 2009. Á grundvelli þessarar greiningar þeir að þeirri niðurstöðu að Twitter þjónar fleiri sem nýtt miðli upplýsingamiðlun en samfélagsmiðill.

    1. Miðað niðurstöðu Kwak et al er, hvaða tegund af rannsókn viltu gera við Twitter gögn? Hvaða tegund af rannsókn myndi ekki gera með Twitter gögn? Hvers vegna?
    2. Árið 2010, Twitter bætt við Hver að fylgja þjónustu gera sniðin tillögu til notenda. Þrjár tillögur eru sýndar í einu á aðalsíðu. Tillögur eru oft dregin úr manns "vini-of-vinum," og gagnkvæm samskipti eru einnig birtar í tilmælunum. Notendur geta hressa til að sjá nýja sett af tillögum eða heimsækja síðuna með lengri lista yfir tillögur. Finnst þér þetta nýja lögun vildi breyta svarið í A-hluta)? Hvers vegna eða hvers vegna ekki?
    3. Su, Sharma, and Goel (2016) mat á áhrif hver á að fylgja þjónustu og komist að því að á meðan notendur um allan vinsældir litróf notið góðs af tillögum, vinsælustu notendur hagnast verulega meira en meðaltalið. Er þessi niðurstaða breytir svar þitt við hluta b)? Hvers vegna eða hvers vegna ekki?
  6. [ auðvelt ] "Retweets" eru oft notuð til að mæla áhrif og breiða áhrif á Twitter. Upphaflega notendur þurfti að afrita og líma kvak þeir líkaði, merkja upprunalega höfundar með hans / handfangi hennar, og höndunum tegund "RT" fyrir kvak til að sýna að það er retweet. Þá, í 2009 Twitter bætti "retweet" hnappinn. Í júní 2016, Twitter gert það mögulegt fyrir notendur að retweet eigin kvak þeirra (https://twitter.com/twitter/status/742749353689780224). Finnst þér þessar breytingar ætti áhrif á hvernig þú notar "retweets" í rannsóknum þínum? Hvers vegna eða hvers vegna ekki?

  7. [ miðlungs , gagnasafn , krefst erfðaskrá ] Michel et al. (2011) smíðað corpus stíga upp úr viðleitni Google til að færa bækur. Notkun fyrsta útgáfa af corpus, sem birt var árið 2009 og innihélt yfir 5 milljónir stafrænna bækur, höfundar greindu orð notkun tíðni til að rannsaka tungumálavillur breytingar og menningar þróun. Fljótlega Google Books Corpus varð vinsæll gögn uppspretta fyrir vísindamenn, og 2. útgáfa af gagnagrunninum kom út árið 2012.

    Hins vegar Pechenick, Danforth, and Dodds (2015) varað við því að vísindamenn þurfa að fullu lýsa sýnatöku ferli corpus áður en það til að teikna breið ályktanir. Aðalatriðið er að corpus er bókasafnslegt, sem inniheldur eitt af hverri bók. Þess vegna, einstaklingi, hugmyndaríkur höfundur er fær um að orðinn setja nýjar setningar í Google Books Lexicon. Þar að auki, vísindaleg texta mynda sífellt efnisleg hluta corpus á öllu 1900. Að auki, með því að bera saman tvær útgáfur af ensku Fiction gagnasafna, Pechenick et al. fann sönnun þess að ófullnægjandi síun var notað í framleiðslu fyrsta útgáfa. Öll gögn sem nauðsynleg starfsemi er að finna hér: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Í michel et al. Upphaflegri grein (2011) , þeir nota 1. útgáfu á ensku gögnum, samsæri tíðni notkun árin "1880", "1912" og "1973", og að þeirri niðurstöðu að "við erum gleyma fortíð okkar hraðar með hverri brottför ári "(Fig. 3 A, Michel et al.). Endurtaka sömu lóð með því að nota 1) 1. útgáfa af málheildinni, enska gagnapakka (samme som fig. 3A, Michel et al.)
    2. Nú endurtaka sömu lóð með 1. útgáfu, Íslensk skáldskapur gagnapakka.
    3. Nú endurtaka sömu lóð með 2. útgáfu af corpus, enska gagnasafni.
    4. Að lokum, endurtaka sömu lóð með 2. útgáfu, Íslensk skáldskapur gagnapakka.
    5. Lýsið mismun og líkindi milli þessara fjögurra Lóðir. Ert þú sammála Michel et al. Upphaflegri túlkun fram stefna? (Hint: c) og d) skal vera það sama og mynd 16 í Pechenick et al).
    6. Nú þegar þú hefur endurtaka þetta einu niðurstöðu með mismunandi Google Books safngögnunum, velja annan tungumála breytingu eða menningar fyrirbæri fram í Michel et al. Upphaflegri pappír. Ert þú sammála túlkun þeirra í ljósi takmarkana fram í Pechenick et al.? Til að gera rök sterkari, reyndu endurtaka sömu línurit nota mismunandi útgáfur af gögnum sem sett eins og að ofan.
  8. [ mjög erfitt , gagnasafn , krefst erfðaskrá , uppáhaldið mitt ] Penney (2016) kannar hvort mikla umfjöllun um NSA / PRISM eftirlit (þ.e. Snowden opinberanir) í júní 2013 er í tengslum við beittum og skyndilega lækkun á umferð Wikipedia greinar um efni sem hækka næði áhyggjur. Ef svo er, þessi breyting á hegðun væri í samræmi við skelfilegri áhrifum vegna massa eftirlit. The aðferð af Penney (2016) er stundum kallað rofin tímaröð hönnun og tengist þeim aðferðum í kafla um samræmingu tilraunir frá observational gögn (Hluti 2.4.3).

    Að velja spjallþráð leitarorð Penney vísað til lista notuð af US Department of Homeland Security til að rekja og fylgjast félagslega fjölmiðla. DHS Listinn afdráttarlaus ákveðin leitarorð í ýmsum málum, þ.e. "heilsu áhyggjuefni," "Infrastructure Security," og "hryðjuverk." Fyrir rannsóknarhóps, Penney notað fjörutíu og átta leitarorð sem tengjast "Hryðjuverk" (sjá töflu 8 Viðauki). Hann lagðar saman þá Wikipedia grein áhorfsfjölda á mánaðarlega fyrir samsvarandi fjörutíu og átta Wikipedia greinar yfir þrjátíu tveggja mánaða tímabili, frá byrjun janúar 2012 til loka ágúst 2014. Til að styrkja rök hans, hann skapaði einnig nokkrir samanburð hópar með því að rekja grein skoðanir á öðrum viðfangsefnum.

    Nú, þú ert að fara að endurtaka og lengja Penney (2016) . Allt hrátt gögn sem þú þarft fyrir þetta verkefni er í boði frá Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Eða þú getur fengið það frá R pakka wikipediatrend (Meissner and Team 2016) . Þegar þú skrifar upp svörin þín, vinsamlegast athugið hvaða gögn uppspretta þú notaðir. (Ath: Þessi sama virkni birtist einnig í 6. kafla)

    1. Lesa Penney (2016) og endurtaka mynd 2 sem sýnir flettingar fyrir "hryðjuverk"-tengdra síður fyrir og eftir Snowden opinberun. Túlka niðurstöður.
    2. Næst, endurtaka mynd 4a, sem saman rannsóknarhópinn ( "hryðjuverk"-tengdra greinar) með samanburðarhópnum nota leitarorð flokkuð undir "DHS & öðrum stofnunum" frá DHS listanum (sjá viðauka töflu 10). Túlka niðurstöður.
    3. Í B-hluta) þú saman rannsóknarhópinn til einn samanburðarhópnum. Penney einnig í samanburði við tvo aðra hópa samanburðarhópum: "Infrastructure Security"-tengdra greinar (Viðauki tafla 11) og vinsælum Wikipedia síður (Viðauki töflu 12). Koma upp með aðra samanburðarhópnum, og prófa ef niðurstöður úr b) er viðkvæm vali á samanburðarhópnum. Hvaða val á samanburðarhópnum gerir mest vit? Hvers vegna?
    4. Höfundur fram að leitarorð sem tengjast "hryðjuverkum" voru notaðar til að velja Wikipedia greinar vegna þess að Bandaríkjastjórn vitnað hryðjuverk sem lykill réttlætingu fyrir online eftirlit hennar starfshætti. Sem stöðva af þessum 48 "hryðjuverk"-tengdra leitarorð, Penney (2016) fram einnig könnun á MTurk biðja svarendur að gefa hvert leitarorð í skilmálar af vandræðum ríkisstjórnarinnar, Aðgangur næmur og forðast (Viðauki töflu 7 og 8). Endurtaka könnun á MTurk og bera saman niðurstöður.
    5. Byggt á niðurstöðum í D-hluta) og lesturinn á greininni, ert þú sammála vali höfundar á spjallþráð leitarorð í rannsókninni hópnum? Hvers vegna eða hvers vegna ekki? Ef ekki, hvað myndir þú stinga í staðinn?
  9. [ auðvelt ] Efrati (2016) skýrslur, byggt á trúnaðarupplýsingum, sem "alls hlutdeild" á Facebook höfðu lækkað um 5,5% milli ára en "upprunalegu útvarpa hlutdeild" var niður 21% milli ára. Þessi lækkun var sérstaklega bráð með Facebook notendur undir 30 ára aldri. Skýrslan rekja lækkun á tveimur þáttum. Eitt er vöxtur í fjölda "vina" fólk höfum á Facebook. Hin er að sumir hlutdeild starfsemi hefur færst til skilaboð og til keppinauta eins og Snapchat. Í skýrslunni kom einnig nokkrum aðferðum Facebook hafði reynt að auka hlutdeild, þar á meðal fréttastraumi reiknirit klip sem gera upprunalega innlegg meira áberandi, svo og reglulegar áminningar upprunalegu færslur notenda "Á þessum degi" fyrir nokkrum árum síðan. Hvaða áhrif, ef einhver, er að þessar niðurstöður hafa fyrir vísindamenn sem vilja nota Facebook sem gögn uppspretta?

  10. [ miðlungs ] Tumasjan et al. (2010) greint frá því að hlutfall kvak minnast á stjórnmálaflokk samsvarandi hlutfall atkvæða sem flokkurinn fékk í þýsku kosningum til Alþingis árið 2009 (mynd 2.9). Með öðrum orðum, það virtist sem þú getur notað Twitter til að spá fyrir kosningarnar. Á þeim tíma þessi rannsókn var birt var talið mjög spennandi því það virtist benda dýrmætur notkun fyrir sameiginlega uppsprettu stór gögn.

    Í ljósi slæmur lögun af stór gögn, þó ættir þú strax að vera efins um þessa niðurstöðu. Þjóðverjar á Twitter árið 2009 voru alveg a non-fulltrúi hópur, og stuðningsmenn einum aðila gætu kvak um stjórnmál oftar. Þannig virðist það á óvart að allar mögulegar bjagi sem þú gætir ímyndað myndi einhvern veginn að hætta út. Í staðreynd, the úrslit í Tumasjan et al. (2010) reyndist vera of gott til að vera satt. Í grein sinni, Tumasjan et al. (2010) telst sex stjórnmálaflokka: Kristilegir demókratar (CDU), Christian jafnaðarmanna (CSU), SPD, Frjálslyndir (FDP), vinstri (Die Linke) og Green Party (Grüne). Hins vegar er í fyrrnefnda þýska stjórnmálaflokkur á Twitter á þeim tíma var Píratar (Piraten), aðili sem berst reglugerð um Internetið. Þegar Píratar var með í greiningunni, Twitter nefnir verður hræðileg spá um kosningum niðurstöður (mynd 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Mynd 2.9: Twitter nefnir virðast spá fyrir um niðurstöður 2009 þýsku kosningarnar (Tumasjan et al. 2010), en þetta niðurstaðan reynist að treysta á sumum handahófskennt og óréttmætar val (Jungherr, Jürgens og Schoen 2012).

    Mynd 2.9: Twitter nefnir virðast spá fyrir um niðurstöður 2009 þýsku kosningarnar (Tumasjan et al. 2010) , en þetta niðurstaðan reynist að treysta á sumum handahófskennt og óréttmætar val (Jungherr, Jürgens, and Schoen 2012) .

    Í kjölfarið, aðrir vísindamenn um allan heim hafa notað áhugamaður aðferðir eins og til dæmis með því að nota viðhorfskönnun greiningu til að greina á milli jákvæð og neikvæð nefnir aðila-til að bæta getu Twitter gagna að spá ýmsar mismunandi gerðir af kosninga (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hér er hvernig Huberty (2015) samantekt á niðurstöðum þessara tilrauna til að spá kosningar:

    "Allir þekktir spá aðferðir byggjast á samfélagsmiðlum hefur mistekist þegar sæta kröfum sanna framsýn kosningakerfi spá. Þessar bilanir virðast vera vegna grundvallar eiginleika samfélagsmiðla, frekar en aðferðafræði eða lausnarleiðar erfiðleika. Í stuttu máli, gera félagslega fjölmiðla ekki, og sennilega mun aldrei bjóða upp á stöðugt, óhlutdræg, fulltrúi mynd af kjósendum; og þægindi sýnishorn af félagslegum fjölmiðla skortir nægileg gögn til að festa þessi vandamál post hoc. "

    Lesa sum af rannsóknum sem leiða Huberty (2015) að þeirri niðurstöðu, og skrifa eina síðu orðsending til frambjóðanda sem lýsir ef og hvernig Twitter ætti að nota til að spá kosningar.

  11. [ miðlungs ] Hver er munurinn á milli félagsfræðingur og sagnfræðingur? Samkvæmt Goldthorpe (1991) , helsti munurinn félagsfræðingur og sagnfræðingur er stjórn á gagnasöfnun. Sagnfræðingar eru neydd til að nota minjar en félagsfræðingar geta sérsniðið gagnasöfnun þeirra að tilteknum tilgangi. Lesa Goldthorpe (1991) . Hvernig er munurinn á milli félagsfræði og sögu í tengslum við hugmyndina um Custommades og Readymades?

  12. [ erfitt ] Uppbygging á fyrri spurningu, Goldthorpe (1991) dró fjölda mikilvægum svörum, þar á meðal einn frá Nicky Hart (1994) sem áskorun hollustu Goldthorpe er að sníða gert gögnum. Til að skýra hugsanlega takmarkanir sérhannaða gögn, Hart lýst auðugur Worker Project, stór könnun til að mæla tengsl milli stéttar og atkvæðagreiðslur, sem var gerð af Goldthorpe og samstarfsmenn í miðjan 1960. Eins og einn gæti búist við af fræðimanni sem studdi hannað gögn yfir finnast gögn, Auðugur Worker Project safnað gögnum sem var sniðin til að takast á nýlega tilgátu um framtíð stéttar á tímum vaxandi lífskjör. En, Goldthorpe og samstarfsmenn einhvern veginn "gleymdi" að safna upplýsingum um atkvæðagreiðslu hegðun kvenna. Hér er hvernig Nicky Hart (1994) samantektir allan þáttinn:

    ". . . það [er] erfitt að koma í veg fyrir að þeirri niðurstöðu að konur voru sleppt því að þetta 'sniðin' gagnapakka var bundin af fyrirmyndarvelferðarríkið rökfræði sem útilokaðir kvenkyns reynslu. Knúið með fræðilegu sýn á bekknum meðvitund og aðgerð sem karlkyns preoccupations. . . , Goldthorpe og samstarfsmenn hans smíðað sett af reynslunni sannanir sem fóðruð og þroskaðir eigin fræðilegar þeirra forsendum í stað þess að útlistun þá til gilt próf fullnægjandi. "

    Hart áfram:

    "The reynslunni niðurstöður auðugur starfsmaður verkefnisins segja okkur meira um masculinist gildum miðjan öld félagsfræði en þau tilkynna það ferli lagskiptingarþátta, pólitík og efni lífinu."

    Getur þú hugsa um önnur dæmi þar sem safn sérhannaða gögnum hefur hlutdrægni af gögnum safnari byggt inn í það? Hvernig virkar þetta saman algrími truflandi? Hvaða áhrif gæti þetta haft á þegar vísindamenn ættu að nota Readymades og þegar þeir ættu að nota Custommades?

  13. [ miðlungs ] Í þessum kafla, ég andstæða gögn sem safnað er af vísindamönnum fyrir vísindamenn með stjórnsýsluupplýsingar skapast hjá fyrirtækjum og stjórnvöldum. Sumir kalla þessar stjórn- færslur "fannst gögn" sem þeir andstæða við "hönnuð gögn." Það er satt að stjórn færslur finnast af vísindamönnum, en þeir eru einnig mjög hönnuð. Til dæmis, að eyða nútíma tækni fyrirtæki gríðarlegt magn af tíma og fjármagn til að safna og stýra gögn. Þannig þessir stjórn- skrár eru bæði að finna og hannað, það fer bara eftir samhengi (mynd 2.10).

    Mynd 2.10: Myndin er bæði önd og kanína; það sem þú sérð fer eftir sjónarhorni þínu. Ríkisstjórn og viðskipti stjórnsýslu færslur eru bæði að finna og hannað; það sem þú sérð fer eftir sjónarhorni þínu. Til dæmis eru símtal gögn færslur safnað af klefi sími fyrirtæki fundust gögn frá sjónarhóli rannsóknir. En eru þessar nákvæmlega sömu skrár hannað gögn yfirsýn yfir einhverjum vinna í innheimtu deild símafyrirtækið. Heimild: Wikimedia Commons

    Mynd 2.10: Myndin er bæði önd og kanína; það sem þú sérð fer eftir sjónarhorni þínu. Ríkisstjórn og viðskipti stjórnsýslu færslur eru bæði að finna og hannað; það sem þú sérð fer eftir sjónarhorni þínu. Til dæmis eru símtal gögn færslur safnað af klefi sími fyrirtæki fundust gögn frá sjónarhóli rannsóknir. En eru þessar nákvæmlega sömu skrár hannað gögn yfirsýn yfir einhverjum vinna í innheimtu deild símafyrirtækið. Heimild: Wikimedia Commons

    Gefðu dæmi um gögn uppspretta hvar sjá það bæði fann og hannað er gagnlegt þegar að nota þessi gögn uppspretta fyrir rannsóknir.

  14. [ auðvelt ] Í hugsi ritgerð, Christian Sandvig og Eszter Hargittai (2015) lýsa tvenns konar stafræna rannsóknum, þar sem stafræna kerfið er "tæki" eða "Markmið rannsóknarinnar." Dæmi um fyrsta konar nám er þar Bengtsson og samstarfsmenn (2011) notaði hreyfanlegur gögn sími til að fylgjast með flæði eftir jarðskjálftann í Haítí árið 2010. sem dæmi um seinni tagi er þar Jensen (2007) rannsóknir hvernig Innleiðing farsíma um Kerala, India mark sitt á starfsemi markaðarins fyrir fisk. Mér finnst þetta gagnlegt því það skýrir að rannsóknir með stafrænum gögnum heimildir geta haft mjög mismunandi markmið, jafnvel þótt þeir séu með samskonar gögn uppspretta. Í því skyni að skýra frekar þennan greinarmun, lýsa fjórar rannsóknir sem þú hefur séð: tveir sem nota stafræna kerfi sem stjórntæki og tvær sem nota stafræna kerfi sem hlut af rannsókn. Þú getur notað dæmi úr þessum kafla, ef þú vilt.