Starfsemi

  • erfiðleikar: auðvelt auðvelt , miðlungs miðlungs , erfitt erfitt , mjög erfitt mjög erfitt
  • krefst stærðfræði ( krefst stærðfræði )
  • krefst kóðunar ( krefst kóðunar )
  • gagnasafn ( gagnasafn )
  • mín uppáhalds ( uppáhaldið mitt )
  1. [ miðlungs , uppáhaldið mitt ] Reikniritið var vandamál með þróun Google Fluens. Lesið blaðið af Lazer et al. (2014) og skrifaðu stutt, skýr tölvupóst til verkfræðings hjá Google sem útskýrir vandamálið og býður upp á hugmynd um hvernig á að laga það.

  2. [ miðlungs ] Bollen, Mao, and Zeng (2011) fram að gögn frá Twitter séu notaðar til að spá fyrir um hlutabréfamarkaðinn. Þessi niðurstaða leiddi til þess að áhættugjaldssjóður-Derwent Capital Markets-að fjárfesta í hlutabréfamarkaðinn byggði á gögnum sem safnað var frá Twitter (Jordan 2010) . Hvaða vísbendingar viltu sjá áður en þú setur peningana þína í sjóðinn?

  3. [ auðvelt ] Þótt sumir heilsuforsetar telji e-sígarettur áhrifarík hjálp til að hætta að reykja, aðrir vara um hugsanlega áhættu, svo sem mikið magn nikótíns. Ímyndaðu þér að rannsóknarmaður ákveður að læra almenningsálitið í átt að e-sígarettum með því að safna e-sígarettum sem tengjast Twitter innlegg og framkvæma viðhorf greiningu.

    1. Hverjar eru þrjár hugsanlegar hlutar sem þú ert mest áhyggjufullur í þessari rannsókn?
    2. Clark et al. (2016) hljóp bara svo rannsókn. Í fyrsta lagi safna þeir 850.000 kvakum sem notuðu leitarorð sem tengjast sígarettu frá janúar 2012 til desember 2014. Þegar þeir voru skoðuð komust þeir að því að margir af þessum kvakum voru sjálfvirkir (þ.e. ekki framleiddir af mönnum) og margir af þessum sjálfvirkum kvakum voru í raun auglýsingum. Þeir þróuðu mannleg uppgötvunar reiknirit til að aðskilja sjálfvirkan kvak úr lífrænum kvakum. Með því að nota þennan mælingaralgoritma komust þeir að því að 80% kvakanna voru sjálfvirk. Breytir þessi niðurstaða svar þitt við hluta (a)?
    3. Þegar þeir bera saman viðhorf í lífrænum og sjálfvirkum kvakum fundu þeir að sjálfvirkir kvakarnir voru jákvæðar en lífrænar kvakir (6,17 samanborið við 5,84). Breytir þessi niðurstaða svarið við (b)?
  4. [ auðvelt ] Í nóvember 2009 breytti Twitter spurningunni í kvakskjánum frá "Hvað ertu að gera?" Við "Hvað er að gerast?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hvernig heldur þú að breytingarnar á hvatningu muni hafa áhrif á hver kvak og / eða hvað þeir kvakka?
    2. Nafni eitt rannsóknarverkefni sem þú vilt frekar hvetja "Hvað ertu að gera?" Útskýrðu hvers vegna.
    3. Nafni eitt rannsóknarverkefni sem þú vilt frekar hvetja "Hvað er að gerast?" Útskýrðu hvers vegna.
  5. [ auðvelt ] "Retweets" eru oft notuð til að mæla áhrif og útbreiðslu áhrif á Twitter. Upphaflega þurfti notendur að afrita og líma kvakið sem þeir líkaði við, taktu upprunalegu höfundinn með handfangi sínu og handritaðu "RT" fyrir handritið til að gefa til kynna að það væri retweet. Síðan, árið 2009, bætt Twitter við "retweet" hnappinn. Í júní 2016 gerði Twitter mögulegt fyrir notendur að retweet eigin kvak þeirra (https://twitter.com/twitter/status/742749353689780224). Telur þú að þessar breytingar ættu að hafa áhrif á hvernig þú notar "retweets" í rannsóknum þínum? Hvers vegna eða hvers vegna ekki?

  6. [ mjög erfitt , gagnasafn , krefst kóðunar , uppáhaldið mitt ] Í víðtækri greinargerð greindu Michel og samstarfsmenn (2011) innihald meira en fimm milljón stafrænar bækur í tilraun til að bera kennsl á langtíma menningarleg þróun. Gögnin sem þau notuðu eru nú gefin út sem Google NGrams gagnasett, og við getum því notað gögnin til að endurtaka og framlengja sum þeirra af vinnu þeirra.

    Í einu af mörgum árangri í blaðinu héldu Michel og samstarfsmenn því fram að við gleymum hraðar og hraðar. Fyrir tiltekið ár, segðu "1883", reiknuðu þeir hlutfallið 1 grömm sem voru birt á hverju ári milli 1875 og 1975 sem voru "1883". Þeir rökstuddu að þetta hlutfall er mælikvarði á áhuga á atburðum sem áttu sér stað á því ári. Í mynd 3a þeirra litu þeir á notkunarsvæðin í þrjú ár: 1883, 1910 og 1950. Þessir þrír ár deila sameiginlegu mynstri: lítið notað fyrir það ár, þá spike, þá rotna. Næst, til að mæla magn rotnun fyrir hvert ár, reiknuðu Michel og samstarfsmenn "helmingunartímann" hvers árs fyrir alla árin á milli 1875 og 1975. Í mynd 3a þeirra (inntak) sýndu þeir að helmingunartími hvers ár er að minnka, og þeir héldu því fram að þetta þýði að við gleymum fortíðinni hraðar og hraðar. Þeir notuðu útgáfu 1 af ensku korpunni, en síðan hefur Google gefið út aðra útgáfu af corpus. Vinsamlegast lesið alla hluta spurninganna áður en þú byrjar að forrita.

    Þessi aðgerð mun gefa þér æfingu við að skrifa endurnýjanlegan kóða, túlka niðurstöður og gögn wrangling (eins og að vinna með óþægilega skrá og meðhöndla vantar gögn). Þessi aðgerð mun einnig hjálpa þér að komast í gang með ríka og áhugaverða gagnasafni.

    1. Fáðu hráefni frá Google NGram Viewer vefsíðu Google. Sérstaklega ættir þú að nota útgáfu 2 af ensku korpusinu, sem var gefin út 1. júlí 2012. Ósamþjöppuð, þessi skrá er 1,4GB.

    2. Tökum aðalhlutann af mynd 3a af Michel et al. (2011) . Til að endurskapa þessa mynd þarftu tvo skrár: sá sem þú sóttir í hluta (a) og "heildarfjölda" skrána, sem þú getur notað til að umbreyta hráefnum í hlutföll. Athugaðu að heildarfjölda skrárinnar hefur uppbyggingu sem getur gert það svolítið erfitt að lesa inn. Er útgáfa 2 af NGram gögnunum svipaðar niðurstöður og þær sem fram koma í Michel et al. (2011) , sem byggjast á útgáfu 1 gögnum?

    3. Athugaðu nú grafið þitt á móti grafinu sem NGram Viewer hefur búið til.

    4. Endurtaka mynd 3a (aðalmynd), en breyttu \(y\) -ásnum til að vera hrár nefndarfjöldinn (ekki hlutfall nefnt).

    5. Mun munurinn á milli (b) og (d) leiða þig til að endurmeta eitthvað af niðurstöðum Michel et al. (2011). Hvers vegna eða hvers vegna ekki?

    6. Nú, með því að nota hlutfall nefndarinnar, endurtaka inntakið á mynd 3a. Það er fyrir hvert ár á milli 1875 og 1975, reikna helmingunartíma þess árs. Helmingunartími er skilgreindur sem fjöldi ára sem fer fram áður en hlutfall minnst nær helmingi hámarksverðs. Athugaðu að Michel et al. (2011) gera eitthvað flóknara til að meta helmingunartímann - sjá kafla III.6 af stuðningsupplýsingum - en þeir halda því fram að báðir aðferðirnar framleiði svipaðar niðurstöður. Gefur útgáfa 2 af NGram gögnunum svipaðar niðurstöður og þær sem fram koma í Michel et al. (2011) , sem byggjast á útgáfu 1 gögnum? (Ábending: Ekki vera hissa ef það gerist ekki.)

    7. Voru nokkur ár sem voru outliers eins og ár sem voru gleymt sérstaklega hratt eða sérstaklega hægt? Í stuttu máli veltu fyrir hugsanlegum ástæðum fyrir það mynstur og útskýrðu hvernig þú benti á outliers.

    8. Nú endurtaka þessa niðurstöðu fyrir útgáfu 2 af NGrams gögnum á kínversku, frönsku, þýsku, hebresku, ítölsku, rússnesku og spænsku.

    9. Samanburður á öllum tungumálum, voru nokkur ár sem voru outliers, svo sem ár sem voru gleymt sérstaklega hratt eða sérstaklega hægt? Í stuttu máli veltu fyrir hugsanlegum ástæðum fyrir það mynstur.

  7. [ mjög erfitt , gagnasafn , krefst kóðunar , uppáhaldið mitt ] Penney (2016) kannaði hvort umfjöllun um NSA / PRISM eftirlitið (þ.e. Snowden opinberanir) í júní 2013 tengdist skörpum og skyndilegri fækkun á umferð á Wikipedia greinar um efni sem vekja athygli á persónuvernd. Ef svo er myndi þessi breyting á hegðun vera í samræmi við kuldaáhrif vegna massa eftirlits. Aðferðin í Penney (2016) er stundum kölluð trufluðum tímaröðhönnun og tengist þeim aðferðum sem lýst er í kafla 2.4.3.

    Til að velja efni leitarorð, Penney vísað til listans sem US Department of Homeland Security notar til að fylgjast með og fylgjast með félagslegum fjölmiðlum. DHS listanum flokkar ákveðnar leitarskilyrði í ýmsum málum, þ.e. "Heilsa Áhyggjuefni", "Infrastructure Security" og "Terrorism." Fyrir rannsóknarsamfélagið notaði Penney 48 leitarorðin sem tengjast "hryðjuverkum" (sjá viðauka töflu 8 ). Hann safnaði síðan Wikipedia greinatöflu mánaðarlega fyrir samsvarandi 48 Wikipedia greinar á 32 mánaða tímabili frá byrjun janúar 2012 til loka ágúst 2014. Til að styrkja rök hans skapaði hann einnig nokkrar samanburðarhópar með því að fylgjast með Greinar skoðanir um önnur atriði.

    Nú ætlarðu að endurtaka og lengja Penney (2016) . Öll hráefni sem þú þarft fyrir þessa starfsemi eru fáanlegar frá Wikipedia. Eða þú getur fengið það frá R-pakka wikipediatrend (Meissner and R Core Team 2016) . Þegar þú skrifar svörin þín skaltu vinsamlegast athugaðu hvaða gagnaöflun þú notaðir. (Athugaðu að þessi sömu starfsemi birtist einnig í kafla 6.) Þessi aðgerð mun gefa þér æfingu í gögnum og að hugsa um náttúrulegar tilraunir í stórum gögnum. Það mun einnig fá þér að keyra með hugsanlega áhugavert gagnamagn til framtíðarverkefna.

    1. Lestu Penney (2016) og endurtaka mynd 2 hans sem sýnir síðurnar fyrir "Terrorism" tengda síður fyrir og eftir Snowden opinberanir. Túlka niðurstöðurnar.
    2. Næst skaltu endurtaka mynd 4A sem samanburðarhópurinn ("hryðjuverk" tengd greinar) með samanburðarhópi með leitarorðum sem flokkaðar eru undir "DHS & Other Agencies" úr DHS listanum (sjá viðauka töflu 10 og neðanmálsgrein 139). Túlka niðurstöðurnar.
    3. Í hluta (b) hefur þú borið saman hópinn með einum samanburðarhópi. Penney er einnig borið saman við tvær aðrar samanburðarhópar: Tengdar greinar "Infrastructure Security" (viðauki töflu 11) og vinsæll Wikipedia síður (viðauka töflu 12). Komdu með aðra samanburðarhóp og prófaðu hvort niðurstöður úr hluta (b) séu viðkvæmar við val þitt á samanburðarhópi. Hvaða val er mest vit í? Af hverju?
    4. Penney lýsti yfir að leitarorð sem tengjast "hryðjuverkum" voru notaðar til að velja Wikipedia greinar vegna þess að bandarísk stjórnvöld vitna í hryðjuverkum sem lykilatriði fyrir eftirlitsaðferðir á netinu. Sem eftirlit með þessum 48 "hryðjuverkum" tengdum leitarorðum, gerði Penney (2016) einnig könnun á MTurk og spurði svarendur að meta hvert ht leitarorð í skilmálar af ríkisstjórn vandræði, Privacy-Sensitive og Avoidance (viðauka töflu 7 og 8 ). Endurtaktu könnunina á MTurk og bera saman niðurstöður þínar.
    5. Á grundvelli niðurstaðna í hluta (d) og lestur þinnar af greininni ertu sammála Penney um val á efnisorðum í námskeiðinu? Hvers vegna eða hvers vegna ekki? Ef ekki, hvað myndir þú leggja til í staðinn?
  8. [ auðvelt ] Efrati (2016) tilkynnti á grundvelli trúnaðarupplýsinga að "heildarhlutdeild" á Facebook hafi lækkað um 5,5% frá fyrra ári en "upphafleg útvarpsþáttur" var 21% á milli ára. Þessi lækkun var sérstaklega bráð hjá Facebook notendum undir 30 ára aldri. Skýrslan rekja til lækkunar á tveimur þáttum. Einn er vöxturinn í fjölda "vinir" sem fólk hefur á Facebook. Hinn er sá að einhver hlutdeildarverkefni hefur verið skipt í skilaboð og til keppinauta eins og Snapchat. Skýrslan leiddi einnig í ljós að nokkrir aðferðir Facebook höfðu reynt að auka hlutdeild, þ.á m. Fréttaflokkar algoritma sem gera upprunalegu færslur áberandi, auk reglubundinna áminninga á upprunalegu innleggunum með "On This Day" löguninni. Hvaða afleiðingar, ef einhver, hafa þessar niðurstöður fyrir vísindamenn sem vilja nota Facebook sem gagnaöflun?

  9. [ miðlungs ] Hver er munurinn á félagsfræðingi og sagnfræðingur? Samkvæmt Goldthorpe (1991) er aðal munurinn stjórn á gagnasöfnun. Sagnfræðingar eru neyddir til að nota minjar, en félagsfræðingar geta sérsniðið gagnasöfnun sína til sérstakra nota. Lestu Goldthorpe (1991) . Hvernig er munurinn á félagsfræði og sögu tengd hugmyndinni um custommades og readymades?

  10. [ erfitt ] Þetta byggir á fyrri spurningunni. Goldthorpe (1991) skrifaði fjölda mikilvægra svörum, þar með talið einn frá Nicky Hart (1994) sem skoraði á hollustu Goldthorpe til aðlaga sér gögn. Til að skýra hugsanlega takmarkanir á sérsniðnum gögnum, lýsti Hart um velmegunarverkamannaverkefnið, stór könnun til að mæla tengslin milli félagslegra bekkja og atkvæða sem gerð var af Goldthorpe og samstarfsmönnum um miðjan 1960. Eins og maður gæti búist við frá fræðimanni sem studdi hannað gögn yfir fundnar gögn, safnað velmegunarverkamaður verkefninu gögn sem voru sniðin að því að takast á við nýlega lagt til kenningu um framtíð félagslegra bekkja á tímum vaxandi lífskjörum. En Goldthorpe og samstarfsmenn einhvern veginn "gleymdu" að safna upplýsingum um atkvæðagreiðsluhegðun kvenna. Hér er hvernig Nicky Hart (1994) tók saman alla þætti:

    "... það er erfitt að koma í veg fyrir þá niðurstöðu að konur verði sleppt vegna þess að þessi" sniðmát "gagnasett var bundin við hugmyndafræðilega rökfræði sem útilokaði kvenna reynslu. Gert af fræðilegu sjónarhorni um meðvitund og athöfn sem karlkyns áhyggjur ..., gerðu Goldthorpe og samstarfsmenn hans samsetta sannleiksgildi sem veittu og hlúðu eigin fræðilegum forsendum sínum í stað þess að sýna þeim að gilt próf væri fullnægjandi. "

    Hart hélt áfram:

    "The empirical niðurstöður af the Affluent Worker Project segja okkur meira um karlmennsku gildi um miðju öld félagsfræði en þeir upplýsa ferli lagskiptingu, stjórnmál og efni líf."

    Getur þú hugsað um önnur dæmi þar sem sérsniðin gagnasöfnun hefur forspár gagnasafnsins innbyggður í það? Hvernig er þetta í samanburði við algrímfræðilega confounding? Hvaða áhrif gætu þetta haft á þegar vísindamenn ættu að nota readymades og hvenær þeir ættu að nota forsætisráðherra?

  11. [ miðlungs ] Í þessum kafla hefur ég móttekið gögn sem safnað var af vísindamönnum fyrir vísindamenn með stjórnsýsluyfirlit sem stofnuð voru af fyrirtækjum og stjórnvöldum. Sumir kalla þessar stjórnsýsluupplýsingar "fundið gögn", sem þeir andstæða við "hönnuð gögn." Það er satt að stjórnsýsluupplýsingar finnast af vísindamönnum, en þeir eru líka mjög hönnuð. Til dæmis, nútíma tækni fyrirtæki vinna mjög erfitt að safna og curate gögn þeirra. Þannig eru þessar stjórnsýsluupplýsingar bæði fundnar og hönnuð, það veltur bara á sjónarhóli þínu (mynd 2.12).

    Mynd 2.12: Myndin er bæði önd og kanína; Það sem þú sérð fer eftir sjónarhóli þínu. Stór gagnasöfn eru bæði að finna og hönnuð; aftur, það sem þú sérð fer eftir sjónarhóli þínu. Til dæmis finnast símafyrirtæki sem safnað er af farsímafyrirtæki gögn úr sjónarhóli rannsóknaraðila. En nákvæmlega sömu skrár eru hönnuð gögn frá sjónarhóli einhvers sem vinnur í innheimtudeild símafyrirtækisins. Heimild: Popular Science Monthly (1899) / Wikimedia Commons.

    Mynd 2.12: Myndin er bæði önd og kanína; Það sem þú sérð fer eftir sjónarhóli þínu. Stór gagnasöfn eru bæði að finna og hönnuð; aftur, það sem þú sérð fer eftir sjónarhóli þínu. Til dæmis finnast símafyrirtæki sem safnað er af farsímafyrirtæki gögn úr sjónarhóli rannsóknaraðila. En nákvæmlega sömu skrár eru hönnuð gögn frá sjónarhóli einhvers sem vinnur í innheimtudeild símafyrirtækisins. Heimild: Popular Science Monthly (1899) / Wikimedia Commons .

    Gefðu dæmi um gagnaheimild þar sem það er bæði að finna og hönnuð er gagnlegt þegar þú notar þessi gagnasafns til rannsókna.

  12. [ auðvelt ] Í hugsandi ritgerð hættu Christian Sandvig og Eszter Hargittai (2015) stafrænar rannsóknir á tveimur breiðum flokkum eftir því hvort stafrænt kerfi er "tækið" eða "námshlutur". Dæmi um fyrsta tegundin - þar sem kerfið er hljóðfæri - er rannsókn Bengtsson og samstarfsmanna (2011) um notkun gagna í farsímanum til að fylgjast með fólksflutningum eftir jarðskjálftann á Haítí árið 2010. Dæmi um annað tegund - þar sem kerfið er námsbraut - er rannsókn Jensen (2007) um hvernig kynning farsíma í Kerala, Indlandi áhrif á starfsemi markaðarins fyrir fisk. Ég finn þessa grein gagnleg vegna þess að það skýrir að rannsóknir sem nota stafrænar gagnaheimildir geta haft nokkuð mismunandi markmið, jafnvel þótt þeir nota sömu tegund gagnasafns. Í því skyni að skýra þessa greinarmun frekar er fjallað um fjórar rannsóknir sem þú hefur séð: tveir sem nota stafrænt kerfi sem tæki og tvö sem nota stafrænt kerfi sem námsefni. Þú getur notað dæmi úr þessum kafla ef þú vilt.