Tegevused

  • raskusaste: lihtne lihtne , keskmine keskmine , kõvasti raske , väga raske väga raske
  • nõuab matemaatika ( nõuab matemaatikat )
  • nõuab kodeerimist ( vajab kodeerimist )
  • andmete kogumine ( andmete kogumine )
  • minu lemmikud ( minu lemmik )
  1. [ keskmine , minu lemmik ] Algoritmiline segane oli Google Flu Trendi probleem. Lazer et al. (2014) ja kirjutage lühike ja selge e-kiri Google'i insenerile, milles selgitatakse probleemi ja antakse idee, kuidas seda parandada.

  2. [ keskmine ] Bollen, Mao, and Zeng (2011) väidavad, et Twitteri andmeid saab kasutada aktsiaturu ennustamiseks. Selle avastamise tulemusena loodi riskimaandusfond - Derwent Capital Markets - investeerima aktsiaturul Twitteris kogutud andmete põhjal (Jordan 2010) . Milliseid tõendeid tahaksite enne raha panemist selles fondis näha?

  3. [ lihtne ] Kuigi mõned rahvatervise kaitsjad leiavad, et e-sigaretid on suitsetamisest loobumise tõhusaks abiks, hoiatavad teised potentsiaalseid riske, nagu nikotiini kõrge tase. Kujutage ette, et teadlane otsustab uurida avalikku arvamust e-sigarettide kohta, kogudes e-sigaretiga seotud vidistama postitusi ja korraldades sentimentuanalüüsi.

    1. Millised on kolm võimalikku eelarvamusi, mida teie käesolevas uuringus kõige rohkem muretsevad?
    2. Clark et al. (2016) oli just selline uuring. Esiteks kogusid nad koguses 850 000 tweetsit, mis kasutavad e-sigaretiga seotud märksõnu alates jaanuarist 2012 kuni detsembrini 2014. Lähemal vaatlusel teatasid nad, et paljud neist tweetsidest on automaatsed (st neid ei tooda inimesed) ja paljud neist automaatsetest tweetsidest olid sisuliselt reklaamid. Nad arendasid inimese tuvastusalgoritmi, et eraldada automaatseid tweetsid orgaanilisest tweetsist. Selle inimese avastamise algoritmi kasutades leiti, et 80% tweetsidest on automatiseeritud. Kas see leidmine muudab teie vastust osa (a)?
    3. Kui nad võrdlesid mahepõllumajanduslikes ja automatiseeritud tweetsides valitsevaid tundeid, leidsid nad, et automaatsed tweets olid positiivsemad kui orgaanilised tweets (6,17 versus 5,84). Kas see leidmine muudab teie vastust (b)?
  4. [ lihtne ] 2009. aasta novembris muutis Twitter teemal "Mida sa teed?" Muutunud küsimustikus "Mis toimub?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kuidas arvate, et juhtnuppude muutmine mõjutab inimesi, kellel on tweets ja / või mida nad kirjutavad?
    2. Nimetage üks uurimisprojekt, mille jaoks eelistate kohe "Mida sa teed?" Selgita miks.
    3. Nimetage üks uurimisprojekt, mille jaoks eelistate viivitamatult "Mis toimub?" Selgita miks.
  5. [ lihtne ] "Retweetsi" kasutatakse sageli, et mõõta mõju ja leviku mõju Twitteris. Esialgu pidid kasutajad kopeerima ja kleepida neile meeldinud tweet, tagama algse autori oma käepidemega ja käsitsi sisestama "RT" enne piiksuma, et näidata, et see on retweet. 2009. aastal lisas Twitter uuesti "retweet" nuppu. 2016. aasta juunis andis Twitter kasutajatele võimaluse oma tweetside taasesitamiseks (https://twitter.com/twitter/status/742749353689780224). Kas arvate, et need muudatused mõjutavad seda, kuidas teie uurimises kasutatakse "retweets"? Miks või miks mitte?

  6. [ väga raske , andmete kogumine , vajab kodeerimist , minu lemmik ] Laialdaselt arutletud raamatus Michel ja tema kolleegid (2011) analüüsisid pikaajalisi kultuurilisi suundumusi kindlakstegemisel üle viie miljoni digiteeritud raamatu sisu. Nende kasutusel olevad andmed on nüüd avaldatud Google NGramsi andmekogumina ja seega võime neid andmeid kasutada mõne oma töö paljundamiseks ja laiendamiseks.

    Michel ja tema kolleegid väitsid ühes paljudest tulemustest, et me unustame kiiremini ja kiiremini. Konkreetsel aastal öeldes "1883" arvutasid nad iga aasta 1875.-1975. Aastal avaldatud 1 grammide osakaalu, mis olid "1883". Nad põhjendasid, et see osakaal on selle aasta sündmuste huvi näitaja. Joonisel fig 3a kujundasid nad kasutusaja kolmeks aastaks: 1883, 1910 ja 1950. Need kolm aastat jagavad ühist joont: vähe kasutab enne seda aastat, siis tõuseb, siis laguneb. Seejärel arvutasid Michel ja tema kolleegid iga aasta lagunemise määra kindlaksmääramiseks iga aasta 1875. ja 1975. aastate iga poolaastaajaga. Nende joonisel 3a (sisend) näitasid nad, et nende poolväärtusaeg aasta väheneb ja nad väitsid, et see tähendab, et me unustame mineviku kiiremini ja kiiremini. Nad kasutasid ingliskeelse korpuse versiooni 1, kuid hiljem andis Google välja teise korpuse versiooni. Palun lugege enne koodi alustamist kõik küsimuse osad läbi.

    See tegevus annab teile korduvkasutatava koodi kirjutamise, tulemuste tõlgendamise ja andmevahetuse (näiteks ebameeldivate failidega töötamine ja puuduvate andmete töötlemine). See tegevus aitab teil käia ja töötada rikkaliku ja huvitava andmekogumiga.

    1. Hankige töötlemata andmed Google Booksi NGram Vieweri veebisaidilt. Eriti peaksite kasutama inglise keele versiooni 2, mis ilmus 1. juulil 2012. Uncompressed, see fail on 1,4 GB.

    2. Loo Michel et al. (2011) Joonise 3a peamine osa Michel et al. (2011) . Selle arvu taastamiseks vajate kahte faili: seda, mille olete alla laadinud osaliselt (a) ja faili "total count", mida saate toorikute arvutamiseks proportsioonideks muuta. Pange tähele, et kogu loendifailil on struktuur, mis võib muuta selle natuke raskeks lugemiseks. Kas NGrami versiooni 2 tulemused avaldavad sarnaseid tulemusi Michel et al. (2011) , mis põhinevad 1. versiooni andmetel?

    3. Nüüd kontrollige graafikut NGgram Vieweri loodud graafiku järgi.

    4. Taastage joonis fig 3a (peamine joonis), kuid muutke \(y\) -silla, et see on toorine märkusarv (mitte märgitud määr).

    5. Kas b) ja (d) erinevus viib teid ümber hinnata Michel jt tulemusi. (2011). Miks või miks mitte?

    6. Nüüd, kasutades mainitud osakaalu, kopeerige joonise fig 3a sisend. See tähendab, et igal aastal ajavahemikus 1875.-1975. Aastal arvutatakse selle aasta poolestusaeg. Poolväärtusaeg määratletakse kui aastate arv, mis kulgevad enne, kui mainitud osakaal jõuab poole maksimumväärtuseni. Pange tähele, et Michel et al. (2011) teevad semi-eluea hindamiseks mõnevõrra keerulisema ülevaate toetava veebiteabe jaotise III.6-st, kuid nad väidavad, et mõlemad lähenemised annavad sarnaseid tulemusi. Kas NGrami versiooni 2 tulemused annavad sarnased tulemused Michel et al. (2011) , mis põhinevad 1. versiooni andmetel? (Näpunäide: ärge üllatage, kas see pole nii.)

    7. Kas oli aastaid, mis olid väljakutsed, näiteks aastaid, mis unustasid eriti kiiresti või eriti aeglaselt? Lühidalt mõtlete selle mudeli võimalikest põhjustest ja selgitame välja, kuidas te olete välja valinud.

    8. Nüüd replitseerige see tulemus hiiglasliku, prantsuse, saksa, heebrea, itaalia, vene ja hispaania keele NGramsi versiooni 2 versioonile.

    9. Kas kõigi keelte võrdluses oli aastaid, mis olid välja jäetud, näiteks aastaid, mis unustasid eriti kiiresti või eriti aeglaselt? Lühidalt spekuleerige selle mudeli võimalikke põhjuseid.

  7. [ väga raske , andmete kogumine , vajab kodeerimist , minu lemmik ] Penney (2016) selgitas, kas 2013. aasta juunis levitas NSA-d / PRISM-i järelevalvet (nt Snowden ilmutusi) laialdane avalikustamine seoses Vikipeedia artiklite liikluse järsu ja järsu vähenemisega eraelu puutumatust tõstatanud teemadel. Kui nii, siis see käitumise muutus oleks kooskõlas massilise jälgimise tulemusel tekkiva jahutusajaga. Penney (2016) lähenemist nimetatakse mõnikord katkestatud aegridade kujunduseks ja see on seotud punktis 2.4.3 kirjeldatud lähenemisviisidega.

    Teemade märksõnade valimiseks viitas Penney nimekirja, mida USA Sotsiaaldemokraatliku Vabariigi osakond kasutas sotsiaalse meedia jälgimiseks ja jälgimiseks. DHSi loendis liigitatakse teatavad otsinguterminid mitmesugusteks probleemideks, st "tervisehäire", "infrastruktuuri turvalisus" ja "terrorism". Uurimisgrupi jaoks kasutas Penney 48 "terrorismi" seotud märksõna (vt lisa tabel 8 ) Seejärel ühendas ta Vikipeedia artiklite kokkuvõtte igakuiselt vastavate 48 Wikipedia artiklid 32-kuulise perioodi jooksul alates 2012. aasta jaanuari algusest 2014. aasta augusti lõpuni. Selle argumendi tugevdamiseks loonud ta ka mitu võrdlusrühma, jälgides seda artiklite vaated teistele teemadele.

    Nüüd plaanite Penney (2016) uuesti paljundada ja laiendada. Kõik algandmed, mis selle tegevuse jaoks on vajalikud, on saadaval Wikipedias. Või võite selle saada ka R-paketist wikipediatrendilt (Meissner and R Core Team 2016) . Kui märkate oma vastuseid, siis palun pange tähele, millist andmeallikat te kasutasite. (Pange tähele, et see tegevus on näha ka 6. peatükis.) See tegevus annab teile praktika andmete kogumisel ja mõtlemisel looduslike eksperimentide kohta suurtes andmeallikates. Samuti saate teid käivitada potentsiaalselt huvitavate andmete allikaga tulevaste projektide jaoks.

    1. Loe Penney (2016) ja kopeerige oma joonist 2, mis näitab lehekülgede vaatamist "terrorismi" lehtede kohta enne ja pärast Snowden'i ilmutusi. Tulemuste tõlgendamine.
    2. Seejärel kopeerige joonis 4A, mis võrdleb uurimisgrupiga ("Terrorism" seotud artiklid) võrdlusrühmaga, kasutades DHSi loetelus "DHSi ja teiste agentuuride" kategooriatesse liigitatud märksõnu (vt lisa tabel 10 ja joonealune märkus 139). Tulemuste tõlgendamine.
    3. Osas (b) võrdlesite uurimisrühma ühe võrdlusrühma. Penney võrreldi ka kahe teise võrreldava grupiga: "Infrastruktuuri turvalisus" seotud artiklid (lisa tabel 11) ja populaarsed Wikipedia leheküljed (lisa tabel 12). Avage alternatiivne võrdlusrühm ja kontrollige, kas osa (b) tulemused on tundlikud teie võrdlusrühma valikute suhtes. Milline valik teeb kõige mõistlikumaks? Miks?
    4. Penney teatas, et "terrorismi" seotud märksõnu kasutati Wikipedia artiklite valimiseks, kuna USA valitsus tsiteeris terrorismi oma veebipõhiste seire tavade oluliseks õigustuseks. Kontrollides nende 48 "terrorismi" seotud märksõnu, tegi Penney (2016) ka MTurk'i küsitluse, paludes vastajatel hinnata iga ht märksõnu valitsuse probleemide, eraelu puutumatuse ja vältimise seisukohast (lisa tabelid 7 ja 8 ) Korrigeeri MTurki uuringut ja võrdle oma tulemusi.
    5. Tuginedes artikli osalise (d) ja artikli lugemise tulemustele, kas nõustute Penni valikuga teema märksõnade kohta uurimisgrupis? Miks või miks mitte? Kui ei, siis mida te soovitaksite selle asemel?
  8. [ lihtne ] Efrati (2016) teatas konfidentsiaalse teabe põhjal, et kogu jagamine Facebookis on aasta jooksul vähenenud umbes 5,5%, samas kui "esialgne saadete jagamine" vähenes aastaga võrreldes 21%. See langus oli eriti terav Facebooki alla 30-aastaste kasutajate seas. Aruandes omistatakse langus kahele tegurile. Üks neist on "sõprade" arvu suurenemine Facebookis. Teine on see, et mõni jagamistegevus on läinud sõnumivahetusele ja konkurentidele, nagu Snapchat. Aruandes ilmnes ka mitmed taktikad, mida Facebook proovis jagada, sealhulgas uudistevoogude algoritmi tweaksid, mis muudavad esialgsed postitused silmapaistvamaks, ning esialgsete postituste perioodilised meeldetuletused funktsiooniga "Sellel päeval". Milliseid tagajärgi, kui üldse, siis kas need leidud on teadlastele, kes soovivad kasutada Facebooki andmeallikana?

  9. [ keskmine ] Mis vahe on sotsioloog ja ajaloolane? Goldthorpe'i (1991) sõnul on peamine erinevus andmete kogumise kontroll. Ajaloolased on sunnitud kasutama jäänuseid, samas kui sotsioloogid suudavad kohandada oma andmete kogumist konkreetsetel eesmärkidel. Loe Goldthorpe (1991) . Kuidas erinevus sotsioloogia ja ajaloo vahel on seotud custommades ja readymade ideega?

  10. [ raske ] See tugineb eelmisele küsimusele. Goldthorpe (1991) tõi välja mitmeid kriitilisi vastuseid, sealhulgas Nicky Hart (1994) mis vaidlustas Goldthorpe'i pühendumuse kohandatud andmete jaoks. Spetsiaalsete andmete potentsiaalsete piirangute selgitamiseks kirjeldas Hart "Soodustatud töötajaprojekti", suurt uuringut sotsiaalse klassi ja hääleõiguse suhte mõõtmiseks, mille Goldthorpe ja tema kolleegid viisid 1960. aastate keskel. Nagu võis arvata õpetajalt, kes eelistas leitud andmete väljatöötatud andmeid, kogus edukalt töötaja projekt andmeid, mis olid kohandatud hiljuti välja pakutud teooria esitamiseks sotsiaalse klassi tuleviku kohta elatustaseme tõstmise ajastu jooksul. Kuid Goldthorpe ja tema kolleegid kuidagi "unustasid" koguda teavet naiste hääletuskäitumise kohta. Siin on Nicky Hart (1994) kokku kogu episoodi:

    "[...] on raske vältida järeldust, et naised jäeti välja, kuna see" spetsiaalselt tehtud "andmekogum oli piiratud paradigmaalse loogikaga, mis välistas naiste kogemusi. Tulenevalt teoreetilisest nägemusest klassi teadvusest ja tegevusest meeste huvides ... koostasid Goldthorpe ja tema kolleegid hulga empiirilisi tõendeid, mis toitsid ja toetasid oma teoreetilisi eeldusi, selle asemel, et neile avaldada sobivat piisava katse. "

    Hart jätkas:

    "Soodustatud töötaja projekti empiirilised järeldused räägivad meile enam kui sajandi keskpaigast pärit sotsioloogia masculinist väärtused, kui nad teavitavad kihistumise, poliitika ja materiaalse elu protsessidest."

    Kas te võite mõelda ka teistele näidetele, kui kohandatud andmekogumisel on sellesse sisse ehitatud andmete koguja eelarvamused? Kuidas see võrdub algoritmilise segajaga? Millised on need tagajärjed siis, kui teadlased peaksid kasutama näpunäiteid ja kui nad peaksid kasutama custommadeid?

  11. [ keskmine ] Selles peatükis olen vastandanud teadlaste kogutud andmed teadlastele, kellel on äriühingute ja valitsuste loodud haldusdokumendid. Mõned inimesed nimetavad neid administratiivseid dokumente "leitud andmed", mis on nendega vastuolus "kavandatud andmetega". On tõsi, et teadlased leiavad haldusaruandeid, kuid need on samuti hästi disainitud. Näiteks töötavad kaasaegsed tehnoloogiafirmad oma andmete kogumiseks ja kureerimiseks väga raskeks. Nii leitakse ja kujundatakse need administraatorikirjed, see sõltub vaid teie perspektiivist (joonis 2.12).

    Joonis 2.12: pilt on nii pardi kui ka küülik; mida näete, sõltub teie perspektiivist. Mõlemad on leitud ja kujundatud suured andmeallikad; jällegi, mida näete, sõltub teie perspektiivist. Näiteks leitakse, et mobiilsideoperaatori poolt kogutud kõneandmete salvestused on andmed uurija seisukohast. Kuid need täpsed samad andmed on kujundatud andmete põhjal, kui keegi töötab telefonifirma arveldusosakonnas. Allikas: populaarteaduslik kuus (1899) / Wikimedia Commons.

    Joonis 2.12: pilt on nii pardi kui ka küülik; mida näete, sõltub teie perspektiivist. Mõlemad on leitud ja kujundatud suured andmeallikad; jällegi, mida näete, sõltub teie perspektiivist. Näiteks leitakse, et mobiilsideoperaatori poolt kogutud kõneandmete salvestused on andmed uurija seisukohast. Kuid need täpsed samad andmed on kujundatud andmete põhjal, kui keegi töötab telefonifirma arveldusosakonnas. Allikas: populaarteaduslik kuus (1899) / Wikimedia Commons .

    Andke andmeallika näide, kus mõlemad leitud ja kujundatud näpunäited on kasulikud, kui kasutate seda andmeallikat teadusuuringute jaoks.

  12. [ lihtne ] Mõtisklema esseega kritiseerivad Christian Sandvig ja Eszter Hargittai (2015) digitaalseid uuringuid kahte laia kategooriasse, sõltuvalt sellest, kas digitaalne süsteem on "instrument" või "õppeobjekt". Näiteks on esimene liiki, kus süsteem on vahend on Bengtssoni ja tema kolleegide (2011) uurimus mobiiltelefoni andmete kasutamise kohta rände jälgimiseks pärast Haiti maavärinat 2010. aastal. Teise liigi näide, kus süsteem on uuringu objektiks, on Jenseni uurimus (2007) , kuidas mobiiltelefonide kasutuselevõtmine kogu Kerala piirkonnas, Indias, mõjutas kala turgude toimimist. Leian, et selline eristamine on kasulik, sest selgitatakse, et digitaalsete andmeallikate kasutamisel võivad uuringud olla üsna erinevad, isegi kui nad kasutavad sama tüüpi andmeallikaid. Selle eristamise täpsustamiseks kirjeldage nelja uurimist, mille olete näinud: kaks, kes kasutavad digitaalset süsteemi kui vahendit, ja kaks, kes kasutavad digitaalsüsteemi uurimisobjektiks. Kui soovite, võite selles peatükis näiteid kasutada.