toimet

  • vaikeusaste: helppo helppo , keskitaso keskikokoinen , kova kova , tosi kovasti tosi kovasti
  • edellyttää matematiikkaa ( vaatii matematiikkaa )
  • koodaus ( vaatii koodauksen )
  • tiedonkeruu ( tiedonkeruu )
  • suosikkini ( suosikkini )
  1. [ keskikokoinen , suosikkini ] Algoritminen sekavuus oli ongelma Google Flu Trends -ohjelmassa. Lue paperin Lazer et al. (2014) ja kirjoita lyhyt, selkeä sähköpostiviesti Googleen insinöörille, joka selittää ongelman ja tarjoaa idean siitä, miten se korjataan.

  2. [ keskikokoinen ] Bollen, Mao, and Zeng (2011) väittävät, että Twitterin tietoja voidaan käyttää ennustamaan osakemarkkinoita. Tämä havainto johti hedge fund-Derwent Capital Marketsin perustamiseen - sijoittamaan osakemarkkinoille Twitterin (Jordan 2010) kerättyjen tietojen perusteella. Mitä todisteita haluat nähdä ennen rahan asettamista rahastoon?

  3. [ helppo ] Vaikka jotkut kansanterveyden kannattajat pitävät e-savukkeita tehokkaana tukena tupakoinnin lopettamiselle, toiset varoittavat mahdollisista riskeistä, kuten korkeista nikotiinista. Kuvittele, että tutkija päättää opiskella yleistä mielipidettä e-savukkeista keräämällä e-savukkeihin liittyviä Twitter-viestejä ja suorittamaan sentimentaalianalyysiä.

    1. Mitkä ovat kolme mahdollista ennakkoluuloa, joista olette eniten huolissaan tässä tutkimuksessa?
    2. Clark et al. (2016) suoritti tällaisen tutkimuksen. Ensin he keräsivät 850 000 tweettistä, jotka käyttivät sähköisiä savukkeita koskevia avainsanoja tammikuusta 2012 joulukuuhun 2014. Lähemmässä tarkastuksessa he ymmärtävät, että monet näistä tweeteistä ovat automatisoituja (eli niitä ei ole tuotettu ihmisillä) ja monet näistä automatisoiduista tweeteistä olivat lähinnä mainoksia. He kehittivät ihmisen tunnistusalgoritmia automaattisten tweettien erottamiseksi orgaanisista tweeteistä. Käyttämällä tätä ihmisen tunnistusalgoritmia he huomasivat, että 80% tweeteistä oli automatisoitu. Muuttaako tämä havainto vastauksesi osalle (a)?
    3. Kun he vertailivat orgaanisten ja automatisoitujen tweets-tunnistetta, he huomasivat, että automaattiset tweetit olivat positiivisempia kuin orgaaniset tweetit (6,17 vs. 5,84). Muuttaako tämä löydös vastauksestasi (b)?
  4. [ helppo ] Marraskuussa 2009 Twitter muutti kysymyksen "Mitä sinä teet?" -Viesti-kentässä "Mitä tapahtuu?" (Https://blog.twitter.com/2009/whats-happening).

    1. Miten luulet, että kehotteiden vaihto vaikuttaa kuka tweets ja / tai mitä he tweet?
    2. Nimeä yksi tutkimushanke, josta haluat mieluummin "Mitä teet?" Selittää miksi.
    3. Nimeä yksi tutkimushanke, johon haluat mieluummin "Mitä tapahtuu?" Selitä miksi.
  5. [ helppo ] "Retweets" -menetelmää käytetään usein vaikutusvallan ja vaikuttamisen leviämiseen Twitterissä. Alunperin käyttäjät joutuivat kopioimaan ja liittämään haluamansa tweetin, merkitsemään alkuperäisen kirjoittajan käsin ja kirjoittamalla manuaalisesti "RT" ennen viestin osoittamalla, että se oli retweet. Sitten vuonna 2009 Twitter lisäsi "retweet" -painikkeen. Kesäkuussa 2016 Twitter teki käyttäjille mahdollisuuden räätälöidä omia tweettejaan (https://twitter.com/twitter/status/742749353689780224). Katsotteko, että näiden muutosten pitäisi vaikuttaa siihen, miten käytät "retweetejä" tutkimuksessasi? Miksi tai miksi ei?

  6. [ tosi kovasti , tiedonkeruu , vaatii koodauksen , suosikkini ] Monissa keskusteluissa Michel ja kollegat (2011) analysoivat yli viiden miljoonan digitalisoidun kirjan sisältöä pyrkiessään tunnistamaan pitkän aikavälin kulttuurisuuntauksia. Käyttämäsi tiedot on nyt julkaistu Google NGrams -tietokuvana, joten voimme käyttää tietoja kopioimalla ja laajentamalla joitakin heidän töistään.

    Eräässä monista paperin tuloksista Michel ja kollegat väittivät, että unohdamme nopeammin ja nopeammin. Tietyn vuoden, sanoa "1883", he laskivat vuosien 1875 ja 1975 välisenä aikana ilmestyneiden 1 gramman osuudet, jotka olivat "1883". He päättelivät, että tämä osuus on kyseisten tapahtumien kiinnostuksen mitta. Heidän kuvassaan 3a he piirtävät käyttöreittejä kolmeksi vuodeksi: 1883, 1910 ja 1950. Näillä kolmella vuodella on yhteinen malli: vähäinen käyttö ennen vuotta, sitten piikki ja sitten hajoaminen. Seuraavaksi Michel ja kollegat laskivat jokaisen vuoden puoliintumisaikaa vuosittain 1875-1975. Heidän kuviossaan 3a (inset) he osoittivat, että kunkin puoliintumisaika vuosi on laskussa, ja he väittivät, että tämä tarkoittaa, että unohdamme menneisyyden nopeammin ja nopeammin. He käyttivät englanninkielisen corpus-version versiota 1, mutta myöhemmin Google julkaisi toisen version corpusta. Lue kaikki kysymyksen osat ennen koodauksen aloittamista.

    Tämä toiminto antaa sinulle käytännön uudelleenkäytettävän koodin kirjoittamisen, tulosten tulkinnan ja tietojen kiertämisen (kuten haastavien tiedostojen käsittelyn ja käsittelemättömien tietojen käsittelyn). Tämä toiminto auttaa myös sinua avaamaan ja käyttämään rikkaita ja mielenkiintoisia tietoja.

    1. Hanki raakatiedot Google Books NGram Viewer -sivustosta. Erityisesti kannattaa käyttää englanninkielisen corpus-version versiota 2, joka julkaistiin 1.7.2012. Pakkaamaton, tämä tiedosto on 1,4 Gt.

    2. Palauta Michel et al. (2011) Kuva 3a pääosa Michel et al. (2011) . Jotta voit luoda tämän numeron, tarvitset kaksi tiedostoa: se, jonka olet ladannut osan (a) ja "kokonaislaskut" -tiedoston, jonka avulla voit muuntaa raaka-arvot mittasuhteiksi. Huomaa, että kokonaislaskenta-tiedostossa on rakenne, joka saattaa vaikeuttaa sen lukemista. Onko NGram-datan versio 2 samanlaisia ​​tuloksia kuin Michel et al. (2011) , jotka perustuvat version 1 tietoihin?

    3. Tarkista nyt kuvaaja NGram Viewerin luomasta kaaviosta.

    4. Toista kuvio 3a (pääkuva), mutta muuta \(y\) -aksia olevan raakamäärän laskenta (ei mainintojen määrä).

    5. Onko (b): n ja (d): n välinen ero johtamaan sinua arvioimaan Michel et al. (2011). Miksi tai miksi ei?

    6. Käytä nyt mainintojen osuutta, kopioi kuvion 3a sisäkehys. Eli kunkin vuoden 1875 ja 1975 välisenä aikana lasketaan kyseisen vuoden puoliintumisaika. Puoliintumisaika määritellään vuosien lukumääriksi, jotka kuluvat ennen kuin mainintojen osuus saavuttaa puolet huippuarvostaan. Huomaa, että Michel et al. (2011) tekevät jotain monimutkaisempaa arvioida puoliintumisaikataulua - katso osaa III.6. - mutta ne väittävät, että molemmat lähestymistavat tuottavat samanlaisia ​​tuloksia. Sisältyykö NGram-datan versio 2 samankaltaisia ​​tuloksia kuin Michel et al. (2011) , jotka perustuvat version 1 tietoihin? (Vihje: Älä ole yllättynyt, jos se ei ole.)

    7. Oliko olemassa vuosia, jotka olivat poikkeamia, kuten vuosia, jotka unohdettiin erityisen nopeasti tai erityisen hitaasti? Lyhyesti spekuloida mahdollisia syitä tähän kuvioon ja selittänyt, miten tunnistit outliers.

    8. Nyt kopioi tämä tulos NGrams-tietojen versiota 2 varten kiina, ranska, saksa, heprea, italia, venäjä ja espanja.

    9. Verrattuna kaikkiin kieliin, oliko olemassa vuosia, jotka olivat outliers, kuten vuosina, jotka unohtivat erityisen nopeasti tai erityisen hitaasti? Lyhyesti spekuloida mahdollisia syitä tähän malliin.

  7. [ tosi kovasti , tiedonkeruu , vaatii koodauksen , suosikkini ] Penney (2016) selvitti, onko kesäkuussa 2013 yleistynyt NSA / PRISM-valvonta (eli Snowdenin ilmoitukset) liittynyt jyrkästi ja äkillisesti liikenteessä Wikipedia-artikkeleihin aiheista, jotka herättävät yksityisyyttä. Jos näin on, tämä käyttäytymisen muutos olisi yhdenmukainen massavalvonnan aiheuttaman jäähdytysvaikutuksen kanssa. Penney (2016) lähestymistapaa kutsutaan joskus keskeytyksi aikasarjasuunnaksi , ja se liittyy 2.4.3 kohdassa kuvattuihin lähestymistapoihin.

    Aiheen avainsanojen valitsemiseksi Penney viittasi Yhdysvaltain Department of Homeland Securityn käyttämään luetteloon sosiaalisen median seurantaan ja seurantaan. DHS-luettelo luokittelee tietyt hakutermit useisiin kysymyksiin, eli "terveyskysymykseen", "infrastruktuuriturvaan" ja "terrorismiin". Tutkimusryhmälle Penney käytti 48 "Terrorismiin" liittyviä avainsanoja (katso lisäystaulukko 8 ). Tämän jälkeen hän kokoaa Wikipedia-artikkelinäkymät kuukausittain vastaaville 48 Wikipedia-artikkelille 32 kuukauden aikana tammikuun 2012 alusta elokuun 2014 loppuun. Hän vahvisti argumenttinsa lisäksi useita vertailuryhmiä seuraamalla artikkelinäkymät muista aiheista.

    Nyt aiot kopioida ja laajentaa Penney (2016) . Kaikki raakatiedot, joita tarvitset tämän toiminnon käyttöön, on saatavilla Wikipedia-sivustolta. Tai voit saada sen R-paketin wikipediatrendistä (Meissner and R Core Team 2016) . Kun kirjoitat vastauksesi, huomioi käytettävä tietolähde. (Huomaa, että tämä sama toiminta näkyy myös luvussa 6.) Tämä toiminto antaa sinulle käytännön tietojen kiertämisen ja ajattelun luonnollisista kokeista suurissa tietolähteissä. Se myös saa sinut ajamaan tulevia projekteja mahdollisesti kiinnostavalla tietolähteellä.

    1. Lue Penney (2016) ja kopioi kuvasi 2, joka näyttää sivunäkymät "Terrorismin" sivuille ennen Snowdenin ilmoituksia ja sen jälkeen. Tulkitse tuloksia.
    2. Seuraavaksi, kopioi kuvio 4A, joka vertaa tutkimusryhmää ("Terrorismi" -artikkeleita) vertailuryhmään käyttämällä avainsanoja, jotka on luokiteltu "DHS & Muut virastot" DHS-luettelosta (ks. Lisäystaulukko 10 ja alaviite 139). Tulkitse tuloksia.
    3. Osassa (b) verrattiin tutkimusryhmää yhteen vertailuryhmään. Penneya verrattiin myös kahteen muuhun vertailuryhmään: "Infrastruktuuriturvallisuus" (liitteen taulukko 11) ja suosittujen Wikipedia-sivujen (liite taulukko 12). Tule esiin vaihtoehtoisen vertailuryhmän kanssa ja testaa, ovatko osan (b) havainnot herkkiä vertailuryhmän valinnalle. Mikä valinta tekee järkevämmäksi? Miksi?
    4. Penney totesi, että Wikipedia-artikkeleihin valittiin "Terrorismiin" liittyviä avainsanoja, koska Yhdysvaltain hallitus mainitsee terrorismin keskeisenä perusteluna sen online-valvontakäytännöille. Näiden 48 terrorismin vastaisten avainsanojen tarkastajana Penney (2016) teki myös kyselyn MTurkista ja pyysi vastaajia arvioimaan jokaisen ht-avainsanan Hallituksen häiriö, Privacy-Sensitive ja välttäminen (liite taulukko 7 ja 8 ). Toista MTurk-kysely ja vertaile tuloksia.
    5. Osallistuaksesi osaston (d) tuloksiin ja artikkelin lukemiseen, oletko samaa mieltä Penneyn aihepiirien valinnasta tutkimusryhmässä? Miksi tai miksi ei? Jos ei, mitä ehdotatte sen sijaan?
  8. [ helppo ] Efrati (2016) ilmoitti luottamuksellisen tiedon perusteella, että Facebookin "täydellinen jakaminen" oli laskenut noin 5,5 prosenttia edellisvuodesta, kun taas "alkuperäisen lähetystoiminnan jakaminen" laski 21 prosenttia edellisvuodesta. Tämä lasku oli erityisen akuutti Facebookin alle 30-vuotiaiden käyttäjien keskuudessa. Raportin mukaan lasku johtui kahdesta tekijästä. Yksi on Facebookissa olevien "ystävien" määrän kasvu. Toinen on se, että jotkin jakamisaktiviteetit ovat siirtyneet messagingiin ja kilpailijoihin kuten Snapchat. Raportti paljasti myös useita taktiikoita, jotka Facebook on yrittänyt lisätä jakamista, mukaan lukien uutissyötteen algoritmien tweaks, jotka tekevät alkuperäisiä viestejä näkyvämpiä, samoin kuin säännölliset muistutukset alkuperäisistä virkaa "On This Day" ominaisuus. Mitä seurauksia, jos sellaisia ​​on, nämä löydöt koskevat tutkijoita, jotka haluavat käyttää Facebooka tietolähteenä?

  9. [ keskikokoinen ] Mikä on ero sosiologin ja historioitsijan välillä? Goldthorpe (1991) mukaan tärkein ero on tiedonkeruun hallinta. Historioitsijoiden on pakko käyttää reliikkejä, kun taas sosiologit voivat räätälöidä tietojenkeruunsa tiettyihin tarkoituksiin. Lue Goldthorpe (1991) . Miten sosiologian ja historian välinen ero liittyy käsityöläisasiakirjoihin ja valmiuksiin?

  10. [ kova ] Tämä perustuu edelliseen kysymykseen. Goldthorpe (1991) vetosi joukon kriittisiä vastauksia, joista yksi Nicky Hartista (1994) joka haastoi Goldthorpen omistautumista räätälöityihin tietoihin. Räätälöityjen tietojen mahdollisten rajoitusten selvittämiseksi Hart kuvaili Affluent Worker Project -projektia, joka käsitteli Goldthorpen ja hänen kollegansa 1960-luvun puolivälissä tekemän suhdetta sosiaalisen luokan ja äänestyksen väliseen suurten kyselyiden mittaamiseen. Kuten voi odottaa tutkijalta, joka suosisi suunniteltuja tietoja löytyneistä tiedoista, Affluent Worker Project keräsi tietoja, jotka oli räätälöity vastaamaan äskettäin ehdotettua teoriaa sosiaalisen luokan tulevaisuudesta elintason kasvavan aikakauden aikana. Mutta Goldthorpe ja kollegat jotenkin "unohtivat" keräämään tietoa naisten äänestyskäyttäytymisestä. Nicky Hart (1994) esitti yhteenvedon koko episodiin:

    "... on vaikeaa välttää sitä johtopäätöstä, että naiset jätettiin pois, koska tämä" räätälöity "aineisto rajoittui paradigmaattisella logiikalla, joka sulki naisten kokemuksen pois. Kuluneena teoreettisena näkemänä luokkatuntemuksesta ja toiminnasta miesten kiinnostuksina ... Goldthorpe ja hänen kollegansa rakentivat joukon empiirisiä todisteita, jotka ruokkivat ja kasvattivat omia teoreettisia olettamuksiaan sen sijaan, että heidät altistettaisiin pätevän riittävän testauksen kohteeksi. "

    Hart jatkoi:

    "Työntekijäprojektin empiiriset havainnot kertovat lisää vuosisadan puoliväliin sosiologian maskuliinisista arvoista, kuin ne kertovat stratifikaatioprosesseista, politiikasta ja aineellisesta elämästä."

    Voitko ajatella muita esimerkkejä, joissa räätälöidyssä tiedonkeruussa on sisäänrakennettu tietojenkeruu? Miten tämä vertaa algoritmiseen sekaannukseen? Mitä seurauksia tällä voi olla silloin, kun tutkijat käyttävät valmiuksia ja kun heidän on käytettävä asiakkaita?

  11. [ keskikokoinen ] Tässä luvussa olen verrannut tutkijoiden tutkijoiden keräämiä tietoja yritysten ja hallitusten luomista hallinnollisista rekistereistä. Jotkut ihmiset kutsuvat näitä hallinnollisia tietoja "löytyneistä tiedoista", jotka ovat ristiriidassa "suunnitellun tiedon kanssa". On totta, että tutkijat löytävät hallinnollisia tietoja, mutta ne ovat myös hyvin suunniteltuja. Esimerkiksi nykyaikaiset teknologiayritykset työskentelevät kovasti keräämään ja hoitamaan tietojaan. Siten nämä hallinnolliset rekisterit löytyvät ja suunnitellaan, se riippuu vain perspektiivistä (kuva 2.12).

    Kuva 2.12: Kuva on sekä ankka että kani; mitä näet riippuu näkökulmastasi. Löydetään sekä suunnitellaan suuria tietolähteitä; taas, mitä näet riippuu näkökulmastasi. Esimerkiksi matkapuhelinyrityksen keräämät puhelutietokannat löytyvät tutkijan näkökulmasta. Mutta nämä täsmälleen samat tietueet suunnitellaan tietojenkäsittelyn näkökulmasta puhelinyrityksen laskutusosastolla. Lähde: Popular Science Kuukausi (1899) / Wikimedia Commons.

    Kuva 2.12: Kuva on sekä ankka että kani; mitä näet riippuu näkökulmastasi. Löydetään sekä suunnitellaan suuria tietolähteitä; taas, mitä näet riippuu näkökulmastasi. Esimerkiksi matkapuhelinyrityksen keräämät puhelutietokannat löytyvät tutkijan näkökulmasta. Mutta nämä täsmälleen samat tietueet suunnitellaan tietojenkäsittelyn näkökulmasta puhelinyrityksen laskutusosastolla. Lähde: Popular Science Kuukausi (1899) / Wikimedia Commons .

    Anna esimerkki tietolähteestä, jossa se näkyy sekä löytyneinä että suunnitelluina, on hyödyllistä, kun käytetään kyseistä tietolähdettä tutkimukseen.

  12. [ helppo ] Kiitettävässä esseessä Christian Sandvig ja Eszter Hargittai (2015) jakoivat digitaalisen tutkimuksen kahteen laajaan luokkaan sen mukaan, onko digitaalinen järjestelmä "väline" vai "tutkimuskohteena". Esimerkki ensimmäisestä lajista - jossa järjestelmä on väline on Bengtssonin ja kollegoiden (2011) tutkimus matkapuhelintietojen käyttämisestä maahanmuuton jäljittämiseksi Haitin maanjäristyksen jälkeen vuonna 2010. Esimerkki toisesta lajista, jossa järjestelmä on tutkimuksen kohde, on Jensenin tutkimus (2007) siitä, miten matkapuhelinten käyttöönotto koko Intian Keralassa vaikutti kalan markkinoiden toimintaan. Mielestäni tämä erottelu on hyödyllistä, koska se selventää, että digitaalisten tietolähteiden käytöllä voi olla melko erilaisia ​​tavoitteita, vaikka ne käyttäisivät samanlaista tietolähdettä. Jotta tätä erottelua voitaisiin edelleen selkeyttää, kuvataan neljä tutkimusta, jotka olet nähnyt: kaksi, jotka käyttävät digitaalista järjestelmää instrumenttina ja kaksi, jotka käyttävät digitaalista järjestelmää tutkimuksen kohteena. Voit käyttää esimerkkejä tästä luvusta, jos haluat.