toimet

Key:

  • Vaikeusaste: helppo helppo , keskipitkän keskikokoinen , kova kova , tosi kovasti tosi kovasti
  • vaatii matematiikka ( vaatii matematiikka )
  • vaatii koodaus ( vaatii koodaus )
  • tiedonkeruu ( tiedonkeruu )
  • suosikkini ( suosikkini )
  1. [ keskikokoinen , suosikkini ] Algorithmic sekoittavia oli ongelma Google Flu Trends. Lue paperin Lazer et al. (2014) , ja kirjoita lyhyt, selkeä sähköpostitse insinööri Google selittää ongelman ja tarjoaa käsitys siitä, miten korjata ongelma.

  2. [ keskikokoinen ] Bollen, Mao, and Zeng (2011) väittää, että tiedot Twitter voidaan käyttää ennustamaan osakemarkkinoilla. Tämä havainto johti luomiseen hedge-rahasto-Derwent Capital Markets-sijoittaa osakemarkkinoille perustuvat kerättyihin tietoihin Twitter (Jordan 2010) . Mitä todisteita haluaisit nähdä ennen kuin laitat rahaa tähän rahastoon?

  3. [ helppo ] Vaikka jotkut kansanterveyden kannattaa rakeita e-savukkeita tehokas apu tupakoinnin lopettamiseen, toiset varoittavat mahdollisista riskeistä, kuten korkean nikotiinia. Kuvitella, että tutkija päättää tutkia yleisen mielipiteen kohti e-savukkeet keräämällä e-savukkeet liittyviä Twitter virkaa ja hoitavat tunteita analyysi.

    1. Mitkä ovat kolme mahdollista harhat, että olet eniten huolissaan tässä tutkimuksessa?
    2. Clark et al. (2016) juoksi juuri tällainen tutkimus. Ensinnäkin ne kerännyt 850000 tweetit että käytetään e-savuke liittyvien avainsanojen tammikuusta 2012 mennessä joulukuuta 2014. Lähemmin tarkasteltuna, he tajusivat, että monet näistä tweets automatisoitiin (eli ei ihmisten tuottamien) ja monet näistä automaattisia tweets olivat pääasiassa mainokset. He kehittivät ihmisen havaitseminen algoritmi erottaa automaattisia tweetit orgaanisista tweets. Käyttämällä tätä Ihmisen tunnistus algoritmi he havaitsivat, että 80% tweets automatisoitiin. Onko tämä havainto muuttaa vastaus (a)?
    3. Kun he vertasivat ilmapiiri orgaanisessa ja automatisoituja tweetit he huomasivat, että automatisoitu tweets ovat positiivisempia kuin orgaanista tweets (6,17 vs. 5,84). Onko tämä havainto muuttaa vastaus (b)?
  4. [ helppo ] Marraskuussa 2009 Twitter muuttanut kysymys piipittää laatikon "Mitä sinä teet?" Ja "Mitä tapahtuu?" (Https://blog.twitter.com/2009/whats-happening).

    1. Miten luulet muutos ohjeita vaikuttaa joka piipittää ja / tai mitä he piipittää?
    2. Nimeä yksi tutkimushanketta, johon haluat mieluummin kehote "Mitä sinä teet?" Selitä miksi.
    3. Nimeä yksi tutkimushanketta, johon haluat mieluummin kehote "Mitä tapahtuu?" Selitä miksi.
  5. [ keskikokoinen ] Kwak et al. (2010) analysoitiin 41,7 milj käyttäjäprofiilit, 1470000000 sosiaaliset suhteet, 4262 trendien aiheita, ja 106 miljoonaa tweets kesäkuun 6. ja 31 kesäkuu, 2009. Tämän analyysin perusteella he päättelivät, että Twitter on useampi uutena välineenä tiedon jakamisen kuin sosiaalinen verkosto.

    1. Ottaen Kwak et al toteamus, minkälaista tutkimusta tekisit Twitter-tiedot? Millaista tutkimusta olisi et ei tehdä Twitter tietoja? Miksi?
    2. Vuonna 2010 Twitter lisäsi Kuka seurata palvelun tekemällä räätälöity ehdotus käyttäjille. Kolme suositukset näytetään kerrallaan pääsivulla. Suositukset ovat usein peräisin oman "ystävät-of-ystäviä" ja keskinäisten yhteyksien näkyvät myös suosituksen. Käyttäjät voivat päivittää nähdä uusia suosituksia tai käydä sivulla, jossa on pidempi lista suosituksista. Luuletko tämän uuden ominaisuuden muuttaisi vastauksesi osa a)? Miksi tai miksi ei?
    3. Su, Sharma, and Goel (2016) arvioi vaikutuksen Kuka seurata palvelun ja totesi, että vaikka käyttäjät eri suosio kirjon hyötynyt suosituksista, suosituin käyttäjät hyötyneet huomattavasti keskimääräistä enemmän. Onko tämä havainto muuttaa vastaus osa b)? Miksi tai miksi ei?
  6. [ helppo ] "Retweets" käytetään usein mittaamaan vaikutus ja leviäminen vaikuttaa Twitterissä. Aluksi käyttäjien piti kopioida ja liittää piipittää he pitivät, tag alkuperäinen kirjoittaja hänen / hänen kahva, ja käsin kirjoittamalla "RT" ennen piipittää osoittamaan, että se on retweet. Sitten, vuonna 2009 Twitter lisäsi "retweet" -painiketta. Kesäkuussa 2016 Twitter mahdollistanut sen käyttäjät retweet oman tweets (https://twitter.com/twitter/status/742749353689780224). Luuletko nämä muutokset pitäisi vaikuttaa miten käytät "retweets" oman tutkimuksen? Miksi tai miksi ei?

  7. [ keskikokoinen , tiedonkeruu , vaatii koodaus ] Michel et al. (2011) rakensi corpus toipumassa Googlen pyrkimystä digitoida kirjoja. Käyttäen ensimmäinen versio corpus, joka julkaistiin vuonna 2009 ja sisälsi yli 5 miljoonaa digitoitua kirjaa, kirjoittajat analysoi sanan käyttö taajuus tutkia kielellisiä ja kulttuurisia suuntauksia. Pian Google Books Corpus tuli suosittu tietolähde tutkijoille, ja toinen versio tietokannan julkaistiin vuonna 2012.

    Kuitenkin Pechenick, Danforth, and Dodds (2015) varoitti, että tutkijoiden on täysin luonnehtia näytteenottoprosessi corpus ennen sen piirustuksen laajat päätelmät. Suurin ongelma on, että korpus on kirjasto kaltainen, joka sisältää yhden jokaisesta teoksesta. Tämän seurauksena yksilö, tuottelias kirjoittaja pystyy huomattavasti lisätä uusia lauseita Googlen Books sanasto. Lisäksi tieteellistä tekstiä kannalta yhä aineellisen osan corpus koko 1900-luvulla. Lisäksi vertaamalla kaksi versiota Englanti Fiction aineistoja, Pechenick et al. löydetty todisteita siitä, että riittämätön suodatusta käytettiin tuottamaan ensimmäinen versio. Kaikki tarvittavat tiedot toiminta on saatavissa täältä: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Vuonna Michel et al.: N alkuperäinen paperi (2011) , he käyttivät ensimmäinen versio Englanti datajoukon, piirretty taajuus käyttö vuosina "1880", "1912" ja "1973", ja totesi, että "olemme unohtamatta ohi nopeammin vuosi vuodelta "(Fig. 3A, Michel ym.). Toistavat saman kuvaajan 1) ensimmäinen versio corpus, Englanti aineisto (sama kuin kuvassa. 3A, Michel ym.)
    2. Nyt toistaa samalle tontille kanssa 1. versio, Englanti fiktiota aineisto.
    3. Nyt toistavat saman tontin 2nd version corpus, Englanti aineisto.
    4. Lopuksi, toistavat saman tontin 2nd version, Englanti fiktiota aineisto.
    5. Kuvaile eroja ja yhtäläisyyksiä näiden neljän tontteja. Oletteko samaa mieltä Michel et al.: N alkuperäinen tulkinta havaittu trendi? (Vihje: c) ja d) tulisi olla sama kuin kuvassa 16 Pechenick et al.)
    6. Nyt kun olet monistettavissa yksi havainto käyttäen erilaisia ​​Google Books korpuksista, valitse toinen kielellisin tai kulttuuriset ilmiöt esitetään Michel et al.: N alkuperäistä paperia. Kannatatteko niiden tulkinta, kun otetaan huomioon esitetyt rajoitukset Pechenick et al.? Tehdä väitteen vahvempi, yritä jäljitellä samassa kaaviossa eri versioita tietojen asetettu edellä.
  8. [ tosi kovasti , tiedonkeruu , vaatii koodaus , suosikkini ] Penney (2016) tutkii, onko laajaa julkisuutta NSA / PRISM valvonta (eli Snowden paljastukset) kesäkuussa 2013 liittyy jyrkkä ja äkillinen lasku liikennettä Wikipedian artikkeleita aiheista, jotka herättävät yksityisyyteen huolenaiheita. Jos näin on, käyttäytymisen muutos olisi johdonmukaista hyytävä vaikutus johtuva joukkoseurantaan. Lähestymistapa Penney (2016) kutsutaan joskus keskeytynyttä aikasarja suunnittelu ja liittyy lähestymistapoihin lukua lähentää kokeita tarkkailututkimuksista tiedot (2.4.3).

    Valita aiheen avainsanat, Penney viitataan luetteloon käyttämän US Department of Homeland Security seuranta ja seurantaan sosiaalisen median. DHS lista luokittelee tietyt hakusanat erilaisia ​​kysymyksiä, eli "terveyden kannalta", "Infrastructure Security" ja "terrorismi." Sillä valmisteluryhmän, Penney käytti neljäkymmentäkahdeksan liittyviä avainsanoja "Terrorism" (katso taulukko 8 Liite). Sitten hän yhteen Wikipedia näkymä laskee kuukausittain vastaavalle neljäkymmentäkahdeksan Wikipedia-artikkeleita yli kolmenkymmenen kahden kuukauden aikana, alkaen tammikuun alussa 2012 elokuun loppuun 2014 Vahvistaakseen argumentti, hän myös luonut useita vertailua ryhmiä seuraamalla artikkeli näkemyksiä muista aiheista.

    Nyt olet menossa kopioida ja laajentaa Penney (2016) . Kaikki raakadata että tarvitset tälle toiminnalle on saatavissa Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Tai voit saada sen R paketti wikipediatrend (Meissner and Team 2016) . Kun kirjoitat ylös vastauksesi, huomaa joka tietolähteen käytit. (Huomaa: Tämä sama toiminta näkyy myös luku 6)

    1. Lue Penney (2016) ja jäljitellä kuvio 2, joka osoittaa sivun näkymiä "Terrorismi" -aiheiset sivut ennen ja jälkeen Snowden ilmestys. Tulkita havaintoja.
    2. Seuraavaksi jäljitellä kuvio 4A, joka vertaa Study Group ( "Terrorismi" -aiheiset artikkelit) kanssa vertailuryhmässä käyttämällä avainsanoja luokiteltu "DHS ja muut virastot" alkaen DHS (katso liitetaulukko 10). Tulkita havaintoja.
    3. Osassa b) olet verrannut tutkimusryhmän yhteen vertailuryhmän. Penney verrataan myös kahta muuta Vertailuryhmissä: "Infrastructure Security" -aiheiset artikkeleita (liitetaulukko 11) ja suosittu Wikipedia sivut (liitetaulukko 12). Keksikää vaihtoehtoisen vertailuryhmässä, ja testata, jos havaintojen osa b) on herkkä valinnasta vertailuryhmässä. Mikä valinta vertailuryhmässä järkevintä? Miksi?
    4. Kirjoittaja totesi, että avainsanat, jotka liittyvät "Terrorism" käytettiin valitsemiseksi Wikipedia-artikkeleita, koska Yhdysvaltain hallitus mainittu terrorismi keskeiseksi perustelu sen verkossa seurantakäytäntöjen. Koska tarkastus näistä 48 "Terrorismi" -aiheiset avainsanat, Penney (2016) myös teki tutkimuksen MTurk jossa vastaajia pyydettiin arvioimaan jokainen avainsanoja kannalta hallituksen Trouble, Privacy-Sensitive, ja välttäminen (liitetaulukko 7 ja 8). Toistamaan tutkimuksen MTurk ja verrata tuloksia.
    5. Tulosten perusteella osittain d) ja lukeminen artikkelin, sinä samaa mieltä kirjoittajan aihevalinnan avainsanoja tutkimusryhmän? Miksi tai miksi ei? Jos ei, mitä ehdotatte sen sijaan?
  9. [ helppo ] Efrati (2016) raportit, jotka perustuvat luottamukselliset tiedot, jotka "täydellinen jakaminen" Facebookissa oli laskenut noin 5,5% vuositason kun "alkuperäinen lähetys jakaminen" laski 21% vuositason kasvu. Tämä lasku oli erityisen akuutti Facebookin käyttäjien alle 30-vuotiaita. Raportissa johtuvan lasku kahdesta tekijästä. Yksi on kasvua määrä "ystävät" ihmiset ovat Facebookissa. Toinen on, että jotkut jakaminen toiminta on siirtynyt viestintä- ja kilpailijoille kuten Snapchat. Raportti paljasti myös useita taktiikoita Facebook oli yrittänyt lisätä jakamiseen, kuten News Feed algoritmi hienosäädön jotka tekevät alkuperäisen virkaa merkittävämpi, sekä määräajoin muistutuksia alkuperäisen virkaa käyttäjät "Tänä päivänä" useita vuosia sitten. Mitä seurauksia, jos lainkaan, ei näiden havaintojen on tutkijoille, jotka haluavat käyttää Facebook tietolähteenä?

  10. [ keskikokoinen ] Tumasjan et al. (2010) raportoi, että osuus tweets mainita poliittisen puolueen Hyväksytty osuus äänistä että puolue sai Saksan eduskuntavaaleissa 2009 (Kuva 2.9). Toisin sanoen, näytti siltä, ​​että voit käyttää kimittää ennustaa vaalien. Tuolloin tämä tutkimus julkaistiin katsottiin erittäin jännittävää, koska se näytti kuitenkin siltä arvokas käyttää yhteistä lähde suuria tietoja.

    Koska huono piirteet iso tietojen kuitenkin sinun tulisi välittömästi olla skeptinen tämän tuloksen. Saksalaiset Twitterissä vuonna 2009 oli melko ei-edustava ryhmä, ja kannattajat yksi osapuoli voisi tweet politiikasta useammin. Niinpä onkin yllättävää, että kaikki mahdolliset harhat, että voisi kuvitella olisi jotenkin kumoavat. Itse asiassa tulokset Tumasjan et al. (2010) osoittautui liian hyvää ollakseen totta. Niiden paperi, Tumasjan et al. (2010) tarkasteltiin kuutta puolueiden: kristillisdemokraattien (CDU), Christian sosiaalidemokraatit (CSU), SPD, liberaalit (FDP), Vasen (Die Linke), ja vihreä puolue (Grüne). Kuitenkin eniten mainituista Saksan poliittinen puolue Twitterissä tuolloin oli Piraattipuolue (Piraten), osapuoli, joka taistelee hallituksen Internetin sääntely. Kun Piraattipuolue sisällytettiin analyysiin, Twitter mainitsee tulee parhaimmillaan ennustaja vaalitulos (Kuva 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Kuva 2.9: Twitter mainitsee näyttävät ennustaa tuloksia 2009 Saksan vaalien (Tumasjan ym. 2010), mutta tämä tulos osoittautuu riippuvan mielivaltaisia ​​ja perusteettomia valintoja (Jungherr, Jürgens, ja Schoen 2012).

    Kuva 2.9: Twitter mainitsee näyttävät ennustaa tuloksia 2009 Saksan vaalien (Tumasjan et al. 2010) , mutta tämä tulos osoittautuu riippuvan mielivaltaisia ​​ja perusteettomia valintoja (Jungherr, Jürgens, and Schoen 2012) .

    Myöhemmin muut tutkijat ympäri maailmaa ovat käyttäneet harrastaja menetelmiä-kuten käyttämällä ilmapiiri analyysia erottaa positiivisten ja negatiivisten mainitaan osapuolten-parantamiseksi kykyä Twitter tietojen ennustaa useita erityyppisiä vaalien (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Näin Huberty (2015) tiivisti näiden pyrkimysten tuloksia ennustaa vaalien:

    "Kaikki tunnetut ennustemenetelmät perustuu sosiaalisen median ovat epäonnistuneet, kun niihin vaatimuksiin todellisen tulevaisuuteen vaalien ennustamista. Nämä epäonnistumiset johtuvan olennaisia ​​ominaisuuksia sosiaalisen median, eikä niinkään menetelmiin tai algoritmeihin vaikeuksia. Lyhyesti, sosiaalinen media ole eikä luultavasti koskaan, tarjoaa vakaan, puolueeton, edustava kuva äänestäjien; ja mukavuutta näytteitä sosiaalisen median ole riittävästi tietoa korjata nämä ongelmat post hoc. "

    Lue joitakin tutkimus, joka johtaa Huberty (2015) tämän päätelmän, ja kirjoittaa yhden sivun muistion poliittisen ehdokkaan kuvataan, jos ja miten Twitter tulisi käyttää ennustaa vaalien.

  11. [ keskikokoinen ] Mitä eroa on sosiologi ja historioitsija? Mukaan Goldthorpe (1991) , tärkein ero sosiologi ja historioitsija on valvoa tiedonkeruuta. Historioitsijat joutuvat käyttämään pyhäinjäännökset taas sosiologit voivat räätälöidä tiedonkeruuta tiettyihin tarkoituksiin. Lue Goldthorpe (1991) . Miten ero sosiologian ja historian liittyvät ajatusta Custommades ja Readymades?

  12. [ kova ] Pohjalta edelliseen kysymykseen, Goldthorpe (1991) piirsi useita kriittisiä vastauksia, joista yksi Nicky Hart (1994) , joka haastoi Goldthorpe omistautuminen räätälöityjä tietoja. Selventää mahdollisten rajoitusten räätälöityjen data, Hart kuvaili Varakkaat Worker Project, iso tutkimus mitata suhdetta sosiaalisen luokan ja äänestykseen, joka tehtiin Goldthorpe ja kollegat 1960-luvun puolivälissä. Kuin voisi odottaa tutkija, joka kannatti suunniteltu dataa löytyy tietoa, varakkaiden Worker Project kerätyt tiedot, jotka räätälöidään vastaamaan äskettäin ehdotettu teoria tulevaisuudesta yhteiskunnallisen luokan aikakaudella yhä elintasoa. Mutta, Goldthorpe ja työtovereiden jotenkin "unohtanut" kerätä tietoja äänestyskäyttäytymisestä naisia. Näin Nicky Hart (1994) tiivistelmät koko episodi:

    ". . . se [on] vaikea välttää johtopäätökseen, että naiset jätettiin pois, koska tämä "räätälöity" aineisto oli rajoittuu paradigmaattinen logiikka, joka jättää naisen kokemus. Driven by teoreettinen suunnitelma luokkatietoisuuden ja kanteen mies huolenaiheet. . . , Goldthorpe ja hänen kollegansa rakennettu joukko empiirisiä todisteita, jotka ruokkii ja pitää yllä omaa teoreettisiin oletuksiin sijaan ne alttiiksi pätevä testi riittävyyttä. "

    Hart jatkoi:

    "Empiirinen havainnot Varakkaat Worker Project kertoo meille lisää masculinist arvoista vuosisadan puoliväliin sosiologian kuin ne ilmoittavat prosessien kerrostuneisuus, politiikan ja aineellisen elämän."

    Keksitkö muita esimerkkejä, joissa räätälöityjä tiedonkeruun on harhojen tietojen keräilijä rakennettu siihen? Miten tämä verrata Algoritmiseen sekoittavia? Mitä seurauksia tällä saattaisi olla, kun tutkijat pitäisi käyttää Readymades ja kun ne pitäisi käyttää Custommades?

  13. [ keskikokoinen ] Tässä luvussa I vastakohtana keräämät tutkijoille tutkijoiden hallinnollisten aineistojen luomia yritykset ja hallitukset. Jotkut kutsuvat näitä hallinnollisten aineistojen "löytyi data", jonka he kontrasti kanssa "on tarkoitettu data." On totta, että hallinnollisten aineistojen löytyy tutkijoiden, mutta ne ovat myös erittäin suunniteltu. Esimerkiksi moderni tech yritykset käyttävät valtavasti aikaa ja resursseja kerätä ja kappalainen tietonsa. Niinpä nämä hallinnolliset tiedot ovat molemmat löytyy ja suunniteltu, se vain riippuu näkökulmasta (kuva 2.10).

    Kuva 2.10: Kuva on sekä ankka ja kani; mitä näet riippuu näkökulmasta. Hallinnon ja liike hallinnollisia aineistoja ovat molemmat löytyy ja suunniteltu; mitä näet riippuu näkökulmasta. Esimerkiksi puhelun tietueita keräämien matkapuhelin yhtiö löytyy tietoa näkökulmasta tutkija. Mutta nämä täsmälleen samat tiedot ovat suunniteltu data näkökulmasta joku työskentelevät laskutusosastoomme puhelimen yritys. Lähde: Wikimedia Commons

    Kuva 2.10: Kuva on sekä ankka ja kani; mitä näet riippuu näkökulmasta. Hallinnon ja liike hallinnollisia aineistoja ovat molemmat löytyy ja suunniteltu; mitä näet riippuu näkökulmasta. Esimerkiksi puhelun tietueita keräämien matkapuhelin yhtiö löytyy tietoa näkökulmasta tutkija. Mutta nämä täsmälleen samat tiedot ovat suunniteltu data näkökulmasta joku työskentelevät laskutusosastoomme puhelimen yritys. Lähde: Wikimedia Commons

    Ovat esimerkki tietolähteen jossa näkemistä sekä havaittu ja suunniteltu on hyötyä käytettäessä että tietolähdettä tutkimukselle.

  14. [ helppo ] Vuonna harkittuja essee, Christian Sandvig ja Eszter Hargittai (2015) kuvaavat kahta erilaista digitaalista tutkimusta, jossa digitaalinen järjestelmä on "väline" tai "tutkimuskohde." Esimerkki ensimmäinen sellainen tutkimus, jossa Bengtsson ja työtovereiden (2011) käytetään matkapuhelimen data seurata maahanmuuttoa maanjäristyksen jälkeen Haitin vuonna 2010. esimerkkinä toinen laji on missä Jensen (2007) tutkimukset miten käyttöönotto matkapuhelimista koko Kerala, Intia vaikutti toimintaan kalamarkkinoiden. Minusta tämä hyödyllinen, koska siinä selvennetään, että tutkimukset käyttäen digitaalista tietolähteitä voivat olla aivan erilaisia ​​tavoitteita, vaikka ne käyttävät samanlaista tietolähteen. Jotta edelleen selventää tätä eroa, kuvataan neljä tutkimusta että olet nähnyt: kaksi, jotka käyttävät digitaalista järjestelmää välineenä ja kaksi, jotka käyttävät digitaalista järjestelmää kuin tutkimuskohde. Voit käyttää esimerkkejä tämä luku, jos haluat.