[ , ] Algoritminen sekavuus oli ongelma Google Flu Trends -ohjelmassa. Lue paperin Lazer et al. (2014) ja kirjoita lyhyt, selkeä sähköpostiviesti Googleen insinöörille, joka selittää ongelman ja tarjoaa idean siitä, miten se korjataan.
[ ] Bollen, Mao, and Zeng (2011) väittävät, että Twitterin tietoja voidaan käyttää ennustamaan osakemarkkinoita. Tämä havainto johti hedge fund-Derwent Capital Marketsin perustamiseen - sijoittamaan osakemarkkinoille Twitterin (Jordan 2010) kerättyjen tietojen perusteella. Mitä todisteita haluat nähdä ennen rahan asettamista rahastoon?
[ ] Vaikka jotkut kansanterveyden kannattajat pitävät e-savukkeita tehokkaana tukena tupakoinnin lopettamiselle, toiset varoittavat mahdollisista riskeistä, kuten korkeista nikotiinista. Kuvittele, että tutkija päättää opiskella yleistä mielipidettä e-savukkeista keräämällä e-savukkeihin liittyviä Twitter-viestejä ja suorittamaan sentimentaalianalyysiä.
[ ] Marraskuussa 2009 Twitter muutti kysymyksen "Mitä sinä teet?" -Viesti-kentässä "Mitä tapahtuu?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" -menetelmää käytetään usein vaikutusvallan ja vaikuttamisen leviämiseen Twitterissä. Alunperin käyttäjät joutuivat kopioimaan ja liittämään haluamansa tweetin, merkitsemään alkuperäisen kirjoittajan käsin ja kirjoittamalla manuaalisesti "RT" ennen viestin osoittamalla, että se oli retweet. Sitten vuonna 2009 Twitter lisäsi "retweet" -painikkeen. Kesäkuussa 2016 Twitter teki käyttäjille mahdollisuuden räätälöidä omia tweettejaan (https://twitter.com/twitter/status/742749353689780224). Katsotteko, että näiden muutosten pitäisi vaikuttaa siihen, miten käytät "retweetejä" tutkimuksessasi? Miksi tai miksi ei?
[ , , , ] Monissa keskusteluissa Michel ja kollegat (2011) analysoivat yli viiden miljoonan digitalisoidun kirjan sisältöä pyrkiessään tunnistamaan pitkän aikavälin kulttuurisuuntauksia. Käyttämäsi tiedot on nyt julkaistu Google NGrams -tietokuvana, joten voimme käyttää tietoja kopioimalla ja laajentamalla joitakin heidän töistään.
Eräässä monista paperin tuloksista Michel ja kollegat väittivät, että unohdamme nopeammin ja nopeammin. Tietyn vuoden, sanoa "1883", he laskivat vuosien 1875 ja 1975 välisenä aikana ilmestyneiden 1 gramman osuudet, jotka olivat "1883". He päättelivät, että tämä osuus on kyseisten tapahtumien kiinnostuksen mitta. Heidän kuvassaan 3a he piirtävät käyttöreittejä kolmeksi vuodeksi: 1883, 1910 ja 1950. Näillä kolmella vuodella on yhteinen malli: vähäinen käyttö ennen vuotta, sitten piikki ja sitten hajoaminen. Seuraavaksi Michel ja kollegat laskivat jokaisen vuoden puoliintumisaikaa vuosittain 1875-1975. Heidän kuviossaan 3a (inset) he osoittivat, että kunkin puoliintumisaika vuosi on laskussa, ja he väittivät, että tämä tarkoittaa, että unohdamme menneisyyden nopeammin ja nopeammin. He käyttivät englanninkielisen corpus-version versiota 1, mutta myöhemmin Google julkaisi toisen version corpusta. Lue kaikki kysymyksen osat ennen koodauksen aloittamista.
Tämä toiminto antaa sinulle käytännön uudelleenkäytettävän koodin kirjoittamisen, tulosten tulkinnan ja tietojen kiertämisen (kuten haastavien tiedostojen käsittelyn ja käsittelemättömien tietojen käsittelyn). Tämä toiminto auttaa myös sinua avaamaan ja käyttämään rikkaita ja mielenkiintoisia tietoja.
Hanki raakatiedot Google Books NGram Viewer -sivustosta. Erityisesti kannattaa käyttää englanninkielisen corpus-version versiota 2, joka julkaistiin 1.7.2012. Pakkaamaton, tämä tiedosto on 1,4 Gt.
Palauta Michel et al. (2011) Kuva 3a pääosa Michel et al. (2011) . Jotta voit luoda tämän numeron, tarvitset kaksi tiedostoa: se, jonka olet ladannut osan (a) ja "kokonaislaskut" -tiedoston, jonka avulla voit muuntaa raaka-arvot mittasuhteiksi. Huomaa, että kokonaislaskenta-tiedostossa on rakenne, joka saattaa vaikeuttaa sen lukemista. Onko NGram-datan versio 2 samanlaisia tuloksia kuin Michel et al. (2011) , jotka perustuvat version 1 tietoihin?
Tarkista nyt kuvaaja NGram Viewerin luomasta kaaviosta.
Toista kuvio 3a (pääkuva), mutta muuta \(y\) -aksia olevan raakamäärän laskenta (ei mainintojen määrä).
Onko (b): n ja (d): n välinen ero johtamaan sinua arvioimaan Michel et al. (2011). Miksi tai miksi ei?
Käytä nyt mainintojen osuutta, kopioi kuvion 3a sisäkehys. Eli kunkin vuoden 1875 ja 1975 välisenä aikana lasketaan kyseisen vuoden puoliintumisaika. Puoliintumisaika määritellään vuosien lukumääriksi, jotka kuluvat ennen kuin mainintojen osuus saavuttaa puolet huippuarvostaan. Huomaa, että Michel et al. (2011) tekevät jotain monimutkaisempaa arvioida puoliintumisaikataulua - katso osaa III.6. - mutta ne väittävät, että molemmat lähestymistavat tuottavat samanlaisia tuloksia. Sisältyykö NGram-datan versio 2 samankaltaisia tuloksia kuin Michel et al. (2011) , jotka perustuvat version 1 tietoihin? (Vihje: Älä ole yllättynyt, jos se ei ole.)
Oliko olemassa vuosia, jotka olivat poikkeamia, kuten vuosia, jotka unohdettiin erityisen nopeasti tai erityisen hitaasti? Lyhyesti spekuloida mahdollisia syitä tähän kuvioon ja selittänyt, miten tunnistit outliers.
Nyt kopioi tämä tulos NGrams-tietojen versiota 2 varten kiina, ranska, saksa, heprea, italia, venäjä ja espanja.
Verrattuna kaikkiin kieliin, oliko olemassa vuosia, jotka olivat outliers, kuten vuosina, jotka unohtivat erityisen nopeasti tai erityisen hitaasti? Lyhyesti spekuloida mahdollisia syitä tähän malliin.
[ , , , ] Penney (2016) selvitti, onko kesäkuussa 2013 yleistynyt NSA / PRISM-valvonta (eli Snowdenin ilmoitukset) liittynyt jyrkästi ja äkillisesti liikenteessä Wikipedia-artikkeleihin aiheista, jotka herättävät yksityisyyttä. Jos näin on, tämä käyttäytymisen muutos olisi yhdenmukainen massavalvonnan aiheuttaman jäähdytysvaikutuksen kanssa. Penney (2016) lähestymistapaa kutsutaan joskus keskeytyksi aikasarjasuunnaksi , ja se liittyy 2.4.3 kohdassa kuvattuihin lähestymistapoihin.
Aiheen avainsanojen valitsemiseksi Penney viittasi Yhdysvaltain Department of Homeland Securityn käyttämään luetteloon sosiaalisen median seurantaan ja seurantaan. DHS-luettelo luokittelee tietyt hakutermit useisiin kysymyksiin, eli "terveyskysymykseen", "infrastruktuuriturvaan" ja "terrorismiin". Tutkimusryhmälle Penney käytti 48 "Terrorismiin" liittyviä avainsanoja (katso lisäystaulukko 8 ). Tämän jälkeen hän kokoaa Wikipedia-artikkelinäkymät kuukausittain vastaaville 48 Wikipedia-artikkelille 32 kuukauden aikana tammikuun 2012 alusta elokuun 2014 loppuun. Hän vahvisti argumenttinsa lisäksi useita vertailuryhmiä seuraamalla artikkelinäkymät muista aiheista.
Nyt aiot kopioida ja laajentaa Penney (2016) . Kaikki raakatiedot, joita tarvitset tämän toiminnon käyttöön, on saatavilla Wikipedia-sivustolta. Tai voit saada sen R-paketin wikipediatrendistä (Meissner and R Core Team 2016) . Kun kirjoitat vastauksesi, huomioi käytettävä tietolähde. (Huomaa, että tämä sama toiminta näkyy myös luvussa 6.) Tämä toiminto antaa sinulle käytännön tietojen kiertämisen ja ajattelun luonnollisista kokeista suurissa tietolähteissä. Se myös saa sinut ajamaan tulevia projekteja mahdollisesti kiinnostavalla tietolähteellä.
[ ] Efrati (2016) ilmoitti luottamuksellisen tiedon perusteella, että Facebookin "täydellinen jakaminen" oli laskenut noin 5,5 prosenttia edellisvuodesta, kun taas "alkuperäisen lähetystoiminnan jakaminen" laski 21 prosenttia edellisvuodesta. Tämä lasku oli erityisen akuutti Facebookin alle 30-vuotiaiden käyttäjien keskuudessa. Raportin mukaan lasku johtui kahdesta tekijästä. Yksi on Facebookissa olevien "ystävien" määrän kasvu. Toinen on se, että jotkin jakamisaktiviteetit ovat siirtyneet messagingiin ja kilpailijoihin kuten Snapchat. Raportti paljasti myös useita taktiikoita, jotka Facebook on yrittänyt lisätä jakamista, mukaan lukien uutissyötteen algoritmien tweaks, jotka tekevät alkuperäisiä viestejä näkyvämpiä, samoin kuin säännölliset muistutukset alkuperäisistä virkaa "On This Day" ominaisuus. Mitä seurauksia, jos sellaisia on, nämä löydöt koskevat tutkijoita, jotka haluavat käyttää Facebooka tietolähteenä?
[ ] Mikä on ero sosiologin ja historioitsijan välillä? Goldthorpe (1991) mukaan tärkein ero on tiedonkeruun hallinta. Historioitsijoiden on pakko käyttää reliikkejä, kun taas sosiologit voivat räätälöidä tietojenkeruunsa tiettyihin tarkoituksiin. Lue Goldthorpe (1991) . Miten sosiologian ja historian välinen ero liittyy käsityöläisasiakirjoihin ja valmiuksiin?
[ ] Tämä perustuu edelliseen kysymykseen. Goldthorpe (1991) vetosi joukon kriittisiä vastauksia, joista yksi Nicky Hartista (1994) joka haastoi Goldthorpen omistautumista räätälöityihin tietoihin. Räätälöityjen tietojen mahdollisten rajoitusten selvittämiseksi Hart kuvaili Affluent Worker Project -projektia, joka käsitteli Goldthorpen ja hänen kollegansa 1960-luvun puolivälissä tekemän suhdetta sosiaalisen luokan ja äänestyksen väliseen suurten kyselyiden mittaamiseen. Kuten voi odottaa tutkijalta, joka suosisi suunniteltuja tietoja löytyneistä tiedoista, Affluent Worker Project keräsi tietoja, jotka oli räätälöity vastaamaan äskettäin ehdotettua teoriaa sosiaalisen luokan tulevaisuudesta elintason kasvavan aikakauden aikana. Mutta Goldthorpe ja kollegat jotenkin "unohtivat" keräämään tietoa naisten äänestyskäyttäytymisestä. Nicky Hart (1994) esitti yhteenvedon koko episodiin:
"... on vaikeaa välttää sitä johtopäätöstä, että naiset jätettiin pois, koska tämä" räätälöity "aineisto rajoittui paradigmaattisella logiikalla, joka sulki naisten kokemuksen pois. Kuluneena teoreettisena näkemänä luokkatuntemuksesta ja toiminnasta miesten kiinnostuksina ... Goldthorpe ja hänen kollegansa rakentivat joukon empiirisiä todisteita, jotka ruokkivat ja kasvattivat omia teoreettisia olettamuksiaan sen sijaan, että heidät altistettaisiin pätevän riittävän testauksen kohteeksi. "
Hart jatkoi:
"Työntekijäprojektin empiiriset havainnot kertovat lisää vuosisadan puoliväliin sosiologian maskuliinisista arvoista, kuin ne kertovat stratifikaatioprosesseista, politiikasta ja aineellisesta elämästä."
Voitko ajatella muita esimerkkejä, joissa räätälöidyssä tiedonkeruussa on sisäänrakennettu tietojenkeruu? Miten tämä vertaa algoritmiseen sekaannukseen? Mitä seurauksia tällä voi olla silloin, kun tutkijat käyttävät valmiuksia ja kun heidän on käytettävä asiakkaita?
[ ] Tässä luvussa olen verrannut tutkijoiden tutkijoiden keräämiä tietoja yritysten ja hallitusten luomista hallinnollisista rekistereistä. Jotkut ihmiset kutsuvat näitä hallinnollisia tietoja "löytyneistä tiedoista", jotka ovat ristiriidassa "suunnitellun tiedon kanssa". On totta, että tutkijat löytävät hallinnollisia tietoja, mutta ne ovat myös hyvin suunniteltuja. Esimerkiksi nykyaikaiset teknologiayritykset työskentelevät kovasti keräämään ja hoitamaan tietojaan. Siten nämä hallinnolliset rekisterit löytyvät ja suunnitellaan, se riippuu vain perspektiivistä (kuva 2.12).
Anna esimerkki tietolähteestä, jossa se näkyy sekä löytyneinä että suunnitelluina, on hyödyllistä, kun käytetään kyseistä tietolähdettä tutkimukseen.
[ ] Kiitettävässä esseessä Christian Sandvig ja Eszter Hargittai (2015) jakoivat digitaalisen tutkimuksen kahteen laajaan luokkaan sen mukaan, onko digitaalinen järjestelmä "väline" vai "tutkimuskohteena". Esimerkki ensimmäisestä lajista - jossa järjestelmä on väline on Bengtssonin ja kollegoiden (2011) tutkimus matkapuhelintietojen käyttämisestä maahanmuuton jäljittämiseksi Haitin maanjäristyksen jälkeen vuonna 2010. Esimerkki toisesta lajista, jossa järjestelmä on tutkimuksen kohde, on Jensenin tutkimus (2007) siitä, miten matkapuhelinten käyttöönotto koko Intian Keralassa vaikutti kalan markkinoiden toimintaan. Mielestäni tämä erottelu on hyödyllistä, koska se selventää, että digitaalisten tietolähteiden käytöllä voi olla melko erilaisia tavoitteita, vaikka ne käyttäisivät samanlaista tietolähdettä. Jotta tätä erottelua voitaisiin edelleen selkeyttää, kuvataan neljä tutkimusta, jotka olet nähnyt: kaksi, jotka käyttävät digitaalista järjestelmää instrumenttina ja kaksi, jotka käyttävät digitaalista järjestelmää tutkimuksen kohteena. Voit käyttää esimerkkejä tästä luvusta, jos haluat.