Key:
[ , ] Algorithmic sekoittavia oli ongelma Google Flu Trends. Lue paperin Lazer et al. (2014) , ja kirjoita lyhyt, selkeä sähköpostitse insinööri Google selittää ongelman ja tarjoaa käsitys siitä, miten korjata ongelma.
[ ] Bollen, Mao, and Zeng (2011) väittää, että tiedot Twitter voidaan käyttää ennustamaan osakemarkkinoilla. Tämä havainto johti luomiseen hedge-rahasto-Derwent Capital Markets-sijoittaa osakemarkkinoille perustuvat kerättyihin tietoihin Twitter (Jordan 2010) . Mitä todisteita haluaisit nähdä ennen kuin laitat rahaa tähän rahastoon?
[ ] Vaikka jotkut kansanterveyden kannattaa rakeita e-savukkeita tehokas apu tupakoinnin lopettamiseen, toiset varoittavat mahdollisista riskeistä, kuten korkean nikotiinia. Kuvitella, että tutkija päättää tutkia yleisen mielipiteen kohti e-savukkeet keräämällä e-savukkeet liittyviä Twitter virkaa ja hoitavat tunteita analyysi.
[ ] Marraskuussa 2009 Twitter muuttanut kysymys piipittää laatikon "Mitä sinä teet?" Ja "Mitä tapahtuu?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analysoitiin 41,7 milj käyttäjäprofiilit, 1470000000 sosiaaliset suhteet, 4262 trendien aiheita, ja 106 miljoonaa tweets kesäkuun 6. ja 31 kesäkuu, 2009. Tämän analyysin perusteella he päättelivät, että Twitter on useampi uutena välineenä tiedon jakamisen kuin sosiaalinen verkosto.
[ ] "Retweets" käytetään usein mittaamaan vaikutus ja leviäminen vaikuttaa Twitterissä. Aluksi käyttäjien piti kopioida ja liittää piipittää he pitivät, tag alkuperäinen kirjoittaja hänen / hänen kahva, ja käsin kirjoittamalla "RT" ennen piipittää osoittamaan, että se on retweet. Sitten, vuonna 2009 Twitter lisäsi "retweet" -painiketta. Kesäkuussa 2016 Twitter mahdollistanut sen käyttäjät retweet oman tweets (https://twitter.com/twitter/status/742749353689780224). Luuletko nämä muutokset pitäisi vaikuttaa miten käytät "retweets" oman tutkimuksen? Miksi tai miksi ei?
[ , , ] Michel et al. (2011) rakensi corpus toipumassa Googlen pyrkimystä digitoida kirjoja. Käyttäen ensimmäinen versio corpus, joka julkaistiin vuonna 2009 ja sisälsi yli 5 miljoonaa digitoitua kirjaa, kirjoittajat analysoi sanan käyttö taajuus tutkia kielellisiä ja kulttuurisia suuntauksia. Pian Google Books Corpus tuli suosittu tietolähde tutkijoille, ja toinen versio tietokannan julkaistiin vuonna 2012.
Kuitenkin Pechenick, Danforth, and Dodds (2015) varoitti, että tutkijoiden on täysin luonnehtia näytteenottoprosessi corpus ennen sen piirustuksen laajat päätelmät. Suurin ongelma on, että korpus on kirjasto kaltainen, joka sisältää yhden jokaisesta teoksesta. Tämän seurauksena yksilö, tuottelias kirjoittaja pystyy huomattavasti lisätä uusia lauseita Googlen Books sanasto. Lisäksi tieteellistä tekstiä kannalta yhä aineellisen osan corpus koko 1900-luvulla. Lisäksi vertaamalla kaksi versiota Englanti Fiction aineistoja, Pechenick et al. löydetty todisteita siitä, että riittämätön suodatusta käytettiin tuottamaan ensimmäinen versio. Kaikki tarvittavat tiedot toiminta on saatavissa täältä: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) tutkii, onko laajaa julkisuutta NSA / PRISM valvonta (eli Snowden paljastukset) kesäkuussa 2013 liittyy jyrkkä ja äkillinen lasku liikennettä Wikipedian artikkeleita aiheista, jotka herättävät yksityisyyteen huolenaiheita. Jos näin on, käyttäytymisen muutos olisi johdonmukaista hyytävä vaikutus johtuva joukkoseurantaan. Lähestymistapa Penney (2016) kutsutaan joskus keskeytynyttä aikasarja suunnittelu ja liittyy lähestymistapoihin lukua lähentää kokeita tarkkailututkimuksista tiedot (2.4.3).
Valita aiheen avainsanat, Penney viitataan luetteloon käyttämän US Department of Homeland Security seuranta ja seurantaan sosiaalisen median. DHS lista luokittelee tietyt hakusanat erilaisia kysymyksiä, eli "terveyden kannalta", "Infrastructure Security" ja "terrorismi." Sillä valmisteluryhmän, Penney käytti neljäkymmentäkahdeksan liittyviä avainsanoja "Terrorism" (katso taulukko 8 Liite). Sitten hän yhteen Wikipedia näkymä laskee kuukausittain vastaavalle neljäkymmentäkahdeksan Wikipedia-artikkeleita yli kolmenkymmenen kahden kuukauden aikana, alkaen tammikuun alussa 2012 elokuun loppuun 2014 Vahvistaakseen argumentti, hän myös luonut useita vertailua ryhmiä seuraamalla artikkeli näkemyksiä muista aiheista.
Nyt olet menossa kopioida ja laajentaa Penney (2016) . Kaikki raakadata että tarvitset tälle toiminnalle on saatavissa Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Tai voit saada sen R paketti wikipediatrend (Meissner and Team 2016) . Kun kirjoitat ylös vastauksesi, huomaa joka tietolähteen käytit. (Huomaa: Tämä sama toiminta näkyy myös luku 6)
[ ] Efrati (2016) raportit, jotka perustuvat luottamukselliset tiedot, jotka "täydellinen jakaminen" Facebookissa oli laskenut noin 5,5% vuositason kun "alkuperäinen lähetys jakaminen" laski 21% vuositason kasvu. Tämä lasku oli erityisen akuutti Facebookin käyttäjien alle 30-vuotiaita. Raportissa johtuvan lasku kahdesta tekijästä. Yksi on kasvua määrä "ystävät" ihmiset ovat Facebookissa. Toinen on, että jotkut jakaminen toiminta on siirtynyt viestintä- ja kilpailijoille kuten Snapchat. Raportti paljasti myös useita taktiikoita Facebook oli yrittänyt lisätä jakamiseen, kuten News Feed algoritmi hienosäädön jotka tekevät alkuperäisen virkaa merkittävämpi, sekä määräajoin muistutuksia alkuperäisen virkaa käyttäjät "Tänä päivänä" useita vuosia sitten. Mitä seurauksia, jos lainkaan, ei näiden havaintojen on tutkijoille, jotka haluavat käyttää Facebook tietolähteenä?
[ ] Tumasjan et al. (2010) raportoi, että osuus tweets mainita poliittisen puolueen Hyväksytty osuus äänistä että puolue sai Saksan eduskuntavaaleissa 2009 (Kuva 2.9). Toisin sanoen, näytti siltä, että voit käyttää kimittää ennustaa vaalien. Tuolloin tämä tutkimus julkaistiin katsottiin erittäin jännittävää, koska se näytti kuitenkin siltä arvokas käyttää yhteistä lähde suuria tietoja.
Koska huono piirteet iso tietojen kuitenkin sinun tulisi välittömästi olla skeptinen tämän tuloksen. Saksalaiset Twitterissä vuonna 2009 oli melko ei-edustava ryhmä, ja kannattajat yksi osapuoli voisi tweet politiikasta useammin. Niinpä onkin yllättävää, että kaikki mahdolliset harhat, että voisi kuvitella olisi jotenkin kumoavat. Itse asiassa tulokset Tumasjan et al. (2010) osoittautui liian hyvää ollakseen totta. Niiden paperi, Tumasjan et al. (2010) tarkasteltiin kuutta puolueiden: kristillisdemokraattien (CDU), Christian sosiaalidemokraatit (CSU), SPD, liberaalit (FDP), Vasen (Die Linke), ja vihreä puolue (Grüne). Kuitenkin eniten mainituista Saksan poliittinen puolue Twitterissä tuolloin oli Piraattipuolue (Piraten), osapuoli, joka taistelee hallituksen Internetin sääntely. Kun Piraattipuolue sisällytettiin analyysiin, Twitter mainitsee tulee parhaimmillaan ennustaja vaalitulos (Kuva 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Myöhemmin muut tutkijat ympäri maailmaa ovat käyttäneet harrastaja menetelmiä-kuten käyttämällä ilmapiiri analyysia erottaa positiivisten ja negatiivisten mainitaan osapuolten-parantamiseksi kykyä Twitter tietojen ennustaa useita erityyppisiä vaalien (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Näin Huberty (2015) tiivisti näiden pyrkimysten tuloksia ennustaa vaalien:
"Kaikki tunnetut ennustemenetelmät perustuu sosiaalisen median ovat epäonnistuneet, kun niihin vaatimuksiin todellisen tulevaisuuteen vaalien ennustamista. Nämä epäonnistumiset johtuvan olennaisia ominaisuuksia sosiaalisen median, eikä niinkään menetelmiin tai algoritmeihin vaikeuksia. Lyhyesti, sosiaalinen media ole eikä luultavasti koskaan, tarjoaa vakaan, puolueeton, edustava kuva äänestäjien; ja mukavuutta näytteitä sosiaalisen median ole riittävästi tietoa korjata nämä ongelmat post hoc. "
Lue joitakin tutkimus, joka johtaa Huberty (2015) tämän päätelmän, ja kirjoittaa yhden sivun muistion poliittisen ehdokkaan kuvataan, jos ja miten Twitter tulisi käyttää ennustaa vaalien.
[ ] Mitä eroa on sosiologi ja historioitsija? Mukaan Goldthorpe (1991) , tärkein ero sosiologi ja historioitsija on valvoa tiedonkeruuta. Historioitsijat joutuvat käyttämään pyhäinjäännökset taas sosiologit voivat räätälöidä tiedonkeruuta tiettyihin tarkoituksiin. Lue Goldthorpe (1991) . Miten ero sosiologian ja historian liittyvät ajatusta Custommades ja Readymades?
[ ] Pohjalta edelliseen kysymykseen, Goldthorpe (1991) piirsi useita kriittisiä vastauksia, joista yksi Nicky Hart (1994) , joka haastoi Goldthorpe omistautuminen räätälöityjä tietoja. Selventää mahdollisten rajoitusten räätälöityjen data, Hart kuvaili Varakkaat Worker Project, iso tutkimus mitata suhdetta sosiaalisen luokan ja äänestykseen, joka tehtiin Goldthorpe ja kollegat 1960-luvun puolivälissä. Kuin voisi odottaa tutkija, joka kannatti suunniteltu dataa löytyy tietoa, varakkaiden Worker Project kerätyt tiedot, jotka räätälöidään vastaamaan äskettäin ehdotettu teoria tulevaisuudesta yhteiskunnallisen luokan aikakaudella yhä elintasoa. Mutta, Goldthorpe ja työtovereiden jotenkin "unohtanut" kerätä tietoja äänestyskäyttäytymisestä naisia. Näin Nicky Hart (1994) tiivistelmät koko episodi:
". . . se [on] vaikea välttää johtopäätökseen, että naiset jätettiin pois, koska tämä "räätälöity" aineisto oli rajoittuu paradigmaattinen logiikka, joka jättää naisen kokemus. Driven by teoreettinen suunnitelma luokkatietoisuuden ja kanteen mies huolenaiheet. . . , Goldthorpe ja hänen kollegansa rakennettu joukko empiirisiä todisteita, jotka ruokkii ja pitää yllä omaa teoreettisiin oletuksiin sijaan ne alttiiksi pätevä testi riittävyyttä. "
Hart jatkoi:
"Empiirinen havainnot Varakkaat Worker Project kertoo meille lisää masculinist arvoista vuosisadan puoliväliin sosiologian kuin ne ilmoittavat prosessien kerrostuneisuus, politiikan ja aineellisen elämän."
Keksitkö muita esimerkkejä, joissa räätälöityjä tiedonkeruun on harhojen tietojen keräilijä rakennettu siihen? Miten tämä verrata Algoritmiseen sekoittavia? Mitä seurauksia tällä saattaisi olla, kun tutkijat pitäisi käyttää Readymades ja kun ne pitäisi käyttää Custommades?
[ ] Tässä luvussa I vastakohtana keräämät tutkijoille tutkijoiden hallinnollisten aineistojen luomia yritykset ja hallitukset. Jotkut kutsuvat näitä hallinnollisten aineistojen "löytyi data", jonka he kontrasti kanssa "on tarkoitettu data." On totta, että hallinnollisten aineistojen löytyy tutkijoiden, mutta ne ovat myös erittäin suunniteltu. Esimerkiksi moderni tech yritykset käyttävät valtavasti aikaa ja resursseja kerätä ja kappalainen tietonsa. Niinpä nämä hallinnolliset tiedot ovat molemmat löytyy ja suunniteltu, se vain riippuu näkökulmasta (kuva 2.10).
Ovat esimerkki tietolähteen jossa näkemistä sekä havaittu ja suunniteltu on hyötyä käytettäessä että tietolähdettä tutkimukselle.
[ ] Vuonna harkittuja essee, Christian Sandvig ja Eszter Hargittai (2015) kuvaavat kahta erilaista digitaalista tutkimusta, jossa digitaalinen järjestelmä on "väline" tai "tutkimuskohde." Esimerkki ensimmäinen sellainen tutkimus, jossa Bengtsson ja työtovereiden (2011) käytetään matkapuhelimen data seurata maahanmuuttoa maanjäristyksen jälkeen Haitin vuonna 2010. esimerkkinä toinen laji on missä Jensen (2007) tutkimukset miten käyttöönotto matkapuhelimista koko Kerala, Intia vaikutti toimintaan kalamarkkinoiden. Minusta tämä hyödyllinen, koska siinä selvennetään, että tutkimukset käyttäen digitaalista tietolähteitä voivat olla aivan erilaisia tavoitteita, vaikka ne käyttävät samanlaista tietolähteen. Jotta edelleen selventää tätä eroa, kuvataan neljä tutkimusta että olet nähnyt: kaksi, jotka käyttävät digitaalista järjestelmää välineenä ja kaksi, jotka käyttävät digitaalista järjestelmää kuin tutkimuskohde. Voit käyttää esimerkkejä tämä luku, jos haluat.