[ , ] Konfiguratzeko algoritmikoak Google Gripearen Joerak duen arazoa izan da. Irakurri paperak Lazer et al. (2014) , eta epe labur eta argi bat idaztea ingeniari batek Google-ri arazoa azalduz eta konpondu nola egin duen.
[ ] Bollen, Mao, and Zeng (2011) aldarrikatzen dute Twitter-en datuak burtsan aurreikusteko erabil daitezkeela. Aurkikuntza honek hedge fund-Derwent Capital Marketsak sortzea ekarri zuen (Twitter (Jordan 2010) jasotako datuetan oinarritua (Jordan 2010) . Zer froga litzateke dirua dirutan jarri aurretik ikusi nahi duzula?
[ ] Osasun publikoko osasun publiko batzuek e-zigarroak erretzeari uzteko laguntzak eraginkorrak direla uste duten bitartean, beste batzuk ohartarazten dute arrisku potentzialak, hala nola, nikotina-maila altua. Imajinatu ikertzaile batek e-zigarroei buruzko iritzi publikoa ikertzea erabakitzen du e-zigarroak erlazionatutako Twitter mezuak biltzea eta sentimenduen analisia egitea.
[ ] 2009ko azaroan, Twitter-ek "Zer egiten ari zara?" Tweet-eko kutxa aldatu egin du "Zer gertatzen ari da" (https://blog.twitter.com/2009/whats-happening).
[ ] "Erretiroak" sarritan erabiltzen dira eragina neurtzeko eta hedatzeko eragina Twitter-en. Hasieran, erabiltzaileek gustuko zuten tweeta kopiatu eta itsatsi behar izan zuten, jatorrizko egileak bere heldulekua markatu eta eskuz idatzi "RT" tweet aurretik retweet bat zela adierazteko. Ondoren, 2009an, Twitterek "retweet" botoia gehitu zuen. 2016ko ekainean, Twitter erabiltzaileek beren tweetak berreskura ditzakete (https://twitter.com/twitter/status/742749353689780224). Aldaketa horiek nola eragiten duten "retweets" erabiltzen duzu zure ikerketan? Zergatik edo zergatik ez?
[ , , , ] Oso eztabaidatu den paper batean, Michelek eta lankideek (2011) bost milioi liburu digitalizatu baino gehiagoren edukia aztertu dute epe luzeko joera kulturalak identifikatzeko. Erabilitako datuak orain Google NGrams datu-multzo bezala kaleratu dira, eta, beraz, datu batzuk erreproduzitu eta luzatu ahal izango ditugu.
Paperaren emaitzetako batean, Michelek eta lankideek argudiatu zuten azkarrago eta azkarrago ari garela. Urte jakin batean, esan "1883", 1875 eta 1975 urteen artean argitaratutako 1 gramoko proportzioa kalkulatu zuten. "1883". Arrazoitu zuten proportzio hori urte hartan gertatutako gertakarien interesaren neurria dela. 3a irudian, erabilera-ibilbideak hiru urtez landu zituzten: 1883, 1910, eta 1950. Hiru urte hauetan eredu komun bat eratzen dute: urtebete lehenago erabiltzen zen erabilera txikia, gero erorketa bat eta gero desintegrazioa. Ondoren, urte bakoitzeko desintegrazio-tasa kuantifikatzeko, Michelek eta lankideek urte bakoitzeko "bizi-erdia" kalkulatu zuten 1875 eta 1975 urteen artean. 3a irudian (inset), bakoitzaren erdi-bizitza erakutsi zuten Urte hori gero eta txikiagoa da, eta argudiatu dute iraganean ahaztu egiten dela azkarragoa eta bizkorragoa dela. Ingelesezko corpusaren 1. bertsioa erabili zuten, baina, ondoren, Googlek corpusaren bigarren bertsioa kaleratu du. Irakurri kodearen bidez hasi aurretik galdera guztien zatiak.
Jarduera honek idatzizko berrerabilgarriaren kodea landu ahal izango du, emaitzak interpretatu eta datuen bilaketan (adibidez, fitxategiak baldar eta fitxategiak falta direnean). Jarduera honek datu-multzo aberats eta interesgarria abiaraziko dizu.
Lortu Google Books NGram Viewer webguneko datu gordinak. Hain zuzen ere, ingelesezko corpusaren 2. bertsioa erabili beharko zenuke, 2012ko uztailaren 1ean kaleratu zen. Uncompressed, fitxategi hau 1.4GB da.
Michel et al. (2011) 3a irudiko zati nagusia berriro sortu Michel et al. (2011) . Irudi hau birsortzeko, bi fitxategiak beharko dituzu: partzialki deskargatu dituzun (a) eta "zenbaketa total" fitxategiak, proportzio handiak bihurtzeko erabili ahal izateko. Kontuan izan zenbateslearen fitxategi osoa irakur daitekeenez pixka bat gogorra izan daitekeen egitura. NGram datuen 2. bertsioak emaitza antzekoak ditu Michel et al. (2011) , 1 bertsioko datuetan oinarritzen dira?
Orain begiratu zure grafikoa NGram Viewer-ek sortutako grafikoaren aurka.
3. irudia biratu (irudi nagusia), baina aldatu \(y\) -axis gordinaren aipamen kopurua (ez aipamen-tasa).
B) eta (d) arteko desberdintasunak (Michel et al. (2011). Zergatik edo zergatik ez?
Orain, aipamenen proportzioa erabiliz, 3a irudian txertatzen den erreplika. Horrela, urte bakoitzeko 1875 eta 1975 urteen artean kalkulatu behar da. Bizitza erdia definitzen da, aipamenen proportzioak bere gailurra balio erdiaren aurretik igarotzen diren urte kopurua izan dadin. Kontuan izan Michel et al. (2011) Konplexutasun txikiagoa egiten du On-line Onarpenaren Informazioaren III.6 erdi-bizitza ikusteko, baina bi planteamenduek emaitza antzekoak dituzte. NGram datuen 2. bertsioak emaitza antzekoak ditu Michel et al. (2011) , 1 bertsioko datuetan oinarritzen dira? (Aholkua: ez zaizu harrituko, ez bada.)
Baziren garai hartan zenbait urtetan, esaterako, azkar edo bereziki ahaztuta ahaztutako urteak? Laburbilduz, eredu horren arrazoi posibleengatik eta zehaztu nola outliers identifikatu duzu.
Orain errepikatu emaitza hau Txinako, Frantziako, Alemaniako, hebreerazko, italierazko, errusiera eta gaztelaniazko NGramen datuen 2. bertsioan.
Hizkuntza guztietan zehar konparatuz, oraintxe bertan zeuden urteak zeuden, esaterako, bereziki ahaztuta edo batez ere ahaztutako urteak? Laburbilduz, eredu horren arrazoi posibleengatik.
[ , , , ] Penney (2016) esploratu NSA / PRISM zaintza (hau da, Snowden errebelazioa) buruzko publizitate hedatuaren 2013ko otsailean izan zen, artikulu artikuluak trafikoaren murrizketa zorrotz eta bat-bateko lotutako pribatutasun kezkak goratzeko lotutako ala ez. Hala bada, portaera aldaketak koherentea izango litzateke zaintza masiboaren ondorioz izandako eragin hotzarekin. Penney (2016) ikuspegia deitzen da etenaldiaren denbora-serieen diseinua, eta 2.4.3 atalean deskribatutako planteamenduekin lotzen da.
Gaiaren gako-hitzak hautatzeko, Penney-k AEBetako Homeland Security-en Segurtasun Sailak erabilitako zerrenda aipatzen du soziala jarraipena egiteko eta jarraipena egiteko. DHS zerrendak hainbat bilaketa-termino biltzen ditu hainbat gairi buruz, hau da, "Osasun arazoak", "Azpiegitura segurtasuna" eta "Terrorismoak". Talde-taldearentzat, Penneyk "Terrorismoari" lotutako 48 hitz erabiltzen ditu (ikus eranskina, 8. taulan). ). Wikipedia artikuluaren ikuspegiaren arabera, hilean behin 48 artikulu artikulu ditu hilero 32 hilabete baino gehiagokoak, 2012ko urtarrilaren hasieratik 2014ko abuztuaren amaierara arte. Argumentua sendotzeko, hainbat konparazio-talde sortu ditu jarraipena egiteko artikuluari buruzko beste ikuspegi batzuk.
Orain, Penney (2016) errepikatu eta zabaldu nahi duzu. Jarduera hau behar duten datu gordin guztiak Wikipedian erabilgarri egongo dira. Edo lortu dezakezu R-paketeen wikipediatrend (Meissner and R Core Team 2016) . Zure erantzunak idazten dituzunean, kontuan hartu zein datu erabiltzen zenuen iturburua. (Kontuan izan jarduera bera ere 6. kapituluan agertzen dela). Jarduera honek datu pila bat emango dizu datu-iturri handietan esperimentazio naturaletan pentsatu eta pentsatu. Gainera etorkizuneko proiektuetarako iturri potentzialki interesgarria izango duzu.
[ ] Efrati (2016) jakinarazi du informazio konfidentzialean oinarritzen dela Facebooken "guztizko partekatzea"% 5,5 urte Efrati (2016) zela eta "jatorrizko transmisio partekatzea"% 21 gutxiago izan zen urte artean. Beherakada hori 30 urte baino gutxiagoko Facebook erabiltzaileekin akutua izan zen. Txostenak bi faktoreren gainbehera egotzi dio. Bat "lagunek" Facebooken duten pertsonen hazkundea da. Bestela, partekatze-jarduera batzuek mezularitza eta Snapchat bezalako lehiakideetara aldatu dituzte. Txostenak ere hainbat trikimailu agerian utzi zituen Facebook-ek partekatzea bultzatu nahi izan zuen, besteak beste, News Feed-en algoritmoaren inguruko ttapaiak barne, jatorrizko mezuak nabarmenagoak direnak, eta "Eguneratu" eginiko jatorrizko mezuen aldizkako gogorarazpenak. Zer ondorio ditu, hala badagokio, datu horien iturburua Facebook-ek nola erabili nahi duten ikertzaileentzat?
[ ] Zer da soziologoa eta historialaria? Goldthorpe-ren (1991) , diferentzia nagusia datuen bilketa kontrolatzen du. Historialariek erlikiak erabiltzen dituzte behartuta, soziologoak datuen bilketa neurri zehatzetara egokitzeko. Irakurri Goldthorpe (1991) . Nola da soziologiaren eta historiaren arteko aldea mantentze eta prestatzeko ideiarekin?
[ ] Aurreko galderetan oinarritzen da. Goldthorpe (1991) erantzun kritiko batzuk atera zituen, besteak beste, Nicky Hart-ek (1994) , Goldthorpe-ren debozioa zalantzan jarri zuen neurrira egindako datuetara. Neurrira egindako datuen muga potentzialak argitzeko, Hartek Affluent Worker Proiektua deskribatu zuen, 1960ko hamarkadaren erdialdean, Goldthorpe eta lankideek egindako gizarte-klasearen eta botoaren arteko harremana neurtzeko inkesta handia. Datuen gaineko datu diseinatuen alde egindako ikerlari batek espero zezakeen moduan, Affluent Worker Proiektuak bildutako datuak biltzen ditu, klase sozialaren etorkizunari buruz proposatutako proposamena egitean, bizi-maila handiagoak lortzeko garaian. Alabaina, Goldthorpek eta lankideek nolabait "ahazten" dute emakumeen boto-portaeraren inguruko informazioa biltzeko. Hona hemen nola Nicky Hart (1994) laburbildu zuen atal osoa:
"... emakumeak bazter utzitako ondorioa saihestea zaila da," neurrira egindako "datu-multzo hori logistika paradigmatikoa zen, emakumezkoak esperientzia baztertuz. Klase kontzientziaren eta ekintzaren ikuspegi teorikoa bultzatuta, gizonezkoen kezkak ... Goldthorpek eta bere lankideek frogak enpiriko multzo bat eraiki zuten, beren hipotesi teorikoak elikatzen eta elikatzen baitzituzten egokitasun-proba frogatu beharrean ".
Hart jarraitu zuen:
"Affluent Worker Proiektuaren aurkikuntza enpirikoek XXI. Mendeko soziologiaren balio maskulinoei buruz gehiago informatzen dute estratifikazioaren, politikaren eta materialaren bizitzarako prozesuak".
Modu egokian egindako datu bildumak beste datu batzuk biltzen ditu datu biltzen dituen bilakaera? Nola gertatzen da konparazio algoritmikoarekin alderatuta? Zein ondorio izan litezke prest ikertzaileak prestatzeko eta gortinak erabiltzeko orduan?
[ ] Kapitulu honetan, enpresek eta gobernuek sortutako erregistro administratiboak ikertzaileek biltzen dituzten datuak kontrastatu ditut. Pertsona batzuek "datu aurkitutako" erregistro administratibo deitzen diete, "diseinatutako datuekin" kontrastatuta daude. Egia da administratzaileek ikertzaileek aurkitu dituztela baina oso diseinatuta daude. Esate baterako, teknologiako enpresa modernoek oso lan egiten dute beren datuak biltzeko eta sendatzeko. Horrela, erregistro administratiboak biak aurkitu eta diseinatu dira, zure ikuspegitik soilik araberakoa izango da (2.12 irudia).
Emandako datu-iturrien adibide bat eskaintzen du, non aurkitu eta diseinatu den ikusteko lagungarria da datu-iturri hori ikerketarako erabiltzen denean.
[ ] Christian Sandvig eta Eszter Hargittai (2015) saiakera zorrotz batean bi ikerketa mota bereizten dira, sistema digitala "tresna" edo "azterketa objektiboa" den ala ez kontuan hartuta. Sistema lehenesten duen adibide bat da. Bengtssonek eta lankideek (2011) egindako ikerketa bat da 2010ean Haitiko lurrikararen ondoren migrazioaren jarraipena egiteko telefono mugikorraren datuak erabiliz. Bigarren motako adibide bat (non sistema azterketa objektua den) Jensenen ikerketa da (2007) , Kerala merkatu mugikorren aurkezpenean, Indianek arrainaren merkatuaren funtzionamendua eragin zuen. Ezberdintasun hori topatzen dut, datu digitalak erabiltzen dituzten azterketek helburu desberdinak dituztela argudiatzen baitu datu iturri berdinak erabiltzen ari diren arren. Distantzia hori argitzeko, lau ikertu dituzu: bi sistema digitala erabiltzen duten tresnak eta bi sistema digitala erabiltzen dutenak. Kapitulu honetako adibideak erabil ditzakezu nahi baduzu.