[ , ] Algoritma konflikto estis problemo kun Google Flu Trends. Legu la paperon de Lazer et al. (2014) , kaj skribu mallongan kaj klaran retpoŝton al inĝeniero ĉe Google klarigante la problemon kaj proponante ideon pri kiel ripari ĝin.
[ ] Bollen, Mao, and Zeng (2011) asertas, ke datumoj de Twitter povas esti uzataj por antaŭdiri la sakon. Ĉi tiu trovo kondukis al la kreado de hege fundo - Derwent Capital Markets - por investi en sako bazita sur datumoj kolektitaj de Twitter (Jordan 2010) . Kiun evidentecon vi volus vidi antaŭ ol meti vian monon en tiu fundo?
[ ] Dum kelkaj publikaj sanaj defendantoj konsideras e-cigaredojn efikan helpon por fumado, aliaj avertas pri la eblaj riskoj, kiel ekzemple la altaj niveloj de nikotino. Imagu, ke esploristo decidas studi publikan opinion al e-cigaredoj kolektante retpoŝtajn poŝtojn de e-cigaredoj kaj realigi analizon de sentoj.
[ ] En novembro 2009, Twitter ŝanĝis la demandon en la tweet-skatolo de "Kion vi faras?" Al "Kio okazas?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" ofte estas uzataj por mezuri influon kaj disvastiĝon de influo en Twitter. Komence, la uzantoj devis kopii kaj bati la tweet, kiun ili ŝatis, etikedi la originalan aŭtoron kun sia / a tenilo, kaj permane tajpi "RT" antaŭ la tweet por indiki ke ĝi estis retweet. Tiam, en 2009, Twitter aldonis "retweet" butonon. En junio 2016, Twitter ebligis al la uzantoj retuzi siajn proprajn tweets (https://twitter.com/twitter/status/742749353689780224). Ĉu vi opinias, ke ĉi tiuj ŝanĝoj devus influi kiel vi uzas "retweets" en via esplorado? Kial aŭ kial ne?
[ , , , ] En diskutata papero, Michel kaj kolegoj (2011) analizis la enhavon de pli ol kvin milionoj da ciferecaj libroj en provo identigi longtempe kulturajn tendencojn. La datumoj, kiujn ili uzis, nun estis liberigitaj kiel la datumbazo de Google NGrams, do ni povas uzi la datumojn por repliki kaj etendi iom da ilia laboro.
En unu el la multaj rezultoj en la papero, Michel kaj kolegoj argumentis, ke ni forgesas pli rapide kaj pli rapide. Dum aparta jaro, ili diras "1883", ili kalkulis la proporcion de 1-gramoj publikigitaj ĉiun jaron inter 1875 kaj 1975, kiuj estis "1883". Ili rezonis, ke ĉi tiu proporcio estas mezuro de la intereso pri eventoj okazintaj en tiu jaro. En ilia figuro 3 a, ili ekpensis la uzadajn trajektorojn dum tri jaroj: 1883, 1910 kaj 1950. Ĉi tiuj tri jaroj dividas komunan ŝablonon: malmulte da uzado antaŭ tiu jaro, tiam spiko, tiam malkresko. Poste, por kalkuli la kurzon de dekadenco por ĉiu jaro, Michel kaj kolegoj kalkulis la "duonan vivon" de ĉiu jaro dum ĉiuj jaroj inter 1875 kaj 1975. En ilia figuro 3a (inseto), ili montris, ke la duon-vivo de ĉiu jaro malpliiĝas, kaj ili argumentis, ke tio signifas, ke ni forgesas la pasintecon pli rapide kaj pli rapide. Ili uzis Version 1 de la angla lingvo-corpus, sed poste Google ĵetis duan version de la corpus. Bonvolu legi ĉiujn partojn de la demando antaŭ ol vi komencu kodigon.
Ĉi tiu aktiveco donos al vi praktikon skribi reutilizan kodon, interpreti rezultojn, kaj datumŝanĝadon (kiel laborante kun malplenaj dosieroj kaj uzado de mankantaj datumoj). Ĉi tiu agado ankaŭ helpos vin leviĝi kaj kurante kun riĉa kaj interesa datumbazo.
Akiru la krudan datumon de la retejo de Google Books NGram Viewer. En aparta, vi devas uzi version 2 de la angla lingvo-corpus, kiu estis publikigita la 1-an de julio 2012. Nekompremita, ĉi tiu dosiero estas 1.4GB.
Amuzi la ĉefan parton de la figuro 3Al de Michel et al. (2011) . Por amuzi ĉi tiun figuron, vi bezonos du dosierojn: la unu, kiun vi elŝutis en parto (a) kaj la "totalaj grafoj" dosiero, kiun vi povas uzi por konverti la krudajn kalkulojn en proporciojn. Rimarku, ke la tuta kalkulilo havas strukturon, kiu povas iomete malfacile legi ĝin. Ĉu versio 2 de la NGram-datumoj produktas similajn rezultojn al tiuj prezentitaj en Michel et al. (2011) , kiuj bazas en la versio 1-datita?
Nun kontrolu vian grafikon kontraŭ la grafikaĵo kreita de la NGram Viewer.
Amu la figuron 3a (ĉefa figuro), sed ŝanĝi la \(y\) -axis por esti la prima mencio (ne la indico de mencioj).
Ĉu la diferenco inter (b) kaj (d) kondukas vin reevalui iujn el la rezultoj de Michel et al. (2011). Kial aŭ kial ne?
Nun, uzante la proporcion de mencioj, replikas la bildon de figuro 3a. Tio estas, por ĉiu jaro inter 1875 kaj 1975, kalkuli la duonan vivon de tiu jaro. La duon-vivo estas difinita kiel la nombro de jaroj pasantaj antaŭ ol la proporcio de mencioj atingas duonon de ĝia plej alta valoro. Notu, ke Michel et al. (2011) faras ion pli komplikan taksi la duonan vivon-vidi sekcion III.6 de la Subtenanta Enretaj Informoj-sed ili asertas, ke ambaŭ aliroj produktas similajn rezultojn. Ĉu versio 2 el la NGram-datumoj produktas similajn rezultojn al tiuj prezentitaj en Michel et al. (2011) , kiuj bazas en la versio 1-datita? (Konsilo: Ne surpriziĝu, se ĝi ne.)
Ĉu ekzistis iuj jaroj, kiuj estis eksterordinaraj kiel jaroj, kiuj forgesis precipe rapide aŭ precipe malrapide? Rapide spekulas pri eblaj kialoj por tiu ŝablono kaj klarigu kiel vi identigis la eksterulojn.
Nun repliku ĉi tiun rezulton por la versio 2 de la datumoj de NGrams en ĉina, franca, germana, hebrea, itala, rusa kaj hispana.
Komparante ĉiujn lingvojn, ĉu ekzistas iuj jaroj, kiuj estis forgesitaj, kiel ekzemple jaroj forgesitaj precipe rapide aŭ precipe malrapide? Rapide spekulas pri eblaj kialoj por tiu ŝablono.
[ , , , Penney (2016) esploris ĉu la etendita publikeco pri la viglado de NSA / PRISM (tio estas, la Snowden-revelacioj) en junio 2013 estis asociita kun akra kaj subita malkresko en trafiko al Vikipedio artikoloj pri temoj kiuj levas zorgojn pri privateco. Se do, ĉi tiu ŝanĝo en konduto estus konsekvenca kun malvarmeta efiko rezultanta de masa viglado. La aliro de Penney (2016) foje estas nomata interrompita serio-tempa dezajno, kaj ĝi rilatas al la aliroj priskribitaj en sekcio 2.4.3.
Por elekti la temon ŝlosilvortojn, Penney raportis al la listo uzata de la Sekcio de Hejma Sekureco de Usono por spuri kaj monitori sociajn amaskomunikilarojn. La listo de DHS kategorias iujn serĉajn terminojn en diversajn demandojn, ekzemple "Health Concern", "Infrastrukturo-Sekureco" kaj "Terorismo". Por la studenta grupo, Penney uzis la 48 ŝlosilvortojn rilatigitaj kun "Terorismo" (vidu apendico tablo 8 ). Li tiam agregita Vikipedio-artikolo-bildon havas monatan bazon por la respondaj 48 artikoloj de Vikipedio dum 32-jara periodo, de la komenco de januaro 2012 ĝis la fino de aŭgusto 2014. Por plifortigi sian argumenton, li ankaŭ kreis plurajn komparecojn per sekvado artikolo vidojn pri aliaj temoj.
Nun vi replikos kaj plilongigos Penney (2016) . Ĉiuj krudaj datumoj, kiujn vi bezonos por ĉi tiu agado, estas disponeblaj de Vikipedio. Aŭ vi povas akiri ĝin de la R-pakaĵo wikipediatrend (Meissner and R Core Team 2016) . Kiam vi skribas viajn respondojn, bonvolu rimarki, kian datumon vi uzis. (Rimarku, ke ĉi tiu sama aktiveco ankaŭ aperas en ĉapitro 6.) Ĉi tiu aktiveco donos al vi praktikadon en datumfluado kaj pensado pri naturaj eksperimentoj en grandaj datumoj. Ĝi ankaŭ akiros vin kaj kurante kun potenciale interesa fonto por futuraj projektoj.
[ ] Efrati (2016) raportis, bazita sur konfidaj informoj, ke "totalaj interŝanĝoj" en Facebook malpliiĝis ĉirkaŭ ĉirkaŭ 5.5% jare dum "originala elsendo" estis malpli ol 21% jaro super jaro. Ĉi tiu malkresko estis aparte akra kun Facebook uzantoj malpli ol 30 jarojn. La raporto atribuis la malkreskon al du faktoroj. Unu estas la kresko en la nombro da "amikoj" homoj havas sur Facebook. La alia estas, ke kelkaj partoprenantaj aktivecoj moviĝis al mesaĝado kaj al konkursantoj kiel ekzemple Snapchat. La raporto ankaŭ malkaŝis la plurajn taktikojn de Facebook provis plifortigi la interŝanĝadon, inkluzive de novaĵoj pri algoritmo de News Feed, kiuj faras originojn pli elstarajn, kaj ankaŭ periodajn rememorigilojn de la originalaj afiŝoj kun la karakterizaĵo "Ĉi tiu Tago". Kiujn implikaĵojn, se iuj, ĉu ĉi tiuj trovoj havas por esploristoj, kiuj volas uzi Facebook kiel fonto de datumoj?
[ ] Kio diferenco inter sociologo kaj historiisto? Laŭ Goldthorpe (1991) , la ĉefa diferenco estas kontrolo pri datuma kolekto. Historiistoj estas devigitaj uzi relikvojn, dum sociologoj povas tajpi ilian datumkolekton al specifaj celoj. Legu Goldthorpe (1991) . Kiel estas la diferenco inter sociologio kaj historio rilatigita kun la ideo de kutimoj kaj legoj?
[ ] Ĉi tiu verko sur la antaŭa serĉo. Goldthorpe (1991) tiris kelkajn kritikajn respondojn, inkluzive de unu el Nicky Hart (1994) kiu defiis la devotecon de Goldthorpe al tajloro farita datumoj. Por klarigi la potencialajn limigojn de tajloritaj datumoj, Hart priskribis la Alfluantan Laboriston-Projekto, grandan enketon por mezuri la rilaton inter socia klaso kaj balotado, kiu estis realigita fare de Goldthorpe kaj kolegoj meze de la sesdekaj jaroj. Kiel oni povus atendi de fakulo, kiu favoris datumojn de datumoj trovitaj, la Alfluanta Laborista Projekto kolektis datumojn, adaptitajn por trakti ĵus proponitan teorion pri la estonteco de socia klaso en epoko de pliiĝantaj vivaj normoj. Sed, Goldthorpe kaj kolegoj iel forgesis kolekti informojn pri la voĉdonado de virinoj. Jen kiel Nicky Hart (1994) resumis la tutan epizodon:
"... ĝi estas malfacile eviti la konkludon, ke virinoj estis preterlasitaj, ĉar ĉi tiu" datumilo de datumoj "estis limigita per paradigma logiko, kiu ekskludis virinan sperton. Funkciigita de teoria vidado de klaskonscienco kaj agado kiel maskraj maltrankviloj ..., Goldthorpe kaj liaj kolegoj konstruis aron da empiriaj pruvoj, kiuj nutris kaj nutris siajn proprajn teoriajn supozojn anstataŭ elmontri ilin al valida provo de taŭgeco. "
Hart daŭrigis:
"La empiroj de la Projekto pri Alfluaj Laboristoj rakontas al ni pli pri la maskismaj valoroj de meza jarcento-sociologio ol ili informas la procezojn de estratigo, politiko kaj materiala vivo."
Ĉu vi povas pensi pri aliaj ekzemploj, kie tajlitaj datumoj-kolekto havas la antaŭjuĝojn de la datumkolektisto enmetita al ĝi? Kiel ĉi tio komparas al algoritma konflikto? Kio efikoj povus ĉi tio por kiam esploristoj devus uzi legojn kaj kiam ili devus uzi custommades?
[ ] En ĉi tiu ĉapitro, mi kontrastis datumojn kolektitajn de esploristoj por esploristoj kun administraj registroj kreitaj de kompanioj kaj registaroj. Iuj homoj nomas tiujn administrajn registrojn "trovitajn datumojn", kiujn ili kontrastas kun "dizajnitaj datumoj". Estas vere, ke administrantaj registroj estas trovitaj de esploristoj, sed ili ankaŭ estas tre dizajnitaj. Ekzemple, modernaj teknikaj kompanioj laboras tre malfacile kolekti kaj kuraci iliajn datumojn. Tiel, ĉi tiuj administraj registroj estas ambaŭ trovitaj kaj desegnitaj, ĝi nur dependas de via perspektivo (figuro 2.12).
Provizu ekzemplon de datuma fonto, kie vidante ĝin ambaŭ kiel trovita kaj desegnita estas helpema uzinte tiun datuman fonton por esplorado.
[ ] En pensa provo, Christian Sandvig kaj Eszter Hargittai (2015) dividas ciferecajn esplorojn en du larĝajn kategoriojn depende ĉu la cifereca sistemo estas "instrumento" aŭ "objekto de studo." Ekzemplo de la unua speco, kie la sistemo estas instrumento-estas la esplorado fare de Bengtsson kaj kolegoj (2011) pri uzado de poŝtelefonoj por spuri migradon post la tertremo en Haitio en 2010. Ekzemplo de la dua speco, kie la sistemo estas celo de studado, estas esplorado de Jensen (2007) pri kiel la enkonduko de poŝtelefonoj tra Kerala, Barato impactis la funkciadon de la merkato por fiŝoj. Mi trovas ĉi tiun distingon helpema ĉar ĝi klarigas, ke studoj uzante ciferecajn datumojn povas havi sufiĉe malsamajn celojn eĉ se ili uzas la saman tipon de datumoj. Por plifoje klarigi ĉi tiun distingon, priskribu kvar studojn, kiujn vi vidis: du kiuj uzas ciferecan sistemon kiel instrumenton kaj du, kiuj uzas ciferecan sistemon kiel celon de studo. Vi povas uzi ekzemplojn de ĉi tiu ĉapitro, se vi volas.