aktivecoj

Tiu traduko estis kreitaj de komputilo. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

aktivecoj

Ŝlosilo:

grado de malfacileco: facila , mediumo , malmola , tre malfacile
postulas matematiko ( $postulas matematiko$ )
postulas kodigon ( )
datenkolektado ( )
miaj favoritos ( )

[ , ] Algoritma konfuzante estis problemo kun Google Flu Trends. Legi la papero de Lazer et al. (2014) , kaj skribi mallongan, klaran retpoŝto al inĝeniero ĉe Google klarigas la problemon kaj proponante ideo de kiel ripari la problemon.
[ ] Bollen, Mao, and Zeng (2011) asertas ke datumoj de Twitter povas esti uzata por antaŭdiri la borso. Tiu trovo kaŭzis la kreadon de heĝo fonduso-Derwent Capital Markets-investi en la proviza merkato bazita sur datumoj kolektitaj de Twitter (Jordan 2010) . Kio evidentigas vi volas vidi antaŭ meti vian monon en tiu fondaĵo?
[ ] Dum kelkaj publika sano pledantoj hajlo elektronika cigaredoj kiel efika helpo por fumado ĉeso, aliaj avertas pri la eblaj riskoj, kiel ekzemple la alta niveloj de nikotino. Imagu ke esploristo decidas studi publika opinio al elektronika cigaredojn kolektante elektronika cigaredoj-rilataj Twitter afiŝojn kaj faranta senton analizo.
1. Kio estas la tri eblaj antaŭjuĝoj kiujn vi plej maltrankviligita en tiu studo?
2. Clark et al. (2016) kuris nur tia studo. Unue, ili kolektis 850,000 tuits kiu uzis e-cigaredon-rilataj ŝlosilvortoj de januaro 2012 tra decembro 2014. Sur pli proksima inspektado, ili rimarkis ke multaj de ĉi tiuj tuits estis aŭtomatigitaj (te, ne produktitaj fare de homoj) kaj multaj de ĉi tiuj aŭtomatigitaj tuits estis esence reklamvideoj. Ili evoluigis Homaj Detection Algorithm disigi aŭtomatigita tweets de organika tweets. Uzante tiu Homaj Detekti Algoritmo ili trovis ke 80% de tweets estis aŭtomatigitaj. Ĉu tiu trovo ŝanĝi vian respondon al parto (al)?
3. Kiam komparis la senton en organika kaj aŭtomatigita tweets ili trovis ke la aŭtomatigita tweets estas pli pozitiva ol organika tweets (6,17 kontre 5.84). Ĉu tiu trovo ŝanĝi vian respondon al (b)?
[ ] En novembro 2009, Twitter ŝanĝis la demando en la tuit skatolo el "Kion vi faras?" Al "Kio okazas?" (Https://blog.twitter.com/2009/whats-happening).
1. Kiel vi pensas la ŝanĝo de instigas influos kiuj kvivit kaj / aŭ kion ili tweet?
2. Nomu unu esplorprojekto por kiuj vi preferus la prompto "Kion vi faras?" Klarigu kial.
3. Nomu unu esplorprojekto por kiuj vi preferus la prompto "Kio okazas?" Klarigu kial.
[ ] Kwak et al. (2010) analizis 41.7 milionoj uzanto profiloj, 1.47 miliardoj sociaj rilatoj, 4262 trending topics, kaj 106 milionoj de tweets inter junio 6a kaj junio 31, 2009. Bazita sur ĉi analizo finis ke Twitter funkcias pli kiel nova meza de informo dividanta ol socia reto.
1. Konsiderante Kwak et al la trovo, kio tipo de esploro vi farus kun Twitter datumoj? Kio tipo de esplorado ĉu vi ne agos kun Twitter datumoj? Kial?
2. En 2010, Twitter aldonis Kiu sekvi servo farante adaptita sugesto al uzantoj. Tri rekomendoj montriĝas samtempe en la ĉefpaĝo. Rekomendoj estas ofte desegnitaj de onia "amikoj-de-amikoj," kaj reciprokaj kontaktoj ankaŭ montriĝas en la rekomendo. Uzantoj povas refreŝigi vidi novan aron de rekomendoj aŭ vizitas paĝon kun longa listo de rekomendoj. Vi opinias tiun novan karakterizaĵon devus ŝanĝi vian respondon al parto al)? Kial aŭ kial ne?
3. Su, Sharma, and Goel (2016) taksis la efikon de Who To Sekvu servo kaj trovis ke dum uzantoj tra la populareco spektro profitis el la rekomendoj, la plej populara uzantoj profitis substance pli ol mezumo. Ĉu tiu trovo ŝanĝi vian respondon al parto b)? Kial aŭ kial ne?
[ ] "Retweets" estas ofte uzita por mezuri influo kaj disvastigi influon en Twitter. Komence, uzantoj devis kopii kaj almeti la tweet ili ŝatis, donu la originala aŭtoro kun lia / ŝia anso, kaj permane tajpi "RT" antaŭ la tweet por indiki ke ĝi estas retweet. Tiam, en 2009 Twitter aldonis "retweet" butonon. En junio 2016, Twitter ebligis uzantoj retweet ilian propran tweets (https://twitter.com/twitter/status/742749353689780224). Ĉu vi pensas ĉi tiujn ŝanĝojn devus influi kiel vi uzas "retweets" en via esploro? Kial aŭ kial ne?
[ , , ] Michel et al. (2011) konstruis corpus travivinte Google penon diĝitigi libroj. Uzante la unua versio de la korpuso, kiu estis eldonita en 2009 kaj enhavis super 5 milionoj digitalizado libroj, la aŭtoroj analizis vorto uzado ofteco esplori lingvajn ŝanĝojn kaj kulturaj tendencoj. Baldaŭ la Google Books Tekstaro iĝis populara datumfonto por esploristoj kaj 2nd versio de la datumbazo estis liberigita en 2012.

Tamen Pechenick, Danforth, and Dodds (2015) avertis ke esploristoj devas plene karakterizi la muestreo procezo de la korpuso antaŭ uzi ĝin por desegni larĝajn konkludojn. La ĉefa afero estas, ke la tekstaro estas biblioteko-simila, enhavanta unu el ĉiu libro. Kiel rezulto, individuo, fekunda aŭtoro povas rimarkinde enmeti novajn frazojn en la Google Books leksikon. Cetere, sciencaj tekstoj konsistigas ĉiufoje substantiva parto de la korpuso tra la 1900-aj jaroj. Krome, komparante ambaŭ versioj de la angla Fikcio datumaroj Pechenick et al. trovis indicon ke nesufiĉa filtrado estis uzita en produktado de la unua versio. Ĉiujn datumojn bezonis por aktiveco estas havebla ĉi tie: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. En Michel et al. La origina papero (2011) , oni uzis la 1a versio de la angla datumserio, komplotis la ofteco de uzado de la jaroj "1880", "1912" kaj "1973", kaj finis ke "ni estas forgesante niaj pasintaj rapida kun ĉiu pasanta jaro "(Fig. 3A, Michel et al.). Repliki la sama intrigo uzanta 1) 1st versio de la korpuso, angla datumaro (sama kiel Fig. 3A, Michel et al.)
2. Nun repliki la sama intrigo kun la 1-a versio, angla fikcio datumaro.
3. Nun repliki la sama intrigo kun la 2a versio de la korpuso, angla datumaro.
4. Fine, repliki la sama intrigo kun la 2a versio, angla fikcio datumaro.
5. Priskribi la diferencojn kaj similecojn inter tiuj kvar intrigoj. Ĉu vi konsentas kun Michel et al. La origina signifo de la observita tendenco? (Indiko: c) kaj d) devas esti la sama kiel Figuro 16 en Pechenick et al.)
6. Nun ke vi multobliĝas ĉi tiu trovo uzante malsamaj Google Books korpusoj, elektu alian lingvan ŝanĝon aŭ kulturaj fenomenoj prezentita en Michel et al. La origina papero. Ĉu vi konsentas kun ilia interpretado en lumo de la limigoj prezentita en Pechenick et al.? Fari vian argumenton pli forta, provu repliki la sama grafeo uzanta malsamajn versiojn de datuma aro kiel supre.
[ , , , ] Penney (2016) esploras ĉu la ĝeneraligitan diskonigo pri LSA / PRISM viglado (te la Snowden riveloj) en junio 2013 estas asociita kun akra kaj subita malkresko en trafiko al Vikipedio artikolojn pri temoj kiuj levi privateco konzernojn. Se jes, tiu ŝanĝo en konduto estus kohera kun escalofriante efekto rezultanta de maso viglado. La alproksimiĝo de Penney (2016) estas iam nomita interrompita tempo serio dezajno kaj estas rilatigita kun la aliroj en la ĉapitro pri aproksimanta eksperimentoj de observaj datumoj (Sekcio 2.4.3).

Elekti la temon ŝlosilvortoj, Penney referita al la lerta uzita de Usono Sekcio de Ŝtatsekureco por spurado kaj monitoranta socia amaskomunikilaro. La DHS listo klasifikas certaj serĉvorton en gamo da temoj, te "Sano Zorgiga" "Infrastrukturo Sekureco" kaj "terorismo". Por la grupo de studo, Penney uzata la kvardek-ok ŝlosilvortoj rilataj al "terorismo" (vidu Tabelon 8 apendico). Li tiam agregita Vikipedia artikolo vido havas monata bazo por la responda kvardek ok Vikipedio artikoloj super tridek du monata periodo, de la komenco de januaro 2012 ĝis la fino de aŭgusto 2014. Por fortigi lian argumenton, li ankaŭ kreis plurajn komparo grupoj de sekvado artikolo opiniojn pri aliaj temoj.

Nun, vi tuj repliki kaj etendi Penney (2016) . Ĉiuj krudaj datumoj kiuj vi bezonos por tiu aktiveco estas havebla de Vikipedio (https://dumps.wikimedia.org/other/pagecounts-raw/). Aŭ vi povas akiri ĝin de la R pakaĵo wikipediatrend (Meissner and Team 2016) . Kiam vi skribas-supre via respondojn, bonvolu noti ke datumfonto vi uzis. (Noto: Ĉi tiu aktiveco ankaŭ aperas en ĉapitro 6)
1. Legi Penney (2016) kaj repliki Figuro 2 kiu montras la paĝojn por "terorismo" -related paĝojn antaŭ kaj post la Snowden revelacio. Interpreti la trovoj.
2. Sekva, repliki Figo 4Al, kiu komparas la studo grupo ( "terorismo" -related artikoloj) kun comparador grupo uzante ŝlosilvortoj _categorized_ sub "DHS & Aliaj Agentejoj" de la DHS listo (vidu Appendix Tabelo 10). Interpreti la trovoj.
3. Parte b) vi komparis la studo grupo al unu comparador grupo. Penney ankaŭ kompare al du aliaj comparador grupoj: "Infrastrukturo Sekureco" -related artikoloj (Apendico Tabelo 11) kaj populara Vikipedio paĝojn (Apendico Tabelo 12). Elpensi alternativan comparador grupo, kaj provi se la trovoj de parto b) estas sentema al via elekto de comparador grupo. Kiu elekto de comparador grupo faras plej senco? Kial?
4. La aŭtoro deklaris ke ŝlosilvortoj rilatante al "terorismo" estis uzata por elekti la Vikipedia artikoloj ĉar la usona registaro citis terorismon kiel ŝlosila pravigon por liaj rete viglado praktikoj. Kiel ĉekon el tiuj 48 "terorismo" -related ŝlosilvortoj, Penney (2016) ankaŭ faris enketon sur MTurk petante respondantoj taksas ĉiun de ŝlosilvortoj en terminoj de Registaro Trouble, Privateco-Sentema kaj Antaŭzorgo (Apendico Tabelo 7 kaj 8). Repliki la enketo sur MTurk kaj kompari viajn rezultojn.
5. Bazita sur la rezultoj delvis d) kaj via legado de la artikolo, vi konsentas kun la aŭtora elekto de temo ŝlosilvortoj en la studo grupo? Kial aŭ kial ne? Se ne, kion vi sugestas anstataŭe?
[ ] Efrati (2016) raportoj, bazita sur konfidenca informo, ke "totala sharing" en Facebook malkreskis de proksimume 5.5% jaron sur jaro dum "originala elsendo sharing" subiris 21% jaro sur jaro. Tiu malkresko estis aparte akra kun Facebook uzantoj sub 30 jaroj de aĝo. La raporto atribuis la malkreskon al du faktoroj. Unu estas la kresko en la nombro de "amikoj" homoj havas en Facebook. La alia estas, ke kelkaj interŝanĝo aktiveco delokis al messaging kaj competidores kiel Snapchat. La raporto ankaŭ rivelis la pluraj taktikoj Facebook provis akceli sharing, inkluzive Novaĵoj Feed algoritmo retuŝojn kiuj originalan afiŝojn pli elstaraj, krom fojfoja recordatorios de la originala afiŝojn uzantoj "Sur tiu tago" pluraj jaroj. Kio implikaĵoj, se entute, ne tiuj trovoj havas por esploristoj kiuj volas uzi Facebook kiel datumfonto?
[ ] Tumasjan et al. (2010) raportis ke proporcio de tweets mencianta politika partio egalita la proporcio de voĉdonoj kiujn partio ricevis en la germana parlamenta balotado en 2009 (Figuro 2.9). Alivorte, ĝi aperis ke vi povis uzi Twitter por antaŭdiri la elekto. Tiutempe tiu studo estis eldonita konsideris ege ekscita ĉar ĝi ŝajnis sugesti valoran uzon por komuna fonto de grandaj datumoj.

Donita la malbona karakterizaĵoj de grandaj datumoj, tamen, vi devas tuj esti skeptika de ĉi tiu rezulto. Germanoj sur Twitter en 2009 estis sufiĉe ne-reprezentan grupon, kaj subtenantoj de unu partio povus tweet pri politiko pli ofte. Tiel, ŝajnas surprize, ke ĉiuj eblaj antaŭjuĝoj kiujn vi povus imagi iel nuligas. Fakte, la rezultoj en Tumasjan et al. (2010) rezultis esti tro bona esti vera. En sia papero, Tumasjan et al. (2010) konsiderita ses politikaj partioj: kristandemokratoj (CDU), kristana Socialdemokratoj (CSU), SPD, Liberaluloj (FDP), La Maldekstra (Die Linke), kaj la Verda Partio (Grüne). Tamen, la plej menciita germana politika partio sur Pepi tiutempe estis la Piratpartio (Piraten), partio kiu batalo registaro regulado de Interreto. Kiam la Piratpartio estis inkluditaj en la analizo, Twitter mencioj fariĝas terura antaŭdiron de balotrezultoj (Figuro 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figuro 2.9: Twitter mencioj ŝajnas antaŭdiri la rezultojn de la 2009 germana elekto (Tumasjan et al. 2010) , sed tiu rezulto rezultas dependas de iu arbitra kaj nepravigebla elektoj (Jungherr, Jürgens, and Schoen 2012) .

Poste, aliaj esploristoj tutmonde uzis amatoro metodoj -kiel uzante sento analizo distingi inter pozitiva kaj negativa mencioj de la partioj-por plibonigi la kapablon de Twitter datumoj antaŭdiri gamon da malsamaj specoj de elektoj (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Jen kiel Huberty (2015) resumis la rezultojn de tiuj provoj antaŭdiri elektoj:

"Ĉiuj scias prognozanta metodoj bazitaj sur socia amaskomunikilaro malsukcesis kiam submetita al la postuloj de vera antaŭen-aspekta voĉdona prognozanta. Tiuj fiaskoj ŝajnas esti pro fundamentaj propraĵoj de sociaj rimedoj, prefere ol al metodika aŭ algoritma malfacilaĵoj. Mallonge, sociaj amaskomunikiloj ne, kaj probable neniam estos, proponi stabila, nedekliva, reprezenta bildo de la balotantaro; kaj oportuneco specimenoj de sociaj amaskomunikiloj mankis sufiĉaj datumoj por fiksi tiujn problemojn afiŝi hoc. "

Legi iuj de la esploro kiu kondukas Huberty (2015) al tiu konkludo, kaj skribi unu paĝo memo al politika kandidato priskribanta se kaj kiom Twitter uziĝu prognozi elektoj.
[ ] Kio estas la diferenco inter sociologo kaj historiisto? Laŭ Goldthorpe (1991) , la ĉefa diferenco inter sociologo kaj historiisto estas kontrolon super datumoj kolekto. Historiistoj estas devigataj uzi relikvoj dum sociologoj povas adapti ilian datenkolektado por specifaj celoj. Legi Goldthorpe (1991) . Kiamaniere la diferenco inter sociologio kaj historio rilatigita kun la ideo de Custommades kaj Readymades?
[ ] Konstruante sur la antaŭa demando, Goldthorpe (1991) tiris kelkaj kritikaj respondoj, inkludante unu el Nicky Hart (1994) , kiu defiis Goldthorpe devoteco tajlori faris datumoj. Klarigi la eblajn limojn de tajloro-farita datumoj, Hart priskribis la alfluanto Worker Projekto, granda enketo por mezuri la rilaton inter socia klaso kaj balotado kiu estis kondukita fare Goldthorpe kaj kolegoj en la mez-1960-aj jaroj. Kiel oni povus atendi de erudiciulo kiu favoris desegnita datumoj super trovis datumojn, la alfluanto Worker Projekto kolektita datumo kiu estis adaptita por trakti ĵus proponis teorion pri la estonteco de socia klaso en epoko de kreskantaj vivniveloj. Sed, Goldthorpe kaj kolegoj iel "forgesis" kolekti informojn pri la balotado konduto de virinoj. Jen kiel Nicky Hart (1994) Resumoj la tuta epizodo:

". . . ĝi [estas] malfacile eviti la konkludon ke virinoj estis preterlasita pro tiu 'tajloro faris' dataset estis ligitaj per paradigmática logiko kiu ekskludis ino sperto. Pelita de teoria vizio klaso konscio kaj ago kiel viraj maltrankviloj. . . , Goldthorpe kaj liaj kolegoj konstruis aron de empiriaj pruvoj kiuj nutris kaj nutris sian propran teorian supozoj anstataŭ elmontri ilin al valida provo de taŭgeco. "

Hart daŭrigis:

"La empiriaj rezultoj de la alfluanto Worker Projekto diras nin pli sur la masculinist valoroj de mezjarcento sociologio ol informi la procezoj de tavoliĝo, politiko kaj materiala vivo."

Povas vin pensas de aliaj ekzemploj kie tajloro-farita datenkolektado havas la antaŭjuĝoj de la datumoj kolektanto konstruita en ĝin? Kiel ĉi kompari al algoritma konfuzante? Kio implikaĵoj cxu tio havas por kiam esploristoj devus uzi Readymades kaj kiam ili devus uzi Custommades?
[ ] En ĉi tiu ĉapitro, mi kontrastis datumoj kolektitaj de esploristoj por esploristoj kun administraj registroj kreita de entreprenoj kaj registaroj. Kelkaj homoj nomas tiujn administrajn rekordojn "trovis datumojn," kiun ili kontrastas kun "desegnita datumojn." Estas vere, ke administraj registroj estas trovita de esploristoj, sed ili estas ankaŭ tre desegnita. Ekzemple, moderna teknologio kompanioj elspezi enormajn kvantojn de tempo kaj rimedoj por kolekti kaj helppastro liajn datumojn. Tiel, tiuj administraj registroj estas ambaŭ trovitaj kaj desegnita, Ĝi nur dependas sur via perspektivo (Figuro 2.10).

Figuro 2.10: La bildo estas ambaŭ anaso kaj kuniklo; kion vi vidas dependas de via perspektivo. Registaro kaj negoco administraj registroj estas ambaŭ trovitaj kaj desegnita; kion vi vidas dependas de via perspektivo. Ekzemple, la alvokon datumoj registroj kolektitaj de poŝtelefono kompanio troviĝas datenoj de la perspektivo de esploristo. Sed, tiuj ĝusta sama registroj estas desegnitaj datumoj perspektivo de iu kiu laboras en la facturación fako de la telefono kompanio. Fonto: Vikipedio

Provizas ekzemplon de datumfonto kie vidas ŝin kaj kiel trovi kaj desegnitaj estas helpema uzinte ke datumfonto por esplorado.
[ ] En pensema eseo, kristanaj Sandvig kaj Eszter Hargittai (2015) priskribi du specoj de ciferecaj esploro, kie la cifereca sistemo estas "instrumento" aŭ "objekto de studo." Ekzemplo de la unua speco de studo kie Bengtsson kaj kolegoj (2011) uzita poŝtelefono datumoj spuri migradon post la tertremo en Haitio en 2010. ekzemplo de la dua speco estas kie Jensen (2007) studoj kiel la enkonduko de moveblaj telefonoj tra Kerala, Hindio efikis la funkciadon de la merkato por fiŝoj. Mi trovas helpema ĉar ĝi klarigas ke studojn uzante ciferecaj datumoj fontoj povas havi tute malsamajn celojn eĉ se ili uzas la saman tipon de datumoj fonto. Por pliaj klarigi tiun distingon, priskribas kvar studoj kiuj vi jam vidis: du kiuj uzas ciferecan sistemon kiel instrumenton kaj du kiuj uzas ciferecan sistemon kiel objekto de studo. Vi povas uzi ekzemplojn el tiu ĉapitro, se vi volas.