activitats

Aquesta traducció va ser creat per un ordinador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

activitats

clau:

grau de dificultat: fàcil , mitja i dur , molt dur
requereix matemàtiques ( $requereix matemàtiques$ )
requereix codificació ( )
recopilació de dades ( )
els meus favorits ( )

[ , ] Confusió algorítmic hi havia un problema amb Google Flu Trends. Llegir l'article de Lazer et al. (2014) , i escriure un breu correu electrònic, és clar per a un enginyer de Google que explica el problema i oferir una idea de com solucionar el problema.
[ ] Bollen, Mao, and Zeng (2011) afirma que les dades de Twitter es poden utilitzar per predir el mercat de valors. Aquesta troballa va conduir a la creació d'un fons de cobertura-Derwent Capital Markets-invertir en el mercat de valors basats en dades recollides de Twitter (Jordan 2010) . Quines proves li agradaria veure abans de posar els seus diners en aquest fons?
[ ] Mentre que alguns defensors de la salut pública provenen dels cigarrets electrònics com una ajuda eficaç per deixar de fumar, altres adverteixen sobre els riscos potencials, com els alts nivells de nicotina. Imagini que un investigador decideix estudiar l'opinió pública cap als cigarrets electrònics mitjançant la recopilació de missatges de Twitter relacionats amb els cigarrets electrònics i la realització d'anàlisi dels sentiments.
1. Quins són els tres possibles biaixos que més el preocupa en aquest estudi?
2. Clark et al. (2016) va córrer només un estudi d'aquest tipus. En primer lloc, es van recollir 850.000 tweets que utilitzen paraules clau relacionades amb e-cigarrets des de gener de 2012 fins a desembre de 2014. Després d'una inspecció més propera, es van adonar que molts d'aquests tuits van ser automatitzats (és a dir, no produït per l'ésser humà) i molts d'aquests tuits automatitzats eren essencialment comercials. Ells van desenvolupar un algoritme de detecció humana per separar els tweets automàtics dels tweets orgànics. L'ús d'aquest algorisme de detecció humà que van trobar que el 80% dels tweets van ser automatitzades. Canvia aquesta troballa la seva resposta a l'apartat (a)?
3. Quan van comparar el sentiment en els tweets orgànics i automatitzats es van trobar que els tweets automàtics són més positives que els tweets orgànics (6,17 enfront de 5,84). Canvia aquesta troballa la seva resposta a (b)?
[ ] Al novembre de 2009, Twitter ha canviat la pregunta al quadre de tweet de "Què fas?" A "Què està passant?" (Https://blog.twitter.com/2009/whats-happening).
1. Com creu que el canvi d'indicacions afectarà que pian i / o el que piu?
2. Nom un projecte d'investigació per al qual prefereix el símbol "Què estàs fent?" Explicar per què.
3. Nom un projecte d'investigació per al qual prefereix el símbol "Què està passant?" Explicar per què.
[ ] Kwak et al. (2010) van analitzar els 41,7 milions d'perfils d'usuari, 1,47 milions de relacions socials, temes de moda 4262, i 106 milions de tweets entre el 6 juny i el 31 de juny de 2009. Sobre la base d'aquesta anàlisi, van concloure que Twitter serveix més com un nou mitjà d'intercanvi d'informació que una xarxa social.
1. Tenint en compte la constatació del Kwak et al, quin tipus d'investigació faria vostè amb dades de Twitter? Quin tipus d'investigació que no faries amb les dades de Twitter? Per què?
2. El 2010, Twitter ha afegit un servei de a qui seguir fent suggeriment adaptats als usuaris. Tres recomanacions es mostren alhora a la pàgina principal. Les recomanacions són sovint extretes d'un dels "amics-de-amics", i els contactes mutus també es mostren a la recomanació. Els usuaris poden actualitzar per veure un nou conjunt de recomanacions o visitar una pàgina amb una llista més llarga de recomanacions. Creu que aquesta nova característica canviaria la seva resposta a l'incís a)? Per què o per què no?
3. Su, Sharma, and Goel (2016) van avaluar l'efecte de a qui seguir servei i van trobar que mentre que els usuaris de tot l'espectre de popularitat es van beneficiar de les recomanacions, els usuaris més populars es van beneficiar substancialment més que la mitjana. Canvia això la recerca de la seva resposta a la part b)? Per què o per què no?
[ ] "Retweets" sovint s'utilitzen per mesurar la influència i l'extensió de la influència a Twitter. Inicialment, els usuaris havien de copiar i enganxar el tweet que els agradava, etiquetar l'autor original amb el seu / la seva mànec, i entreu manualment "RT" abans que el tweet per indicar que és un retweet. Després, en 2009 Twitter ha afegit un botó de "Retweet". Al juny de 2016, Twitter va fer possible que els usuaris retweet seus tweets propis (https://twitter.com/twitter/status/742749353689780224). Creu que aquests canvis han d'afectar a com s'utilitza "retweets" en la seva investigació? Per què o per què no?
[ , , ] Michel et al. (2011) van construir un corpus que emergeix dels esforços de Google per digitalitzar llibres. L'ús de la primera versió del corpus, que va ser publicat el 2009 i contenia més de 5 milions de llibres digitalitzats, els autors van analitzar la paraula freqüència d'ús per investigar els canvis lingüístics i tendències culturals. Aviat el Google Books Corpus va esdevenir una font de dades molt popular per als investigadors, i una versió 2 de la base de dades va ser llançat en 2012.

No obstant això, Pechenick, Danforth, and Dodds (2015) va advertir que els investigadors necessiten per caracteritzar completament el procés de presa de mostres del corpus abans d'usar-la per treure conclusions generals. El principal problema és que el corpus és-biblioteca com, que conté un de cada llibre. Com a resultat, un individu, prolífic autor és capaç d'inserir notablement noves frases en el lèxic de Google Books. D'altra banda, els textos científics constitueixen una part cada vegada més substantiva del corpus llarg dels anys 1900. A més, mitjançant la comparació de dues versions dels conjunts de dades de ficció en anglès, Pechenick et al. evidència trobada que el filtrat insuficient s'utilitza en la producció de la primera versió. Totes les dades necessàries per a l'activitat està disponible aquí: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. En Michel et al. Del document original (2011) , van utilitzar la 1ª versió del conjunt de dades Anglès, tracen la freqüència d'ús dels anys "1880", "1912" i "1973", i va concloure que "estem oblidar el nostre passat més ràpid amb cada any que passa "(fig. 3A, Michel et al.). Replicar la mateixa parcel·la per mitjà d'1) 1er versió del corpus, el conjunt de dades Anglès (igual que la Fig. 3A, Michel et al.)
2. Ara replicar la mateixa parcel·la amb la 1ª versió, Anglès ficció conjunt de dades.
3. Ara replicar la mateixa parcel·la amb la segona versió del corpus, el conjunt de dades anglès.
4. Finalment, replicar la mateixa parcel·la amb la segona versió, Anglès ficció conjunt de dades.
5. Descriure les diferències i similituds entre aquestes quatre parcel·les. Està d'acord amb Michel i col. De la interpretació original de la tendència observada? (Pista: c) id) ha de ser la mateixa que la figura 16 en Pechenick et al).
6. Ara que ha replicat aquesta troballa usant diferents Google Books corpus, triar un altre canvi lingüístic o cultural dels fenòmens presentats en Michel et al. Del document original. Està d'acord amb la seva interpretació a la llum de les limitacions que es presenten en Pechenick et al.? Per fer que el seu argument més fort, tracti de reproduir el mateix gràfic utilitzant diferents versions del conjunt de dades que l'anterior.
[ , , , ] Penney (2016) explora si la gran publicitat sobre la NSA vigilància / PRISM (és a dir, les revelacions de Snowden) al juny de 2013 s'associa amb una disminució forta i sobtat en el trànsit als articles de Viquipèdia sobre temes que plantegen preocupacions sobre la privacitat. Si és així, aquest canvi de comportament seria consistent amb un efecte paralitzant resultats de la vigilància de masses. L'enfocament de Penney (2016) de vegades es diu un disseny de sèries de temps interromput i es relaciona amb els enfocaments en el capítol sobre l'aproximació dels experiments de les dades d'observació (Secció 2.4.3).

Per triar les paraules clau del tema, Penney es va referir a la llista utilitzada pel Departament de Seguretat Nacional dels Estats Units per al seguiment i monitoratge dels mitjans socials. La llista DHS categoritza certs termes de cerca en una sèrie de qüestions, és a dir, "problema de salut", "seguretat de la infraestructura", i "terrorisme". Per al grup d'estudi, Penney va utilitzar les quaranta-vuit paraules clau relacionades amb "terrorisme" (vegeu la Taula 8 Apèndix). A continuació, afegeix Wikipedia Veure article recomptes sobre una base mensual per als corresponents quaranta-vuit articles de Wikipedia més d'un període de trenta de dos mesos, des de l'inici de gener de 2012 fins a finals d'agost de 2014. Per reforçar el seu argument, també va crear la comparació de diversos grups mitjançant el seguiment de punts de vista d'articles sobre altres temes.

Ara, se'n va a replicar i ampliar Penney (2016) . Totes les dades en brut que es necessita per a aquesta activitat està disponible de Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). O es pot obtenir de la wikipediatrend paquet de R (Meissner and Team 2016) . Quan s'escriu en marxa les seves respostes, tingui en compte quina font de dades que va utilitzar. (Nota: Aquesta mateixa activitat també apareix en el capítol 6)
1. Llegir Penney (2016) i reproduir la figura 2, que mostra les pàgines vistes per "terrorisme" pàgines relacionats amb la PI abans i després de la revelació de Snowden. Interpretar els resultats.
2. A continuació, replicar la figura 4A, que compara el grup d'estudi ( "terrorisme" Articles relacionada amb) amb un grup de comparació paraules clau categoritzats sota "DHS i altres agències" de la llista utilitzant el DHS (vegeu el quadre 10). Interpretar els resultats.
3. A la part b) es va comparar el grup d'estudi per a un grup de comparació. Penney també en comparació amb altres dos grups de comparació: "Infraestructura de seguretat" articles relacionats amb la PI (Apèndix Taula 11) i les pàgines de Wikipedia populars (Apèndix Taula 12). Anem amb un grup de comparació alternativa, i posar a prova si els resultats de la part b) és sensible a l'elecció de grup de comparació. Quina opció del grup de comparació té més sentit? Per què?
4. L'autor va afirmar que les paraules clau relacionades amb el "terrorisme" es van utilitzar per seleccionar els articles de Wikipedia, perquè el govern d'Estats Units va citar el terrorisme com una justificació clau per les seves pràctiques de vigilància en línia. Com comprovació d'aquestes 48 paraules clau relacionats amb la PI "terrorisme", Penney (2016) també va realitzar una enquesta sobre MTurk demanant als enquestats que valoressin cadascuna de les paraules clau en termes de Trouble Govern, sensible privacitat i evitació (Taula apèndix 7 i 8). Replicar l'enquesta sobre MTurk i comparar els seus resultats.
5. Sobre la base dels resultats en la part d) i la seva lectura de l'article, ¿està d'acord amb l'elecció de l'autor de les paraules clau del tema en el grup d'estudi? Per què o per què no? Si no és així, què suggereix vostè en el seu lloc?
[ ] Efrati (2016) informes, basats en la informació confidencial, que "total compartir" a Facebook havia disminuït en un any al voltant de 5,5% respecte a l'any mentre que "l'intercanvi d'emissió original" es va reduir un 21% respecte a l'any anterior. Aquesta disminució va ser particularment aguda entre els usuaris de Facebook menors de 30 anys d'edat. L'informe va atribuir el descens a dos factors. Un d'ells és el creixement en el nombre de "amics" que té la gent a Facebook. L'altra és que alguna activitat de compartir s'ha desplaçat a la missatgeria i per competidors com snapchat. L'informe també revela les diverses tàctiques Facebook havia tractat d'impulsar l'intercanvi, incloent ajustos d'algorisme de notícies externes que fan que els missatges originals més prominent, així com recordatoris periòdics dels usuaris missatges originals "En aquest dia" fa diversos anys. Quines implicacions, si és necessària, aquests resultats tenen per als investigadors que desitgen utilitzar Facebook com a font de dades?
[ ] Tumasjan et al. (2010) van reportar que la proporció dels tweets que citen un partit polític coincidia amb la proporció de vots que va rebre en el partit de l'elecció del Parlament alemany el 2009 (Figura 2.9). En altres paraules, semblava que es podia utilitzar Twitter per predir l'elecció. En el moment d'aquest estudi va ser publicat, es va considerar molt emocionant, ja que semblava suggerir un ús valuós d'una font comuna de dades grans.

Donades les males característiques de grans volums de dades, però, ha de ser immediatament escèptic d'aquest resultat. Alemanys a Twitter en 2009 van ser un grup bastant no representativa, i els partidaris d'una de les parts podrien tweet sobre la política amb més freqüència. Per tant, sembla sorprenent que tots els possibles biaixos que es puguin imaginar alguna manera anular. De fet, els resultats en Tumasjan et al. (2010) va resultar ser massa bo per ser veritat. En el seu article, Tumasjan et al. (2010) van considerar sis partits polítics: democristians (CDU), Christian socialdemòcrates (CSU), SPD, els liberals (FDP), L'Esquerra (Die Linke), i el Partit Verd (Grüne). No obstant això, el més esmentat partit polític alemany a Twitter en aquest moment era el Partit Pirata (Piraten), un partit que lluita contra la regulació governamental de la Internet. Quan el Partit Pirata es va incloure en l'anàlisi, mencions a Twitter converteixi en una terrible predictor de resultats de les eleccions (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figura 2.9: Twitter esmenta sembla predir els resultats de l'elecció d'Alemanya 2009 (Tumasjan et al. 2010) , però aquest resultat resulta que dependre d'algunes decisions arbitràries i injustificades (Jungherr, Jürgens, and Schoen 2012) .

Mètodes tals elegants Posteriorment, altres investigadors de tot el món han utilitzat com l'ús d'anàlisi dels sentiments de distingir entre positiu i negatiu mencions dels partits per tal de millorar la capacitat de dades de Twitter per predir una varietat de diferents tipus d'eleccions (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Així és com Huberty (2015) va resumir els resultats d'aquests intents de predir les eleccions:

"Tots els mètodes de pronòstic coneguts a força de mitjans de comunicació social han fracassat quan se sotmet a les exigències de la veritable predicció electoral a futur. Aquests fracassos semblen ser causa de les propietats fonamentals dels mitjans de comunicació social, en lloc de a les dificultats metodològiques o algorítmics. En resum, les xarxes socials no ho fan, i probablement mai, oferir una imatge estable, sense prejudicis, representant dels electors; i les mostres de la conveniència dels mitjans de comunicació social no tenen dades suficients per solucionar aquests problemes post hoc ".

Llegiu algunes de les investigacions que porten Huberty (2015) a aquesta conclusió, i escriure una nota d'una pàgina a un candidat polític que descriu si i com Twitter s'ha d'utilitzar per pronosticar les eleccions.
[ ] Quina és la diferència entre un sociòleg i historiador? D'acord amb Goldthorpe (1991) , la principal diferència entre un sociòleg i historiador és el control sobre la recol·lecció de dades. Els historiadors es veuen obligats a utilitzar relíquies del temps que els sociòlegs poden personalitzar el seu recull de dades per a fins específics. Llegir Goldthorpe (1991) . Com és la diferència entre la sociologia i la història relacionada amb la idea de Custommades i readymades?
[ ] A partir de la pregunta anterior, Goldthorpe (1991) va dibuixar un seguit de respostes crítiques, incloent un Nicky Hart (1994) que va desafiar la devoció de Goldthorpe per adaptar les dades fetes. Per aclarir les limitacions potencials de les dades a mida, Hart va descriure el Projecte de Treballadors afluent, una gran enquesta per mesurar la relació entre la classe social i de votació que es va dur a terme per Goldthorpe i els seus col·legues a mitjans dels anys 1960. Com era d'esperar d'un erudit que va estar a favor de dades a través de les dades que es troben dissenyat, el Projecte de Treballadors afluent recull dades que van ser dissenyats per tractar una teoria proposada recentment pel futur de la classe social en una època d'augment dels nivells de vida. Però, Goldthorpe i els seus col·legues d'alguna manera "van oblidar" per recollir informació sobre el comportament del vot de les dones. Així és com Nicky Hart (1994) resumeix tot l'episodi:

". . . que [és] difícil evitar la conclusió que es van ometre les dones a causa d'aquest "fet a mida" conjunt de dades va ser confinat per una lògica paradigmàtica que excloïa l'experiència femenina. Impulsat per una visió teòrica de la consciència de classe i l'acció com preocupacions masculines. . . , Goldthorpe i els seus col·legues van construir un conjunt de proves empíriques que alimenten i nodreixen els seus propis supòsits teòrics en lloc d'exposar-los a una prova vàlida d'adequació ".

Hart va continuar:

"Els resultats empírics del Projecte de Treballadors afluent ens diuen més sobre els valors masclistes de la sociologia de mitjan segle del que informen els processos d'estratificació, la política i la vida material."

Pot pensar en altres exemples en què la recopilació de dades a mida, té els biaixos del col·lector de dades construït en ell? Com es compara això amb la confusió algorítmic? Quines implicacions podria tenir això per quan els investigadors han d'utilitzar readymades i quan han d'utilitzar Custommades?
[ ] En aquest capítol, contrast dades recollides pels investigadors per a investigadors amb els registres administratius creats per les empreses i els governs. Algunes persones diuen a aquests registres administratius "van trobar dades", que contrasten amb les "dades de disseny." És cert que els registres administratius són trobats pels investigadors, però també són altament dissenyats. Per exemple, les empreses de tecnologia modernes gasten enormes quantitats de temps i recursos per recollir i conservar les seves dades. Per tant, aquests registres administratius i tots dos es troben dissenyats, només depèn de la seva perspectiva (Figura 2.10).

Figura 2.10: La imatge és alhora un ànec i un conill; el que es veu depèn de la seva perspectiva. Governamentals i empresarials registres administratius i tots dos es troben dissenyats; el que es veu depèn de la seva perspectiva. Per exemple, els registres de dades de trucades recollits per una empresa de telefonia cel·lular es troben les dades des de la perspectiva d'un investigador. No obstant això, aquests mateixos registres exactes estan dissenyats perspectiva de les dades d'algú que treballa al departament de facturació de la companyia telefònica. Font: Wikimedia Commons

Proporcionar un exemple de font de dades, on veient-tant com es troba dissenyat i és útil en utilitzar aquesta font de dades per a la investigació.
[ ] En un assaig reflexiu, Christian Sandvig i Eszter Hargittai (2015) descriuen dos tipus d'investigació digital, on el sistema digital és "instrument" o "objecte d'estudi". Un exemple del primer tipus d'estudi és on Bengtsson i els seus col·legues (2011) van utilitzar dades de telèfons mòbils per fer un seguiment de la migració després del terratrèmol a Haití el 2010. Un exemple del segon tipus és on Jensen (2007) estudia com la introducció dels telèfons mòbils a través de Kerala, Índia impactat el funcionament del mercat de peix. Em sembla útil, ja que aclareix que els estudis que utilitzen fonts de dades digitals poden tenir diferents objectius, fins i tot si estan usant el mateix tipus de font de dades. Per tal d'aclarir encara més aquesta distinció, descriuen quatre estudis que has vist: dos que utilitzen un sistema digital com a instrument i dos que utilitzen un sistema digital com un objecte d'estudi. Feu servir exemples d'aquest capítol si ho desitja.