activitats

  • grau de dificultat: fàcil fàcil , mitjà mitjà , dur dur , molt dur molt dur
  • requereix matemàtiques ( requereix matemàtiques )
  • requereix la codificació ( requereix codificació )
  • recopilació de dades ( recopilació de dades )
  • els meus favorits ( el meu preferit )
  1. [ mitjà , el meu preferit ] La confusió algorísmica va ser un problema amb Google Flu Trends. Llegir el treball de Lazer et al. (2014) i escriviu un correu electrònic breu i clar per a un enginyer a Google que expliqui el problema i us ofereixi una idea de com solucionar-ho.

  2. [ mitjà ] Bollen, Mao, and Zeng (2011) afirmen que les dades de Twitter es poden utilitzar per predir el mercat de valors. Aquesta troballa va conduir a la creació d'un fons de cobertura-Derwent Capital Markets-per invertir en borsa basant-se en dades recopilades de Twitter (Jordan 2010) . Quines proves voldries veure abans de posar els diners en aquest fons?

  3. [ fàcil ] Mentre que alguns advocats de salut pública consideren que els cigarrets electrònics són una ajuda eficaç per deixar de fumar, altres adverteixen sobre els possibles riscos, com ara els alts nivells de nicotina. Imagineu que un investigador decideix estudiar l'opinió pública cap als cigarrets electrònics mitjançant la recopilació de publicacions de Twitter relacionades amb cigarrets electrònics i la realització d'anàlisis de sentiments.

    1. Quins són els tres biaixos possibles que més us preocupa en aquest estudi?
    2. Clark et al. (2016) ser només un estudi. En primer lloc, van recopilar 850.000 tweets que van utilitzar paraules clau relacionades amb cigarrets electrònics des de gener de 2012 fins a desembre de 2014. Després d'una inspecció més detallada, es van adonar que molts d'aquests tweets eren automatitzats (és a dir, no produïts per humans) i molts d'aquests tweets automatitzats eren fonamentalment anuncis comercials. Van desenvolupar un algoritme de detecció humana per separar tweets automatitzats de tweets ecològics. Amb aquest algoritme de detecció humana es va trobar que el 80% dels tweets es van automatitzar. Aquesta troballa canvia la teva resposta a la part (a)?
    3. Quan van comparar el sentiment en tweets orgànics i automatitzats, van trobar que els tweets automatitzats eren més positius que els tweets ecològics (6,17 versus 5,84). Aquesta troballa canvia la teva resposta a (b)?
  4. [ fàcil ] El novembre de 2009, Twitter va canviar la pregunta al quadre de tweet de "Què estàs fent?" A "Què està passant?" (Https://blog.twitter.com/2009/whats-happening).

    1. Com creu que el canvi de les indicacions afectarà qui titeu i / o el que tweet?
    2. Escrigui un projecte de recerca per al qual prefereixi l'indicatiu "Què estàs fent?" Expliqueu per què.
    3. Indiqueu un projecte de recerca per al qual preferiu l'indicatiu "Què està passant?" Expliqueu per què.
  5. [ fàcil ] "Retweets" s'utilitzen sovint per mesurar la influència i la propagació de la influència a Twitter. Inicialment, els usuaris havien de copiar i enganxar el tweet que li agradaven, etiquetar l'autor original amb el seu identificador i escriure manualment "RT" abans del tweet per indicar que era un retweet. Després, el 2009, Twitter va afegir un botó "retweet". Al juny de 2016, Twitter va fer possible que els usuaris retiressin els seus propis tweets (https://twitter.com/twitter/status/742749353689780224). Creieu que aquests canvis haurien d'afectar la utilització de "retweets" en la vostra recerca? Per què o per què no?

  6. [ molt dur , recopilació de dades , requereix codificació , el meu preferit ] En un document àmpliament discutit, Michel i col·legues (2011) analitzar el contingut de més de cinc milions de llibres digitalitzats en un intent d'identificar tendències culturals a llarg termini. Les dades que han utilitzat s'han publicat ara com el conjunt de dades de Google NGrams, de manera que podem utilitzar les dades per reproduir i ampliar algunes de les seves obres.

    En un dels molts resultats del document, Michel i els seus col · legues van argumentar que ens oblidem amb més rapidesa i rapidesa. Per un any determinat, diguem "1883", calculaven la proporció de 1 grams publicats cada any entre 1875 i 1975 que eren "1883". Van raonar que aquesta proporció és una mesura de l'interès per esdeveniments que van ocórrer en aquest any. En la seva figura 3a, van tramar les trajectòries d'ús durant tres anys: 1883, 1910 i 1950. Aquests tres anys comparteixen un patró comú: poca utilització abans d'aquest any, a continuació, una pica, i després la decadència. A continuació, per quantificar la taxa de deteriorament per a cada any, Michel i els seus col·legues van calcular la "vida mitjana" de cada any durant tots els anys entre 1875 i 1975. En la seva figura 3a (inserció), van mostrar que la vida mitjana de cadascun l'any està disminuint, i van argumentar que això significa que oblidem el passat de forma més ràpida i ràpida. Utilitzen la versió 1 del corpus de la llengua anglesa, però posteriorment Google ha publicat una segona versió del corpus. Llegeix totes les parts de la pregunta abans de començar a codificar.

    Aquesta activitat us ajudarà a practicar l'escriptura de codi reutilitzable, la interpretació de resultats i l'intercanvi de dades (com ara treballar amb fitxers incòmodes i manejar les dades que falten). Aquesta activitat també us ajudarà a posar-vos en funcionament amb un conjunt de dades ric i interessant.

    1. Obteniu les dades en brut del lloc web de Google Books NGram Viewer. En particular, hauríeu d'utilitzar la versió 2 del corpus de la llengua anglesa, que es va publicar l'1 de juliol de 2012. Sense comprimir, aquest fitxer és de 1,4 GB.

    2. Recrea la part principal de la figura 3a de Michel et al. (2011) . Per recrear aquesta xifra, necessiteu dos fitxers: el que vau baixar en part (a) i el fitxer "comptes totals", que podeu utilitzar per convertir el recompte brut en proporcions. Tingueu en compte que el fitxer de comptes totals té una estructura que pot fer que sigui una mica difícil de llegir. La versió 2 de les dades de NGram produeix resultats similars als presentats a Michel et al. (2011) , que es basen en dades de la versió 1?

    3. Ara, comproveu el vostre gràfic amb el gràfic creat pel NGram Viewer.

    4. Recupereu la figura 3a (figura principal), però canvieu el \(y\) - ésser el recompte de menús en brut (no la taxa de mencions).

    5. La diferència entre (b) i (d) la porta a reevaluar algun dels resultats de Michel et al. (2011). Per què o per què no?

    6. Ara, utilitzant la proporció de mencions, reproduïu l'inserit de la figura 3a. És a dir, per a cada any entre 1875 i 1975, calculeu la semivida d'aquest any. La vida mitjana es defineix com el nombre d'anys que passen abans que la proporció de mencions arribi a la meitat del seu valor màxim. Tingueu en compte que Michel et al. (2011) fan alguna cosa més complicat d'estimar la vida mitjana, vegeu la secció III.6 de la informació d'assistència en línia, però afirmen que ambdós enfocaments produeixen resultats similars. La versió 2 de les dades de NGram produeix resultats similars als presentats en Michel et al. (2011) , que es basen en dades de la versió 1? (Suggeriment: no es sorprengui si no ho fa).

    7. Hi ha hagut anys que eren forts com els anys oblidats amb especial rapidesa o particularment a poc a poc? Especudeu breument els possibles motius d'aquest patró i expliqueu com heu identificat els valors més forts.

    8. Ara replicem aquest resultat per a la versió 2 de les dades de NGrams en xinès, francès, alemany, hebreu, italià, rus i espanyol.

    9. Comparant en tots els idiomes, hi va haver anys que eren forts, com els anys que es van oblidar de forma particularment ràpida o particularment lenta? Especudeu breument els possibles motius d'aquest patró.

  7. [ molt dur , recopilació de dades , requereix codificació , el meu preferit ] Penney (2016) explorar si la publicitat generalitzada sobre la vigilància NSA / PRISM (és a dir, les revelacions de Snowden) al juny de 2013 es va associar amb una forta i sobtada disminució del trànsit als articles de Wikipedia sobre temes que plantegen preocupacions sobre la privadesa. Si és així, aquest canvi de comportament seria coherent amb un efecte esgarrifós resultant de la vigilància massiva. L'enfocament de Penney (2016) vegades s'anomena disseny de sèrie interrompuda , i està relacionat amb els enfocaments descrits a la secció 2.4.3.

    Per triar les paraules clau del tema, Penney es va referir a la llista utilitzada pel Departament de Seguretat Nacional dels EUA per fer el seguiment i la supervisió de les xarxes socials. La llista DHS classifica determinats termes de cerca en una sèrie de problemes, és a dir, "Preocupació per la salut", "Seguretat d'infraestructures" i "Terrorisme". Per al grup d'estudi, Penney va utilitzar les 48 paraules clau relacionades amb el "terrorisme" (vegeu l'apèndix 8). ). A continuació, va agregar la visualització de l'article de Wikipedia amb una recompensa mensual dels 48 articles de Wikipedia corresponents durant un període de 32 mesos, des de principis de gener de 2012 fins a finals d'agost de 2014. Per enfortir el seu argument, també va crear diversos grups de comparació seguint visualitzacions d'articles sobre altres temes.

    Ara, replicaràs i ampliaràs Penney (2016) . Totes les dades en brut que necessiteu per a aquesta activitat estan disponibles a Viquipèdia. O podeu obtenir-lo des del paquet R-wikipediatrend (Meissner and R Core Team 2016) . Quan redacteu les vostres respostes, tingueu en compte l'origen de dades que heu utilitzat. (Tingueu en compte que aquesta mateixa activitat també apareix al capítol 6.) Aquesta activitat us ajudarà a fer pràctiques en la modificació de dades i en la reflexió sobre experiments naturals en grans fonts de dades. També us posarà en marxa una font de dades potencialment interessant per a futurs projectes.

    1. Llegiu Penney (2016) i reproduïu la seva figura 2 que mostra les visualitzacions de pàgines de les pàgines relacionades amb el "terrorisme" abans i després de les revelacions de Snowden. Interpretar les troballes.
    2. A continuació, replicar la figura 4A, que compara el grup d'estudi (articles relacionats amb "Terrorisme") amb un grup de comparadors que utilitza paraules clau classificades a "DHS i altres agències" de la llista DHS (vegeu l'apèndix, taula 10 i nota 139). Interpretar les troballes.
    3. En part (b), vau comparar el grup d'estudi amb un grup de comparadors. Penney també es va comparar amb altres dos grups comparadors: articles relacionats amb "Seguretat de la infraestructura" (apèndix taula 11) i pàgines populars de la Viquipèdia (apèndix taula 12). Afegiu un grup de comparadors alternatiu i comproveu si els resultats de la part (b) són sensibles a la vostra elecció del grup de comparadors. Quina opció té més sentit? Per què?
    4. Penney va declarar que les paraules clau relacionades amb el "terrorisme" es van utilitzar per seleccionar els articles de la Viquipèdia perquè el govern dels EUA va citar el terrorisme com una justificació clau per a les pràctiques de vigilància en línia. Com a comprovació d'aquestes 48 paraules clau relacionades amb el "terrorisme", Penney (2016) també va realitzar una enquesta sobre MTurk, i va fer que els enquestats valoressin cada paraula clau en termes de problemes governamentals, privadesa i evitació (apèndixs, taules 7 i 8 ). Replicar l'enquesta sobre MTurk i comparar els resultats.
    5. Basant-se en els resultats en la part (d) i la lectura de l'article, esteu d'acord amb l'elecció de Penney de les paraules clau del tema en el grup d'estudi? Per què o per què no? Si no, què suggeriríeu?
  8. [ fàcil ] Efrati (2016) informar, segons la informació confidencial, que el "repartiment total" a Facebook havia disminuït al voltant d'un 5,5% any rere any, mentre que "l'intercanvi d'emissions originals" baixava un 21% any rere any. Aquest descens va ser molt més intens amb els usuaris de Facebook menors de 30 anys. L'informe atribueix la disminució a dos factors. Un és el creixement de la quantitat de "amics" que tenen a Facebook. L'altre és que algunes activitats d'ús compartit s'han desplaçat a missatgeria i a competidors com Snapchat. L'informe també va revelar les diverses tàctiques que Facebook havia intentat augmentar l'ús compartit, incloent-hi els tweaks d'algoritmes de Feed News que fan que les publicacions originals siguin més prominents, així com els recordatoris periòdics de les publicacions originals amb la funció "En aquest dia". Quines implicacions tenen, si s'escau, aquestes troballes per als investigadors que vulguin utilitzar Facebook com a font de dades?

  9. [ mitjà ] Quina és la diferència entre un sociòleg i un historiador? Segons Goldthorpe (1991) , la principal diferència és el control sobre la recopilació de dades. Els historiadors es veuen obligats a utilitzar relíquies, mentre que els sociòlegs poden adaptar la seva recollida de dades a finalitats específiques. Llegiu Goldthorpe (1991) . Com és la diferència entre la sociologia i la història relacionada amb la idea de custòmades i readymades?

  10. [ dur ] Això es basa en el quesiton anterior. Goldthorpe (1991) va obtenir una sèrie de respostes crítiques, inclosa una de Nicky Hart (1994) que va qüestionar la devoció de Goldthorpe per adaptar dades a mida. Per esclarir les possibles limitacions de dades a mida, Hart va descriure el projecte Affluent Worker Project, una enquesta important per mesurar la relació entre la classe social i la votació que va dur a terme Goldthorpe i els seus col·legues a mitjan anys seixanta. Com es pot esperar d'un erudit que va afavorir les dades dissenyades sobre les dades trobades, el Projecte Treballador Afluent recollia dades que es dissenyen per abordar una teoria recentment proposada sobre el futur de la classe social en una era de nivells de vida cada vegada més gran. Però Goldthorpe i els seus col·legues d'alguna manera "oblidaven" recollir informació sobre el comportament de vot de les dones. Així és com Nicky Hart (1994) resumia tot l'episodi:

    "... és difícil evitar la conclusió que les dones s'ometen perquè aquest conjunt de dades" fet a mida "estava confinat per una lògica paradigmàtica que excloïa l'experiència femenina. Impulsats per una visió teòrica de la consciència i l'acció de classe com a preocupacions masculines ..., Goldthorpe i els seus col·legues van construir un conjunt de proves empíriques que alimentaven i alimentaven les seves pròpies hipòtesis teòriques en lloc d'exposar-les a una prova d'adequació vàlida ".

    Hart va continuar:

    "Les troballes empíriques del Projecte Affluent Worker ens expliquen més sobre els valors masculinistes de la sociologia de mitjan segle que informen els processos d'estratificació, política i vida material".

    Es pot pensar en altres exemples en què la recopilació de dades a mida té els prejudicis del recol · lector de dades integrats? Com es compara aquesta confusió algorítmica? Quines conseqüències podria tenir quan els investigadors han d'utilitzar readymades i quan haurien d'utilitzar les custòmades?

  11. [ mitjà ] En aquest capítol he contrastat les dades recollides pels investigadors per a investigadors amb registres administratius creats per empreses i governs. Algunes persones anomenen aquests registres administratius "dades trobades", que contrasten amb les "dades dissenyades". És cert que els investigadors troben registres administratius, però també estan molt dissenyats. Per exemple, les empreses de tecnologia moderna treballen molt per recollir i curar les seves dades. Per tant, aquests registres administratius es troben i es dissenyen, només depèn de la vostra perspectiva (figura 2.12).

    Figura 2.12: La imatge és un ànec i un conill; el que veus depèn de la vostra perspectiva. S'han trobat i dissenyar grans fonts de dades; de nou, el que veus depèn de la vostra perspectiva. Per exemple, els registres de dades de trucades recopilats per una companyia de telefonia mòbil es troben dades des de la perspectiva d'un investigador. Però, aquests mateixos registres estan dissenyats dades des de la perspectiva d'algú que treballa al departament de facturació de l'empresa telefònica. Font: Ciència popular mensual (1899) / Wikimedia Commons.

    Figura 2.12: La imatge és un ànec i un conill; el que veus depèn de la vostra perspectiva. S'han trobat i dissenyar grans fonts de dades; de nou, el que veus depèn de la vostra perspectiva. Per exemple, els registres de dades de trucades recopilats per una companyia de telefonia mòbil es troben dades des de la perspectiva d'un investigador. Però, aquests mateixos registres estan dissenyats dades des de la perspectiva d'algú que treballa al departament de facturació de l'empresa telefònica. Font: Ciència popular mensual (1899) / Wikimedia Commons .

    Proporcioneu un exemple d'origen de dades on veure'l tant com s'ha trobat com dissenyat és útil quan s'utilitza aquesta font de dades per a la recerca.

  12. [ fàcil ] En un assaig reflexiu, Christian Sandvig i Eszter Hargittai (2015) dividir la recerca digital en dues grans categories segons si el sistema digital és un "instrument" o "objecte d'estudi". Un exemple del primer tipus, on el sistema és un instrument, és la recerca de Bengtsson i col·legues (2011) sobre l'ús de dades de telèfons mòbils per fer el seguiment de la migració després del terratrèmol a Haití el 2010. Un exemple del segon tipus, on el sistema és objecte d'estudi, és la recerca de Jensen (2007) sobre com la introducció de telèfons mòbils a tot Kerala, l'Índia va afectar el funcionament del mercat dels peixos. Em sembla útil aquesta distinció perquè aclareix que els estudis que utilitzen fonts de dades digitals poden tenir objectius ben diferents, fins i tot si utilitzen el mateix tipus d'origen de dades. Per aclarir aquesta distinció, descriu quatre estudis que has vist: dos que utilitzen un sistema digital com a instrument i dos que utilitzen un sistema digital com a objecte d'estudi. Podeu utilitzar exemples d'aquest capítol si voleu.