[ , ] A confusión algorísmica foi un problema coas tendencias de Google Flu. Ler o traballo de Lazer et al. (2014) e escribe un correo electrónico breve e claro para un enxeñeiro en Google explicando o problema e ofrecendo unha idea de como solucionalo.
[ ] Bollen, Mao, and Zeng (2011) afirman que os datos de Twitter poden ser usados para predecir o mercado de accións. Este achado levou á creación dun fondo de hedge-Derwent Capital Markets-para investir no mercado de accións baseado nos datos recollidos desde Twitter (Jordan 2010) . Que probas queres ver antes de poñer o teu diñeiro nese fondo?
[ ] Mentres que algúns defensores da saúde pública consideran que os e-cigarros son unha axuda efectiva para deixar de fumar, outros alertan sobre os riscos potenciais, como os altos niveis de nicotina. Imaxina que un investigador decide estudar a opinión pública cara aos cigarros electrónicos recollendo papeis de Twitter relacionados con e-cigarros e realizar análises de sentimentos.
[ ] En novembro de 2009, Twitter cambiou a pregunta no cadro de tweet de "What's you doing?" A "What's happening?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" adoitan usarse para medir influencia e propagación de influencia en Twitter. Inicialmente, os usuarios tiveron que copiar e pegar o tweet que lles gustou, etiquetar o autor orixinal co seu identificador e escribir manualmente "RT" antes do tweet para indicar que se trataba dun retweet. Entón, en 2009, Twitter engadiu un botón "retweet". En xuño de 2016, Twitter fixo posible aos usuarios retweet seus propios tweets (https://twitter.com/twitter/status/742749353689780224). Pensas que estas modificacións deberían afectar a forma de utilizar "retweets" na túa busca? Por que e por que non?
[ , , , ] Nun artigo ampliamente discutido, Michel e colegas (2011) analizaron o contido de máis de cinco millóns de libros digitalizados co obxectivo de identificar tendencias culturais a longo prazo. Os datos que usaron agora foron lanzados como conxunto de datos de Google NGrams, e así podemos usar os datos para replicar e ampliar algúns dos seus traballos.
Nun dos moitos resultados do traballo, Michel e os seus compañeiros argumentaron que nos esquecemos máis rápido e rápido. Por un ano particular, digamos "1883", calcularon a proporción de 1 gramos publicados en cada ano entre 1875 e 1975 que foron "1883". Eles razoaron que esta proporción é unha medida do interese nos acontecementos que sucederon nese ano. Na súa figura 3a, trazaron as traxectorias de uso durante tres anos: 1883, 1910 e 1950. Estes tres anos comparten un patrón común: pouca utilidade antes dese ano, a continuación, unha espiga, entón a decadencia. A continuación, para cuantificar a taxa de decadencia de cada ano, Michel e os colegas calcularon a "semivida" de cada ano durante todos os anos entre 1875 e 1975. Na súa figura 3a (inserción), demostraron que a semivida de cada un ano está diminuíndo e argumentaron que isto significa que estamos esquecendo o pasado de xeito máis rápido e rápido. Usaron a versión 1 do corpus da lingua inglesa, pero posteriormente Google lanzou unha segunda versión do corpus. Lea todas as partes da pregunta antes de comezar a codificación.
Esta actividade pode practicar a escritura de código reutilizable, a interpretación de resultados e o intercambio de datos (como traballar con ficheiros incómodos e manipular os datos que faltan). Esta actividade tamén axudarache a poñerse en marcha cun conxunto de datos rico e interesante.
Obter os datos en bruto do sitio web de Google Books NGram Viewer. En particular, debes usar a versión 2 do corpus da lingua inglesa, que foi lanzada o 1 de xullo de 2012. Non comprimida, este ficheiro é de 1,4 GB.
Recrea a parte principal da figura 3a de Michel et al. (2011) . Para recrear esta figura, necesitarás dous ficheiros: o que descargaches en parte (a) eo ficheiro "contas totais", que podes usar para converter as cantidades en cru en proporcións. Teña en conta que o ficheiro de conteo total ten unha estrutura que pode dificultar a lectura. A versión 2 dos datos de NGram produce resultados similares aos presentados en Michel et al. (2011) , que están baseados nos datos da versión 1?
Agora comprobe o seu gráfico contra o gráfico creado polo NGram Viewer.
Recrea a figura 3a (figura principal), pero cambia o \(y\) esixe o reconto de mencións en bruto (non a taxa de mencións).
A diferenza entre (b) e (d) leva a reavaliar algún dos resultados de Michel et al. (2011). Por que e por que non?
Agora, utilizando a proporción de mencións, replique o elemento inserido da figura 3a. É dicir, para cada ano entre 1875 e 1975, calcule a semivida dese ano. A vida media defínese como o número de anos que pasan antes de que a proporción das mencións alcance a metade do seu valor máximo. Teña en conta que Michel et al. (2011) fai algo máis complicado de estimar a vida media, vexa a sección III.6 da Información de apoio en liña, pero aseguran que ambos enfoques producen resultados similares. A versión 2 dos datos de NGram produce resultados similares aos presentados en Michel et al. (2011) , que están baseados nos datos da versión 1? (Suxestión: non se sorprenda se non o fai).
Houbo uns anos que eran atrasados, como os anos que se esquecían particularmente de xeito rápido ou particularmente lentamente? Especifica brevemente os posibles motivos dese patrón e explique como identificou os valores máis altos.
Agora repita este resultado para a versión 2 dos datos de NGrams en chinés, francés, alemán, hebreo, italiano, ruso e español.
Comparando en todos os idiomas, houbo algúns anos que eran atípicos, como os anos que se esqueceron particularmente de xeito rápido ou particularmente lentamente? Especificar brevemente os posibles motivos dese patrón.
[ , , , ] Penney (2016) explorou se a publicidade xeneralizada sobre a vixilancia NSA / PRISM (é dicir, as revelacións de Snowden) en xuño de 2013 asociouse cunha diminución brusca e repentina do tráfico aos artigos de Wikipedia sobre temas que suscitan problemas de privacidade. Se é así, este cambio no comportamento sería consistente cun efecto de refrixeración resultante da vixilancia masiva. O enfoque de Penney (2016) ás veces se denomina deseño de series de tempo interrompido e está relacionado coas aproximacións descritas no apartado 2.4.3.
Para escoller as palabras clave do tema, Penney referiuse á lista utilizada polo Departamento de Seguridade Interna dos Estados Unidos para rastrexar e controlar as redes sociais. A lista de DHS categoriza certos termos de busca nunha variedade de problemas, é dicir, "Preocupación pola saúde", "Seguridade de infraestrutura" e "Terrorismo". Para o grupo de estudo, Penney usou as 48 palabras clave relacionadas co "Terrorismo" (vexa a táboa 8 do apéndice ). Agregou a vista do artigo de Wikipedia mensualmente para os 48 artigos de Wikipedia correspondentes ao longo dun período de 32 meses, desde principios de xaneiro de 2012 ata finais de agosto de 2014. Para reforzar o seu argumento, tamén creou varios grupos de comparación seguindo vistas do artigo sobre outros temas.
Agora, vas a reproducir e ampliar Penney (2016) . Todos os datos en bruto que necesitarás para esta actividade están dispoñibles en Wikipedia. Ou pode obtelo do paquete R-wikipediatrend (Meissner and R Core Team 2016) . Cando redacte as respostas, ten en conta a fonte de datos que utilizou. (Teña en conta que esta mesma actividade tamén aparece no capítulo 6.) Esta actividade dálle práctica na discusión de datos e pensando en experimentos naturais en grandes fontes de datos. Tamén o levará a funcionar cunha fonte de datos potencialmente interesante para futuros proxectos.
[ ] Efrati (2016) informou, segundo a información confidencial, que o "reparto total" en Facebook diminuíu ao redor do 5,5% ano tras ano mentres que a "compartición de transmisión orixinal" baixou un 21% ano tras ano. Este descenso foi particularmente grave con usuarios de Facebook menores de 30 anos. O informe atribuíu o descenso a dous factores. Un deles é o crecemento do número de "amigos" que ten a xente en Facebook. O outro é que algunha actividade compartida pasou á mensaxería e aos competidores como Snapchat. O informe tamén revelou as diversas tácticas que Facebook intentou aumentar o reparto, incluíndo axustes de algoritmos de Feed News que fan que as mensaxes orixinais sexan máis destacadas, así como os recordatorios periódicos das publicacións orixinais coa función "On This Day". Que consecuencias, se hai, teñen estes achados para os investigadores que queiran usar Facebook como fonte de datos?
[ ] Cal é a diferenza entre un sociólogo e un historiador? Segundo Goldthorpe (1991) , a principal diferenza é o control da recolleita de datos. Os historiadores están obrigados a usar reliquias, mentres que os sociólogos poden adaptar a súa recollida de datos a fins específicos. Ler Goldthorpe (1991) . Como é a diferenza entre socioloxía e historia relacionada coa idea das costas e os readymades?
[ ] Isto baséase na pregunta anterior. Goldthorpe (1991) sacou unha serie de respostas críticas, incluíndo unha de Nicky Hart (1994) que desafiaba a devoción de Goldthorpe a facer os datos feitos a medida. Para aclarar as limitacións potenciais de datos a medida, Hart describiu o Proxecto Afluente Traballador, unha gran enquisa para medir a relación entre clase social e votación que foi realizada por Goldthorpe e colegas a mediados da década de 1960. Como se podería esperar dun estudioso que favoreceu os datos deseñados sobre os datos atopados, o Proxecto Afluente Traballador recolleu datos que foron adaptados para abordar unha teoría proposta recentemente sobre o futuro da clase social nunha era de crecente nivel de vida. Pero Goldthorpe e compañeiros dalgún xeito "esqueceu" recoller información sobre o comportamento de voto das mulleres. Vexa como Nicky Hart (1994) resumiu todo o episodio:
"... é difícil evitar a conclusión de que as mulleres foron omitidas porque este conxunto de datos" feito a medida "estaba confinado por unha lóxica paradigmática que excluía a experiencia feminina. Impulsado por unha visión teórica da conciencia e acción das clases como preocupacións masculinas ..., Goldthorpe e os seus compañeiros construíron un conxunto de probas empíricas que alimentaban e alimentaban as súas propias suposicións teóricas en lugar de expónllas a unha proba de adecuación válida ".
Hart continuou:
"As conclusións empíricas do Proxecto Afluente Traballador dinos máis sobre os valores masculinistas da socioloxía do século XX que informan os procesos de estratificación, política e vida material".
Pódese pensar noutros exemplos en que a recopilación de datos a medida ten os prexuízos do colector de datos incorporado? Como se compara isto coa confusión algorítmica? Que consecuencias podería ter neste momento cando os investigadores deberían usar readymades e cando deberían usar custarmades?
[ ] Neste capítulo, contrastado datos recompilados por investigadores para investigadores con rexistros administrativos creados por empresas e gobernos. Algunhas persoas chaman a estes rexistros administrativos "datos atopados", que contrastan con "datos deseñados". É certo que os investigadores atopan rexistros administrativos, pero tamén están moi deseñados. Por exemplo, as empresas de tecnoloxía moderna traballan moi arduamente para recoller e curar os seus datos. Así, estes rexistros administrativos son atopados e deseñados, só depende da súa perspectiva (figura 2.12).
Proporcione un exemplo de fonte de datos onde o ver que tanto o atopado como o deseñado son útiles cando se usa esa fonte de datos para investigación.
[ ] Nunha reflexiva obra, Christian Sandvig e Eszter Hargittai (2015) dividiron a investigación dixital en dúas grandes categorías segundo o sistema dixital sexa un "instrumento" ou "obxecto de estudo". Un exemplo do primeiro tipo, onde o sistema é un instrumento: a investigación realizada por Bengtsson e colegas (2011) sobre o uso de datos do teléfono móbil para rastrexar a migración despois do terremoto en Haití en 2010. Un exemplo do segundo tipo -onde o sistema é obxecto de estudo- é a investigación realizada por Jensen (2007) sobre como a introdución de teléfonos móbiles en Kerala, a India afectou o funcionamento do mercado dos peixes. Considero que esta distinción é útil porque aclara que os estudos que usan fontes de datos dixitais poden ter obxectivos bastante diferentes aínda que estean utilizando o mesmo tipo de fonte de datos. Para aclarar esta distinción, describe catro estudos que viches: dous que usan un sistema dixital como instrumento e dous que utilizan un sistema dixital como obxecto de estudo. Podes usar exemplos deste capítulo se queres.