atividades

  • grau de dificuldade: fácil fácil médio médio , Difícil Difícil , muito difícil muito difícil
  • requer matemática ( requer matemática )
  • requer codificação ( requer codificação )
  • coleção de dados ( coleção de dados )
  • meus favoritos ( meu favorito )
  1. [ médio , meu favorito ] Confundimento algorítmico foi um problema com o Google Tendências da Gripe. Leia o artigo de Lazer et al. (2014) e escreva um e-mail curto e claro a um engenheiro do Google explicando o problema e oferecendo uma ideia de como corrigi-lo.

  2. [ médio ] Bollen, Mao, and Zeng (2011) afirmam que os dados do Twitter podem ser usados ​​para prever o mercado de ações. Essa descoberta levou à criação de um fundo de hedge - Derwent Capital Markets - para investir no mercado de ações com base em dados coletados do Twitter (Jordan 2010) . Que evidência você gostaria de ver antes de depositar seu dinheiro nesse fundo?

  3. [ fácil Enquanto alguns defensores da saúde pública consideram os cigarros eletrônicos uma ajuda eficaz para a cessação do tabagismo, outros alertam sobre os riscos potenciais, como os altos níveis de nicotina. Imagine que um pesquisador decida estudar a opinião pública em relação aos e-cigarros, coletando mensagens no Twitter relacionadas a cigarros eletrônicos e realizando análises de sentimentos.

    1. Quais são os três possíveis vieses com os quais você está mais preocupado neste estudo?
    2. Clark et al. (2016) realizou exatamente esse estudo. Primeiro, eles coletaram 850.000 tweets que usaram palavras-chave relacionadas a e-cigarros de janeiro de 2012 a dezembro de 2014. Após uma inspeção mais detalhada, eles perceberam que muitos desses tweets eram automatizados (ou seja, não produzidos por humanos) e muitos desses tweets automatizados eram essencialmente comerciais. Eles desenvolveram um algoritmo de detecção humana para separar tweets automatizados de tweets orgânicos. Usando esse algoritmo de detecção humana, eles descobriram que 80% dos tweets foram automatizados. Esse achado muda sua resposta para a parte (a)?
    3. Quando compararam o sentimento em tweets orgânicos e automatizados, descobriram que os tweets automatizados eram mais positivos do que os tweets orgânicos (6,17 contra 5,84). Esse achado muda sua resposta para (b)?
  4. [ fácil Em novembro de 2009, o Twitter mudou a questão na caixa de tweets de “O que você está fazendo?” Para “O que está acontecendo?” (Https://blog.twitter.com/2009/whats-happening).

    1. Como você acha que a mudança de prompts afetará quem twitta e / ou o que eles tweetam?
    2. Cite um projeto de pesquisa para o qual você preferiria o prompt “O que você está fazendo?” Explique por quê.
    3. Cite um projeto de pesquisa para o qual você preferiria o prompt “O que está acontecendo?”. Explique por quê.
  5. [ fácil ] “Retweets” são frequentemente usados ​​para medir influência e disseminação de influência no Twitter. Inicialmente, os usuários tinham que copiar e colar o tweet de que gostavam, marcar o autor original com seu identificador e digitar manualmente “RT” antes do tweet para indicar que era um retweet. Então, em 2009, o Twitter adicionou um botão "retweet". Em junho de 2016, o Twitter possibilitou que os usuários retweetassem seus próprios tweets (https://twitter.com/twitter/status/742749353689780224). Você acha que essas mudanças devem afetar o modo como você usa “retweets” em sua pesquisa? Por que ou por que não?

  6. [ muito difícil , coleção de dados , requer codificação , meu favorito Em um artigo amplamente discutido, Michel e colaboradores (2011) analisaram o conteúdo de mais de cinco milhões de livros digitalizados em uma tentativa de identificar tendências culturais de longo prazo. Os dados que eles usaram agora foram lançados como o conjunto de dados do Google NGrams e, portanto, podemos usar os dados para replicar e estender parte do trabalho deles.

    Em um dos muitos resultados do artigo, Michel e seus colegas argumentaram que estamos esquecendo cada vez mais rápido. Em um determinado ano, digamos “1883”, eles calcularam a proporção de 1 grama publicada em cada ano entre 1875 e 1975, que eram “1883”. Eles raciocinaram que essa proporção é uma medida do interesse em eventos ocorridos naquele ano. Em sua figura 3a, eles traçaram as trajetórias de uso por três anos: 1883, 1910 e 1950. Esses três anos compartilham um padrão comum: pouco uso antes daquele ano, depois um pico, depois decaimento. Em seguida, para quantificar a taxa de decaimento para cada ano, Michel e seus colegas calcularam a “meia-vida” de cada ano para todos os anos entre 1875 e 1975. Em sua figura 3a (inset), eles mostraram que a meia-vida de cada ano ano está diminuindo, e eles argumentaram que isso significa que estamos esquecendo o passado cada vez mais rápido. Eles usaram a versão 1 do corpus em inglês, mas posteriormente o Google lançou uma segunda versão do corpus. Por favor, leia todas as partes da questão antes de começar a codificar.

    Esta atividade lhe dará a prática de escrever códigos reutilizáveis, interpretar os resultados e organizar os dados (como trabalhar com arquivos inábeis e manipular dados ausentes). Esta atividade também ajudará você a começar a usar um conjunto de dados rico e interessante.

    1. Obtenha os dados brutos no website do Visualizador do NGram do Google Livros. Em particular, você deve usar a versão 2 do corpus em inglês, que foi lançado em 1 de julho de 2012. Descompactado, esse arquivo é de 1,4 GB.

    2. Recrie a parte principal da figura 3a de Michel et al. (2011) . Para recriar essa figura, você precisará de dois arquivos: o que você baixou na parte (a) e o arquivo de "contagens totais", que você pode usar para converter as contagens brutas em proporções. Observe que o arquivo total de contagens possui uma estrutura que pode dificultar a leitura. A versão 2 dos dados do NGram produz resultados semelhantes aos apresentados em Michel et al. (2011) , que são baseados em dados da versão 1?

    3. Agora, verifique seu gráfico em relação ao gráfico criado pelo NGram Viewer.

    4. Recrie a figura 3a (figura principal), mas altere o eixo \(y\) para ser a contagem de referência bruta (não a taxa de menções).

    5. A diferença entre (b) e (d) leva você a reavaliar qualquer um dos resultados de Michel et al. (2011). Por que ou por que não?

    6. Agora, usando a proporção de menções, replique a inserção da figura 3a. Ou seja, para cada ano entre 1875 e 1975, calcule a meia-vida daquele ano. A meia-vida é definida como o número de anos que se passam antes que a proporção de menções atinja a metade do seu valor máximo. Note que Michel et al. (2011) fazem algo mais complicado para estimar a meia-vida - veja a seção III.6 da Supporting Online Information - mas eles afirmam que ambas as abordagens produzem resultados semelhantes. A versão 2 dos dados do NGram produz resultados semelhantes aos apresentados em Michel et al. (2011) , que são baseados em dados da versão 1? (Dica: não fique surpreso se isso não acontecer)

    7. Houve anos que foram outliers, como anos que foram esquecidos de forma particularmente rápida ou particularmente lenta? Resumidamente especule sobre as possíveis razões para esse padrão e explique como você identificou os outliers.

    8. Agora replique esse resultado para a versão 2 dos dados do NGrams em chinês, francês, alemão, hebraico, italiano, russo e espanhol.

    9. Comparando-se através de todas as línguas, houve algum ano que foram outliers, como anos que foram esquecidos de forma particularmente rápida ou particularmente lenta? Especifique brevemente as possíveis razões para esse padrão.

  7. [ muito difícil , coleção de dados , requer codificação , meu favorito Penney (2016) explorou se a ampla divulgação sobre a vigilância da NSA / PRISM (isto é, as revelações de Snowden) em junho de 2013 estava associada a uma queda acentuada e repentina no tráfego de artigos da Wikipedia sobre tópicos que levantam preocupações com a privacidade. Se assim for, essa mudança de comportamento seria consistente com um efeito de resfriamento resultante da vigilância em massa. A abordagem de Penney (2016) é algumas vezes chamada de projeto de séries temporais interrompidas e está relacionada às abordagens descritas na seção 2.4.3.

    Para escolher as palavras-chave do tópico, a Penney referiu-se à lista usada pelo Departamento de Segurança Interna dos EUA para rastrear e monitorar as mídias sociais. A lista do DHS categoriza certos termos de pesquisa em uma série de questões, como “Preocupação com a saúde”, “Segurança da infraestrutura” e “Terrorismo”. Para o grupo de estudo, a Penney usou 48 palavras-chave relacionadas ao “Terrorismo” (ver tabela 8 do apêndice). ). Em seguida, ele agregou mensalmente as contagens de visualizações de artigos da Wikipedia para os 48 artigos da Wikipédia correspondentes em um período de 32 meses, do início de janeiro de 2012 até o final de agosto de 2014. Para reforçar seu argumento, ele também criou vários grupos de comparação visualizações de artigos sobre outros tópicos.

    Agora, você vai replicar e estender a Penney (2016) . Todos os dados brutos que você precisará para esta atividade estão disponíveis na Wikipedia. Ou você pode obtê-lo na wikipediatrend R-package (Meissner and R Core Team 2016) . Quando você escrever suas respostas, observe qual fonte de dados você usou. (Observe que essa mesma atividade também aparece no capítulo 6.) Essa atividade lhe dará prática em discussões de dados e pensando em experimentos naturais em fontes de big data. Ele também colocará você em funcionamento com uma fonte de dados potencialmente interessante para projetos futuros.

    1. Leia Penney (2016) e replique sua figura 2, que mostra as visualizações de páginas relacionadas a “Terrorismo” antes e depois das revelações de Snowden. Interpretar os resultados.
    2. Em seguida, replique a figura 4A, que compara o grupo de estudo (artigos relacionados com “Terrorismo”) com um grupo de comparação usando palavras-chave categorizadas sob “DHS e outras agências” da lista do DHS (ver tabela 10 do apêndice e nota de rodapé 139). Interpretar os resultados.
    3. Na parte (b), você comparou o grupo de estudo com um grupo de comparação. A Penney também comparou com outros dois grupos de comparação: artigos relacionados com “Segurança de Infra-estrutura” (tabela 11 do apêndice) e páginas populares da Wikipedia (tabela 12 do apêndice). Invente um grupo de comparação alternativo e teste se as descobertas da parte (b) são sensíveis à sua escolha do grupo de comparação. Qual escolha faz mais sentido? Por quê?
    4. Penney afirmou que palavras-chave relacionadas ao "Terrorismo" foram usadas para selecionar os artigos da Wikipedia porque o governo dos EUA citou o terrorismo como uma justificativa fundamental para suas práticas de vigilância on-line. Como verificação dessas 48 palavras-chave relacionadas ao "Terrorismo", Penney (2016) também realizou uma pesquisa sobre o MTurk, pedindo que os respondentes classificassem cada uma das palavras-chave em termos de Problema do Governo, Sensível à Privacidade e Prevenção (Tabela 7 e 8 do Apêndice). ). Replique a pesquisa no MTurk e compare seus resultados.
    5. Com base nos resultados da parte (d) e na sua leitura do artigo, você concorda com a escolha de palavras-chave de tópico da Penney no grupo de estudo? Por que ou por que não? Se não, o que você sugeriria em vez disso?
  8. [ fácil ] Efrati (2016) relatou, com base em informações confidenciais, que o “compartilhamento total” no Facebook havia diminuído em cerca de 5,5% ano sobre ano, enquanto “compartilhamento de transmissão original” caiu 21% ano a ano. Esse declínio foi particularmente agudo com usuários do Facebook com menos de 30 anos de idade. O relatório atribuiu o declínio a dois fatores. Um é o crescimento do número de “amigos” que as pessoas têm no Facebook. A outra é que algumas atividades de compartilhamento mudaram para mensagens e para concorrentes como o Snapchat. O relatório também revelou as várias táticas que o Facebook tentou impulsionar o compartilhamento, incluindo ajustes no algoritmo do News Feed que tornam os posts originais mais proeminentes, bem como lembretes periódicos das postagens originais com o recurso "On This Day". Quais implicações, se houver, essas descobertas têm para os pesquisadores que desejam usar o Facebook como fonte de dados?

  9. [ médio Qual é a diferença entre um sociólogo e um historiador? Segundo Goldthorpe (1991) , a principal diferença é o controle sobre a coleta de dados. Os historiadores são forçados a usar relíquias, enquanto os sociólogos podem adaptar sua coleta de dados a propósitos específicos. Leia Goldthorpe (1991) . Como é a diferença entre sociologia e história relacionada à ideia de custommades e readymades?

  10. [ Difícil Isso se baseia na pergunta anterior. Goldthorpe (1991) desenhou uma série de respostas críticas, incluindo uma de Nicky Hart (1994) que desafiou a dedicação de Goldthorpe aos dados sob medida. Para esclarecer as potenciais limitações dos dados feitos sob medida, Hart descreveu o Projeto Afluente Trabalhador, uma grande pesquisa para medir a relação entre classe social e votação que foi conduzida por Goldthorpe e seus colegas em meados da década de 1960. Como se poderia esperar de um estudioso que favoreceu dados projetados sobre dados encontrados, o Projeto Trabalhador Afluente coletou dados que foram adaptados para abordar uma teoria recentemente proposta sobre o futuro da classe social em uma era de aumento dos padrões de vida. Mas Goldthorpe e seus colegas de alguma forma “esqueceram” de coletar informações sobre o comportamento de voto das mulheres. Veja como Nicky Hart (1994) resumiu todo o episódio:

    “… É difícil evitar a conclusão de que as mulheres foram omitidas porque esse conjunto de dados 'feito sob medida' foi confinado por uma lógica paradigmática que excluía a experiência feminina. Impulsionados por uma visão teórica da consciência de classe e da ação como preocupações masculinas ..., Goldthorpe e seus colegas construíram um conjunto de provas empíricas que alimentaram e alimentaram suas próprias suposições teóricas, em vez de expô-las a um teste válido de adequação ”.

    Hart continuou:

    "As descobertas empíricas do Projeto Trabalhador Afluente nos dizem mais sobre os valores masculinistas da sociologia de meados do século do que informam os processos de estratificação, política e vida material".

    Você pode pensar em outros exemplos em que a coleta de dados feita sob medida tem os preconceitos do coletor de dados embutido? Como isso se compara a confusões algorítmicas? Que implicações isso pode ter quando os pesquisadores devem usar readymades e quando devem usar custommades?

  11. [ médio Neste capítulo, comparei dados coletados por pesquisadores para pesquisadores com registros administrativos criados por empresas e governos. Algumas pessoas chamam esses registros administrativos de “dados encontrados”, que eles contrastam com “dados projetados”. É verdade que os registros administrativos são encontrados pelos pesquisadores, mas também são altamente projetados. Por exemplo, empresas modernas de tecnologia trabalham muito duro para coletar e organizar seus dados. Assim, esses registros administrativos são encontrados e projetados, depende apenas da sua perspectiva (figura 2.12).

    Figura 2.12: A imagem é um pato e um coelho; o que você vê depende da sua perspectiva. Grandes fontes de dados são encontradas e projetadas; mais uma vez, o que você vê depende da sua perspectiva. Por exemplo, os registros de dados de chamadas coletados por uma empresa de telefonia móvel são encontrados na perspectiva de um pesquisador. Mas, exatamente esses mesmos registros são dados projetados na perspectiva de alguém que trabalha no departamento de faturamento da companhia telefônica. Fonte: Popular Science Monthly (1899) / Wikimedia Commons.

    Figura 2.12: A imagem é um pato e um coelho; o que você vê depende da sua perspectiva. Grandes fontes de dados são encontradas e projetadas; mais uma vez, o que você vê depende da sua perspectiva. Por exemplo, os registros de dados de chamadas coletados por uma empresa de telefonia móvel são encontrados na perspectiva de um pesquisador. Mas, exatamente esses mesmos registros são dados projetados na perspectiva de alguém que trabalha no departamento de faturamento da companhia telefônica. Fonte: Popular Science Monthly (1899) / Wikimedia Commons .

    Forneça um exemplo de fonte de dados em que vê-la como encontrada e projetada é útil ao usar essa fonte de dados para pesquisa.

  12. [ fácil Em um ensaio bem pensado, Christian Sandvig e Eszter Hargittai (2015) dividiram a pesquisa digital em duas grandes categorias, dependendo se o sistema digital é um “instrumento” ou “objeto de estudo”. Um exemplo do primeiro tipo - onde o sistema é Um instrumento - é a pesquisa de Bengtsson e colegas (2011) sobre o uso de dados de telefones móveis para rastrear a migração após o terremoto no Haiti em 2010. Um exemplo do segundo tipo - onde o sistema é objeto de estudo - é uma pesquisa de Jensen. (2007) sobre como a introdução de telefones móveis em toda a Kerala, na Índia, impactou o funcionamento do mercado de peixes. Acho essa distinção útil porque esclarece que os estudos que usam fontes de dados digitais podem ter objetivos bem diferentes, mesmo se estiverem usando o mesmo tipo de fonte de dados. A fim de esclarecer melhor essa distinção, descreva quatro estudos que você viu: dois que usam um sistema digital como um instrumento e dois que usam um sistema digital como objeto de estudo. Você pode usar exemplos deste capítulo se quiser.