atividades

Chave:

  • grau de dificuldade: fácil fácil , médio médio , difícil difícil , muito difícil muito difícil
  • requer matemática ( requer matemática )
  • requer codificação ( requer codificação )
  • coleção de dados ( coleção de dados )
  • meus favoritos ( meu favorito )
  1. [ médio , meu favorito ] Confusão Algorithmic foi um problema com o Google Flu Trends. Leia o artigo de Lazer et al. (2014) , e escrever um e-mail curto, claro para um engenheiro da Google explicando o problema e oferecer uma idéia de como resolver o problema.

  2. [ médio ] Bollen, Mao, and Zeng (2011) afirma que os dados do Twitter pode ser usado para prever o mercado de ações. Esta descoberta levou à criação de um hedge fund-Derwent Capital Markets-a investir no mercado de ações com base em dados recolhidos a partir de Twitter (Jordan 2010) . Que provas você quer ver antes de colocar seu dinheiro nesse fundo?

  3. [ fácil ] Embora alguns defensores da saúde pública granizo e-cigarros como uma ajuda eficaz para a cessação do tabagismo, outros alertam sobre os riscos potenciais, tais como os altos níveis de nicotina. Imagine que um pesquisador decide estudar a opinião pública para os e-cigarros através da recolha de posts no Twitter relacionadas com o e-cigarros e realização de análise de sentimento.

    1. Quais são as três possíveis vieses que você está mais preocupado com neste estudo?
    2. Clark et al. (2016) correu apenas como um estudo. Em primeiro lugar, eles coletaram 850.000 tweets que usadas palavras-chave de e-cigarro relacionados De janeiro de 2012 a dezembro de 2014. Após uma inspeção mais próxima, eles perceberam que muitas das esses tweets foram automatizados (ou seja, não produzido por seres humanos) e muitos de esses tweets automatizados foram essencialmente comerciais. Eles desenvolveram um algoritmo de detecção humana para separar os tweets automatizados a partir de tweets orgânicos. Usando Detectar Algorithm Este ser humano, eles descobriram que 80% de tweets foram automatizados. Será que esta conclusão mudar a sua resposta ao item (a)?
    3. Quando compararam o sentimento em os tweets orgânicos e automatizados, eles descobriram que os tweets automatizados são mais positivos do que os tweets orgânicos (6,17 contra 5,84). Será que esta conclusão altere a resposta para (b)?
  4. [ fácil ] Em novembro de 2009, o Twitter mudou a pergunta na caixa de tweet a partir de "O que você está fazendo?" Para "O que está acontecendo?" (Https://blog.twitter.com/2009/whats-happening).

    1. Como você acha que a mudança de prompts irá afectar que tweeta e / ou o que eles Tweet?
    2. Cite um projeto de pesquisa para o qual você prefere o prompt "O que você está fazendo?" Explique por que.
    3. Cite um projeto de pesquisa para o qual você prefere o prompt "O que está acontecendo?" Explique por que.
  5. [ médio ] Kwak et al. (2010) analisou 41,7 milhões de perfis de usuário, 1,47 bilhões de relações sociais, 4262 trending topics, e 106 milhões de tweets entre 06 de junho e 31 de junho de 2009. Com base nesta análise, eles concluíram que o Twitter serve mais como um novo meio de partilha de informação do que um rede social.

    1. Considerando-se a descoberta de Kwak et al, que tipo de pesquisa que você faria com os dados do Twitter? Que tipo de pesquisa você não iria fazer com os dados do Twitter? Por quê?
    2. Em 2010, o Twitter adicionou a Who To Follow serviço fazendo sugestão sob medida para os usuários. Três recomendações são mostrados de cada vez na página principal. Recomendações são muitas vezes retiradas de uma de "amigos-de-amigos", e contactos mútuos também são exibidos na recomendação. Os usuários podem atualizar para ver um novo conjunto de recomendações ou visitar uma página com uma longa lista de recomendações. Você acha que esse novo recurso iria mudar a sua resposta a parte a)? Por que ou por que não?
    3. Su, Sharma, and Goel (2016) avaliaram o efeito de quem seguir serviço e descobriram que, enquanto os usuários de todo o espectro popularidade beneficiou das recomendações, os utilizadores mais populares lucraram substancialmente mais do que a média. Será que esta conclusão mudar a sua resposta ao item b)? Por que ou por que não?
  6. [ fácil ] "Retweets" são muitas vezes utilizados para medir a influência e propagação de influência no Twitter. Inicialmente, os usuários tinham que copiar e colar o tweet eles gostaram, marque o autor original com o seu / sua alça e digite manualmente "RT" antes do tweet para indicar que é um retweet. Então, em 2009 Twitter adicionou um botão "retuitar". Em junho de 2016, o Twitter tornou possível para os usuários a retuitar seus próprios tweets (https://twitter.com/twitter/status/742749353689780224). Você acha que essas mudanças devem afetar a forma como você usa "retweets" em sua pesquisa? Por que ou por que não?

  7. [ médio , coleção de dados , requer codificação ] Michel et al. (2011) elaborou um corpo emergente de esforço do Google para digitalizar livros. Usando a primeira versão do corpus, que foi publicado em 2009 e continha mais de 5 milhões de livros digitalizados, os autores analisaram a frequência do uso da palavra para investigar alterações linguísticas e tendências culturais. Logo o Books Corpus Google tornou-se uma fonte de dados popular para os investigadores, e uma segunda versão do banco de dados foi lançado em 2012.

    No entanto, Pechenick, Danforth, and Dodds (2015) advertiu que pesquisadores precisam caracterizar completamente o processo de amostragem do corpus antes de usá-lo para desenhar conclusões gerais. A questão principal é que o corpus é uma biblioteca semelhante, contendo um de cada livro. Como resultado, um indivíduo, prolífico autor é capaz de inserir visivelmente novas frases no léxico do Google Livros. Além disso, textos científicos constituem uma parte cada vez mais substanciais do corpus ao longo dos anos 1900. Além disso, comparando duas versões dos conjuntos de dados científica Inglês, Pechenick et al. evidência encontrada que a filtragem insuficiente foi usada na produção da primeira versão. Todos os dados necessários para a atividade está disponível aqui: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. No artigo original de Michel et al. (2011) , eles usaram a 1ª versão do conjunto de dados Inglês, plotados a frequência de uso dos anos "1880", "1912" e "1973", e concluiu que "estamos esquecer o nosso passado mais rápido com cada ano que passa "(Fig. 3A, Michel et al.). Replicar a mesma trama usando 1) primeira versão do corpus, Inglês conjunto de dados (o mesmo que Fig. 3A, Michel et al.)
    2. Agora replicar o mesmo enredo com a primeira versão, Inglês ficção conjunto de dados.
    3. Agora replicar o mesmo enredo com a segunda versão do corpus, Inglês conjunto de dados.
    4. Finalmente, replicar o mesmo enredo com a segunda versão, Inglês ficção conjunto de dados.
    5. Descrever as diferenças e semelhanças entre estes quatro parcelas. Você concorda com a de Michel et al. Interpretação original da tendência observada? (Sugestão: c) e d) deve ser o mesmo que a Figura 16 em Pechenick et ai).
    6. Agora que você já replicado este achado usando diferentes Google Livros corpora, escolha outra mudança linguística ou fenômenos culturais apresentados em papel original de Michel et al.. Você concorda com a sua interpretação à luz das limitações apresentadas na Pechenick et al.? Para fazer o seu argumento mais forte, tente replicar o mesmo gráfico usando diferentes versões do conjunto de dados como acima.
  8. [ muito difícil , coleção de dados , requer codificação , meu favorito ] Penney (2016) explora se a ampla publicidade sobre NSA vigilância / PRISM (ou seja, as revelações Snowden) em junho de 2013 está associada a uma diminuição acentuada e repentina no tráfego para os artigos da Wikipédia sobre tópicos que suscitam preocupações com a privacidade. Se assim for, esta mudança de comportamento seria consistente com um efeito de arrefecimento no âmbito da vigilância em massa. A abordagem da Penney (2016) é chamado às vezes um projeto de série temporal interrompida e está relacionado com as abordagens no capítulo sobre a aproximação experimentos a partir de dados observacionais (Seção 2.4.3).

    Para escolher as palavras-chave tópico, Penney se refere à lista usada pelo Departamento de Segurança Interna dos Estados Unidos para rastreamento e monitoramento de mídia social. A lista DHS categoriza certos termos de busca em uma série de questões, ou seja, "problema de saúde", "Segurança Infra-estrutura" e "terrorismo". Para o grupo de estudo, Penney utilizadas as quarenta e oito palavras-chave relacionadas com "terrorismo" (ver Tabela 8 Apêndice). Ele então agregadas Wikipédia artigo contagens de visualizações em uma base mensal para os correspondentes quarenta e oito artigos da Wikipedia em um período de 32 meses, a partir do início de Janeiro de 2012 para o final de agosto de 2014. Para reforçar seu argumento, ele também criou várias comparação grupos de rastreamento de visualizações artigo sobre outros temas.

    Agora, você está indo para replicar e ampliar Penney (2016) . Todos os dados brutos que você vai precisar para esta atividade está disponível a partir Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ou você pode obtê-lo a partir do wikipediatrend pacote R (Meissner and Team 2016) . Quando você escreve-up suas respostas, observe qual fonte de dados que você usou. (Nota: Esta mesma atividade também aparece no Capítulo 6)

    1. Leia Penney (2016) e replicar Figura 2, que mostra as visualizações de página para o "terrorismo" páginas relacionados com antes e depois da revelação Snowden. Interpretar os resultados.
    2. Em seguida, replicar Fig 4A, que compara o grupo de estudo (o "terrorismo" artigos relacionados com) com um grupo de comparação usando palavras-chave classificadas em "DHS e outras agências" na lista DHS (ver Apêndice Tabela 10). Interpretar os resultados.
    3. Em parte b) você comparou o grupo de estudo para um grupo comparador. Penney também em comparação com dois outros grupos de comparação: "Infra-estrutura de segurança" artigos relacionados com (Apêndice Tabela 11) e páginas da Wikipedia populares (Apêndice Tabela 12). Come-se com um grupo de comparação alternativo e testar se os resultados de parte b) é sensível a escolha do grupo de comparação. Que escolha do grupo de comparação faz mais sentido? Por quê?
    4. O autor afirmou que as palavras-chave relacionadas com a "terrorismo" foram usadas para selecionar os artigos da Wikipédia, porque o governo dos EUA citou o terrorismo como justificativa chave para suas práticas de vigilância on-line. Como uma verificação desses 48 "terrorismo" palavras-chave relacionados com, Penney (2016) também realizou uma pesquisa sobre MTurk pedir aos entrevistados para avaliar cada uma das palavras-chave em termos de problema Governo, Privacy-Sensitive e Prevenção (Quadro Anexo 7 e 8). Replicar a pesquisa sobre MTurk e comparar seus resultados.
    5. Com base nos resultados, em parte, d) e sua leitura do artigo, você concorda com a escolha do autor de palavras-chave tópico no grupo de estudo? Por que ou por que não? Se não, o que você sugeriria em vez disso?
  9. [ fácil ] Efrati (2016) relatórios, com base em informações confidenciais, que "partilha total", no Facebook havia declinado por ano cerca de 5,5% sobre o ano enquanto o "compartilhamento de transmissão original" caiu 21% ano sobre ano. Este declínio foi particularmente agudo com os usuários do Facebook com menos de 30 anos de idade. O relatório atribuiu a queda a dois fatores. Um deles é o crescimento do número de "amigos" que as pessoas têm no Facebook. A outra é que alguma atividade partilha mudou para mensagens e para concorrentes como a Snapchat. O relatório também revelou as várias táticas Facebook tinha tentado aumentar a partilha, incluindo ajustes de algoritmo do Feed de notícias que fazem as mensagens originais mais proeminente, bem como lembretes periódicos dos usuários mensagens originais "Neste dia" há vários anos. Que implicações, se houver, que estas descobertas têm para os investigadores que querem usar o Facebook como fonte de dados?

  10. [ médio ] Tumasjan et al. (2010) relataram que proporção de tweets que citam um partido político combinava com a proporção de votos que o partido recebeu na eleição parlamentar alemão em 2009 (Figura 2.9). Em outras palavras, parecia que você poderia usar o Twitter para prever a eleição. No momento que este estudo foi publicado foi considerado extremamente excitante, porque parecia sugerir um uso valioso para uma fonte comum de dados grandes.

    Dadas as características ruins de big data, no entanto, você deve ser imediatamente cético em relação a este resultado. Alemães no Twitter em 2009 foram um grupo bastante não-representativa e apoiantes de um partido pode tweet sobre política com mais frequência. Assim, parece surpreendente que todas as possíveis vieses que você possa imaginar, de alguma forma anular. De facto, os resultados em Tumasjan et al. (2010) acabou por ser bom demais para ser verdade. Em seu artigo, Tumasjan et al. (2010) considerou seis partidos políticos: democratas-cristãos (CDU), sociais-democratas cristãos (CSU), SPD, liberais (FDP), A Esquerda (Die Linke), e do Partido Verde (Grüne). No entanto, o partido político alemão mais citada no Twitter naquela época era o Partido Pirata (Piraten), um partido que combate a regulamentação governamental da Internet. Quando o Partido Pirata foi incluído na análise, Twitter menciona torna-se um preditor terrível dos resultados das eleições (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figura 2.9: Twitter menciona parecem prever os resultados da eleição alemã de 2009 (Tumasjan et al 2010)., Mas este resultado acaba por depender de algumas escolhas arbitrárias e injustificadas (Jungherr, Jürgens e Schoen 2012).

    Figura 2.9: Twitter menciona parecem prever os resultados da eleição alemã 2,009 (Tumasjan et al. 2010) , Mas este resultado acaba por depender de algumas escolhas arbitrárias e injustificadas (Jungherr, Jürgens, and Schoen 2012) .

    Posteriormente, outros pesquisadores de todo o mundo têm usado métodos, tais extravagantes como o uso de análise de sentimento de distinguir entre positivo e negativo menciona das partes-a fim de melhorar a capacidade de dados do Twitter para prever uma variedade de diferentes tipos de eleições (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Veja como Huberty (2015) resumiu os resultados dessas tentativas de prever eleições:

    "Todos os métodos de previsão conhecidos baseados em mídias sociais falharam quando submetidos às exigências da verdadeira previsão eleitoral voltada para o futuro. Estas falhas parecem ser devido às propriedades fundamentais dos meios de comunicação social, e não a dificuldades metodológicas ou algorítmicos. Em suma, as mídias sociais não, e provavelmente nunca será, oferecem uma imagem estável, imparcial, representante do eleitorado; e amostras de conveniência de mídias sociais carecem de dados suficientes para corrigir esses problemas post hoc ".

    Leia algumas das pesquisas que levam Huberty (2015) a essa conclusão, e escrever um memorando de uma página para um candidato político que descreve se e como o Twitter deve ser usado para prever eleições.

  11. [ médio ] Qual é a diferença entre um sociólogo e um historiador? De acordo com Goldthorpe (1991) , a principal diferença entre um sociólogo e um historiador é o controle sobre a coleta de dados. Os historiadores são forçados a usar relíquias enquanto sociólogos pode adaptar sua recolha de dados para fins específicos. Leia Goldthorpe (1991) . Como é a diferença entre a sociologia e história relacionada com a ideia de Custommades e Readymades?

  12. [ difícil ] Com base na pergunta anterior, Goldthorpe (1991) atraiu um número de respostas críticas, incluindo um de Nicky Hart (1994) que desafiou a devoção de Goldthorpe para adequar os dados feitos. Para esclarecer as possíveis limitações dos dados sob medida, Hart descreveu o Projeto Trabalhador Affluent, uma grande pesquisa para medir a relação entre classe social e de votação que foi conduzido por Goldthorpe e colegas em meados da década de 1960. Como se poderia esperar de um estudioso que favoreceu concebido dados sobre dados encontrados, o Projeto Trabalhador Affluent recolhidos dados que foram adaptadas para tratar de uma proposta recentemente teoria sobre o futuro da classe social em uma era de crescente nível de vida. Mas, Goldthorpe e colegas de alguma forma "esqueceu" para recolher informações sobre o comportamento de voto das mulheres. Veja como Nicky Hart (1994) resume todo o episódio:

    ". . . ela [é] difícil evitar a conclusão de que as mulheres foram omitidos porque esta 'sob medida' conjunto de dados foi confinado por uma lógica paradigmática que excluía experiência feminina. Impulsionado por uma visão teórica da consciência de classe e ação, como preocupações do sexo masculino. . . , Goldthorpe e seus colegas construíram um conjunto de provas empíricas que ela alimentada seus próprios pressupostos teóricos em vez de expô-los a um teste válido de adequação ".

    Hart continuou:

    "Os resultados empíricos do Projeto Trabalhador Affluent nos dizer mais sobre os valores machistas da sociologia de meados do século do que informar os processos de estratificação, política e vida material."

    Você pode pensar em outros exemplos em que a recolha de dados sob medida tem os preconceitos do coletor de dados construído para ele? Como isso se compara a confusão algorítmica? Que implicações isso pode ter para quando os pesquisadores devem usar Readymades e quando eles devem usar Custommades?

  13. [ médio ] Neste capítulo, eu contrastou dados coletados por pesquisadores para pesquisadores com registros administrativos criados por empresas e governos. Algumas pessoas chamam esses registros administrativos "encontrou dados", que contrastam com os "dados projetados." É verdade que os registros administrativos são encontrados por pesquisadores, mas eles também são altamente projetados. Por exemplo, modernas empresas de tecnologia gastam enormes quantidades de tempo e recursos para coletar e curador de seus dados. Assim, esses registros administrativos encontram-se ambas e projetado, só depende da sua perspectiva (Figura 2.10).

    Figura 2.10: A imagem é tanto um pato e um coelho; o que você vê depende da sua perspectiva. Governamentais e empresariais registros administrativos encontram-se ambas e projetado; o que você vê depende da sua perspectiva. Por exemplo, os registros de dados de chamadas recolhidos por uma empresa de telefonia celular são encontrados dados a partir da perspectiva de um pesquisador. Mas, esses mesmos registros exatos são projetados perspectiva de alguém que trabalha no departamento de cobrança da empresa de telefonia de dados. Fonte: Wikimedia Commons

    Figura 2.10: A imagem é tanto um pato e um coelho; o que você vê depende da sua perspectiva. Governamentais e empresariais registros administrativos encontram-se ambas e projetado; o que você vê depende da sua perspectiva. Por exemplo, os registros de dados de chamadas recolhidos por uma empresa de telefonia celular são encontrados dados a partir da perspectiva de um pesquisador. Mas, esses mesmos registros exatos são projetados perspectiva de alguém que trabalha no departamento de cobrança da empresa de telefonia de dados. Fonte: Wikimedia Commons

    Fornecer um exemplo de fonte de dados, onde vê-lo tanto como encontrado e projetado é útil quando se utiliza essa fonte de dados para a pesquisa.

  14. [ fácil ] Em um ensaio pensativo, Christian Sandvig e Eszter Hargittai (2015) descrevem dois tipos de pesquisa digital, em que o sistema digital é "instrumento" ou "objeto de estudo". Um exemplo do primeiro tipo de estudo é onde Bengtsson e colegas (2011) utilizaram dados de telefones celulares para rastrear migração após o terremoto no Haiti em 2010. Um exemplo do segundo tipo é onde Jensen (2007) estuda como a introdução de telefones móveis em todo Kerala, Índia impactaram o funcionamento do mercado de peixe. Eu acho isso útil porque esclarece que os estudos que utilizam fontes de dados digitais podem ter objetivos muito diferentes, mesmo se eles estão usando o mesmo tipo de fonte de dados. A fim de esclarecer melhor esta distinção, descrevem quatro estudos que você já viu: dois que usam um sistema digital como um instrumento e dois que usam um sistema digital como um objeto de estudo. Você pode usar exemplos deste capítulo, se quiser.