Chave:
[ , ] Confusão Algorithmic foi um problema com o Google Flu Trends. Leia o artigo de Lazer et al. (2014) , e escrever um e-mail curto, claro para um engenheiro da Google explicando o problema e oferecer uma idéia de como resolver o problema.
[ ] Bollen, Mao, and Zeng (2011) afirma que os dados do Twitter pode ser usado para prever o mercado de ações. Esta descoberta levou à criação de um hedge fund-Derwent Capital Markets-a investir no mercado de ações com base em dados recolhidos a partir de Twitter (Jordan 2010) . Que provas você quer ver antes de colocar seu dinheiro nesse fundo?
[ ] Embora alguns defensores da saúde pública granizo e-cigarros como uma ajuda eficaz para a cessação do tabagismo, outros alertam sobre os riscos potenciais, tais como os altos níveis de nicotina. Imagine que um pesquisador decide estudar a opinião pública para os e-cigarros através da recolha de posts no Twitter relacionadas com o e-cigarros e realização de análise de sentimento.
[ ] Em novembro de 2009, o Twitter mudou a pergunta na caixa de tweet a partir de "O que você está fazendo?" Para "O que está acontecendo?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analisou 41,7 milhões de perfis de usuário, 1,47 bilhões de relações sociais, 4262 trending topics, e 106 milhões de tweets entre 06 de junho e 31 de junho de 2009. Com base nesta análise, eles concluíram que o Twitter serve mais como um novo meio de partilha de informação do que um rede social.
[ ] "Retweets" são muitas vezes utilizados para medir a influência e propagação de influência no Twitter. Inicialmente, os usuários tinham que copiar e colar o tweet eles gostaram, marque o autor original com o seu / sua alça e digite manualmente "RT" antes do tweet para indicar que é um retweet. Então, em 2009 Twitter adicionou um botão "retuitar". Em junho de 2016, o Twitter tornou possível para os usuários a retuitar seus próprios tweets (https://twitter.com/twitter/status/742749353689780224). Você acha que essas mudanças devem afetar a forma como você usa "retweets" em sua pesquisa? Por que ou por que não?
[ , , ] Michel et al. (2011) elaborou um corpo emergente de esforço do Google para digitalizar livros. Usando a primeira versão do corpus, que foi publicado em 2009 e continha mais de 5 milhões de livros digitalizados, os autores analisaram a frequência do uso da palavra para investigar alterações linguísticas e tendências culturais. Logo o Books Corpus Google tornou-se uma fonte de dados popular para os investigadores, e uma segunda versão do banco de dados foi lançado em 2012.
No entanto, Pechenick, Danforth, and Dodds (2015) advertiu que pesquisadores precisam caracterizar completamente o processo de amostragem do corpus antes de usá-lo para desenhar conclusões gerais. A questão principal é que o corpus é uma biblioteca semelhante, contendo um de cada livro. Como resultado, um indivíduo, prolífico autor é capaz de inserir visivelmente novas frases no léxico do Google Livros. Além disso, textos científicos constituem uma parte cada vez mais substanciais do corpus ao longo dos anos 1900. Além disso, comparando duas versões dos conjuntos de dados científica Inglês, Pechenick et al. evidência encontrada que a filtragem insuficiente foi usada na produção da primeira versão. Todos os dados necessários para a atividade está disponível aqui: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explora se a ampla publicidade sobre NSA vigilância / PRISM (ou seja, as revelações Snowden) em junho de 2013 está associada a uma diminuição acentuada e repentina no tráfego para os artigos da Wikipédia sobre tópicos que suscitam preocupações com a privacidade. Se assim for, esta mudança de comportamento seria consistente com um efeito de arrefecimento no âmbito da vigilância em massa. A abordagem da Penney (2016) é chamado às vezes um projeto de série temporal interrompida e está relacionado com as abordagens no capítulo sobre a aproximação experimentos a partir de dados observacionais (Seção 2.4.3).
Para escolher as palavras-chave tópico, Penney se refere à lista usada pelo Departamento de Segurança Interna dos Estados Unidos para rastreamento e monitoramento de mídia social. A lista DHS categoriza certos termos de busca em uma série de questões, ou seja, "problema de saúde", "Segurança Infra-estrutura" e "terrorismo". Para o grupo de estudo, Penney utilizadas as quarenta e oito palavras-chave relacionadas com "terrorismo" (ver Tabela 8 Apêndice). Ele então agregadas Wikipédia artigo contagens de visualizações em uma base mensal para os correspondentes quarenta e oito artigos da Wikipedia em um período de 32 meses, a partir do início de Janeiro de 2012 para o final de agosto de 2014. Para reforçar seu argumento, ele também criou várias comparação grupos de rastreamento de visualizações artigo sobre outros temas.
Agora, você está indo para replicar e ampliar Penney (2016) . Todos os dados brutos que você vai precisar para esta atividade está disponível a partir Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ou você pode obtê-lo a partir do wikipediatrend pacote R (Meissner and Team 2016) . Quando você escreve-up suas respostas, observe qual fonte de dados que você usou. (Nota: Esta mesma atividade também aparece no Capítulo 6)
[ ] Efrati (2016) relatórios, com base em informações confidenciais, que "partilha total", no Facebook havia declinado por ano cerca de 5,5% sobre o ano enquanto o "compartilhamento de transmissão original" caiu 21% ano sobre ano. Este declínio foi particularmente agudo com os usuários do Facebook com menos de 30 anos de idade. O relatório atribuiu a queda a dois fatores. Um deles é o crescimento do número de "amigos" que as pessoas têm no Facebook. A outra é que alguma atividade partilha mudou para mensagens e para concorrentes como a Snapchat. O relatório também revelou as várias táticas Facebook tinha tentado aumentar a partilha, incluindo ajustes de algoritmo do Feed de notícias que fazem as mensagens originais mais proeminente, bem como lembretes periódicos dos usuários mensagens originais "Neste dia" há vários anos. Que implicações, se houver, que estas descobertas têm para os investigadores que querem usar o Facebook como fonte de dados?
[ ] Tumasjan et al. (2010) relataram que proporção de tweets que citam um partido político combinava com a proporção de votos que o partido recebeu na eleição parlamentar alemão em 2009 (Figura 2.9). Em outras palavras, parecia que você poderia usar o Twitter para prever a eleição. No momento que este estudo foi publicado foi considerado extremamente excitante, porque parecia sugerir um uso valioso para uma fonte comum de dados grandes.
Dadas as características ruins de big data, no entanto, você deve ser imediatamente cético em relação a este resultado. Alemães no Twitter em 2009 foram um grupo bastante não-representativa e apoiantes de um partido pode tweet sobre política com mais frequência. Assim, parece surpreendente que todas as possíveis vieses que você possa imaginar, de alguma forma anular. De facto, os resultados em Tumasjan et al. (2010) acabou por ser bom demais para ser verdade. Em seu artigo, Tumasjan et al. (2010) considerou seis partidos políticos: democratas-cristãos (CDU), sociais-democratas cristãos (CSU), SPD, liberais (FDP), A Esquerda (Die Linke), e do Partido Verde (Grüne). No entanto, o partido político alemão mais citada no Twitter naquela época era o Partido Pirata (Piraten), um partido que combate a regulamentação governamental da Internet. Quando o Partido Pirata foi incluído na análise, Twitter menciona torna-se um preditor terrível dos resultados das eleições (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Posteriormente, outros pesquisadores de todo o mundo têm usado métodos, tais extravagantes como o uso de análise de sentimento de distinguir entre positivo e negativo menciona das partes-a fim de melhorar a capacidade de dados do Twitter para prever uma variedade de diferentes tipos de eleições (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Veja como Huberty (2015) resumiu os resultados dessas tentativas de prever eleições:
"Todos os métodos de previsão conhecidos baseados em mídias sociais falharam quando submetidos às exigências da verdadeira previsão eleitoral voltada para o futuro. Estas falhas parecem ser devido às propriedades fundamentais dos meios de comunicação social, e não a dificuldades metodológicas ou algorítmicos. Em suma, as mídias sociais não, e provavelmente nunca será, oferecem uma imagem estável, imparcial, representante do eleitorado; e amostras de conveniência de mídias sociais carecem de dados suficientes para corrigir esses problemas post hoc ".
Leia algumas das pesquisas que levam Huberty (2015) a essa conclusão, e escrever um memorando de uma página para um candidato político que descreve se e como o Twitter deve ser usado para prever eleições.
[ ] Qual é a diferença entre um sociólogo e um historiador? De acordo com Goldthorpe (1991) , a principal diferença entre um sociólogo e um historiador é o controle sobre a coleta de dados. Os historiadores são forçados a usar relíquias enquanto sociólogos pode adaptar sua recolha de dados para fins específicos. Leia Goldthorpe (1991) . Como é a diferença entre a sociologia e história relacionada com a ideia de Custommades e Readymades?
[ ] Com base na pergunta anterior, Goldthorpe (1991) atraiu um número de respostas críticas, incluindo um de Nicky Hart (1994) que desafiou a devoção de Goldthorpe para adequar os dados feitos. Para esclarecer as possíveis limitações dos dados sob medida, Hart descreveu o Projeto Trabalhador Affluent, uma grande pesquisa para medir a relação entre classe social e de votação que foi conduzido por Goldthorpe e colegas em meados da década de 1960. Como se poderia esperar de um estudioso que favoreceu concebido dados sobre dados encontrados, o Projeto Trabalhador Affluent recolhidos dados que foram adaptadas para tratar de uma proposta recentemente teoria sobre o futuro da classe social em uma era de crescente nível de vida. Mas, Goldthorpe e colegas de alguma forma "esqueceu" para recolher informações sobre o comportamento de voto das mulheres. Veja como Nicky Hart (1994) resume todo o episódio:
". . . ela [é] difícil evitar a conclusão de que as mulheres foram omitidos porque esta 'sob medida' conjunto de dados foi confinado por uma lógica paradigmática que excluía experiência feminina. Impulsionado por uma visão teórica da consciência de classe e ação, como preocupações do sexo masculino. . . , Goldthorpe e seus colegas construíram um conjunto de provas empíricas que ela alimentada seus próprios pressupostos teóricos em vez de expô-los a um teste válido de adequação ".
Hart continuou:
"Os resultados empíricos do Projeto Trabalhador Affluent nos dizer mais sobre os valores machistas da sociologia de meados do século do que informar os processos de estratificação, política e vida material."
Você pode pensar em outros exemplos em que a recolha de dados sob medida tem os preconceitos do coletor de dados construído para ele? Como isso se compara a confusão algorítmica? Que implicações isso pode ter para quando os pesquisadores devem usar Readymades e quando eles devem usar Custommades?
[ ] Neste capítulo, eu contrastou dados coletados por pesquisadores para pesquisadores com registros administrativos criados por empresas e governos. Algumas pessoas chamam esses registros administrativos "encontrou dados", que contrastam com os "dados projetados." É verdade que os registros administrativos são encontrados por pesquisadores, mas eles também são altamente projetados. Por exemplo, modernas empresas de tecnologia gastam enormes quantidades de tempo e recursos para coletar e curador de seus dados. Assim, esses registros administrativos encontram-se ambas e projetado, só depende da sua perspectiva (Figura 2.10).
Fornecer um exemplo de fonte de dados, onde vê-lo tanto como encontrado e projetado é útil quando se utiliza essa fonte de dados para a pesquisa.
[ ] Em um ensaio pensativo, Christian Sandvig e Eszter Hargittai (2015) descrevem dois tipos de pesquisa digital, em que o sistema digital é "instrumento" ou "objeto de estudo". Um exemplo do primeiro tipo de estudo é onde Bengtsson e colegas (2011) utilizaram dados de telefones celulares para rastrear migração após o terremoto no Haiti em 2010. Um exemplo do segundo tipo é onde Jensen (2007) estuda como a introdução de telefones móveis em todo Kerala, Índia impactaram o funcionamento do mercado de peixe. Eu acho isso útil porque esclarece que os estudos que utilizam fontes de dados digitais podem ter objetivos muito diferentes, mesmo se eles estão usando o mesmo tipo de fonte de dados. A fim de esclarecer melhor esta distinção, descrevem quatro estudos que você já viu: dois que usam um sistema digital como um instrumento e dois que usam um sistema digital como um objeto de estudo. Você pode usar exemplos deste capítulo, se quiser.