comentários adicionais

Esta secção destina-se a ser usado como uma referência, em vez de ser lido como uma narrativa.

  • Introdução (Seção 2.1)

Um tipo de observar que não está incluído neste capítulo é a etnografia. Para mais informações sobre a etnografia em espaços digitais ver Boellstorff et al. (2012) , e para mais informações sobre a etnografia em espaços físicos e digitais mistos ver Lane (2016) .

  • Big data (Seção 2.2)

Quando você está redirecionando dados, existem dois truques mentais que podem ajudar você a entender os possíveis problemas que podem ocorrer. Primeiro, você pode tentar imaginar o conjunto de dados ideal para o seu problema eo que comparar com o conjunto de dados que você está usando. Como eles são semelhantes e como eles são diferentes? Se você não recolher os seus dados a si mesmo, não é provável que sejam diferença entre o que você quer eo que você tem. Mas, você tem que decidir se essas diferenças são menores ou maiores.

Em segundo lugar, lembre-se que alguém criou e recolhidos os seus dados, por algum motivo. Você deve tentar compreender o seu raciocínio. Este tipo de engenharia reversa pode ajudar a identificar possíveis problemas e tendências em seus dados reaproveitado.

Não existe uma definição de consenso única de "dados grandes", mas muitas definições parecem centrar-se na 3 Vs: (por exemplo, volume, variedade e velocidade Japec et al. (2015) ). Ao invés de focar sobre as características dos dados, a minha definição incide mais sobre por que os dados foi criado.

Meu inclusão de dados administrativos do governo dentro da categoria de big data é um pouco incomum. Outros que fizeram neste caso, incluem Legewie (2015) , Connelly et al. (2016) , e Einav and Levin (2014) . Para saber mais sobre o valor dos dados administrativos do governo para a pesquisa, ver Card et al. (2010) , Taskforce (2012) , e Grusky, Smeeding, and Snipp (2015) .

Para uma visão da investigação administrativa de dentro do sistema estatístico do governo, em especial os EUA Census Bureau, consulte Jarmin and O'Hara (2016) . Para um tratamento comprimento livro da pesquisa registros administrativos na Statistics Sweden, consulte Wallgren and Wallgren (2007) .

No capítulo, eu comparei brevemente uma pesquisa tradicional, como a Pesquisa Geral Social (GSS) a uma fonte de dados de mídia social como o Twitter. Para uma comparação minuciosa e cuidadosa entre as pesquisas tradicionais e dados de mídia social, consulte Schober et al. (2016) .

  • Características comuns de dados grandes (Seção 2.3)

Estas características de 10 dados grandes têm sido descritas em uma variedade de maneiras diferentes por uma variedade de diferentes autores. Escrita que influenciou meu pensamento sobre estas questões incluem: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , e Goldstone and Lupyan (2016) .

Ao longo deste capítulo, eu usei os rastros digitais prazo, que eu acho que é relativamente neutro. Outro termo popular para rastros digitais é pegadas digitais (Golder and Macy 2014) , mas como Hal Abelson, Ken Ledeen, e Harry Lewis (2008) apontam, um termo mais apropriado é provavelmente impressões digitais. Quando você cria pegadas, você está ciente do que está acontecendo e suas pegadas geralmente não podem ser rastreados para você pessoalmente. O mesmo não é verdade para seus rastros digitais. Na verdade, você está deixando vestígios todo o tempo sobre o qual você tem muito pouco conhecimento. E, embora esses traços não têm seu nome neles, que muitas vezes pode ser ligado de volta para você. Em outras palavras, eles são mais como impressões digitais: invisível e identificação pessoal.

grande

Para saber mais sobre por que grandes conjuntos de dados, renderização testes estatísticos problemática, ver Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Estas questões devem levar os pesquisadores a se concentrar no significado prático ao invés de significância estatística.

Sempre

Ao considerar always-on de dados, é importante considerar se você está comparando exatamente as mesmas pessoas ao longo do tempo, ou se você está comparando algum grupo mudança de pessoas; ver, por exemplo, Diaz et al. (2016) .

Não reativo

Um livro clássico sobre medidas não reactivos é Webb et al. (1966) . Os exemplos no livro pré-data a era digital, mas eles ainda são esclarecedores. Para exemplos de pessoas mudando seu comportamento por causa da presença de vigilância em massa, consulte Penney (2016) e Brayne (2014) .

Incompleto

Para saber mais sobre linkage, consulte Dunn (1946) e Fellegi and Sunter (1969) (historical) e Larsen and Winkler (2014) (modern). Similar abordado também têm sido desenvolvidos em ciência da computação sob os nomes tais como deduplicação de dados, identificação exemplo, nome correspondente, duplicar a detecção e duplicar detecção de registro (Elmagarmid, Ipeirotis, and Verykios 2007) . Há também a privacidade preservar abordagens para gravar ligação que não requerem a transmissão de informações de identificação pessoal (Schnell 2013) . Facebook também desenvolveu um proceder para vincular seus registros para o comportamento eleitoral; isso foi feito para avaliar uma experiência que eu vou dizer-lhe sobre no capítulo 4 (Bond et al. 2012; Jones et al. 2013) .

Para saber mais sobre a validade da construção, ver Shadish, Cook, and Campbell (2001) , capítulo 3.

Inacessível

Para mais informações sobre o log de ​​pesquisa debacle AOL, consulte Ohm (2010) . I oferecer conselhos sobre a parceria com empresas e governos no Capítulo 4, quando eu descrever experiências. Vários autores têm expressado preocupações sobre a pesquisa que se baseia em dados inacessíveis, consulte Huberman (2012) e boyd and Crawford (2012) .

Uma boa maneira para os pesquisadores universitários para adquirir o acesso aos dados é trabalhar em uma empresa como estagiário ou pesquisador visitante. Além de permitir o acesso aos dados, este processo também ajudará o pesquisador aprender mais sobre como os dados foram criados, o que é importante para a análise.

Não representativa

Não-representatividade é um grande problema para os pesquisadores e governos que desejam fazer declarações sobre uma população inteira. Isso é menos de preocupação para as empresas que são tipicamente focados em seus usuários. Para saber mais sobre como Statistics Netherlands considera a questão da não-representatividade das grandes dados de negócios, consulte Buelens et al. (2014) .

No Capítulo 3, vou descrever a amostragem e estimação com muito mais detalhes. Mesmo que os dados não são representativos, sob certas condições, podem ser ponderadas para produzir boas estimativas.

Acumulando

deriva sistema é muito difícil de ver do lado de fora. No entanto, o projeto MovieLens (discutido no Capítulo 4), foi executado por mais de 15 anos por um grupo de pesquisa acadêmica. Portanto, eles têm documentado e informações sobre a forma como o sistema evoluiu ao longo do tempo e como compartilhou esta análise pode ter impacto (Harper and Konstan 2015) .

Vários estudiosos têm-se centrado na deriva no Twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .

algorìtmica confundidos

Ouvi pela primeira vez o termo "algorithmically confundidos" usado por Jon Kleinberg em uma palestra. A principal idéia por trás performatividade é que algumas teorias das ciências sociais são "motores não câmeras" (Mackenzie 2008) . Isto é, eles realmente moldar o mundo, em vez de apenas capturá-lo.

Sujo

Agências estatísticas governamentais chamar limpeza de dados, edição de dados estatísticos. De Waal, Puts, and Daas (2014) descrevem técnicas de edição de dados estatísticos desenvolvidos para dados de pesquisa e examinar até que ponto elas são aplicáveis ​​a fontes de dados grandes e Puts, Daas, and Waal (2015) apresenta algumas das mesmas idéias para um público mais geral.

Para alguns exemplos de estudos focados em spam no Twitter, Clark et al. (2016) e Chu et al. (2012) . Finalmente, Subrahmanian et al. (2016) descreve os resultados da DARPA Twitter Bot Challenge.

Sensível

Ohm (2015) Comentários de pesquisas anteriores sobre a ideia de informações sensíveis e oferece um teste multi-fator. Os quatro fatores que ele propõe são: a probabilidade de dano; probabilidade de dano; presença de uma relação de confiança; e se o risco de reflectir as preocupações majoritárias.

  • Contando as coisas (Seção 2.4.1)

Estudo de táxis em Nova Iorque de Farber foi baseada em um estudo anterior por Camerer et al. (1997) , que utilizaram três amostras de conveniência diferentes de viagem de papel formas folhas de papel usadas por motoristas para gravar viagem de hora de início, hora de término, e tarifa. Este estudo anterior descobriu que os motoristas parecia ser ganhadores de alvo: eles trabalharam menos nos dias em que seus salários eram mais elevados.

Kossinets and Watts (2009) estava centrada sobre as origens da homofilia nas redes sociais. Veja Wimmer and Lewis (2010) para uma abordagem diferente para o mesmo problema que usa dados do Facebook.

Em trabalho posterior, o rei e seus colegas exploraram ainda mais a censura online na China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Para uma abordagem relacionada à medição censura online na China, consulte Bamman, O'Connor, and Smith (2012) . Para mais informações sobre métodos estatísticos, como o usado em King, Pan, and Roberts (2013) para estimar o sentimento dos 11 milhões de mensagens, consulte Hopkins and King (2010) . Para mais informações sobre aprendizagem supervisionada, ver James et al. (2013) (menos técnica) e Hastie, Tibshirani, and Friedman (2009) (mais técnica).

  • Previsão (Seção 2.4.2)

Previsão é uma grande parte da ciência de dados industrial (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Um tipo de previsão que são comumente feito por pesquisadores sociais são previsões demográficas, por exemplo Raftery et al. (2012) .

Google Flu Trends não foi o primeiro projeto para usar dados de pesquisa para nowcast prevalência influenza. De fato, pesquisadores nos Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) e na Suécia (Hulth, Rydevik, and Linde 2009) descobriram que certos termos de busca (por exemplo, "gripe") previu nacional de vigilância de saúde pública dados antes que ele foi lançado. Posteriormente muitos, muitos outros projectos têm tentado usar dados de rastreamento digitais para a detecção de vigilância das doenças, ver Althouse et al. (2015) para uma revisão.

Além de usar dados de rastreio digital para prever resultados de saúde, também tem havido uma enorme quantidade de trabalho usando os dados do Twitter para prever resultados eleitorais; para ser avaliado ver Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Cap. 7) e Huberty (2015) .

Usando dados de pesquisa para prever prevalência da gripe e usando os dados do Twitter para prever as eleições são dois exemplos do uso de algum tipo de rastro digital para prever algum tipo de evento no mundo. Há um número enorme de estudos que têm esta estrutura geral. Tabela 2.5 inclui alguns outros exemplos.

Tabela 2.5: Lista parcial dos estudos utilizam algum rastro digital para prever algum evento.
trace digital Resultado Citação
Twitter Box receita cargo de filmes em os EUA Asur and Huberman (2010)
pesquisa registros As vendas de filmes, música, livros e jogos de vídeo em os EUA Goel et al. (2010)
Twitter Dow Jones Industrial Average (mercado de ações dos EUA) Bollen, Mao, and Zeng (2011)
  • Experiências de aproximação (Seção 2.4.3)

A revista PS Ciência Política teve um simpósio sobre big data, inferência causal, e a teoria formal, e Clark and Golder (2015) resume cada contribuição. Os revista Proceedings da Academia Nacional de Ciências dos Estados Unidos da América teve um simpósio sobre inferência causal e big data e Shiffrin (2016) resume cada contribuição.

Em termos de experimentos naturais, Dunning (2012) fornece um excelente tratamento comprimento livro. Para mais informações sobre usando o projecto de loteria Vietnã como um experimento natural, consulte Berinsky and Chatfield (2015) . Para abordagens de aprendizado de máquina que tentam descobrir automaticamente experimentos naturais dentro de fontes de dados grandes, ver Jensen et al. (2008) e Sharma, Hofman, and Watts (2015) .

Em termos de alinhamento, para uma avaliação otimista, consulte Stuart (2010) , e por uma avaliação pessimista ver Sekhon (2009) . Para mais informações sobre correspondência como uma espécie de poda, ver Ho et al. (2007) . Para os livros que proporcionam excelentes tratamentos de correspondência, consulte Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , e Imbens and Rubin (2015) .