Um tipo de observação que não está incluído neste capítulo é a etnografia. Para mais informações sobre etnografia em espaços digitais, ver Boellstorff et al. (2012) , e para mais sobre etnografia em espaços digitais e físicos mistos, ver Lane (2016) .
Não existe uma definição consensual única de “big data”, mas muitas definições parecem enfocar os “3 Vs”: volume, variedade e velocidade (por exemplo, Japec et al. (2015) ). Veja De Mauro et al. (2015) para uma revisão de definições.
Minha inclusão de dados administrativos do governo na categoria de big data é um pouco incomum, embora outros também tenham feito esse caso, incluindo Legewie (2015) , Connelly et al. (2016) e Einav and Levin (2014) . Para mais informações sobre o valor dos dados administrativos governamentais para pesquisa, ver Card et al. (2010) , Adminstrative Data Taskforce (2012) e Grusky, Smeeding, and Snipp (2015) .
Para uma visão da pesquisa administrativa dentro do sistema estatístico do governo, particularmente o Escritório do Censo dos EUA, ver Jarmin and O'Hara (2016) . Para um tratamento em tamanho livro da pesquisa de registros administrativos na Statistics Sweden, veja Wallgren and Wallgren (2007) .
No capítulo, comparei brevemente uma pesquisa tradicional, como o General Social Survey (GSS), com uma fonte de dados de mídia social, como o Twitter. Para uma comparação minuciosa e cuidadosa entre pesquisas tradicionais e dados de mídia social, ver Schober et al. (2016) .
Essas 10 características do Big Data foram descritas de várias maneiras diferentes por diversos autores. Escrever que influenciou meu pensamento sobre essas questões inclui Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , e Goldstone and Lupyan (2016) .
Ao longo deste capítulo, usei o termo traços digitais , que eu acho que é relativamente neutro. Outro termo popular para rastreamentos digitais são pegadas digitais (Golder and Macy 2014) , mas como Hal Abelson, Ken Ledeen e Harry Lewis (2008) apontam, um termo mais apropriado é provavelmente impressões digitais . Quando você cria pegadas, você está ciente do que está acontecendo e suas pegadas geralmente não podem ser atribuídas a você pessoalmente. O mesmo não é verdade para seus traços digitais. Na verdade, você está deixando vestígios o tempo todo sobre o qual você tem muito pouco conhecimento. E, embora esses traços não tenham seu nome neles, eles podem ser ligados a você. Em outras palavras, eles são mais parecidos com impressões digitais: invisíveis e pessoalmente identificáveis.
Para saber mais sobre por que grandes conjuntos de dados tornam os testes estatísticos problemáticos, consulte M. Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Essas questões devem levar os pesquisadores a se concentrarem no significado prático e não no significado estatístico.
Para saber mais sobre como Raj Chetty e colegas obtiveram acesso aos registros fiscais, consulte Mervis (2014) .
Grandes conjuntos de dados também podem criar problemas computacionais que geralmente estão além das capacidades de um único computador. Portanto, os pesquisadores que fazem cálculos em grandes conjuntos de dados geralmente distribuem o trabalho por muitos computadores, um processo às vezes chamado de programação paralela . Para uma introdução à programação paralela, em particular uma linguagem chamada Hadoop, veja Vo and Silvia (2016) .
Ao considerar dados sempre ativos, é importante considerar se você está comparando exatamente as mesmas pessoas ao longo do tempo ou se está comparando algum grupo de pessoas em mudança; veja por exemplo, Diaz et al. (2016) .
Um livro clássico sobre medidas não-reativas é Webb et al. (1966) . Os exemplos desse livro são anteriores à era digital, mas ainda estão iluminando. Para exemplos de pessoas mudando seu comportamento por causa da presença de vigilância em massa, veja Penney (2016) e Brayne (2014) .
A reatividade está intimamente relacionada com o que os pesquisadores chamam de efeitos de demanda (Orne 1962; Zizzo 2010) e o efeito de Hawthorne (Adair 1984; Levitt and List 2011) .
Para mais sobre linkage de registro, veja Dunn (1946) e Fellegi and Sunter (1969) (histórico) e Larsen and Winkler (2014) (moderno). Abordagens semelhantes também foram desenvolvidas na ciência da computação sob nomes como desduplicação de dados, identificação de instâncias, correspondência de nomes, detecção de duplicatas e detecção de registros duplicados (Elmagarmid, Ipeirotis, and Verykios 2007) . Há também abordagens de preservação da privacidade para registrar a ligação que não exigem a transmissão de informações de identificação pessoal (Schnell 2013) . O Facebook também desenvolveu um processo para vincular seus registros ao comportamento de votação; isso foi feito para avaliar um experimento sobre o qual eu vou falar no capítulo 4 (Bond et al. 2012; Jones et al. 2013) .
Para mais informações sobre validade de construto, veja o capítulo 3 de Shadish, Cook, and Campbell (2001) .
Para mais informações sobre o desastre do log de busca da AOL, consulte Ohm (2010) . Eu ofereço conselhos sobre parcerias com empresas e governos no capítulo 4 quando descrevo experimentos. Vários autores expressaram preocupações sobre pesquisas que dependem de dados inacessíveis, ver Huberman (2012) e boyd and Crawford (2012) .
Uma boa maneira para os pesquisadores universitários para adquirir o acesso aos dados é trabalhar em uma empresa como estagiário ou pesquisador visitante. Além de permitir o acesso aos dados, este processo também ajudará o pesquisador aprender mais sobre como os dados foram criados, o que é importante para a análise.
Em termos de acesso a dados governamentais, Mervis (2014) discute como Raj Chetty e colegas obtiveram acesso aos registros fiscais usados em suas pesquisas sobre mobilidade social.
Para mais informações sobre a “representatividade” como conceito, ver Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , e Kruskal and Mosteller (1980) .
Meus sumários do trabalho de Snow e do trabalho de Doll and Hill foram breves. Para mais informações sobre o trabalho de Snow sobre cólera, ver Freedman (1991) . Para mais informações sobre o British Doctors Study, veja Doll et al. (2004) e Keating (2014) .
Muitos pesquisadores ficarão surpresos ao saber que, embora Doll e Hill tenham coletado dados de médicos do sexo feminino e de médicos com menos de 35 anos, eles intencionalmente não usaram esses dados em sua primeira análise. Como eles argumentaram: “Como o câncer de pulmão é relativamente raro em mulheres e homens com menos de 35 anos, números úteis provavelmente não serão obtidos nesses grupos por alguns anos. Neste relatório preliminar, portanto, restringimos nossa atenção a homens com 35 anos ou mais ”. Rothman, Gallacher, and Hatch (2013) , que tem o título provocativo“ Por que a representatividade deve ser evitada ”, fazem um argumento mais geral sobre o valor de criar intencionalmente dados não representativos.
A não-representação é um grande problema para pesquisadores e governos que desejam fazer declarações sobre uma população inteira. Essa é uma preocupação menor para as empresas, que geralmente se concentram em seus usuários. Para mais informações sobre como a Statistics Netherlands considera a questão da falta de representatividade do big data de negócios, consulte Buelens et al. (2014) .
Para exemplos de pesquisadores que expressam preocupação com a natureza não representativa de fontes de big data, ver boyd and Crawford (2012) , K. Lewis (2015b) e Hargittai (2015) .
Para uma comparação mais detalhada dos objetivos das pesquisas sociais e pesquisas epidemiológicas, ver Keiding and Louis (2016) .
Para mais informações sobre tentativas de usar o Twitter para fazer generalizações fora da amostra sobre os eleitores, especialmente o caso das eleições alemãs de 2009, ver Jungherr (2013) e Jungherr (2015) . Subseqüente ao trabalho de Tumasjan et al. (2010) pesquisadores em todo o mundo têm usado métodos mais sofisticados - como usar análise de sentimento para distinguir entre menções positivas e negativas das partes - para melhorar a capacidade dos dados do Twitter de prever uma variedade de tipos diferentes de eleições (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Veja como Huberty (2015) resumiu os resultados dessas tentativas de prever eleições:
“Todos os métodos de previsão conhecidos baseados em mídias sociais falharam quando submetidos às demandas de uma verdadeira previsão eleitoral voltada para o futuro. Essas falhas parecem ser devidas a propriedades fundamentais das mídias sociais, e não a dificuldades metodológicas ou algorítmicas. Em resumo, as mídias sociais não oferecem, e provavelmente nunca irão oferecer, uma imagem estável, imparcial e representativa do eleitorado; e amostras de conveniência de mídia social não têm dados suficientes para corrigir esses problemas post hoc. ”
No capítulo 3, descreverei a amostragem e a estimativa com muito mais detalhes. Mesmo que os dados não sejam representativos, sob certas condições, eles podem ser ponderados para produzir boas estimativas.
O desvio do sistema é muito difícil de ver do lado de fora. No entanto, o projeto MovieLens (discutido mais no capítulo 4) é executado há mais de 15 anos por um grupo de pesquisa acadêmica. Assim, eles conseguiram documentar e compartilhar informações sobre a maneira como o sistema evoluiu ao longo do tempo e como isso pode impactar a análise (Harper and Konstan 2015) .
Vários estudiosos se concentraram no Twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .
Uma abordagem para lidar com a deriva populacional é criar um painel de usuários, que permite aos pesquisadores estudar as mesmas pessoas ao longo do tempo, ver Diaz et al. (2016) .
Ouvi pela primeira vez o termo “algoritmicamente confundido” usado por Jon Kleinberg em uma palestra, mas infelizmente não me lembro quando ou onde a palestra foi dada. A primeira vez que vi o termo impresso foi em Anderson et al. (2015) , que é uma discussão interessante sobre como os algoritmos usados por sites de encontros podem complicar a capacidade dos pesquisadores de usar dados desses sites para estudar as preferências sociais. Essa preocupação foi levantada por K. Lewis (2015a) em resposta a Anderson et al. (2014) .
Além do Facebook, o Twitter também recomenda pessoas para os usuários seguirem com base na ideia de fechamento triádico; veja Su, Sharma, and Goel (2016) . Assim, o nível de fechamento triádico no Twitter é uma combinação de alguma tendência humana para o fechamento triádico e alguma tendência algorítmica para promover o fechamento triádico.
Para mais sobre performatividade - em particular, a ideia de que algumas teorias das ciências sociais são "motores e não câmeras" (ou seja, moldam o mundo em vez de apenas descrevê-lo) - veja Mackenzie (2008) .
Agências estatais de governo chamam dados de limpeza de edição de dados estatísticos . De Waal, Puts, and Daas (2014) descrevem técnicas de edição de dados estatísticos desenvolvidas para dados de pesquisas e examinam até que ponto elas são aplicáveis a fontes de dados grandes, e Puts, Daas, and Waal (2015) apresentam algumas das mesmas ideias para um público mais geral.
Para uma visão geral dos bots sociais, veja Ferrara et al. (2016) . Para alguns exemplos de estudos focados em encontrar spam no Twitter, ver Clark et al. (2016) e Chu et al. (2012) . Finalmente, Subrahmanian et al. (2016) descrevem os resultados do DARPA Twitter Bot Challenge, uma colaboração em massa projetada para comparar abordagens para detectar bots no Twitter.
Ohm (2015) analisa pesquisas anteriores sobre a ideia de informações sensíveis e oferece um teste multifatorial. Os quatro fatores que ele propõe são a magnitude do dano, a probabilidade de danos, a presença de um relacionamento confidencial e se o risco reflete preocupações majoritárias.
O estudo de Farber sobre os táxis em Nova York baseou-se em um estudo anterior de Camerer et al. (1997) que utilizou três diferentes amostras de conveniência de folhas de viagem de papel. Este estudo anterior descobriu que os motoristas pareciam ser alvos-alvo: trabalhavam menos nos dias em que seus salários eram mais altos.
Em trabalhos subsequentes, King e colegas exploraram ainda mais a censura online na China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Para uma abordagem relacionada à medição da censura online na China, ver Bamman, O'Connor, and Smith (2012) . Para mais informações sobre métodos estatísticos como o usado em King, Pan, and Roberts (2013) para estimar o sentimento dos 11 milhões de postagens, ver Hopkins and King (2010) . Para mais informações sobre aprendizado supervisionado, ver James et al. (2013) (menos técnico) e Hastie, Tibshirani, and Friedman (2009) (mais técnico).
A previsão é uma grande parte da ciência de dados industriais (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Um tipo de previsão que é comumente feito por pesquisadores sociais é a previsão demográfica; ver, por exemplo, Raftery et al. (2012) .
O Google Tendências da Gripe não foi o primeiro projeto a usar dados de pesquisa para prever a prevalência da influenza. De fato, pesquisadores nos Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) e Suécia (Hulth, Rydevik, and Linde 2009) descobriram que certos termos de pesquisa (por exemplo, “gripe”) previam a vigilância nacional da saúde pública. dados antes de serem lançados. Posteriormente, muitos outros projetos tentaram usar dados de rastreamento digital para detecção de vigilância de doenças; ver Althouse et al. (2015) para uma revisão.
Além de usar dados de rastreamento digital para prever os resultados de saúde, também houve uma enorme quantidade de trabalho usando dados do Twitter para prever os resultados das eleições; para revisões, ver Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capítulo 7) e Huberty (2015) . A previsão antecipada de indicadores econômicos, como o produto interno bruto (PIB), também é comum nos bancos centrais, ver Bańbura et al. (2013) . A tabela 2.8 inclui alguns exemplos de estudos que usam algum tipo de rastreamento digital para prever algum tipo de evento no mundo.
Traço digital | Resultado | Citação |
---|---|---|
Receita de bilheteria de filmes nos EUA | Asur and Huberman (2010) | |
Registros de pesquisa | Vendas de filmes, músicas, livros e videogames nos EUA | Goel et al. (2010) |
Dow Jones Industrial Average (mercado de ações dos EUA) | Bollen, Mao, and Zeng (2011) | |
Mídia social e registros de pesquisa | Pesquisas sobre o sentimento do investidor e os mercados de ações nos Estados Unidos, Reino Unido, Canadá e China | Mao et al. (2015) |
Registros de pesquisa | Prevalência da Dengue em Cingapura e Bangkok | Althouse, Ng, and Cummings (2011) |
Por fim, Jon Kleinberg e colegas (2015) apontaram que os problemas de previsão se enquadram em duas categorias sutilmente diferentes e que os cientistas sociais tendem a se concentrar em uma e a ignorar a outra. Imagine um político, eu a chamarei de Anna, que está enfrentando uma seca e precisa decidir se contrata um xamã para fazer uma dança da chuva para aumentar as chances de chuva. Outro político, que eu chamarei de Betty, deve decidir se quer levar um guarda-chuva para o trabalho, para evitar ficar molhado no caminho para casa. Tanto Anna quanto Betty podem tomar uma decisão melhor se entenderem o tempo, mas precisam saber coisas diferentes. Anna precisa entender se a dança da chuva causa chuva. Betty, por outro lado, não precisa entender nada sobre causalidade; ela só precisa de uma previsão precisa. Pesquisadores sociais geralmente se concentram em problemas como o enfrentado por Anna - que Kleinberg e seus colegas chamam de "problemas de política parecidos com a dança da chuva" - porque envolvem questões de causalidade. Questões como a enfrentada por Betty - que Kleinberg e seus colegas chamam de "problemas de políticas semelhantes ao guarda-chuva" - também podem ser muito importantes, mas receberam muito menos atenção de pesquisadores sociais.
A revista PS Political Science fez um simpósio sobre big data, inferência causal e teoria formal, e Clark and Golder (2015) resumem cada contribuição. A revista Proceedings, da Academia Nacional de Ciências dos Estados Unidos da América, realizou um simpósio sobre inferência causal e big data, e Shiffrin (2016) resume cada contribuição. Para abordagens de aprendizado de máquina que tentam descobrir automaticamente experimentos naturais dentro de grandes fontes de dados, veja Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) e Sharma, Hofman, and Watts (2016) .
Em termos de experimentos naturais, Dunning (2012) fornece um tratamento introdutório, de tamanho de livro, com muitos exemplos. Para uma visão cética de experimentos naturais, ver Rosenzweig and Wolpin (2000) (economia) ou Sekhon and Titiunik (2012) (ciência política). Deaton (2010) e Heckman and Urzúa (2010) argumentam que o foco em experimentos naturais pode levar os pesquisadores a se concentrarem em estimar efeitos causais sem importância; Imbens (2010) contraria esses argumentos com uma visão mais otimista do valor dos experimentos naturais.
Ao descrever como um pesquisador poderia partir da estimativa do efeito de ser elaborado para o efeito de servir, eu estava descrevendo uma técnica chamada variáveis instrumentais . Imbens and Rubin (2015) , em seus capítulos 23 e 24, fornecem uma introdução e usam a proposta de loteria como exemplo. O efeito do serviço militar nos compliadores é algumas vezes chamado de efeito causal médio (CAcE) e, às vezes, o efeito de tratamento médio local (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) e Bollen (2012) oferecem revisões do uso de variáveis instrumentais em ciência política, economia e sociologia, e Sovey and Green (2011) fornecem uma “lista de verificação de leitores” para avaliando estudos utilizando variáveis instrumentais.
Acontece que o rascunho da loteria de 1970 não foi, de fato, propriamente randomizado; houve pequenos desvios da aleatoriedade pura (Fienberg 1971) . Berinsky and Chatfield (2015) argumentam que esse pequeno desvio não é substancialmente importante e discutem a importância da randomização conduzida apropriadamente.
Em termos de correspondência, veja Stuart (2010) para uma revisão otimista e Sekhon (2009) para uma revisão pessimista. Para mais informações sobre correspondência como um tipo de poda, consulte Ho et al. (2007) . Encontrar um único par perfeito para cada pessoa é muitas vezes difícil, e isso introduz uma série de complexidades. Primeiro, quando as correspondências exatas não estão disponíveis, os pesquisadores precisam decidir como medir a distância entre duas unidades e se uma dada distância está próxima o suficiente. Uma segunda complexidade surge se os pesquisadores quiserem usar várias correspondências para cada caso no grupo de tratamento, pois isso pode levar a estimativas mais precisas. Ambas as questões, assim como outras, são descritas em detalhes no capítulo 18 de Imbens and Rubin (2015) . Veja também a Parte II de ( ??? ) .
Veja Dehejia and Wahba (1999) para um exemplo onde os métodos de correspondência foram capazes de produzir estimativas semelhantes às de um experimento controlado randomizado. Mas, veja Arceneaux, Gerber, and Green (2006) e Arceneaux, Gerber, and Green (2010) para exemplos onde os métodos correspondentes falharam em reproduzir um benchmark experimental.
Rosenbaum (2015) e Hernán and Robins (2016) oferecem outros conselhos para descobrir comparações úteis dentro de grandes fontes de dados.