Esta sección está dirixida a ser usado como unha referencia, no canto de ser lido como un relato.
Un tipo de conta que non está incluído neste capítulo é a etnografía. Para máis información sobre a etnografía en espazos dixitais ver Boellstorff et al. (2012) , e para máis información sobre a etnografía en espazos físicos e dixitais mixtos ver Lane (2016) .
Cando está redirixido datos, existen dous trucos mentais que poden axudar a entender os posibles problemas que poden ocorrer. Primeiro, pode tentar imaxinar o conxunto de datos ideal para o seu problema e que comparar co conxunto de datos que está a usar. Como son semellantes e como son diferentes? Se non recoller os seus datos a si mesmo, non é probable que sexan diferenza entre o que quere eo que ten. Pero, ten que decidir se esas diferenzas son menores ou maiores.
En segundo lugar, lembre que alguén creou e recollidos os datos, por algún motivo. Ten que tentar comprender o seu razoamento. Este tipo de enxeñería inversa pode axudar a identificar posibles problemas e tendencias nos seus datos reaproveitado.
Non existe unha definición de consenso única de "datos grandes", pero moitas definicións parecen centrarse na 3 Vs: (por exemplo, volume, variedade e velocidade Japec et al. (2015) ). En vez de centrarse sobre as características dos datos, a miña definición incide máis sobre por que os datos foi creado.
Meu inclusión de datos administrativos do goberno dentro da categoría de big data é un pouco inusual. Outros que fixeron neste caso, inclúen Legewie (2015) , Connelly et al. (2016) , e Einav and Levin (2014) . Para saber máis sobre o valor dos datos administrativos do goberno para a investigación, ver Card et al. (2010) , Taskforce (2012) , e Grusky, Smeeding, and Snipp (2015) .
Para unha visión da investigación administrativa dentro do sistema estatístico do goberno, en especial os EUA Census Bureau, consulte Jarmin and O'Hara (2016) . Para un tratamento lonxitude libro da busca rexistros administrativos na Statistics Sweden, consulte Wallgren and Wallgren (2007) .
No capítulo, eu comparei brevemente unha investigación tradicional, como a Investigación Xeral Social (GSS) a unha fonte de datos de comunicación social como Twitter. Para unha comparación minuciosa e coidadosa entre as investigacións tradicionais e datos de medios de comunicación social, consulte Schober et al. (2016) .
Estas características de 10 datos grandes foron descritas nunha variedade de formas diferentes por unha variedade de diferentes autores. Escrita que influenciou o meu pensamento sobre estas cuestións inclúen: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , e Goldstone and Lupyan (2016) .
Ao longo deste capítulo, eu usei os rastros dixitais prazo, que eu creo que é relativamente neutro. Outro termo popular para rastros dixitais é pegadas dixitais (Golder and Macy 2014) , pero como Hal Abelson, Ken Ledeen, e Harry Lewis (2008) apuntan, un termo máis apropiado é probablemente pegadas. Cando se crea pegadas, está consciente do que está pasando e as súas pegadas xeralmente non poden ser de ruta para ti persoalmente. O mesmo non é verdade para os seus rastros dixitais. En realidade, está deixando restos todo o tempo sobre o que ten moi pouco coñecemento. E, aínda que estes trazos non teñen o seu nome neles, que moitas veces pode ser conectado de volta para ti. Noutras palabras, son máis como pegadas: invisible e identificación persoal.
gran
Para saber máis sobre por que grandes conxuntos de datos, procesamento probas estatísticas problemática, ver Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Estas cuestións deben levar os investigadores a concentrarse no significado práctico ao contrario de importancia estatística.
Always-on
Ao considerar always-on de datos, é importante considerar se está comparando exactamente as mesmas persoas ao longo do tempo, ou se está comparando algún grupo cambio de persoas; ver, por exemplo, Diaz et al. (2016) .
non reactivo
Un libro clásico sobre medidas non reactivos é Webb et al. (1966) . Os exemplos no libro condición data a era dixital, pero aínda son esclarecedores. Para exemplos de persoas cambiando o seu comportamento debido á presenza de vixilancia masiva, consulte Penney (2016) e Brayne (2014) .
incompleto
Para saber máis sobre Linkage, consulte Dunn (1946) e Fellegi and Sunter (1969) (historical) e Larsen and Winkler (2014) (modern). Similar abordado tamén foron desenvolvidos en ciencia da computación baixo os nomes como deduplicação de datos, identificación exemplo, nome correspondente, duplicar a detección e duplicar detección de rexistro (Elmagarmid, Ipeirotis, and Verykios 2007) . Hai tamén a privacidade preservar enfoques para gravar conexión que non requiren a transmisión de información de identificación persoal (Schnell 2013) . Facebook tamén desenvolveu un proceder a vincular os seus rexistros para o comportamento electoral; iso foi feito para avaliar unha experiencia que eu vou dicir-lle sobre o capítulo 4 (Bond et al. 2012; Jones et al. 2013) .
Para saber máis sobre a validez da construción, ver Shadish, Cook, and Campbell (2001) , capítulo 3.
inaccesible
Para máis información sobre o rexistro de busca debacle AOL, consulte Ohm (2010) . I ofrecer consellos sobre a colaboración con empresas e gobernos no capítulo 4, cando describir experiencias. Varios autores expresaron preocupación sobre a investigación que se basea en datos inaccesibles, consulte Huberman (2012) e boyd and Crawford (2012) .
Unha boa forma para os investigadores universitarios para adquirir o acceso aos datos é traballar nunha empresa como estagiário ou investigador visitante. Ademais de permitir o acceso aos datos, este proceso tamén axudará o investigador aprender máis sobre como os datos foron creados, o que é importante para a súa análise.
non representativa
Non representatividade é un gran problema para os investigadores e gobernos que desexan facer declaracións sobre unha poboación enteira. Iso é menos de preocupación para as empresas que son tipicamente enfocados en seus usuarios. Para saber máis sobre como Statistics Netherlands considera o tema da non-representatividade das grandes datos de empresas, consulte Buelens et al. (2014) .
No capítulo 3, vou describir a mostraxe e estimación con moito máis detalle. Aínda que os datos non son representativos, baixo certas condicións, poden ponderadas para producir bos estimacións.
acumulando
deriva sistema é moi difícil de ver do lado de fóra. Con todo, o proxecto MovieLens (discutido no Capítulo 4), foi executado por máis de 15 anos por un grupo de investigación académica. Polo tanto, eles teñen documentado e información sobre o xeito no que o sistema evolucionou ao longo do tempo e como compartiu esta análise pode ter impacto (Harper and Konstan 2015) .
Varios estudiosos téñense centrado na deriva en Twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .
algorítmica confundidos
Oín por primeira vez o termo "algorithmically confundidos" usado por Jon Kleinberg nunha charla. A principal idea detrás performatividade é que algunhas teorías das ciencias sociais son "motores non cámaras" (Mackenzie 2008) . Isto é, realmente dar forma ao mundo, no canto de só capturalo.
sucio
Axencias estatísticas gobernamentais chamar limpeza de datos, edición de datos estatísticos. De Waal, Puts, and Daas (2014) describen técnicas de edición de datos estatísticos desenvolvidos para datos de investigación e examinar ata que punto son aplicables a fontes de datos grandes e Puts, Daas, and Waal (2015) presenta algunhas das mesmas ideas para un público máis xeral.
Para algúns exemplos de estudos centrados na spam en Twitter, Clark et al. (2016) e Chu et al. (2012) . Finalmente, Subrahmanian et al. (2016) describe os resultados da DARPA Twitter Bot Challenge.
sensible
Ohm (2015) Comentarios de investigacións anteriores sobre a idea de información sensibles e ofrece unha proba multi-factor. Os catro factores que propón son: a probabilidade de dano; probabilidade de dano; presenza dunha relación de confianza; e se o risco de reflectir as preocupacións maioritarias.
Estudo de taxis en Nova York de Farber baseouse nun estudo anterior por Camerer et al. (1997) , que utilizaron tres mostras de barrio diferentes de viaxe de papel formas follas de papel usadas por condutores para gravar viaxe de hora de inicio, hora de finalización, e tarifa. Este estudo anterior descubriu que os condutores semella gañadores de destino: traballaron menos os días en que os seus salarios eran máis elevados.
Kossinets and Watts (2009) estaba centrada sobre as orixes da homofilia nas redes sociais. Vexa Wimmer and Lewis (2010) para unha visión diferente para o mesmo problema que usa datos de Facebook.
En traballo posterior, o rei e os seus colegas explotaron aínda máis a censura en liña en China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Para unha visión relacionada á medida censura en liña en China, consulta Bamman, O'Connor, and Smith (2012) . Para máis información sobre métodos estatísticos, como o utilizado en King, Pan, and Roberts (2013) para estimar o sentimento dos 11 millóns de mensaxes, vexa Hopkins and King (2010) . Para máis información sobre aprendizaxe supervisada, ver James et al. (2013) (menos técnica) e Hastie, Tibshirani, and Friedman (2009) (máis técnica).
Previsión é unha gran parte da ciencia de datos industrial (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipo de previsión que son comunmente feito por investigadores sociais son previsións demográficas, por exemplo Raftery et al. (2012) .
Google Flu Trends non foi o primeiro proxecto para usar datos de investigación para nowcast prevalencia influenza. De feito, os investigadores en Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) e en Suecia (Hulth, Rydevik, and Linde 2009) descubriron que certos termos de busca (por exemplo, "gripe") previu nacional de vixilancia de saúde pública datos antes de que se lanzou. Posteriormente moitos, moitos outros proxectos intentaron utilizar datos de seguimento dixital para a detección de vixilancia das enfermidades, ver Althouse et al. (2015) para unha revisión.
Ademais de usar datos de seguimento dixital para prever resultados de saúde, tamén houbo unha enorme cantidade de traballo utilizando os datos de Twitter para prever resultados electorais; para ser avaliado ver Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Cap. 7) e Huberty (2015) .
Usando datos de investigación para prever prevalencia da gripe e usando os datos do Twitter para prever as eleccións son dous exemplos do uso de algún tipo de rastro dixital para prever algún tipo de evento no mundo. Hai un número enorme de estudos que esta estrutura xeral. Táboa 2.5 inclúe algúns outros exemplos.
trace dixital | resultado | cita |
---|---|---|
chilro | Box receita cargo de películas en EEUU | Asur and Huberman (2010) |
busca rexistros | As vendas de películas, música, libros e videoxogos en EEUU | Goel et al. (2010) |
chilro | Dow Jones Industrial Average (mercado de accións de Estados Unidos) | Bollen, Mao, and Zeng (2011) |
A revista PS Ciencia Política tivo un simposio sobre big data, inferencia causal, ea teoría formal, e Clark and Golder (2015) resume cada contribución. Os revista Proceedings da Academia Nacional de Ciencias de Estados Unidos tivo un simposio sobre inferencia causal e big data e Shiffrin (2016) resume cada contribución.
En termos de experimentos naturais, Dunning (2012) ofrece un excelente tratamento lonxitude libro. Para máis información sobre usar o proxecto de lotería Vietnam como un experimento natural, consulte Berinsky and Chatfield (2015) . Para enfoques de aprendizaxe de máquina que tentan descubrir automaticamente experimentos naturais dentro de fontes de datos grandes, ver Jensen et al. (2008) e Sharma, Hofman, and Watts (2015) .
En termos de aliñamento, a unha avaliación optimista, consulte Stuart (2010) , e por unha avaliación pesimista ver Sekhon (2009) . Para máis información sobre a correspondencia como unha especie de poda, ver Ho et al. (2007) . Para os libros que proporcionan excelentes tratamentos de correspondencia, consulte Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , e Imbens and Rubin (2015) .