Esta sección está diseñada para ser utilizada como una referencia, en lugar de ser leído como un relato.
Un tipo de observar que no se incluye en este capítulo es la etnografía. Para más información sobre la etnografía en los espacios digitales ver Boellstorff et al. (2012) , y para más información sobre la etnografía en espacios físicos y digitales mixtas ver Lane (2016) .
Cuando está rediseñando los datos, hay dos trucos mentales que pueden ayudar a entender los posibles problemas que pueden surgir. En primer lugar, se puede tratar de imaginar el conjunto de datos ideal para su problema y el que para comparar el conjunto de datos que está utilizando. ¿En qué se parecen y en qué se diferencian? Si no recoge sus datos usted mismo, es probable que sea la diferencia entre lo que quiere y lo que tiene. Sin embargo, usted tiene que decidir si estas diferencias son menores o mayores.
En segundo lugar, hay que recordar que alguien crea y recoge sus datos por alguna razón. Usted debe tratar de entender su razonamiento. Este tipo de ingeniería inversa puede ayudar a identificar los posibles problemas y sesgos en los datos reutilizados.
No existe una definición única de consenso "grandes datos", pero muchas definiciones parecen centrarse en el 3 Vs: (por ejemplo, el volumen, variedad y velocidad Japec et al. (2015) ). En lugar de centrarse en las características de los datos, mi definición se centra más en por qué se crearon los datos.
Mi inclusión de los datos administrativos del gobierno dentro de la categoría de grandes volúmenes de datos es un poco inusual. Los usuarios que han hecho de este caso, incluyen Legewie (2015) , Connelly et al. (2016) , y Einav and Levin (2014) . Para más información sobre el valor de los datos administrativos del gobierno para la investigación, consulte Card et al. (2010) , Taskforce (2012) , y Grusky, Smeeding, and Snipp (2015) .
Para una vista de la investigación administrativa desde el interior del sistema de estadística del gobierno, en particular la oficina de censo de Estados Unidos, véase Jarmin and O'Hara (2016) . Para un tratamiento longitud libro de la investigación en los registros administrativos de Estadística de Suecia, véase Wallgren and Wallgren (2007) .
En el capítulo I en comparación brevemente una encuesta tradicional, como la Encuesta Social General (GSS) a una fuente de datos de las redes sociales como Twitter. Para una comparación exhaustiva y cuidadosa entre las encuestas tradicionales y los datos de las redes sociales, ver Schober et al. (2016) .
Estas 10 características de los datos grandes se han descrito en una variedad de maneras diferentes por una variedad de diferentes autores. La escritura que influyó en mi forma de pensar sobre estos temas incluyen: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , y Goldstone and Lupyan (2016) .
A lo largo de este capítulo, he usado las huellas digitales plazo, que creo que es relativamente neutral. Otro término popular para las huellas digitales es huellas digitales (Golder and Macy 2014) , pero como Hal Abelson, Ken Ledeen, y Harry Lewis (2008) señalan, un término más apropiado es, probablemente, las huellas digitales. Al crear huellas, que son conscientes de lo que está sucediendo y sus huellas en general no pueden ser rastreados a usted personalmente. Lo mismo no es cierto para sus huellas digitales. De hecho, usted está dejando huellas todo el tiempo en el que usted tiene muy poco conocimiento. Y, a pesar de estas trazas no tienen su nombre en ellos, que a menudo pueden estar ligados de nuevo a usted. En otras palabras, son más como las huellas dactilares: invisible e identificación personal.
Grande
Para más información sobre por qué las grandes conjuntos de datos, hacen que las pruebas estadísticas problemática, véase Lin, Lucas, and Shmueli (2013) y McFarland and McFarland (2015) . Estos problemas deben llevar a los investigadores a centrarse en la importancia práctica en lugar de significación estadística.
Siempre
Al considerar siempre en los datos, es importante considerar si usted está comparando las mismas personas exactas con el tiempo o si usted está comparando el cambio de algún grupo de personas; véase, por ejemplo, Diaz et al. (2016) .
No reactivo
Un libro clásico sobre las medidas no reactivos es Webb et al. (1966) . Los ejemplos en el libro antes de la fecha de la era digital, pero todavía son esclarecedores. Para ver ejemplos de personas que cambian su comportamiento debido a la presencia de vigilancia masiva, ver Penney (2016) y Brayne (2014) .
Incompleto
Para más información sobre vinculación de registros, consulte Dunn (1946) y Fellegi and Sunter (1969) (histórico) y Larsen and Winkler (2014) (moderna). Acercado similares también se han desarrollado en la informática bajo los nombres tales como la deduplicación de datos, la identificación ejemplo, la coincidencia de nombre, detección de duplicados, y la detección de duplicados registro (Elmagarmid, Ipeirotis, and Verykios 2007) . También hay privacidad preservar enfoques para registrar la vinculación que no requieren la transmisión de información de identificación personal (Schnell 2013) . Facebook también ha desarrollado un proceder a vincular sus registros al comportamiento de los votantes; esto se hizo para evaluar un experimento que os voy a contar en el capítulo 4 (Bond et al. 2012; Jones et al. 2013) .
Para más información sobre la validez de constructo, ver Shadish, Cook, and Campbell (2001) , Capítulo 3.
Inaccesible
Para más información sobre el desastre de registro de búsqueda de AOL, consulte Ohm (2010) . Ofrezco consejos sobre la asociación con empresas y gobiernos en el capítulo 4 cuando describo experimentos. Varios autores han expresado su preocupación acerca de la investigación que se basa en los datos inaccesibles, consulte Huberman (2012) y boyd and Crawford (2012) .
Una buena manera para que los investigadores universitarios para adquirir acceso a los datos es trabajar en una empresa como pasante o investigador visitante. Además de permitir el acceso a los datos, este proceso también ayudará a los investigadores a aprender más acerca de cómo se crean los datos, lo cual es importante para el análisis.
No representativa
Representatividad no es un problema importante para los investigadores y los gobiernos que deseen hacer declaraciones acerca de toda una población. Esto es menos de preocupación para las empresas que se centran típicamente en sus usuarios. Para más información sobre cómo Estadísticas Países Bajos considera la cuestión de la no representatividad de grandes volúmenes de datos empresariales, vea Buelens et al. (2014) .
En el capítulo 3, describiré el muestreo y la estimación con mucho más detalle. Incluso si los datos no son representativos, bajo ciertas condiciones, pueden ser ponderados para producir buenas estimaciones.
A la deriva
la deriva del sistema es muy difícil de ver desde el exterior. Sin embargo, el proyecto MovieLens de conversión (ver Capítulo 4) se ha ejecutado durante más de 15 años por un grupo de investigación académica. Por lo tanto, se han documentado e información sobre la forma en que el sistema ha evolucionado con el tiempo y cómo compartir este análisis podría tener un impacto (Harper and Konstan 2015) .
Un número de estudiosos se han centrado en la deriva en Twitter: Liu, Kliman-Silver, and Mislove (2014) y Tufekci (2014) .
algorítmicamente confundido
Escuché por primera vez el término "algorítmicamente confundido" utilizado por Jon Kleinberg en una charla. La idea principal detrás de la performatividad es que algunas teorías de las ciencias sociales son "motores no cámaras" (Mackenzie 2008) . Es decir, que en realidad dan forma al mundo en lugar de capturarlo.
Sucio
Agencias gubernamentales de estadística llaman la limpieza de datos, edición de datos estadísticos. De Waal, Puts, and Daas (2014) describen técnicas de edición de datos estadísticos desarrollados para los datos de la encuesta y examinar el grado en que son aplicables a fuentes de datos grandes, y Puts, Daas, and Waal (2015) presenta algunas de las mismas ideas para un público más general.
Para algunos ejemplos de estudios se centraron en el spam en Twitter, Clark et al. (2016) y Chu et al. (2012) . Finalmente, Subrahmanian et al. (2016) describe los resultados de la DARPA Challenge Twitter Bot.
Sensible
Ohm (2015) revisa la investigación anterior sobre la idea de la información sensible y ofrece una prueba de múltiples factores. Los cuatro factores que propone son: la probabilidad de daño; probabilidad de daño; presencia de una relación confidencial; y si el riesgo reflejar las preocupaciones mayoritarias.
Estudio de los taxis en Nueva York de Farber se basó en un estudio anterior de Camerer et al. (1997) que utiliza tres diferentes muestras de conveniencia de las formas de viaje papel hojas de papel utilizadas por los conductores para registrar el tiempo de inicio de viaje, hora de finalización, y comidas. Este estudio anterior encontró que los conductores parecían ser perceptores de destino: trabajaban menos en los días en que sus salarios eran más altos.
Kossinets and Watts (2009) se centró en los orígenes de homophily en las redes sociales. Ver Wimmer and Lewis (2010) para un enfoque diferente para el mismo problema que utiliza datos de Facebook.
En trabajos posteriores, el rey y sus colegas han explorado aún más la censura en línea en China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Para un enfoque relacionado con la medición de la censura en línea en China, véase Bamman, O'Connor, and Smith (2012) . Para más información sobre los métodos estadísticos como la utilizada en King, Pan, and Roberts (2013) para estimar el sentimiento de los 11 millones de mensajes, ver Hopkins and King (2010) . Para más información sobre el aprendizaje supervisado, véase James et al. (2013) (menos técnica) y Hastie, Tibshirani, and Friedman (2009) (más técnico).
La previsión es de una gran parte de la ciencia de datos industriales (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipo de predicción que se hace comúnmente por los investigadores sociales son la previsión demográfica, por ejemplo Raftery et al. (2012) .
Google Flu Trends no fue el primer proyecto para utilizar los datos de búsqueda de predicción inmediata prevalencia de la influenza. De hecho, los investigadores en los Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) y Suecia (Hulth, Rydevik, and Linde 2009) han encontrado que ciertos términos de búsqueda (por ejemplo, "gripe") predijeron nacional de vigilancia de la salud pública los datos antes de su lanzamiento. Posteriormente muchos, muchos otros proyectos han tratado de utilizar los datos de seguimiento digitales para la detección de vigilancia de la enfermedad, ver Althouse et al. (2015) una revisión.
Además de utilizar los datos de seguimiento digitales para predecir los resultados de salud, también se ha producido una enorme cantidad de trabajo a partir de datos de Twitter para predecir los resultados de las elecciones; para una revisión ver Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (cap. 7), y Huberty (2015) .
Utilizando los datos de búsqueda para predecir la prevalencia de la gripe y el uso de datos de Twitter para predecir las elecciones son ambos ejemplos del uso de algún tipo de rastro digital para predecir algún tipo de acontecimiento en el mundo. Hay un gran número de estudios que tienen esta estructura general. Tabla 2.5 incluye algunos otros ejemplos.
rastro digital | Resultado | Citación |
---|---|---|
Gorjeo | los ingresos de taquilla de las películas en los EE.UU. | Asur and Huberman (2010) |
los registros de búsqueda | Las ventas de películas, música, libros y videojuegos en los EE.UU. | Goel et al. (2010) |
Gorjeo | Promedio Industrial Dow Jones (mercado de valores de Estados Unidos) | Bollen, Mao, and Zeng (2011) |
La revista PS Ciencias Políticas tenía un simposio sobre grandes volúmenes de datos, la inferencia causal, y la teoría formal, y Clark and Golder (2015) resume cada contribución. Los revista Proceedings de la Academia Nacional de Ciencias de los Estados Unidos de América tenían un simposio sobre la inferencia causal y grandes volúmenes de datos, y Shiffrin (2016) resume cada contribución.
En términos de experimentos naturales, Dunning (2012) ofrece un excelente tratamiento longitud libro. Para más información sobre el uso de la lotería del draft Vietnam como un experimento natural, ver Berinsky and Chatfield (2015) . Para los enfoques de aprendizaje automático que intentan descubrir automáticamente los experimentos naturales dentro de las fuentes de datos grandes, ver Jensen et al. (2008) y Sharma, Hofman, and Watts (2015) .
En términos de juego, para una revisión optimista, véase Stuart (2010) , y para una revisión ver pesimista Sekhon (2009) . Para más información sobre a juego como una especie de poda, véase Ho et al. (2007) . Para los libros que proporcionan excelentes tratamientos de juego, véase Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , y Imbens and Rubin (2015) .