Un tipo de observación que no está incluido en este capítulo es la etnografía. Para más información sobre etnografía en espacios digitales, ver Boellstorff et al. (2012) , y para más sobre etnografía en espacios digitales y físicos mixtos, vea Lane (2016) .
No existe una única definición consensuada de "big data", pero muchas definiciones parecen centrarse en los "3 Vs": volumen, variedad y velocidad (p. Ej., Japec et al. (2015) ). Ver De Mauro et al. (2015) para una revisión de las definiciones.
Mi inclusión de los datos administrativos del gobierno en la categoría de Big Data es un poco inusual, aunque otros también han presentado este caso, incluidos Legewie (2015) , Connelly et al. (2016) , y Einav and Levin (2014) . Para obtener más información sobre el valor de los datos administrativos del gobierno para la investigación, ver Card et al. (2010) , Adminstrative Data Taskforce (2012) y Grusky, Smeeding, and Snipp (2015) .
Para una vista de la investigación administrativa desde dentro del sistema estadístico del gobierno, particularmente la Oficina del Censo de los EE. UU., Ver Jarmin and O'Hara (2016) . Para un tratamiento de duración de un libro de la investigación de registros administrativos en Statistics Sweden, ver Wallgren and Wallgren (2007) .
En el capítulo, comparé brevemente una encuesta tradicional como la Encuesta social general (GSS) con una fuente de datos de redes sociales como Twitter. Para una comparación minuciosa y cuidadosa entre las encuestas tradicionales y los datos de las redes sociales, ver Schober et al. (2016) .
Estas 10 características de los grandes datos han sido descritas en una variedad de formas diferentes por una variedad de diferentes autores. La escritura que influyó en mi forma de pensar sobre estos temas incluye Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) y Goldstone and Lupyan (2016) .
A lo largo de este capítulo, he usado el término rastros digitales , que creo que es relativamente neutral. Otro término popular para los rastros digitales es el de las huellas digitales (Golder and Macy 2014) , pero como señalan Hal Abelson, Ken Ledeen y Harry Lewis (2008) , un término más apropiado es probablemente las huellas dactilares digitales . Cuando crea huellas, está al tanto de lo que está sucediendo y, en general, sus huellas no se pueden rastrear. Lo mismo no es cierto para tus rastros digitales. De hecho, estás dejando rastros todo el tiempo sobre los cuales tienes muy poco conocimiento. Y, aunque estos rastros no tienen su nombre en ellos, a menudo pueden vincularse con usted. En otras palabras, son más como huellas dactilares: invisible e identificando personalmente.
Para más información sobre por qué los grandes conjuntos de datos hacen que las pruebas estadísticas sean problemáticas, ver M. Lin, Lucas, and Shmueli (2013) y McFarland and McFarland (2015) . Estos problemas deberían llevar a los investigadores a centrarse en la importancia práctica en lugar de la significación estadística.
Para más información sobre cómo Raj Chetty y sus colegas obtuvieron acceso a los registros de impuestos, ver Mervis (2014) .
Los grandes conjuntos de datos también pueden crear problemas de cómputo que generalmente están más allá de las capacidades de una sola computadora. Por lo tanto, los investigadores que realizan cálculos en grandes conjuntos de datos a menudo distribuyen el trabajo en muchas computadoras, un proceso que a veces se denomina programación paralela . Para una introducción a la programación paralela, en particular un lenguaje llamado Hadoop, ver Vo and Silvia (2016) .
Cuando se consideran los datos siempre encendidos, es importante considerar si está comparando exactamente las mismas personas a lo largo del tiempo o si está comparando un grupo cambiante de personas; ver por ejemplo, Diaz et al. (2016) .
Un libro clásico sobre medidas no reactivas es Webb et al. (1966) Los ejemplos en ese libro son anteriores a la era digital, pero aún son esclarecedores. Para ejemplos de personas que cambian su comportamiento debido a la presencia de vigilancia masiva, ver Penney (2016) y Brayne (2014) .
La reactividad está estrechamente relacionada con lo que los investigadores llaman efectos de la demanda (Orne 1962; Zizzo 2010) y el efecto Hawthorne (Adair 1984; Levitt and List 2011) .
Para más información sobre la vinculación de registros, ver Dunn (1946) y Fellegi and Sunter (1969) (histórico) y Larsen and Winkler (2014) (moderno). También se han desarrollado enfoques similares en informática con nombres como deduplicación de datos, identificación de instancia, coincidencia de nombres, detección de duplicados y detección de registros duplicados (Elmagarmid, Ipeirotis, and Verykios 2007) . También existen enfoques de preservación de la privacidad para registrar enlaces que no requieren la transmisión de información de identificación personal (Schnell 2013) . Facebook también ha desarrollado un proceso para vincular sus registros con el comportamiento de votación; esto se hizo para evaluar un experimento del que les hablaré en el capítulo 4 (Bond et al. 2012; Jones et al. 2013) .
Para más información sobre la validez de constructo, ver el capítulo 3 de Shadish, Cook, and Campbell (2001) .
Para más información sobre la debacle del registro de búsqueda de AOL, vea Ohm (2010) . Ofrezco consejos sobre la asociación con empresas y gobiernos en el capítulo 4 cuando describo experimentos. Varios autores han expresado su preocupación por la investigación que se basa en datos inaccesibles, ver Huberman (2012) y boyd and Crawford (2012) .
Una buena manera para que los investigadores universitarios para adquirir acceso a los datos es trabajar en una empresa como pasante o investigador visitante. Además de permitir el acceso a los datos, este proceso también ayudará a los investigadores a aprender más acerca de cómo se crean los datos, lo cual es importante para el análisis.
En términos de obtener acceso a los datos del gobierno, Mervis (2014) analiza cómo Raj Chetty y sus colegas obtuvieron acceso a los registros impositivos utilizados en su investigación sobre la movilidad social.
Para más sobre la historia de la "representatividad" como concepto, ver Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , y Kruskal and Mosteller (1980) .
Mis resúmenes del trabajo de Snow y el trabajo de Doll and Hill fueron breves. Para más información sobre el trabajo de Snow sobre el cólera, ver Freedman (1991) . Para más información sobre el British Doctors Study ver Doll et al. (2004) y Keating (2014) .
Muchos investigadores se sorprenderán al saber que aunque Doll y Hill habían recopilado datos de doctoras y de doctores menores de 35 años, intencionalmente no usaron estos datos en su primer análisis. Como argumentaron: "Dado que el cáncer de pulmón es relativamente raro en mujeres y hombres menores de 35 años, es poco probable que se obtengan cifras útiles en estos grupos durante los próximos años. En este informe preliminar, por lo tanto, hemos limitado nuestra atención a los hombres de 35 años o más. " Rothman, Gallacher, and Hatch (2013) , que tiene el provocativo título de" ¿Por qué debería evitarse la representatividad? ", Presentan un argumento más general sobre el valor de crear intencionalmente datos no representativos.
La falta de representatividad es un problema importante para los investigadores y gobiernos que desean hacer declaraciones sobre una población completa. Esto es menos preocupante para las empresas, que generalmente se centran en sus usuarios. Para más información sobre cómo Statistics Netherlands considera la cuestión de la no representatividad del big data empresarial, ver Buelens et al. (2014) .
Para ver ejemplos de investigadores que expresan su preocupación acerca de la naturaleza no representativa de las fuentes de big data, ver boyd and Crawford (2012) , K. Lewis (2015b) y Hargittai (2015) .
Para una comparación más detallada de los objetivos de las encuestas sociales y la investigación epidemiológica, ver Keiding and Louis (2016) .
Para obtener más información sobre los intentos de utilizar Twitter para hacer generalizaciones fuera de la muestra sobre los votantes, especialmente el caso de las elecciones alemanas de 2009, ver Jungherr (2013) y Jungherr (2015) . Con posterioridad al trabajo de Tumasjan et al. (2010) investigadores de todo el mundo han utilizado métodos más sofisticados, como el análisis del sentimiento para distinguir entre las menciones positivas y negativas de las partes, con el fin de mejorar la capacidad de los datos de Twitter para predecir una variedad de tipos de elecciones (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Así es como Huberty (2015) resumió los resultados de estos intentos de predecir las elecciones:
"Todos los métodos de pronóstico conocidos a base de medios de comunicación social han fracasado cuando se somete a las exigencias de la verdadera predicción electoral a futuro. Estos fracasos parecen ser debido a las propiedades fundamentales de los medios de comunicación social, en lugar de a las dificultades metodológicas o algorítmicos. En resumen, las redes sociales no lo hacen, y probablemente nunca, ofrecer una imagen estable, sin prejuicios, representante de los electores; y las muestras de la conveniencia de los medios de comunicación social carecen de datos suficientes para solucionar estos problemas post hoc ".
En el capítulo 3, describiré el muestreo y la estimación con mucho más detalle. Incluso si los datos no son representativos, bajo ciertas condiciones, pueden ponderarse para producir buenas estimaciones.
La deriva del sistema es muy difícil de ver desde el exterior. Sin embargo, el proyecto MovieLens (discutido más en el capítulo 4) ha sido ejecutado por más de 15 años por un grupo de investigación académica. Por lo tanto, han podido documentar y compartir información sobre la forma en que el sistema ha evolucionado con el tiempo y cómo esto podría afectar el análisis (Harper and Konstan 2015) .
Una serie de académicos se han centrado en la deriva en Twitter: Liu, Kliman-Silver, and Mislove (2014) y Tufekci (2014) .
Un enfoque para lidiar con la deriva de la población es crear un panel de usuarios, que permita a los investigadores estudiar a las mismas personas a lo largo del tiempo, ver Diaz et al. (2016) .
Escuché por primera vez el término "algorítmicamente confundido" utilizado por Jon Kleinberg en una charla, pero desafortunadamente no recuerdo cuándo o dónde se dio la charla. La primera vez que vi el término impreso fue en Anderson et al. (2015) , que es una discusión interesante sobre cómo los algoritmos utilizados por los sitios de citas pueden complicar la capacidad de los investigadores de utilizar los datos de estos sitios web para estudiar las preferencias sociales. Esta preocupación fue planteada por K. Lewis (2015a) en respuesta a Anderson et al. (2014) .
Además de Facebook, Twitter también recomienda que los usuarios sigan según la idea del cierre triádico; ver Su, Sharma, and Goel (2016) . Entonces, el nivel de cierre triádico en Twitter es una combinación de cierta tendencia humana hacia el cierre triádico y cierta tendencia algorítmica a promover el cierre triádico.
Para obtener más información sobre la performatividad, en particular la idea de que algunas teorías de las ciencias sociales son "motores y no cámaras" (es decir, dan forma al mundo en vez de simplemente describirlo) -ver Mackenzie (2008) .
Las agencias gubernamentales de estadísticas llaman a la limpieza de datos la edición de datos estadísticos . De Waal, Puts, and Daas (2014) describen técnicas de edición de datos estadísticos desarrolladas para datos de encuestas y examinan en qué medida son aplicables a fuentes de big data, y Puts, Daas, and Waal (2015) presentan algunas de las mismas ideas para una audiencia más general.
Para una descripción general de bots sociales, ver Ferrara et al. (2016) . Para ver algunos ejemplos de estudios centrados en la búsqueda de spam en Twitter, ver Clark et al. (2016) y Chu et al. (2012) Finalmente, Subrahmanian et al. (2016) describen los resultados del DARPA Twitter Bot Challenge, una colaboración masiva diseñada para comparar enfoques para detectar bots en Twitter.
Ohm (2015) revisa investigaciones anteriores sobre la idea de información sensible y ofrece una prueba de factores múltiples. Los cuatro factores que propone son la magnitud del daño, la probabilidad de daño, la presencia de una relación confidencial y si el riesgo refleja las preocupaciones de la mayoría.
El estudio de Farber sobre los taxis en Nueva York se basó en un estudio anterior de Camerer et al. (1997) que utilizaron tres muestras de conveniencia diferentes de hojas de viaje en papel. Este estudio anterior descubrió que los conductores parecían ser ganadores de objetivos: trabajaban menos en los días en que sus salarios eran más altos.
En trabajos posteriores, King y sus colegas han explorado más la censura en línea en China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Para un enfoque relacionado con la medición de la censura en línea en China, ver Bamman, O'Connor, and Smith (2012) . Para obtener más información sobre métodos estadísticos como el utilizado en King, Pan, and Roberts (2013) para estimar el sentimiento de los 11 millones de mensajes, ver Hopkins and King (2010) . Para más información sobre el aprendizaje supervisado, ver James et al. (2013) (menos técnico) y Hastie, Tibshirani, and Friedman (2009) (más técnico).
La previsión es una gran parte de la ciencia de datos industriales (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipo de pronóstico que comúnmente hacen los investigadores sociales es el pronóstico demográfico; ver, por ejemplo, Raftery et al. (2012)
Google Flu Trends no fue el primer proyecto en utilizar datos de búsqueda para difundir la prevalencia de influenza. De hecho, los investigadores en los Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) y Suecia (Hulth, Rydevik, and Linde 2009) encontraron que ciertos términos de búsqueda (p. Ej., "Gripe") predijeron vigilancia nacional de salud pública datos antes de su lanzamiento. Posteriormente, muchos, muchos otros proyectos han intentado utilizar datos de rastreo digital para la detección de vigilancia de enfermedades; ver Althouse et al. (2015) para una revisión.
Además de usar datos de rastreo digitales para predecir los resultados de salud, también ha habido una gran cantidad de trabajo usando datos de Twitter para predecir los resultados de las elecciones; para revisiones vea Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capítulo 7) y Huberty (2015) . La publicación inmediata de indicadores económicos, como el producto interno bruto (PIB), también es común en los bancos centrales, ver Bańbura et al. (2013) . La tabla 2.8 incluye algunos ejemplos de estudios que usan algún tipo de rastro digital para predecir algún tipo de evento en el mundo.
Rastro digital | Salir | Citación |
---|---|---|
Gorjeo | Ingresos de taquilla de películas en los Estados Unidos | Asur and Huberman (2010) |
Registros de búsqueda | Venta de películas, música, libros y videojuegos en los EE. UU. | Goel et al. (2010) |
Gorjeo | Dow Jones Industrial Average (mercado bursátil estadounidense) | Bollen, Mao, and Zeng (2011) |
Redes sociales y registros de búsqueda | Encuestas sobre el sentimiento de los inversores y los mercados bursátiles en los Estados Unidos, el Reino Unido, Canadá y China | Mao et al. (2015) |
Registros de búsqueda | Prevalencia de la fiebre del dengue en Singapur y Bangkok | Althouse, Ng, and Cummings (2011) |
Finalmente, Jon Kleinberg y sus colegas (2015) han señalado que los problemas de previsión se dividen en dos categorías sutilmente diferentes y que los científicos sociales tienden a centrarse en uno e ignorar al otro. Imagínense a un político, la llamaré Anna, que enfrenta una sequía y debe decidir si contratar a un chamán para que baila la lluvia y así aumentar las posibilidades de lluvia. Otro creador de políticas, la llamaré Betty, debe decidir si se debe llevar un paraguas al trabajo para evitar mojarse en el camino a casa. Tanto Anna como Betty pueden tomar una mejor decisión si entienden el clima, pero necesitan saber cosas diferentes. Anna necesita entender si el baile de lluvia provoca lluvia. Betty, por otro lado, no necesita entender nada acerca de la causalidad; ella solo necesita un pronóstico preciso. Los investigadores sociales a menudo se centran en los problemas como el que enfrentó Anna, que Kleinberg y sus colegas denominan problemas de política "tipo danza de la lluvia" porque implican cuestiones de causalidad. Las preguntas como la que enfrenta Betty, que Kleinberg y sus colegas llaman problemas de política "parecidos a paraguas", también pueden ser muy importantes, pero han recibido mucha menos atención por parte de los investigadores sociales.
La revista PS Political Science tuvo un simposio sobre big data, inferencia causal y teoría formal, y Clark and Golder (2015) resumen cada contribución. Las Actas de la revista de la Academia Nacional de Ciencias de los Estados Unidos de América tuvieron un simposio sobre inferencia causal y Shiffrin (2016) , y Shiffrin (2016) resume cada contribución. Para los enfoques de aprendizaje automático que intentan descubrir automáticamente experimentos naturales dentro de grandes fuentes de datos, ver Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , y Sharma, Hofman, and Watts (2016) .
En términos de experimentos naturales, Dunning (2012) proporciona un tratamiento introductorio, de duración de libro con muchos ejemplos. Para una visión escéptica de los experimentos naturales, ver Rosenzweig and Wolpin (2000) (economía) o Sekhon and Titiunik (2012) (ciencia política). Deaton (2010) y Heckman and Urzúa (2010) sostienen que centrarse en experimentos naturales puede llevar a los investigadores a centrarse en la estimación de efectos causales sin importancia; Imbens (2010) contrarresta estos argumentos con una visión más optimista del valor de los experimentos naturales.
Al describir cómo un investigador podría pasar de estimar el efecto de ser reclutado al efecto de servir, estaba describiendo una técnica llamada variables instrumentales . Imbens and Rubin (2015) , en sus capítulos 23 y 24, brindan una introducción y usan el sorteo como ejemplo. El efecto del servicio militar en los cumplidores a veces se denomina el efecto causal promedio de compliador (CAcE) y, a veces, el efecto de tratamiento promedio local (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) y Bollen (2012) ofrecen reseñas sobre el uso de variables instrumentales en ciencias políticas, economía y sociología, y Sovey and Green (2011) proporciona una "lista de verificación para lectores" para evaluar estudios usando variables instrumentales.
Resulta que la lotería del draft de 1970 no estaba, de hecho, correctamente aleatorizada; hubo pequeñas desviaciones de la aleatoriedad pura (Fienberg 1971) . Berinsky and Chatfield (2015) argumentan que esta pequeña desviación no es sustantivamente importante y discuten la importancia de la aleatorización correctamente conducida.
En términos de emparejamiento, ver Stuart (2010) para una revisión optimista, y Sekhon (2009) para una revisión pesimista. Para más información sobre emparejamiento como una especie de poda, ver Ho et al. (2007) . Encontrar una coincidencia perfecta única para cada persona a menudo es difícil, y esto introduce una serie de complejidades. En primer lugar, cuando las coincidencias exactas no están disponibles, los investigadores deben decidir cómo medir la distancia entre dos unidades y si una distancia dada es lo suficientemente cerca. Surge una segunda complejidad si los investigadores desean utilizar múltiples coincidencias para cada caso en el grupo de tratamiento, ya que esto puede conducir a estimaciones más precisas. Ambos problemas, así como otros, se describen en detalle en el capítulo 18 de Imbens and Rubin (2015) . Ver también la Parte II de ( ??? ) .
Ver Dehejia and Wahba (1999) para un ejemplo donde los métodos de coincidencia fueron capaces de producir estimaciones similares a las de un experimento controlado aleatorizado. Pero, consulte Arceneaux, Gerber, and Green (2006) y Arceneaux, Gerber, and Green (2010) para ver ejemplos en los que los métodos de coincidencia no lograron reproducir un punto de referencia experimental.
Rosenbaum (2015) y Hernán and Robins (2016) ofrecen otros consejos para descubrir comparaciones útiles dentro de fuentes de big data.