Un tipo de observación que non se inclúe neste capítulo é a etnografía. Para máis información sobre a etnografía nos espazos dixitais, consulte Boellstorff et al. (2012) , e para máis información sobre etnografía en espazos dixitais e físicos mixtos, consulte Lane (2016) .
Non hai unha única definición de consenso de "grandes datos", pero moitas definicións parecen centrarse nas "3 Vs": volume, variedade e velocidade (por exemplo, Japec et al. (2015) ). Vexa De Mauro et al. (2015) para unha revisión das definicións.
A miña inclusión de datos administrativos do goberno na categoría de grandes datos é un pouco inusual, aínda que outros tamén fixeron este caso, incluíndo Legewie (2015) , Connelly et al. (2016) e Einav and Levin (2014) . Para obter máis información sobre o valor dos datos administrativos do goberno para a investigación, consulte Card et al. (2010) , Adminstrative Data Taskforce (2012) e Grusky, Smeeding, and Snipp (2015) .
Para unha visión da investigación administrativa dentro do sistema estatístico do goberno, en particular a Oficina do Censo dos Estados Unidos, consulte Jarmin and O'Hara (2016) . Para un tratamento de longa duración da investigación de rexistros administrativos en Statistics Sweden, consulte Wallgren and Wallgren (2007) .
No capítulo comparei brevemente unha enquisa tradicional como a Encuesta Social Xeral (GSS) cunha fonte de datos de redes sociais como Twitter. Para unha comparación minuciosa e coidadosa entre as enquisas tradicionais e os datos das redes sociais, consulte Schober et al. (2016) .
Estas 10 características de grandes datos foron descritas de diversas formas por diferentes autores. A escrita que influíu no meu pensamento sobre estes temas inclúe a Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) e Goldstone and Lupyan (2016) .
Ao longo deste capítulo, usei o término rastros dixitais , que creo que é relativamente neutro. Outro término popular para as pegadas dixitais é as pegadas dixitais (Golder and Macy 2014) , pero como sinalan Hal Abelson, Ken Ledeen e Harry Lewis (2008) , un termo máis apropiado é probablemente impresións dixitais . Cando crea pegadas, está consciente do que está a suceder e as pegadas xeralmente non se poden rastrexar a vostede persoalmente. O mesmo non é verdade para os teus rastros dixitais. De feito, está deixando rastros todo o tempo sobre o que ten moi poucos coñecementos. E, aínda que estes rastros non teñan o seu nome neles, moitas veces poden estar vinculados a vostede. Noutras palabras, son máis como impresións dixitais: invisibles e identificando persoalmente.
Para máis información sobre por que grandes conxuntos de datos fan probas estatísticas problemáticas, vexa M. Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Estes problemas deberían dirixir aos investigadores a centrarse en significado práctico e non en significado estatístico.
Para máis información sobre como Raj Chetty e os seus compañeiros obtiveron acceso aos rexistros fiscais, consulte Mervis (2014) .
Grandes conxuntos de datos tamén poden crear problemas computacionais que xeralmente están máis aló das capacidades dunha única computadora. Polo tanto, os investigadores que realizan computacións en grandes conxuntos de datos a miúdo difunden o traballo a través de moitas computadoras, un proceso ás veces chamado de programación paralela . Para unha introdución á programación paralela, en particular unha linguaxe chamado Hadoop, vexa Vo and Silvia (2016) .
Ao considerar os datos sempre por diante, é importante considerar se está comparando exactamente as mesmas persoas ao longo do tempo ou se está a comparar un grupo cambiante de persoas; ver por exemplo, Diaz et al. (2016) .
Un libro clásico sobre medidas non reactivas é Webb et al. (1966) . Os exemplos nese libro anteriores á era dixital, aínda están a iluminar. Para exemplos de persoas que cambian o seu comportamento por mor da presenza de vixilancia masiva, vexa Penney (2016) e Brayne (2014) .
A reactividade está moi relacionada co que os investigadores chaman os efectos da demanda (Orne 1962; Zizzo 2010) eo efecto Hawthorne (Adair 1984; Levitt and List 2011) .
Para máis información sobre ligazóns, consulte Dunn (1946) e Fellegi and Sunter (1969) (histórico) e Larsen and Winkler (2014) (moderno). Enfoques similares tamén se desenvolveron en informática baixo nomes como deduplicación de datos, identificación de instancia, correspondencia de nome, detección duplicada e detección de rexistro duplicado (Elmagarmid, Ipeirotis, and Verykios 2007) . Hai tamén enfoques que preservan a privacidade para rexistrar enlaces que non precisan a transmisión de información de identificación persoal (Schnell 2013) . Facebook tamén desenvolveu un proceso para vincular os seus rexistros co comportamento de voto; isto foi feito para avaliar un experimento que vos contarei no capítulo 4 (Bond et al. 2012; Jones et al. 2013) .
Para obter máis información sobre a validez da construción, consulte o capítulo 3 de Shadish, Cook, and Campbell (2001) .
Para máis información sobre o debacle do rexistro de busca de AOL, vexa Ohm (2010) . Ofrezco consellos sobre asociacións con empresas e gobernos no capítulo 4 cando describo experimentos. Algúns autores manifestaron preocupacións sobre a investigación que se basea en datos inaccesibles, ver Huberman (2012) e boyd and Crawford (2012) .
Unha boa forma para os investigadores universitarios para adquirir o acceso aos datos é traballar nunha empresa como estagiário ou investigador visitante. Ademais de permitir o acceso aos datos, este proceso tamén axudará o investigador aprender máis sobre como os datos foron creados, o que é importante para a súa análise.
En canto a acceder a datos do goberno, Mervis (2014) discute como Raj Chetty e os seus compañeiros obtiveron acceso aos rexistros fiscais utilizados nas súas investigacións sobre mobilidade social.
Para máis información sobre a historia da "representatividade" como concepto, vexa Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) e Kruskal and Mosteller (1980) .
Os meus resumos do traballo de Snow e do traballo de Doll and Hill foron breves. Para máis información sobre o traballo de Snow no cólera, vexa Freedman (1991) . Para máis información sobre o estudo de médicos británicos vexa Doll et al. (2004) e Keating (2014) .
Moitos investigadores sorprenderán ao saber que, aínda que Doll e Hill recolleu datos de médicos e de médicos menores de 35 anos, non intencionalmente utilizaron estes datos na súa primeira análise. Segundo argumentaron: "Dado que o cancro de pulmón é relativamente raro en mulleres e homes menores de 35 anos, é improbable que se obteñan cifras útiles nestes grupos durante algúns anos. Neste informe preliminar, polo tanto, confinamos a nosa atención para os homes de 35 anos ou máis. " Rothman, Gallacher, and Hatch (2013) , que ten o título provocativo" Por que a representatividade debe ser evitada ", fai un argumento máis xeral para o valor de crear intencionalmente datos non representativos.
A non representación é un problema importante para investigadores e gobernos que desexan facer declaracións sobre toda unha poboación. Isto é menos preocupante para as empresas, que normalmente se centran nos seus usuarios. Para obter máis información sobre como a estatística de Holanda considera a cuestión da non representatividade dos grandes datos empresariais, consulte Buelens et al. (2014) .
Para exemplos de investigadores que expresan preocupación pola natureza non representativa das grandes fontes de datos, vexa boyd and Crawford (2012) , K. Lewis (2015b) e Hargittai (2015) .
Para unha comparación máis detallada dos obxectivos das enquisas sociais e da investigación epidemiolóxica, vexa Keiding and Louis (2016) .
Para máis información sobre os intentos de usar Twitter para facer xeneralizacións fóra de mostra dos electores, especialmente no caso das eleccións alemáns de 2009, vexa Jungherr (2013) e Jungherr (2015) . Posterior ao traballo de Tumasjan et al. (2010) investigadores de todo o mundo utilizaron métodos máis atractivos -como a utilización de análise de sentimentos para distinguir entre as mencións positivas e negativas das partes- para mellorar a capacidade dos datos de Twitter para predecir unha variedade de diferentes tipos de eleccións (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Así é como Huberty (2015) resumiu os resultados destes intentos de predicir as eleccións:
"Todos os métodos de previsión coñecidos baseados nas redes sociais fallaron cando se someteron ás demandas de verdadeiras previsións electorais. Estes fallos parecen ser debido ás propiedades fundamentais dos medios sociais, máis que ás dificultades metodolóxicas ou algorítmicas. En resumo, os medios sociais non, e probablemente nunca, ofrecerán unha imaxe estable e imparcial do electorado; e as mostras de conveniencia das redes sociais non teñen datos suficientes para solucionar estes problemas post hoc ".
No capítulo 3, describirei a mostraxe e a estimación con moito máis detalle. Aínda que os datos non sexan representativos, baixo certas condicións, pódense ponderar para producir boas estimacións.
A deriva do sistema é moi difícil de ver desde o exterior. Con todo, o proxecto MovieLens (discutido máis no capítulo 4) foi executado por máis de 15 anos por un grupo de investigación académica. Deste xeito, foron capaces de documentar e compartir información sobre o xeito no que o sistema evolucionou ao longo do tempo e como isto pode afectar a análise (Harper and Konstan 2015) .
Liu, Kliman-Silver, and Mislove (2014) estudiosos centráronse na deriva en Twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .
Unha aproximación ao abordar a deriva da poboación é crear un panel de usuarios que permita aos investigadores estudar a mesma xente ao longo do tempo, ver Diaz et al. (2016) .
Primeiro escoitei o término "algoritmicamente confundido" usado por Jon Kleinberg nunha charla, pero lamentablemente non me acordo cando nin onde se deu a charla. A primeira vez que vin o impreso foi en Anderson et al. (2015) , que é unha discusión interesante de como os algoritmos utilizados polos sitios de encontros poden complicar a capacidade dos investigadores de utilizar os datos destes sitios para estudar preferencias sociais. Esta preocupación foi suscitada por K. Lewis (2015a) en resposta a Anderson et al. (2014) .
Ademais de Facebook, Twitter tamén recomenda ás persoas que os usuarios sigan segundo a idea do peche triádico; vexa Su, Sharma, and Goel (2016) . Así, o nivel de peche triádico en Twitter é unha combinación dalgunha tendencia humana cara ao peche triádico e algunha tendencia algorítmica para promover o peche triádico.
Para máis información sobre a performatividade -especialmente a idea de que algunhas teorías da ciencia social son "motores non de cámaras" (é dicir, configuran o mundo máis que simplemente describíndoo) -se Mackenzie (2008) .
As axencias estatísticas gobernamentais chaman á edición de datos de limpeza de datos estatísticos . De Waal, Puts, and Daas (2014) describen as técnicas de edición de datos estatísticos desenvolvidas para os datos da enquisa e examinan a medida en que son aplicables a grandes fontes de datos e Puts, Daas, and Waal (2015) presentan algunhas das mesmas ideas para un público máis xeral.
Para obter unha visión xeral dos bots sociais, vexa Ferrara et al. (2016) . Para algúns exemplos de estudos centrados en atopar spam en Twitter, vexa Clark et al. (2016) e Chu et al. (2012) . Finalmente, Subrahmanian et al. (2016) describen os resultados do DARPA Twitter Bot Challenge, unha colaboración masiva deseñada para comparar enfoques para detectar bots en Twitter.
Ohm (2015) revisa as investigacións anteriores sobre a idea de información sensible e ofrece unha proba multi-factor. Os catro factores que propón son a magnitude do dano, a probabilidade de dano, a presenza dunha relación confidencial e se o risco reflicte as preocupacións maioritarias.
O estudo de taxis de Farber en Nova York estaba baseado nun estudo anterior de Camerer et al. (1997) que usou tres mostras de conveniencia diferentes de follas de viaxe de papel. Este estudo anterior atopou que os condutores parecían ser destinatarios: traballaban menos nos días en que os seus salarios eran máis altos.
No traballo posterior, King e seus colegas exploraron a censura en liña en China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Para unha visión relacionada coa medición da censura en liña en China, vexa Bamman, O'Connor, and Smith (2012) . Para máis información sobre métodos estatísticos como o usado en King, Pan, and Roberts (2013) para estimar o sentimento dos 11 millóns de publicacións, vexa Hopkins and King (2010) . Para máis información sobre a aprendizaxe supervisada, vexa James et al. (2013) (menos técnico) e Hastie, Tibshirani, and Friedman (2009) (máis técnico).
A previsión é unha gran parte das ciencias da información industrial (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipo de previsión que adoita facer os investigadores sociais é a previsión demográfica; ver, por exemplo, Raftery et al. (2012) .
Google Flu Trends non foi o primeiro proxecto en utilizar os datos de busca na prevalencia de influenza de Nowcast. De feito, os investigadores nos Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) e Suecia (Hulth, Rydevik, and Linde 2009) descubriron que determinados termos de busca (por exemplo, "gripe") previu a vixilancia nacional de saúde pública datos antes do seu lanzamento. Posteriormente, moitos outros proxectos intentaron utilizar datos de seguimento dixitais para detección de vixilancia de enfermidades; vexa Althouse et al. (2015) para unha revisión.
Ademais de empregar datos de seguimento dixital para predecir os resultados de saúde, tamén houbo unha gran cantidade de traballo usando datos de Twitter para predecir os resultados das eleccións; para comentarios ver Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capítulo 7) e Huberty (2015) . As emisións de indicadores económicos, como o produto interior bruto (PIB), tamén son comúns nos bancos centrais, ver Bańbura et al. (2013) . A táboa 2.8 inclúe algúns exemplos de estudos que utilizan algún tipo de rastreo dixital para predecir algún tipo de evento no mundo.
Rastreo dixital | Resultado | Cita |
---|---|---|
Ingresos de taquilla de películas en EE. UU | Asur and Huberman (2010) | |
Rexistros de busca | Vendas de películas, música, libros e videojuegos en EE. UU | Goel et al. (2010) |
Dow Jones Industrial Average (mercado estadounidense de valores) | Bollen, Mao, and Zeng (2011) | |
Medios de comunicación social e rexistros de busca | Enquisas de sentimentos e mercados de accións dos inversores nos Estados Unidos, Reino Unido, Canadá e China | Mao et al. (2015) |
Rexistros de busca | Prevalencia da febre do dengue en Singapur e Bangkok | Althouse, Ng, and Cummings (2011) |
Finalmente, Jon Kleinberg e seus colegas (2015) sinalaron que os problemas de previsión caen en dúas categorías, sutilmente diferentes e que os científicos sociais tenden a concentrarse nun e ignoran o outro. Imaxina un político, chamaréa Anna, que se enfronta a unha seca e debe decidir se contratar un chamán para facer unha danza de choiva para aumentar as posibilidades de choiva. Outro creador de políticas, chamaréa Betty, debe decidir se levar un paraugas para que non se mova no camiño a casa. Tanto Anna como Betty poden tomar unha decisión mellor se entenden o tempo, pero necesitan saber cousas distintas. Anna ten que entender se a choiva provoca choiva. Betty, por outra banda, non necesita entender nada sobre causalidade; ela só precisa unha previsión precisa. Os investigadores sociais a miúdo se enfocan nos problemas como o que enfronta Anna, cousa que Kleinberg e os seus colegas chaman problemas políticos como "choiva de choiva" porque implican cuestións de causalidade. Preguntas como a que enfronta Betty, que Kleinberg e os seus colegas chaman problemas de política "semellantes" tamén poden ser moi importantes, pero recibiron moita menos atención dos investigadores sociais.
A revista PS Political Science tivo un simposio sobre grandes datos, inferencia causal e teoría formal, e Clark and Golder (2015) resume cada contribución. A revista Proceedings da Academia Nacional de Ciencias dos Estados Unidos de América tivo un simposio sobre inferencia causal e grandes datos, e Shiffrin (2016) resume cada contribución. Para enfoques de aprendizaxe automática que intentan descubrir automáticamente os experimentos naturais dentro de grandes fontes de datos, consulte Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) e Sharma, Hofman, and Watts (2016) .
En termos de experimentos naturais, Dunning (2012) ofrece un tratamento introdutorio e de longa duración con moitos exemplos. Para unha visión escéptica dos experimentos naturais, vexa Rosenzweig and Wolpin (2000) (economía) ou Sekhon and Titiunik (2012) (ciencia política). Deaton (2010) e Heckman and Urzúa (2010) sosteñen que centrarse nos experimentos naturais pode levar aos investigadores a centrarse en estimar efectos causais non importantes. Imbens (2010) contrasta estes argumentos cunha visión máis optimista do valor dos experimentos naturais.
Ao describir como un investigador pode ir a partir de estimar o efecto de ser redactado no efecto de servir, eu estaba describindo unha técnica chamada variables instrumentais . Imbens and Rubin (2015) , nos seus capítulos 23 e 24, proporcionan unha presentación e usan o proxecto de lotería como exemplo. O efecto do servizo militar nos cumpridores ás veces é chamado o efecto causal medio compliante (CAcE) e ás veces o efecto de tratamento promedio local (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) e Bollen (2012) ofrecen opinións sobre o uso das variables instrumentais en ciencia política, economía e socioloxía, e Sovey and Green (2011) ofrece unha "listaxe de lectores" para avaliación de estudos con variables instrumentais.
Resulta que a lotería de 1970 non era, de feito, debidamente aleatorizada; houbo pequenas desviacións de aleatoriedade pura (Fienberg 1971) . Berinsky and Chatfield (2015) sosteñen que esta pequena desviación non é importante en importancia e discute a importancia dunha aleatorización correctamente realizada.
En termos de correspondencia, vexa Stuart (2010) para unha revisión optimista, e Sekhon (2009) para unha revisión pesimista. Para obter máis coincidencias como unha especie de poda, consulte Ho et al. (2007) . Atopar unha coincidencia única e perfecta para cada persoa moitas veces é difícil, e isto introduce unha serie de complexidades. En primeiro lugar, cando as coincidencias exactas non están dispoñibles, os investigadores precisan decidir como medir a distancia entre dúas unidades e se unha distancia dada é bastante próxima. A segunda complexidade xorde se os investigadores queren utilizar múltiples coincidencias para cada caso no grupo de tratamento, xa que isto pode levar a estimacións máis precisas. Ambos asuntos, así como outros, son descritos detalladamente no capítulo 18 de Imbens and Rubin (2015) . Vexa tamén a Parte II de ( ??? ) .
Vexa Dehejia and Wahba (1999) para un exemplo onde os métodos coincidentes foron capaces de producir estimacións similares ás dun experimento controlado aleatorizado. Pero, vexa Arceneaux, Gerber, and Green (2006) e Arceneaux, Gerber, and Green (2010) para exemplos onde os métodos coincidentes non lograron reproducir un punto de referencia experimental.
Rosenbaum (2015) e Hernán and Robins (2016) ofrecen outros consellos para descubrir comparacións útiles dentro de grandes fontes de datos.