Un tipus d'observació que no s'inclou en aquest capítol és l'etnografia. Per obtenir més informació sobre etnografia en espais digitals, vegeu Boellstorff et al. (2012) , i per obtenir més informació sobre etnografia en espais digitals i físics mixtos, vegeu Lane (2016) .
No hi ha una definició de consens únic de "grans dades", però moltes definicions semblen centrar-se en el "3 V": volum, varietat i velocitat (per exemple, Japec et al. (2015) ). Vegeu De Mauro et al. (2015) per a una revisió de definicions.
La meva inclusió de les dades administratives del govern en la categoria de grans dades és una mica inusual, encara que altres també han fet aquest cas, incloent Legewie (2015) , Connelly et al. (2016) , i Einav and Levin (2014) . Per obtenir més informació sobre el valor de les dades administratives del govern per a la recerca, consulteu Card et al. (2010) , Adminstrative Data Taskforce (2012) i Grusky, Smeeding, and Snipp (2015) .
Per obtenir una visió de la investigació administrativa des del sistema estadístic del govern, particularment a l'Oficina del Cens dels EUA, vegeu Jarmin and O'Hara (2016) . Per obtenir un tractament complet de la recerca de registres administratius a Statistics Sweden, vegeu Wallgren and Wallgren (2007) .
En el capítol, he comparat breument una enquesta tradicional com l'Enquesta social general (GSS) amb una font de dades de mitjans socials com Twitter. Per a una comparació minuciosa i acurada de les enquestes tradicionals i les dades de les xarxes socials, vegeu Schober et al. (2016) .
Aquestes 10 característiques de grans dades han estat descrites de manera diversa per diversos autors. L'escriptura que va influir en el meu pensament sobre aquests temes inclou Lazer et al. (2009) Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , i Goldstone and Lupyan (2016) .
Al llarg d'aquest capítol, he utilitzat el terme traces digitals , que crec que és relativament neutre. Un altre terme popular per a les petjades digitals són les petjades digitals (Golder and Macy 2014) , però tal com ho assenyalen Hal Abelson, Ken Ledeen i Harry Lewis (2008) , un terme més apropiat és, probablement, empremtes dactilars digitals . Quan creeu petjades, sou conscients del que està passant i, en general, les vostres petjades no es poden rastrejar personalment. El mateix no és cert per als vostres rastres digitals. De fet, deixeu rastres tot el temps pel que teniu molt poc coneixement. I, encara que aquestes empremtes no tinguin el vostre nom, sovint es poden enllaçar amb vosaltres. En altres paraules, són més com les empremtes digitals: invisibles i identificant-les personalment.
Per obtenir més informació sobre per què grans conjunts de dades fan que les proves estadístiques siguin problemàtiques, vegeu M. Lin, Lucas, and Shmueli (2013) i McFarland and McFarland (2015) . Aquests problemes han de conduir els investigadors a centrar-se en la importància pràctica més que en la significació estadística.
Per obtenir més informació sobre com Raj Chetty i els seus col·legues van obtenir accés als registres fiscals, vegeu Mervis (2014) .
Els grans conjunts de dades també poden crear problemes de computació que generalment estan més enllà de les capacitats d'una única computadora. Per tant, els investigadors que realitzen càlculs en grans conjunts de dades solen difondre el treball sobre moltes computadores, un procés a vegades anomenat programació paral·lela . Per a una introducció a la programació paral·lela, en particular un llenguatge anomenat Hadoop, vegeu Vo and Silvia (2016) .
Si teniu en compte les dades de sempre, és important tenir en compte si comparem la mateixa gent amb el temps o si esteu comparant un grup canviant de persones; vegeu, per exemple, Diaz et al. (2016) .
Un llibre clàssic sobre mesures no reactives és Webb et al. (1966) . Els exemples d'aquest llibre són anteriors a l'era digital, però continuen il·luminant. Per a exemples de persones que canvien el seu comportament a causa de la presència de vigilància massiva, vegeu Penney (2016) i Brayne (2014) .
La reactivitat està estretament relacionada amb el que els investigadors anomenen efectes de la demanda (Orne 1962; Zizzo 2010) i l'efecte Hawthorne (Adair 1984; Levitt and List 2011) .
Per obtenir més informació sobre un enllaç discogràfic, vegeu Dunn (1946) i Fellegi and Sunter (1969) (històric) i Larsen and Winkler (2014) (modern). També s'han desenvolupat enfocaments similars en informàtica sota noms com la deduplicació de dades, la identificació d'instàncies, la concordança de noms, la detecció duplicada i la detecció de registres duplicats (Elmagarmid, Ipeirotis, and Verykios 2007) . També hi ha enfocaments de conservació de la privacitat per enllaçar registres que no requereixen la transmissió d'informació d'identificació personal (Schnell 2013) . Facebook també ha desenvolupat un procés per vincular els seus registres amb el comportament de vots; es va fer per avaluar un experiment que et diré al capítol 4 (Bond et al. 2012; Jones et al. 2013) .
Per obtenir més informació sobre la validesa de la construcció, vegeu el capítol 3 de Shadish, Cook, and Campbell (2001) .
Per obtenir més informació sobre el debacle del registre de cerca d'AOL, vegeu Ohm (2010) . Us oferim consells sobre associacions amb empreses i governs al capítol 4 quan descric experiments. Diversos autors han expressat preocupacions sobre la investigació que es basa en dades inaccessibles, vegeu Huberman (2012) i boyd and Crawford (2012) .
Una bona manera perquè els investigadors universitaris per adquirir accés a les dades és treballar en una empresa com a passant o investigador visitant. A més de permetre l'accés a les dades, aquest procés també ajudarà als investigadors a aprendre més sobre com es creen les dades, la qual cosa és important per a l'anàlisi.
Pel que fa a l'accés a dades del govern, Mervis (2014) analitza com Raj Chetty i els seus col·legues van obtenir accés als registres fiscals utilitzats en les seves investigacions sobre mobilitat social.
Per obtenir més informació sobre la història de la "representativitat" com a concepte, vegeu Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) i Kruskal and Mosteller (1980) .
Els meus resums de l'obra de Snow i el treball de Doll and Hill van ser breus. Per obtenir més informació sobre l'obra de Snow en el còlera, vegeu Freedman (1991) . Per obtenir més informació sobre l'estudi de metges britànics, vegeu Doll et al. (2004) i Keating (2014) .
Molts investigadors es sorprendran al descobrir que, tot i que Doll i Hill han recopilat dades de metges i de metges de menys de 35 anys, intencionalment no van utilitzar aquestes dades en la seva primera anàlisi. Segons van argumentar: "Atès que el càncer de pulmó és relativament estrany en dones i homes menors de 35 anys, probablement no es podran obtenir dades útils en aquests grups durant alguns anys. En aquest informe preliminar hem limitat la nostra atenció als homes de 35 anys i més. " Rothman, Gallacher, and Hatch (2013) , que té el títol provocador" Per què s'hauria d'evitar la representativitat ", feu un argument més general pel valor de creant intencionadament dades no representatives.
La no representativitat és un problema important per als investigadors i governs que volen formular declaracions sobre tota una població. Això és menys preocupant per a les empreses, que normalment se centren en els seus usuaris. Per obtenir més informació sobre com es considera que els Països Baixos consideren la qüestió de la no representativitat de les grans dades comercials, vegeu Buelens et al. (2014) .
Per a exemples d'investigadors que expressen la seva preocupació pel caràcter no representatiu de grans fonts de dades, vegeu boyd and Crawford (2012) , K. Lewis (2015b) i Hargittai (2015) .
Per a una comparació més detallada dels objectius de les enquestes socials i la investigació epidemiològica, vegeu Keiding and Louis (2016) .
Per obtenir més informació sobre els intents d'utilitzar Twitter per generalizacions fora de mostra dels votants, especialment el cas de les eleccions alemanyes 2009, vegeu Jungherr (2013) i Jungherr (2015) . Posterior al treball de Tumasjan et al. (2010) investigadors d'arreu del món han utilitzat mètodes més atractius -com ara l'ús de l'anàlisi sentimental per distingir les mencions positives i negatives de les parts- per tal de millorar la capacitat de les dades de Twitter per predir diferents tipus d'eleccions (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Així és com Huberty (2015) resumia els resultats d'aquests intents de predicció d'eleccions:
"Tots els mètodes de predicció coneguts basats en els mitjans de comunicació social han fracassat quan es van sotmetre a les demandes de veritables prediccions electorals de previsió. Aquests fracassos semblen ser deguts a propietats fonamentals de les xarxes socials, més que a dificultats metodològiques o algorísmiques. En resum, els mitjans de comunicació social no, i probablement mai, ofereixen una imatge estable, imparcial i representativa de l'electorat; i les mostres de conveniència de les xarxes socials no disposen de dades suficients per solucionar aquests problemes post hoc ".
Al capítol 3, vaig a descriure mostres i estimacions amb molt més detall. Encara que les dades no siguin representatives, en determinades condicions, es poden ponderar per produir bones estimacions.
La deriva del sistema és molt difícil de veure des de l'exterior. No obstant això, el projecte MovieLens (comentat més al capítol 4) ha estat executat durant més de 15 anys per un grup de recerca acadèmica. Així, han pogut documentar i compartir informació sobre la manera en què el sistema ha evolucionat amb el temps i com això pot afectar l'anàlisi (Harper and Konstan 2015) .
Diversos acadèmics s'han centrat en la deriva en Twitter: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .
Un enfocament per abordar la deriva de la població és crear un panell d'usuaris, que permeti als investigadors estudiar les mateixes persones amb el temps, vegeu Diaz et al. (2016) .
Vaig escoltar per primera vegada el terme "confusió algorítmica" utilitzat per Jon Kleinberg en una xerrada, però malauradament no recordo quan ni on es va fer la xerrada. La primera vegada que vaig veure el terme imprès va ser a Anderson et al. (2015) , que és una discussió interessant de com els algoritmes utilitzats pels llocs de cites poden complicar la capacitat dels investigadors d'utilitzar dades d'aquests llocs web per estudiar les preferències socials. Aquesta preocupació va ser plantejada per K. Lewis (2015a) en resposta a Anderson et al. (2014) .
A més de Facebook, Twitter també recomana als usuaris que segueixin els usuaris a partir de la idea del tancament triàdic; vegeu Su, Sharma, and Goel (2016) . Així, el nivell de tancament triàdic a Twitter és una combinació d'alguna tendència humana cap al tancament triàdic i una certa tendència algorítmica a promoure el tancament triàdic.
Per obtenir més informació sobre la performativitat, en particular, la idea que algunes teories de la ciència social són "motors no càmeres" (és a dir, configuren el món en lloc de descriure-la), vegeu Mackenzie (2008) .
Les agències estadístiques governamentals criden l' edició de dades estadístiques de neteja de dades . De Waal, Puts, and Daas (2014) descriuen les tècniques d'edició de dades estadístiques desenvolupades per a les dades de l'enquesta i examinen el grau en què són aplicables a grans fonts de dades, i Puts, Daas, and Waal (2015) presenten algunes de les mateixes idees per a un públic més general.
Per obtenir una visió general dels robots socials, vegeu Ferrara et al. (2016) . Per a alguns exemples d'estudis centrats en trobar spam a Twitter, vegeu Clark et al. (2016) i Chu et al. (2012) . Finalment, Subrahmanian et al. (2016) descriu els resultats del DARPA Twitter Bot Challenge, una col · laboració massiva dissenyada per comparar els enfocaments per detectar robots a Twitter.
Ohm (2015) revisa investigacions anteriors sobre la idea d'informació sensible i ofereix una prova de diversos factors. Els quatre factors que proposa són la magnitud del dany, la probabilitat de dany, la presència d'una relació confidencial i si el risc reflecteix les preocupacions majoritàries.
L'estudi de taxis de Farber a Nova York es va basar en un estudi anterior de Camerer et al. (1997) que utilitza tres mostres de conveniència diferents dels fulls de viatge de paper. Aquest estudi anterior va trobar que els conductors semblaven ser destinataris: treballaven menys en dies on els seus salaris eren més alts.
En el treball posterior, King i col·legues han explorat la censura en línia a la Xina (King, Pan, and Roberts 2014, [@king_how_2016] ) . Per un enfocament relacionat amb la mesura de la censura en línia a la Xina, vegeu Bamman, O'Connor, and Smith (2012) . Per obtenir més informació sobre mètodes estadístics com el que s'utilitza a King, Pan, and Roberts (2013) per estimar el sentiment dels 11 milions de publicacions, vegeu Hopkins and King (2010) . Per obtenir més informació sobre l'aprenentatge supervisat, vegeu James et al. (2013) (menys tècnica) i Hastie, Tibshirani, and Friedman (2009) (més tècnic).
La previsió és una gran part de les ciències de la informació industrial (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipus de previsió que solen fer els investigadors socials és la previsió demogràfica; vegeu, per exemple, Raftery et al. (2012) .
Google Flu Trends no va ser el primer projecte que va utilitzar les dades de cerca a la prevalença de grip de nowcast. De fet, els investigadors dels Estats Units (Polgreen et al. 2008; Ginsberg et al. 2009) i Suècia (Hulth, Rydevik, and Linde 2009) han descobert que certs termes de cerca (per exemple, "grip") prediuen la vigilància nacional de salut pública dades abans que es va alliberar. Posteriorment, molts i molts altres projectes han intentat utilitzar dades de traça digital per detectar la vigilància de malalties; vegeu Althouse et al. (2015) per a una revisió.
A més d'utilitzar dades de rastreig digital per predir els resultats de salut, també hi ha hagut una gran quantitat de treball utilitzant dades de Twitter per predir els resultats de les eleccions; per a revisions, vegeu Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capítol 7) i Huberty (2015) . L'emissió d'indicadors econòmics, com ara el producte interior brut (PIB), també és habitual en els bancs centrals, vegeu Bańbura et al. (2013) . La taula 2.8 inclou alguns exemples d'estudis que utilitzen algun tipus de traça digital per predir algun tipus d'esdeveniment al món.
Rastreig digital | Resultat | Cita |
---|---|---|
Ingressos de taquilla de pel·lícules als Estats Units | Asur and Huberman (2010) | |
Registres de cerca | Vendes de pel·lícules, música, llibres i videojocs als Estats Units | Goel et al. (2010) |
Dow Jones Industrial Average (mercat de valors dels EUA) | Bollen, Mao, and Zeng (2011) | |
Mitjans de comunicació social i registres de cerca | Enquestes de sentiment d'inversors i mercats borsaris als Estats Units, Regne Unit, Canadà i Xina | Mao et al. (2015) |
Registres de cerca | Prevalença de febre del dengue a Singapur i Bangkok | Althouse, Ng, and Cummings (2011) |
Finalment, Jon Kleinberg i els seus col·legues (2015) han assenyalat que els problemes de previsió es troben en dues categories subtilment diferents i que els científics socials han tendit a centrar-se en un i ignorar l'altre. Imagineu-vos un fabricant de polítiques, l'anomendaré a Anna, que s'enfronta a una sequera i ha de decidir si voleu contractar un xaman per fer un ball de pluja per augmentar l'oportunitat de ploure. Un altre fabricant de polítiques, el vaig anomenar Betty, ha de decidir si voleu portar un paraigua per evitar mullar-se en el camí a casa. Tant Anna com Betty poden prendre una decisió millor si entenen el temps, però necessiten saber coses diferents. Anna ha d'entendre si la pluja causa la pluja. Betty, d'altra banda, no necessita entendre res sobre la causalitat; només necessita un pronòstic precís. Els investigadors socials sovint se centren en els problemes com el que enfronta Anna, que Kleinberg i els seus col·legues anomenen problemes de política "semblants a la pluja", ja que involucren qüestions de causalitat. Preguntes com la que enfronta Betty, que Kleinberg i els seus col·legues anomenen problemes de política de "parèntesis", també poden ser molt importants, però han rebut molta menys atenció dels investigadors socials.
La revista Science of Political PS va tenir un simposi sobre grans dades, inferència causal i teoria formal, i Clark and Golder (2015) resumeixen cada contribució. La revista Proceedings de l'Acadèmia Nacional de Ciències dels Estats Units d'Amèrica va tenir un simposi sobre inferència causal i grans dades, i Shiffrin (2016) resumeix cada contribució. Per als enfocaments d'aprenentatge automàtic que intenten descobrir automàticament experiments naturals dins de grans fonts de dades, vegeu Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , i Sharma, Hofman, and Watts (2016) .
Pel que fa als experiments naturals, Dunning (2012) proporciona un tractament introductori i de llargmetratge amb molts exemples. Per obtenir una visió escèptica dels experiments naturals, vegeu Rosenzweig and Wolpin (2000) (economia) o Sekhon and Titiunik (2012) (ciència política). Deaton (2010) i Heckman and Urzúa (2010) argumenten que centrar-se en experiments naturals pot conduir els investigadors a concentrar-se en l'estimació d'efectes causals no importants; Imbens (2010) aquests arguments amb una visió més optimista del valor dels experiments naturals.
En descriure com un investigador podria passar de l'estimació de l'efecte de redactar en funció del servei, descrivia una tècnica anomenada variables instrumentals . Imbens and Rubin (2015) , en els seus capítols 23 i 24, proporcionen una introducció i utilitzen el projecte de loteria com a exemple. L'efecte del servei militar als observadors es denomina de vegades l'efecte causal mitjà complert (CAcE) i, de vegades, l'efecte de tractament mitjà local (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , i Bollen (2012) ofereixen ressenyes sobre l'ús de variables instrumentals en ciències polítiques, economia i sociologia, i Sovey and Green (2011) proporciona una "llista de comprovació del lector" per a avaluar estudis utilitzant variables instrumentals.
Resulta que la loteria del draft de 1970 no era, de fet, degudament aleatoritzada; hi va haver petites desviacions de l'aleatorietat pura (Fienberg 1971) . Berinsky and Chatfield (2015) sostenen que aquesta petita desviació no té importància substantiva i discuteix la importància de l'aleatorització realitzada correctament.
Pel que fa a la concordança, vegeu Stuart (2010) per a una revisió optimista i Sekhon (2009) per a una revisió pessimista. Per obtenir més informació sobre la coincidència com una espècie de poda, vegeu Ho et al. (2007) . Trobar una única combinació perfecta per a cada persona sovint és difícil, i això presenta una sèrie de complexitats. En primer lloc, quan no hi ha coincidències exactes, els investigadors han de decidir com mesurar la distància entre dues unitats i si una distància determinada és prou a prop. Una segona complexitat sorgeix si els investigadors volen utilitzar múltiples coincidències per a cada cas en el grup de tractament, ja que això pot conduir a estimacions més precises. Aquests dos temes, a més d'altres, es detallen detalladament al capítol 18 d' Imbens and Rubin (2015) . Vegeu també la part II de ( ??? ) .
Vegeu Dehejia and Wahba (1999) per obtenir un exemple en què els mètodes coincidents van poder produir estimacions similars a les d'un experiment controlat aleatori. Però, vegeu Arceneaux, Gerber, and Green (2006) i Arceneaux, Gerber, and Green (2010) per exemples en què els mètodes coincidents no van poder reproduir un punt de referència experimental.
Rosenbaum (2015) i Hernán and Robins (2016) ofereixen altres consells per descobrir comparacions útils en grans fonts de dades.