més comentaris

Aquesta secció està dissenyada per a ser utilitzada com una referència, en lloc de ser llegit com un relat.

  • Introducció (Secció 2.1)

Un tipus d'observar que no s'inclou en aquest capítol és l'etnografia. Per a més informació sobre l'etnografia en els espais digitals veure Boellstorff et al. (2012) , i per a més informació sobre l'etnografia en espais físics i digitals mixtes veure Lane (2016) .

  • Grans volums de dades (Secció 2.2)

Quan està redissenyant les dades, hi ha dos trucs mentals que poden ajudar a entendre els possibles problemes que poden sorgir. En primer lloc, es pot tractar d'imaginar el conjunt de dades ideal per al seu problema i el que per comparar el conjunt de dades que utilitzeu. ¿En què s'assemblen i en què es diferencien? Si no recull les seves dades vostè mateix, és probable que sigui la diferència entre el que vol i el que té. No obstant això, vostè ha de decidir si aquestes diferències són menors o majors.

En segon lloc, cal recordar que algú crea i recull les seves dades per alguna raó. Vostè ha de tractar d'entendre el seu raonament. Aquest tipus d'enginyeria inversa pot ajudar a identificar els possibles problemes i biaixos en les dades reutilitzats.

No hi ha una definició única de consens "grans dades", però moltes definicions semblen centrar-se en el 3 Vs: (per exemple, el volum, varietat i velocitat Japec et al. (2015) ). En lloc de centrar-se en les característiques de les dades, la meva definició se centra més en per què es van crear les dades.

El meu inclusió de les dades administratives del govern dins de la categoria de grans volums de dades és una mica inusual. Els usuaris que han fet d'aquest cas, inclouen Legewie (2015) , Connelly et al. (2016) , i Einav and Levin (2014) . Per a més informació sobre el valor de les dades administratives del govern per a la investigació, consulteu Card et al. (2010) , Taskforce (2012) , i Grusky, Smeeding, and Snipp (2015) .

Per a una vista de la investigació administrativa des de l'interior del sistema d'estadística del govern, en particular l'oficina de cens d'Estats Units, vegeu Jarmin and O'Hara (2016) . Per a un tractament longitud llibre de la investigació en els registres administratius d'Estadística de Suècia, vegeu Wallgren and Wallgren (2007) .

En el capítol I en comparació breument una enquesta tradicional, com l'Enquesta Social General (GSS) a una font de dades de les xarxes socials com Twitter. Per a una comparació exhaustiva i acurada entre les enquestes tradicionals i les dades de les xarxes socials, veure Schober et al. (2016) .

  • Les característiques comunes de grans volums de dades (Secció 2.3)

Aquestes 10 característiques de les dades grans s'han descrit en una varietat de maneres diferents per una varietat de diferents autors. L'escriptura que va influir en la meva manera de pensar sobre aquests temes inclouen: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , i Goldstone and Lupyan (2016) .

Al llarg d'aquest capítol, he fet servir les empremtes digitals termini, que crec que és relativament neutral. Un altre terme popular per a les empremtes digitals és empremtes digitals (Golder and Macy 2014) , però com Hal Abelson, Ken Ledeen, i Harry Lewis (2008) assenyalen, un terme més apropiat és, probablement, les empremtes digitals. En crear empremtes, que són conscients del que està succeint i les seves empremtes en general no poden ser rastrejats a vostè personalment. El mateix no és cert per les seves empremtes digitals. De fet, vostè està deixant empremtes tot el temps en el qual vostè ha molt poc coneixement. I, malgrat aquestes traces no tenen el seu nom en ells, que sovint poden estar lligats de nou a vostè. En altres paraules, són més com les empremtes dactilars: invisible i identificació personal.

gran

Per a més informació sobre per què les grans conjunts de dades, fan que les proves estadístiques problemàtica, vegeu Lin, Lucas, and Shmueli (2013) i McFarland and McFarland (2015) . Aquests problemes han de portar els investigadors a centrar-se en la importància pràctica en lloc de significació estadística.

Sempre encés

En considerar sempre en les dades, és important considerar si vostè està comparant les mateixes persones fent el temps o si vostè està comparant el canvi d'algun grup de persones; vegeu, per exemple, Diaz et al. (2016) .

No reactiu

Un llibre clàssic sobre les mesures no reactius és Webb et al. (1966) . Els exemples en el llibre abans de la data de l'era digital, però encara són aclaridors. Per veure exemples de persones que canvien el seu comportament a causa de la presència de vigilància massiva, veure Penney (2016) i Brayne (2014) .

incomplet

Per a més informació sobre vinculació de registres, consulteu Dunn (1946) i Fellegi and Sunter (1969) (històric) i Larsen and Winkler (2014) (moderna). Acostat similars també s'han desenvolupat a la informàtica sota els noms com ara la deduplicació de dades, la identificació exemple, la coincidència de nom, detecció de duplicats, i la detecció de duplicats registre (Elmagarmid, Ipeirotis, and Verykios 2007) . També hi ha privacitat preservar enfocaments per registrar la vinculació que no requereixen la transmissió d'informació d'identificació personal (Schnell 2013) . Facebook també ha desenvolupat una manera de fer a vincular els seus registres al comportament dels votants; això es va fer per avaluar un experiment que us explicaré en el capítol 4 (Bond et al. 2012; Jones et al. 2013) .

Per a més informació sobre la validesa de constructe, veure Shadish, Cook, and Campbell (2001) , Capítol 3.

inaccessible

Per a més informació sobre el desastre de registre de recerca d'AOL, consulteu Ohm (2010) . Ofereixo consells sobre l'associació amb empreses i governs en el capítol 4 quan descric experiments. Diversos autors han expressat la seva preocupació sobre la investigació que es basa en les dades inaccessibles, consulteu Huberman (2012) i boyd and Crawford (2012) .

Una bona manera perquè els investigadors universitaris per adquirir accés a les dades és treballar en una empresa com a passant o investigador visitant. A més de permetre l'accés a les dades, aquest procés també ajudarà als investigadors a aprendre més sobre com es creen les dades, la qual cosa és important per a l'anàlisi.

no representativa

Representativitat no és un problema important per als investigadors i els governs que desitgin fer declaracions sobre tota una població. Això és menys de preocupació per a les empreses que se centren típicament en els seus usuaris. Per a més informació sobre com Estadístiques Països Baixos considera la qüestió de la no representativitat de grans volums de dades empresarials, vegi Buelens et al. (2014) .

En el capítol 3, descriuré el mostreig i l'estimació amb molt més detall. Fins i tot si les dades no són representatius, sota certes condicions, poden ser ponderats per produir bones estimacions.

A la deriva

la deriva del sistema és molt difícil de veure des de l'exterior. No obstant això, el projecte MovieLens de conversió (veure Capítol 4) s'ha executat durant més de 15 anys per un grup de recerca acadèmica. Per tant, s'han documentat i informació sobre la forma en què el sistema ha evolucionat amb el temps i com compartir aquesta anàlisi podria tenir un impacte (Harper and Konstan 2015) .

Un nombre d'estudiosos s'han centrat en la deriva a Twitter: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .

algorítmicamente confós

Vaig escoltar per primera vegada el terme "algorítmicamente confós" utilitzat per Jon Kleinberg en una xerrada. La idea principal darrere de la performativitat és que algunes teories de les ciències socials són "motors no càmeres" (Mackenzie 2008) . És a dir, que en realitat donen forma al món en lloc de capturar-lo.

brut

Agències governamentals d'estadística criden la neteja de dades, edició de dades estadístiques. De Waal, Puts, and Daas (2014) descriuen tècniques d'edició de dades estadístiques desenvolupats per les dades de l'enquesta i examinar el grau en què són aplicables a fonts de dades grans, i Puts, Daas, and Waal (2015) presenta algunes de les mateixes idees per a un públic més general.

Per a alguns exemples d'estudis es van centrar en el correu brossa en Twitter, Clark et al. (2016) i Chu et al. (2012) . Finalment, Subrahmanian et al. (2016) descriu els resultats de la DARPA Challenge Twitter Bot.

Sensible

Ohm (2015) revisa la recerca anterior sobre la idea de la informació sensible i ofereix una prova de múltiples factors. Els quatre factors que proposa són: la probabilitat de dany; probabilitat de dany; presència d'una relació confidencial; i si el risc reflectir les preocupacions majoritàries.

  • Comptant coses (Secció 2.4.1)

Estudi dels taxis a Nova York de Farber es va basar en un estudi anterior de Camerer et al. (1997) que utilitza tres diferents mostres de conveniència de les formes de viatge paper fulls de paper utilitzades pels conductors per registrar el temps d'inici de viatge, hora de finalització, i menjars. Aquest estudi anterior va trobar que els conductors semblaven ser perceptors de destinació: treballaven menys en els dies en que els seus salaris eren més alts.

Kossinets and Watts (2009) es va centrar en els orígens de homophily a les xarxes socials. Veure Wimmer and Lewis (2010) per a un enfocament diferent per al mateix problema que utilitza dades de Facebook.

En treballs posteriors, el rei i els seus col·legues han explorat encara més la censura en línia a la Xina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Per a un enfocament relacionat amb el mesurament de la censura en línia a la Xina, vegeu Bamman, O'Connor, and Smith (2012) . Per a més informació sobre els mètodes estadístics com la utilitzada en King, Pan, and Roberts (2013) per estimar el sentiment dels 11 milions de missatges, veure Hopkins and King (2010) . Per a més informació sobre l'aprenentatge supervisat, vegeu James et al. (2013) (menys tècnica) i Hastie, Tibshirani, and Friedman (2009) (més tècnic).

  • Predicció (Secció 2.4.2)

La previsió és d'una gran part de la ciència de dades industrials (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipus de predicció que es fa comunament pels investigadors socials són la previsió demogràfica, per exemple Raftery et al. (2012) .

Google Flu Trends no va ser el primer projecte per utilitzar les dades de recerca de predicció immediata prevalença de la influença. De fet, els investigadors als Estats Units (Polgreen et al. 2008; Ginsberg et al. 2009) i Suècia (Hulth, Rydevik, and Linde 2009) han trobat que certs termes de cerca (per exemple, "grip") van predir nacional de vigilància de la salut pública les dades abans del seu llançament. Posteriorment molts, molts altres projectes han tractat d'utilitzar les dades de seguiment digitals per a la detecció de vigilància de la malaltia, veure Althouse et al. (2015) per a una revisió.

A més d'utilitzar les dades de seguiment digitals per predir els resultats de salut, també s'ha produït una enorme quantitat de treball a partir de dades de Twitter per predir els resultats de les eleccions; per a una revisió veure Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (cap. 7), i Huberty (2015) .

Utilitzant les dades de cerca per predir la prevalença de la grip i l'ús de dades de Twitter per predir les eleccions són dos exemples de l'ús d'algun tipus de rastre digital per predir algun tipus d'esdeveniment al món. Hi ha un gran nombre d'estudis que tenen aquesta estructura general. Taula 2.5 inclou alguns altres exemples.

Taula 2.5: Llista parcial dels estudis utilitzen alguna empremta digital per a predir un esdeveniment.
rastre digital resultat citació
refilo els ingressos de taquilla de les pel·lícules als EUA Asur and Huberman (2010)
els registres de cerca Les vendes de pel·lícules, música, llibres i videojocs als EUA Goel et al. (2010)
refilo Mitjana Industrial Dow Jones (mercat de valors dels Estats Units) Bollen, Mao, and Zeng (2011)
  • Experiments que s'aproxima (Secció 2.4.3)

La revista PS Ciències Polítiques tenia un simposi sobre grans volums de dades, la inferència causal, i la teoria formal, i Clark and Golder (2015) resumeix cada contribució. Els revista Proceedings de l'Acadèmia Nacional de Ciències dels Estats Units d'Amèrica tenien un simposi sobre la inferència causal i grans volums de dades, i Shiffrin (2016) resumeix cada contribució.

En termes d'experiments naturals, Dunning (2012) ofereix un excel·lent tractament longitud llibre. Per a més informació sobre l'ús de la loteria del draft Vietnam com un experiment natural, veure Berinsky and Chatfield (2015) . Per als enfocaments d'aprenentatge automàtic que intenten descobrir automàticament els experiments naturals dins de les fonts de dades grans, veure Jensen et al. (2008) i Sharma, Hofman, and Watts (2015) .

En termes de joc, per a una revisió optimista, vegeu Stuart (2010) , i per a una revisió veure pessimista Sekhon (2009) . Per a més informació sobre a joc com una mena de poda, vegeu Ho et al. (2007) . Per als llibres que proporcionen excel·lents tractaments de joc, vegeu Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , i Imbens and Rubin (2015) .