Grans volums de dades són creats i recopilats pels governs per a fins diferents de la investigació. L'ús d'aquestes dades per a la investigació, per tant, requereix de reutilització.
Una visió idealitzada de la investigació social imagina un científic que té una idea i després la recopilació de dades per a provar aquesta idea. Aquest estil d'investigació condueix a un ajust atapeït entre la pregunta d'investigació i de dades, però és limitada pel fet que un investigador individual sovint no tenen els recursos necessaris per recopilar les dades que necessiten, com les dades grans, rics i representatius a nivell nacional. enquestes socials a gran escala, per tant, una gran quantitat d'investigació social en el passat s'ha utilitzat, com l'Enquesta Social General (GSS), l'Estudi Nacional d'Eleccions Americana (ANES), i l'Estudi sobre l'ISR (PSID). Aquests enquesta a gran escala són generalment dirigit per un equip d'investigadors i que estan dissenyats per crear dades que poden ser utilitzats per molts investigadors. A causa dels objectius d'aquests estudis a gran escala, el gran cura es posa en el disseny de la col·lecció de dades i la preparació de les dades resultants per al seu ús pels investigadors. Aquestes dades són pels investigadors i per als investigadors.
La major part de la investigació social utilitzant fonts digitals d'edat, però, és fonamentalment diferent. En lloc d'utilitzar les dades recollides pels investigadors i per als investigadors, que utilitza fonts de dades que es van crear i recaptats per les empreses i els governs per als seus propis fins, com obtenir un guany, proporcionant un servei, o l'administració d'una llei. Aquestes fonts de dades empresarials i governamentals han anomenat de dades grans. Fer recerca amb grans volums de dades és diferent que fa la investigació amb les dades que es va crear originalment per a la investigació. Compari, per exemple, un lloc web de xarxes socials, com Twitter, amb una enquesta tradicional de l'opinió pública com l'Enquesta Social General (GSS). Els principals objectius de Twitter són per proporcionar un servei als seus usuaris i per obtenir un benefici. En el procés d'assolir aquests objectius, Twitter crea dades que podrien ser útils per a l'estudi de certs aspectes de l'opinió pública. Però, a diferència de l'Enquesta Social General (GSS), Twitter no se centra principalment en la investigació social.
El terme dades gran és frustrant vaga, i que agrupa moltes coses diferents. A l'efecte de la investigació social, crec que és útil distingir entre dos tipus de fonts de dades grans :. Registres administratius del govern i els registres administratius de negoci registres administratius del govern són les dades que són creats pels governs com a part de les seves activitats de rutina. Aquest tipus de registres han estat utilitzats pels investigadors en el passat, com ara els demògrafs estudien naixement, registres -però matrimoni i de defunció governs estan recol·lectant i l'alliberament dels registres detallats en formes cada vegada més analitzables. Per exemple, el govern de la ciutat de Nova York instal·lat mesuradors digitals dins de cada taxi a la ciutat. Aquests mesuradors registren tota mena de dades sobre cada trajecte en taxi inclòs el conductor, l'hora d'inici i la ubicació, el temps de parada i la ubicació, i la tarifa. En un estudi que l'hi diré més endavant en aquest capítol, Henry Farber (2015) reutilitzar aquestes dades per fer front a un debat fonamental en l'economia del treball sobre la relació entre els salaris per hora i el nombre d'hores treballades.
El segon tipus principal de grans volums de dades per a la investigació social és registres administratius de negoci. Aquestes són les dades que visita creu i es recull com a part de les seves activitats de rutina. Aquests registres administratius de negocis sovint es diuen empremtes digitals, i inclouen coses com registres de consultes del motor de cerca, missatges de xarxes socials, i cridar els registres dels telèfons mòbils. Fonamentalment, aquests registres administratius de negocis no són només sobre la conducta en línia. Per exemple, les botigues que utilitzen escàners de sortida són la creació de mesures en temps real de la productivitat del treballador. En un estudi que et diré més endavant en aquest capítol, Alexandre Mas i Enrico Moretti (2009) reutilitzar aquest supermercat de dades de sortida per estudiar com la productivitat dels treballadors es veu afectat per la productivitat dels seus companys.
Com aquests dos exemples il·lustren, la idea de la reutilització és fonamental per a l'aprenentatge a partir de dades grans. En la meva experiència, els científics socials i científics de dades s'aproximen a aquesta reutilització de manera molt diferent. Els científics socials, que estan acostumats a treballar amb dades destinades a la investigació, són ràpids a assenyalar els problemes amb les dades reutilitzats sense tenir en compte els seus punts forts. D'altra banda, els científics de dades són ràpids a assenyalar els beneficis de les dades reutilitzats sense tenir en compte les seves debilitats. Naturalment, la millor opció seria un híbrid. És a dir, els investigadors necessiten entendre les característiques d'aquestes noves fonts de dades, tant bones com dolentes, i després trobar la manera d'aprendre d'ells. I, aquest és el pla per a la resta d'aquest capítol. A continuació, descriuré deu característiques comunes de les dades administratives empresarials i governamentals. Després d'això, descriuré 3 enfocaments de recerca que poden ser utilitzats amb aquestes dades, els enfocaments que estan ben adaptats a les característiques d'aquestes dades.