Es creen i recullen grans dades per part d'empreses i governs amb finalitats diferents de la recerca. L'ús d'aquestes dades per a la investigació, per tant, requereix repurposing.
La primera manera que moltes persones es troben amb la recerca social en l'era digital és a través del que sovint es coneix com a grans dades . Malgrat l'ús generalitzat d'aquest terme, no hi ha consens sobre quines dades tan importants són fins i tot. Tanmateix, una de les definicions més comunes de grans dades se centra en "3 Vs": volum, varietat i velocitat. Aproximadament, hi ha moltes dades, en diversos formats, i es crea constantment. Alguns fanàtics de grans dades també afegeixen altres "Vs" com ara Veracity i Value, mentre que alguns crítics afegeixen Vs com Vague i Vacuous. Més que els 3 "Vs" (o els 5 "Vs" o els 7 "V"), a efectes de la investigació social, crec que un lloc millor per començar és el 5 "W": Qui, què, on, quan , i per què. De fet, crec que molts dels reptes i oportunitats creats per grans fonts de dades provenen d'una sola "W": Per què?
En l'edat analògica, la major part de les dades que es van utilitzar per a la investigació social es van crear amb la finalitat de fer recerca. Tanmateix, en l'era digital, les empreses i els governs creen una gran quantitat de dades amb finalitats diferents de la recerca, com ara proporcionar serveis, generar beneficis i administrar lleis. Les persones creatives, tanmateix, s'han adonat que podeu reutilitzar aquestes dades corporatives i governamentals per a la recerca. Pensant en l'analogia de l'art del capítol 1, tal com Duchamp va reprendre un objecte trobat per crear art, els científics ara poden reutilitzar les dades trobades per crear una recerca.
Si bé hi ha, sens dubte, enormes oportunitats de reprogramació, l'ús de dades que no es van crear a l'efecte de la recerca també presenta nous reptes. Compareu, per exemple, un servei de mitjans socials, com Twitter, amb una enquesta d'opinió pública tradicional, com ara l'Enquesta social general. Els principals objectius de Twitter són proporcionar un servei als seus usuaris i obtenir beneficis. L'Enquesta social general, d'altra banda, es centra en la creació de dades de propòsit general per a la investigació social, especialment per a la investigació d'opinió pública. Aquesta diferència en els objectius significa que les dades creades per Twitter i les creades per l'Enquesta social general tenen propietats diferents, tot i que ambdues es poden utilitzar per estudiar l'opinió pública. Twitter opera a una escala i velocitat que l'Enquesta social general no pot igualar, però, a diferència de l'Enquesta social general, Twitter no mostra acuradament els usuaris i no treballa dur per mantenir la comparabilitat amb el temps. Atès que aquestes dues fonts de dades són tan diferents, no té sentit dir que l'Enquesta social general és millor que Twitter o viceversa. Si voleu mesures horàries d'ànim global (per exemple, Golder and Macy (2011) ), Twitter és el millor. D'altra banda, si voleu comprendre canvis a llarg termini en la polarització d'actituds als Estats Units (per exemple, DiMaggio, Evans, and Bryson (1996) ), l'Enquesta social general és la millor opció. Més generalment, en comptes d'intentar argumentar que les grans fonts de dades són millors o pitjors que altres tipus de dades, aquest capítol intentarà aclarir quins tipus de qüestions de recerca tenen grans fonts de dades amb propietats atractives i per a quines tipus de preguntes no poden ser ideal.
Quan es pensen en fonts de dades grans, molts investigadors se centren immediatament en les dades en línia creades i recollides per empreses, com ara registres de motors de cerca i publicacions de xarxes socials. Tanmateix, aquest estret enfocament deixa fora dues altres fonts importants de grans dades. En primer lloc, cada vegada més grans fonts de dades empresarials provenen dels dispositius digitals del món físic. Per exemple, en aquest capítol, us explicaré sobre un estudi que repurpose les dades de sortida del supermercat per estudiar com la productivitat dels treballadors es veu afectada per la productivitat dels seus companys (Mas and Moretti 2009) . A continuació, en capítols posteriors, us explicaré sobre investigadors que van utilitzar registres de trucades de telèfons mòbils (Blumenstock, Cadamuro, and On 2015) i dades de facturació creades per empreses elèctriques (Allcott 2015) . Tal com mostren aquests exemples, les grans fonts de dades corporatives són més que només un comportament en línia.
La segona font important de grans dades perdudes per un estret enfocament en el comportament en línia són dades creades pels governs. Aquestes dades governamentals, que els investigadors anomenen registres administratius del govern , inclouen coses com ara registres d'impostos, registres escolars i registres d'estadístiques vitals (per exemple, registres de naixements i morts). Els governs han creat aquest tipus de dades, en alguns casos, centenars d'anys, i els científics socials els exploten gairebé sempre que hi hagi hagut científics socials. Tanmateix, el que ha canviat és la digitalització, la qual cosa ha fet que sigui més fàcil que els governs recopilin, transmetin, emmagatzemin i analitzin les dades. Per exemple, en aquest capítol, us explicaré sobre un estudi que repurpió les dades dels taxis digitals del govern de la ciutat de Nova York per abordar un debat fonamental en l'economia del treball (Farber 2015) . A continuació, en capítols posteriors, us explicaré com es van utilitzar els registres de vots recollits pel govern en una enquesta (Ansolabehere and Hersh 2012) i un experiment (Bond et al. 2012) .
Crec que la idea de repurposició és fonamental per aprendre de grans fonts de dades i, per tant, abans de parlar més específicament sobre les propietats de grans fonts de dades (secció 2.3) i com aquestes es poden utilitzar en la recerca (secció 2.4), m'agradaria oferir dos consells generals sobre repurposing. En primer lloc, pot ser temptador pensar en el contrast que he configurat com entre dades "trobades" i dades "dissenyades". Està a punt, però no està bé. Tot i que, des de la perspectiva dels investigadors, es troben "grans fonts de dades", no només cauen del cel. En lloc d'això, les fonts de dades "investigadors" "trobades" estan dissenyades per algú amb algun propòsit. Com que les dades "trobades" són dissenyades per algú, sempre recomano que intenteu entendre el màxim possible sobre les persones i els processos que han creat les vostres dades. En segon lloc, quan s'està repurposant les dades, sovint és molt útil imaginar el conjunt de dades ideal per al vostre problema i, a continuació, comparar aquest conjunt de dades ideal amb el que esteu utilitzant. Si no vau recollir les vostres dades, és probable que hi hagi diferències importants entre el que voleu i el que teniu. Notar aquestes diferències ajudarà a aclarir el que pot i no pot aprendre de les dades que té, i podria suggerir noves dades que hauria de recollir.
En la meva experiència, els científics socials i els científics de dades tendeixen a enfrontar-se a repurposar de manera molt diferent. Els científics socials, que estan acostumats a treballar amb dades dissenyades per a la recerca, solen assenyalar els problemes amb les dades repurposades, tot ignorant els seus punts forts. D'altra banda, els científics de les dades normalment són ràpids per assenyalar els beneficis de les dades repurposades, tot ignorant les seves debilitats. Naturalment, el millor enfocament és un híbrid. És a dir, els investigadors han d'entendre les característiques de les grans fonts de dades, tant bones com dolentes, i després esbrinar com aprendre d'elles. I, aquest és el pla de la resta d'aquest capítol. A la secció següent, vaig a descriure deu característiques comunes de grans fonts de dades. A continuació, a la secció següent, descriuré tres enfocaments de recerca que poden funcionar bé amb aquestes dades.