Big datuak enpresek eta gobernuek sortu eta biltzen dituzte ikerketa baino beste helburu batzuetarako. Ikerketaren datuak erabiltzea, beraz, birplanteatzea eskatzen du.
Lehenengo eta behin, jende askok gizarte-ikerketa topatzen du adin digitalean, datu handiak deritzonaren bidez. Epe horren erabilera hedatua izan arren, ez dago datu handiei buruzko adostasunik. Hala ere, datu handien definizio arruntenetariko bat "3 Vs" zentratzen da: Bolumena, Variety eta Velocity. Gutxi gorabehera, datu asko dago formatu desberdinetan, eta etengabe sortzen ari da. Datu handien zale batzuek beste "Vs" ere gehitzen zaizkie, hala nola, Veracity eta Value, eta kritikari batzuek, aldiz, Vague eta Vacuous bezalakoak gehitzen dituzte. Baizik eta 3 "Vs" (edo 5 "Vs" edo 7 "Vs"), ikerketa sozialerako helburuetarako, hasteko leku hobea dela uste dut 5 "Ws" da: Who, What, Where, When , eta Zergatik. Izan ere, informazio iturri handiek sortutako erronkak eta aukerak askok uste dut "W" bat besterik ez dela: Zergatik.
Adin analogikoan, ikerketa sozialerako erabiltzen ziren datu gehienak ikerketak egiteko helburuarekin sortu ziren. Datu digitaletan, ordea, enpresa eta gobernuek datu ugari sortzen ari dira ikerketarako, hala nola, zerbitzuak eskaintzea, irabaziak sortzea eta legeak kudeatzea. Creative pertsonak, ordea, konturatu dira repurpose dezakezu honen datuak korporatibo eta gobernu ikerketa da. Artearen analogian kapituluaren 1. kapituluan pentsatzen dugunean, Duchamp-ek artea sortzeko objektu aurkitu bat birpentsatu zuen bezala, zientzialariek ikerketak egiteko datuak aurkitu ditzakete.
Errepikapenerako aukerak handiak dira, zalantzarik gabe, ikerketaren helburuetarako sortu ez diren datuak ere erronka berriak aurkezten ditu. Konparatu, adibidez, gizarte-komunikabideen zerbitzua, Twitter adibidez, iritzi publiko tradizionalaren inkesta batekin, esate baterako Gizarte Inkesta orokorra. Twitteren helburu nagusiak erabiltzaileei zerbitzu bat eskaintzea eta irabaziak lortzea da. Gizarte Inkesta orokorra, bestalde, ikerketa sozialerako datu orokorrak sortzeko, bereziki iritzi publikoko ikerketarako bideratuta dago. Helburu desberdinetakoak esan nahi du Twitterk sortutako datuak eta Gizarte Inkestaren arabera sortutakoak propietate ezberdinak izatea, nahiz eta biek iritzi publikoa ikertzeko erabil daitezkeen. Twitter-ek Gizarte Inkesta orokorra ez datorren eskala eta abiadurarekin funtzionatzen du, baina, Gizarte Inkestaren arabera ez bezala, Twitterek erabiltzaileak arreta handiz lagatzen ditu eta ez du gogor lan egiten denboran zehar konparagarritasuna mantentzeko. Bi datu-iturri horiek hain ezberdinak direlako, ez da zentzurik Gizarte Inkesta orokorra Twitter baino hobea dela edo alderantziz. Umorea globaleko orduko neurriak (adibidez, Golder and Macy (2011) ) nahi baduzu, Twitter onena da. Bestalde, Estatu Batuetako jarreren polarizazioa epe luzerako aldaketak ulertu nahi badituzu (adibidez, DiMaggio, Evans, and Bryson (1996) ), Gizarte Inkesta orokorra aukerarik onena da. Oro har, datuen iturri handiak beste datu mota batzuk baino hobeak edo okerrak direla argudiatzen saiatzea baino ez da, kapitulu honek argitu egingo du ikerketa-motak datu-iturri handiek propietate erakargarriak dituztela eta zer galdera mota ez izan litekeen argitzeko. ideal.
Datu-iturri handiei buruz pentsatzen ari direnean, ikertzaile askok enpresek sortutako eta biltzen dituzten datuetan oinarritzen dira berehala, hala nola bilaketa-motorreko erregistroak eta gizarte-mezu elektronikoak. Hala ere, fokatze estuak beste datu garrantzitsuen iturri garrantzitsuak uzten ditu. Lehenik eta behin, gero eta datu korporazio handieneko iturriak mundu fisikoan gailu digitaletatik datoz. Esate baterako, kapitulu honetan, aztertuko dut supermerkatu bidezko check-out datuen berrikuspena, langileek produktibitatea nola eragiten duten ikertzeko, haien kideen produktibitateak (Mas and Moretti 2009) . Ondoren, ondorengo kapituluetan, telefono mugikorretarako deiak erregistratzen dituzten ikertzaileei (Blumenstock, Cadamuro, and On 2015) eta fakturazio-datuak erabiliko dituzte (Allcott 2015) . Adibide horiek ilustratzen diren moduan, datu korporatiboen datu iturriak lineako portaera baino gehiago dira.
Bigarren datu garrantzitsuen iturri garrantzitsua linean oinarritutako jokabideek galdu dutena da gobernuek sortutako datuak. Gobernuko datu horiek, ikerlariek administrazio erregistroak deitzen dituztenak, zerga erregistroak, eskola erregistroak eta estatistiken erregistroak (adibidez, jaiotza eta heriotzen erregistroak) bezalakoak dira. Gobernuek ehunka urte daramatzate datu mota hauetan, eta gizarte zientzialariek ustiatzen dituzte zientzialari izan diren bitartean. Aldaketak, hala ere, digitalizazioa da, eta gobernuek errazago biltzeko, transmititzeko, biltegiratzeko eta aztertzeko datuak errazten ditu. Adibidez, kapitulu honetan, New Yorkeko gobernuko taxi digitalei buruzko datu erreformatuei buruzko azterketa bat egingo dut, lan-ekonomian funtsezko eztabaida bat aurre egiteko (Farber 2015) . Ondoren, ondorengo kapituluetan, esango dizut nola gobernuak bildutako boto erregistroak inkesta batean erabili ziren (Ansolabehere and Hersh 2012) eta esperimentu bat (Bond et al. 2012) .
Errepikapenaren ideia funtsezkoa da datu-iturri handietatik ikasteko funtsezkoa dela, eta, beraz, datu-iturri handien propietateei buruz (2. atala) eta ikerketaren erabilerari buruz (2.4 atala) buruz gehiago hitz egin nahi dut. Nahiago nuke birbanaketari buruzko bi aholku orokor eskaintzeko. Lehenik eta behin, "aurkitutako" eta "diseinatutako" datuen artean konfiguratu dudan kontrastea pentsa daiteke. Hurbil dago, baina ez da nahiko. Nahiz eta, ikertzaileen ikuspuntutik, datu-iturri handiak aurkitzen dira, ez dute zerutik erortzen. Horren ordez, ikertzaileek "aurkitu" diren datu-iturburuak norbaitek helburu horretarako diseinatzen dituzte. "Aurkitu" datuak norbaitek diseinatuta daudenez, beti gomendatzen dut zure datuak sortzearen inguruko jendea eta prozesuak ahalik eta gehien ulertzen saiatzea. Bigarrenik, datuak birpopulatzen ari zarenean, oso lagungarria da zure arazoetako datu idealak imajinatzea eta datu hori hornitzea erabiltzen ari zarenarekin alderatzea. Zure datuak bereganatu ez bazenitu, agian nahi duzuna eta zer duzunaren arteko desberdintasun garrantzitsuak egon litezke. Ezberdintasunak nabaritu egingo dituzun datuak argitu eta ezin dituzun datuak argitzen lagunduko du eta biltzea behar duzun datu berriak iradoki ahal ditzake.
Nire esperientzian, zientzialariek eta datu zientzialariek oso modu ezberdinean erreproduzitzen joaten ohi dira. Ikerlarientzat diseinaturiko datuak lantzeko ohituta dauden zientzialari sozialak normalean azkarrago nabarmentzen diren datuak nabarmentzen dira, berriz, bere indarguneak alde batera utziz. Bestalde, datuen zientziek normalean azkar jasaten dituzte datuak birformulatuaren onurak, ahultasunak alde batera utzita. Jakina, hoberena hibridoa da. Hau da, ikertzaileek datu-iturri handien ezaugarriak ulertu behar dituzte, bai onak eta bai txarrak, eta, gero, nola ikasten dute. Eta hori da kapitulu honen gainerako plana. Hurrengo atalean, datu-iturri handien hamar ezaugarri komunak deskribatuko ditut. Ondoren, hurrengo atalean, datu horiek ondo dabiltzan hiru ikerketa-ikuspegi deskribatuko ditut.