Të dhënat e mëdha krijohen dhe grumbullohen nga kompanitë dhe qeveritë për qëllime të tjera përveç hulumtimeve. Përdorimi i këtyre të dhënave për hulumtim, pra, kërkon riprodhimin.
Mënyra e parë që shumë njerëz hasin kërkime sociale në epokën dixhitale është përmes asaj që quhet shpesh të dhëna të mëdha . Pavarësisht përdorimit të gjerë të këtij termi, nuk ka asnjë konsensus rreth asaj se cilat të dhëna të mëdha janë. Megjithatë, një nga përkufizimet më të zakonshme të të dhënave të mëdha fokusohet në "3 Vs": Volume, Variety, dhe Velocity. Përafërsisht, ka shumë të dhëna, në formate të ndryshme dhe po krijohet vazhdimisht. Disa tifozë të të dhënave të mëdha gjithashtu shtojnë "Vs" të tjerë siç janë Veracity dhe Value, ndërsa disa kritikë shtojnë Vs si Vague dhe Vacuous. Në vend të 3 "Vs" (ose 5 "Vs" ose 7 "Vs"), për qëllime të kërkimit shoqëror, mendoj se një vend më i mirë për të filluar është 5 "Ws": Kush, Çfarë, Ku, Kur , dhe pse. Në fakt, unë mendoj se shumë nga sfidat dhe mundësitë e krijuara nga burimet e mëdha të të dhënave vijnë nga vetëm një "W": Pse.
Në epokën analoge, shumica e të dhënave që u përdorën për hulumtime sociale u krijuan me qëllim të hulumtimit. Në epokën dixhitale, megjithatë, një sasi e madhe e të dhënave po krijohet nga kompanitë dhe qeveritë për qëllime të tjera përveç kërkimit, të tilla si ofrimi i shërbimeve, gjenerimi i fitimit dhe administrimi i ligjeve. Njerëzit krijues, megjithatë, e kanë kuptuar se mund ta ripunosni këtë të dhënë të korporatës dhe qeverisë për kërkime. Duke u kthyer në analogjinë e artit në kapitullin 1, ashtu si Duchamp repurposed një objekt të gjetur për të krijuar art, shkencëtarët tani mund të repurpose të gjetura të dhëna për të krijuar kërkime.
Ndërkohë që ka padyshim mundësi të mëdha për ripërdorimin, përdorimi i të dhënave që nuk janë krijuar për qëllime të hulumtimit gjithashtu paraqet sfida të reja. Krahasoni, për shembull, një shërbim të mediave sociale, të tilla si Twitter, me një anketë tradicionale të opinionit publik, siç është Sondazhi i Përgjithshëm Social. Qëllimet kryesore të Twitter janë të ofrojnë një shërbim për përdoruesit e tij dhe të bëjnë një fitim. Sondazhi i Përgjithshëm Social, nga ana tjetër, është përqendruar në krijimin e të dhënave me qëllim të përgjithshëm për hulumtime sociale, veçanërisht për hulumtimin e opinionit publik. Ky ndryshim në qëllimet do të thotë që të dhënat e krijuara nga Twitter dhe ato të krijuara nga Sondazhi i Përgjithshëm Social kanë prona të ndryshme, edhe pse të dyja mund të përdoren për të studiuar opinionin publik. Twitter vepron në një shkallë dhe shpejtësi që Sondazhi i Përgjithshëm Social nuk mund të përputhet, por, ndryshe nga Sondazhi i Përgjithshëm Social, Twitter nuk i shqyrton me kujdes përdoruesit dhe nuk punon shumë për të mbajtur krahasueshmërinë me kalimin e kohës. Për shkak se këto dy burime të të dhënave janë kaq të ndryshme, nuk ka kuptim të thuhet se Studimi i Përgjithshëm Social është më i mirë se Twitter dhe anasjelltas. Nëse doni masat orë të disponimit global (p.sh., Golder and Macy (2011) ), Twitter është më e mira. Nga ana tjetër, nëse dëshironi të kuptoni ndryshimet afatgjata në polarizimin e qëndrimeve në Shtetet e Bashkuara (p.sh. DiMaggio, Evans, and Bryson (1996) ), atëherë Studimi i Përgjithshëm Social është zgjidhja më e mirë. Në përgjithësi, në vend që të përpiqet të argumentojë se burimet e mëdha të të dhënave janë më të mira ose më të këqija se llojet e tjera të të dhënave, ky kapitull do të përpiqet të sqarojë se për cilat lloje të pyetjeve kërkimore burimet e mëdha të të dhënave kanë vetitë tërheqëse dhe për cilat lloje pyetjesh nuk mund të jenë ideal.
Kur mendojnë për burime të mëdha të të dhënave, shumë studiues përqendrohen menjëherë në të dhënat online të krijuara dhe të mbledhura nga kompani, të tilla si shkrimet e motorëve të kërkimit dhe postimet e mediave sociale. Megjithatë, kjo fokus i ngushtë lë dy burime të tjera të rëndësishme të të dhënave të mëdha. Së pari, burimet gjithnjë e më të mëdha të të dhënave të korporatave vijnë nga pajisjet digjitale në botën fizike. Për shembull, në këtë kapitull, do t'ju tregoj për një studim që riprodhon të dhënat e kontrollit të supermarketeve për të studiuar se si produktiviteti i punëtorit ndikohet nga produktiviteti i kolegëve të saj (Mas and Moretti 2009) . Më pas, në kapitujt e mëvonshëm, do t'ju tregoj për hulumtuesit të cilët kanë përdorur shënimet e thirrjeve nga telefonat mobil (Blumenstock, Cadamuro, and On 2015) dhe të dhënat e faturimit të krijuara nga shërbimet elektrike (Allcott 2015) . Siç ilustrojnë këto shembuj, burimet e mëdha të të dhënave të korporatave janë më shumë sesa thjesht sjellje në internet.
Burimi i dytë i rëndësishëm i të dhënave të mëdha të humbura nga një fokus i ngushtë në sjelljen në internet janë të dhënat e krijuara nga qeveritë. Këto të dhëna të qeverisë, të cilat hulumtuesit i quajnë të dhënat administrative qeveritare , përfshijnë gjëra të tilla si të dhënat e taksave, të dhënat e shkollës dhe të dhënat statistikore vitale (p.sh., regjistrat e lindjeve dhe vdekjeve). Qeveritë kanë krijuar këto të dhëna për, në disa raste, qindra vjet, dhe shkencëtarët socialë i kanë shfrytëzuar ato për pothuajse aq kohë sa ka pasur shkencëtarë të shoqërisë. Ajo që ka ndryshuar, megjithatë, është digjitalizimi, gjë që e ka bërë shumë më të lehtë për qeveritë që të mbledhin, transmetojnë, ruajnë dhe analizojnë të dhënat. Për shembull, në këtë kapitull, do t'ju tregoj për një studim që riprodhon të dhënat nga matësit dixhital të taksisë së qeverisë së New Yorkut për të trajtuar një debat themelor në ekonominë e punës (Farber 2015) . Pastaj, në kapitujt e mëvonshëm, do t'ju tregoj për mënyrën se si janë përdorur të dhënat e votimit të mbledhura nga qeveria në një sondazh (Ansolabehere and Hersh 2012) dhe një eksperiment (Bond et al. 2012) .
Mendoj se ideja e ripërpunimit është thelbësore për të mësuar nga burimet e mëdha të të dhënave dhe kështu, para se të flas më specifikisht për pronat e burimeve të mëdha të të dhënave (seksioni 2.3) dhe se si këto mund të përdoren në hulumtim (seksioni 2.4), do të doja për të ofruar dy këshilla të përgjithshme rreth ripërdorimit. Së pari, mund të jetë joshëse të mendosh për kontrastin që unë kam ngritur si midis të dhënave "të gjetura" dhe të dhënave "të dizajnuara". Kjo është e afërt, por nuk është fare e drejtë. Edhe pse, nga perspektiva e studiuesve, "gjeten" burime të mëdha të të dhënave, ata nuk bien thjesht nga qielli. Në vend të kësaj, burimet e të dhënave që "gjejnë" nga hulumtuesit janë projektuar nga dikush për ndonjë qëllim. Meqenëse të dhënat e gjetura janë projektuar nga dikush, gjithmonë ju rekomandoj që të përpiqeni të kuptoni sa më shumë që është e mundur për njerëzit dhe proceset që krijuan të dhënat tuaja. Së dyti, kur jeni duke ripërpunuar të dhëna, shpesh është jashtëzakonisht e dobishme të imagjinoni datasetin ideal për problemin tuaj dhe pastaj të krahasoni atë dataset ideal me atë që po përdorni. Nëse nuk i keni mbledhur vetë të dhënat tuaja, mund të ketë dallime të rëndësishme midis asaj që dëshironi dhe asaj që keni. Vërejtja e këtyre dallimeve do të ndihmojë në sqarimin e asaj që mund dhe nuk mund të mësoni nga të dhënat që keni, dhe mund të sugjerojë të dhëna të reja që duhet të mbledhni.
Në përvojën time, shkencëtarët socialë dhe shkencëtarët e të dhënave kanë tendencë që t'i afrohen repurposingit shumë ndryshe. Shkencëtarët socialë, të cilët janë mësuar të punojnë me të dhënat e dizajnuara për hulumtime, zakonisht janë të shpejtë për të nxjerrë në pah problemet me të dhënat e repurposed duke injoruar fuqitë e saj. Nga ana tjetër, shkencëtarët e të dhënave zakonisht janë të shpejtë për të nxjerrë në pah përfitimet e të dhënave të repurposed duke injoruar dobësitë e tyre. Natyrisht, qasja më e mirë është një hibrid. Kjo është, studiuesit duhet të kuptojnë karakteristikat e burimeve të mëdha të të dhënave - si të mira dhe të këqija - dhe pastaj të kuptoj se si të mësojnë prej tyre. Dhe, ky është plani për pjesën e mbetur të këtij kapitulli. Në pjesën tjetër, unë do të përshkruaj dhjetë karakteristika të përbashkëta të burimeve të mëdha të të dhënave. Pastaj, në seksionin në vijim, unë do të përshkruaj tre qasje kërkimore që mund të punojnë mirë me të dhëna të tilla.