Të dhënat e mëdha janë krijuar dhe mbledhur nga qeveritë për qëllime të ndryshme kërkimore. Duke përdorur këto të dhëna për kërkime, prandaj, kërkon repurposing.
Një pamje idealizuar e hulumtimeve sociale imagjinon një shkencëtar që ka një ide dhe më pas mbledhjen e të dhënave për të testuar këtë ide. Ky stil i hulumtimit të çon në një përshtatje të ngushtë në mes të pyetjes kërkimore dhe të dhënave, por kjo është e kufizuar për shkak se një studiues individual shpesh nuk kanë burimet e nevojshme për të mbledhur të dhënat që ata kanë nevojë, të tilla si të dhëna të mëdha, të pasura, dhe kombëtar-përfaqësuese. Për këtë arsye, një shumë e hulumtimit sociale në të kaluarën ka përdorur sondazhet mëdha sociale, të tilla si Anketës së Përgjithshme Sociale (GSS), Studimi amerikan Kombëtar të Zgjedhjeve (Anes), dhe Studimin Paneli i Dynamics ardhura (PSID). Këto sondazh në shkallë të gjerë janë drejtuar zakonisht nga një ekip i studiuesve dhe ata janë të dizajnuara për të krijuar të dhëna të cilat mund të përdoren nga shumë studiues. Për shkak të qëllimeve të këtyre sondazheve në shkallë të gjerë, kujdes i madh është vënë në dizajnimin mbledhjen e të dhënave dhe përgatitjen e të dhënave që rezultojnë për përdorim nga hulumtuesit. Këto të dhëna janë nga hulumtuesit dhe studiuesit.
Hulumtimi më social duke përdorur burime të moshës dixhitale, megjithatë, është krejtësisht e ndryshme. Në vend të përdorimit të të dhënave të mbledhura nga studiuesit dhe hulumtuesit, ai përdor burimet e të dhënave që janë krijuar dhe mbledhur nga bizneset dhe qeveritë për qëllimet e tyre të tilla si duke bërë një fitim, duke siguruar një shërbim, ose administrimin e një ligji. Këto të biznesit dhe të qeverisë burimet e të dhënave kanë ardhur për të quajtur të dhëna të mëdha. Bërë hulumtime me të dhënat e madhe është e ndryshme se sa duke bërë hulumtime me të dhënat që ishte krijuar fillimisht për kërkime. Krahaso, për shembull, një faqe interneti social media, të tilla si Twitter, me një sondazh të opinionit publik tradicionale të tilla si Sondazhit Social Përgjithshme (GSS). Qëllimet kryesore të Twitter janë për të siguruar një shërbim për përdoruesit e tij dhe për të bërë një fitim. Në procesin e arritjes së këtyre qëllimeve, Twitter krijon të dhënat që mund të jetë e dobishme për të studiuar aspekte të caktuara të opinionit publik. Por, ndryshe nga Anketa Sociale Përgjithshme (GSS), Twitter nuk është kryesisht e përqendruar në hulumtimet sociale.
Të dhënat e madhe Termi është frustratingly paqartë, dhe ajo grupet së bashku shumë gjëra të ndryshme. Për qëllimet e hulumtimeve sociale, unë mendoj se është e dobishme të bëhet dallimi në mes të dy llojeve të burimeve të mëdha të të dhënave:. Të dhënat administrative qeveritare dhe të dhënat administrative të biznesit dhënat administrative qeveritare të dhëna që janë krijuar nga qeveritë, si pjesë e aktiviteteve të tyre rutinë. Këto lloje të të dhënave janë përdorur nga studiues në të kaluarën, si për shembull demografët studiojnë lindjes, të dhënat e-por martesës dhe vdekjes qeveritë gjithnjë e mbledhur dhe liruar të dhëna të detajuara në forma analyzable. Për shembull, qeveria e New York City instaluar metra dixhitale brenda e çdo taksi në qytet. Këto metra regjistrojnë të gjitha llojet e të dhënave në lidhje me çdo udhëtim taksie, duke përfshirë shoferin, kohën e fillimit dhe vendin, kohën dhe vendin ndaluar, dhe fare. Në një studim që unë do të them më vonë në këtë kapitull, Henry Farber (2015) repurposed këto të dhëna për të trajtuar një debat themelor në ekonominë e punës në lidhje me marrëdhëniet në mes të pagave për orë dhe numrin e orëve të punës.
Lloji i dytë kryesor i të dhënave të mëdha për kërkime sociale është të dhënat administrative të biznesit. Këto janë të dhënat që biznesi të krijojë dhe të mbledhë, si pjesë e aktiviteteve të tyre rutinë. Këto të dhëna administrative të biznesit janë quajtur shpesh gjurmë dixhitale, dhe të përfshijnë gjëra të tilla si search engine query shkrimet, mesazhet e mediave sociale, dhe e quajnë të dhënat nga telefonat celular. Kritike, këto të dhëna administrative të biznesit nuk janë vetëm në lidhje me sjelljen në internet. Për shembull, dyqanet që përdorin check-out skanera janë duke krijuar masa në kohë reale të produktivitetit të punëtorëve. Në një studim që unë do të të them më vonë në këtë kapitull, Alexandre Mas dhe Enrico Moretti (2009) repurposed këtë supermarket check-out të dhëna për të studiuar se si produktiviteti punëtorësh është ndikuar nga produktivitetin e kolegëve të tyre.
Si të dy këto shembuj ilustrojnë, ideja e repurposing është thelbësore për të mësuar nga të dhënat e mëdha. Në përvojën time, shkencëtarët socialë dhe të dhënat shkencëtarët të afrohet për këtë repurposing shumë ndryshe. shkencëtarët socialë, të cilët janë mësuar të punojnë me të dhëna të dizajnuara për kërkime, janë të shpejtë për të vënë në dukje problemet me të dhëna repurposed duke injoruar pikat e forta të tij. Nga ana tjetër, të dhënat shkencëtarët janë të shpejtë për të nxjerr në pah të mirat e të dhënave repurposed duke injoruar dobësitë e saj. Natyrisht, mënyra më e mirë do të ishte një hibrid. Kjo është, studiuesit duhet të kuptojnë karakteristikat e këtyre burimeve të reja të të dhënave-të dyja të mira dhe të këqija, dhe pastaj të kuptoj se si për të mësuar prej tyre. Dhe, kjo është plani për pjesën e mbetur të këtij kapitulli. Tjetra, unë do të përshkruaj dhjetë karakteristika të përbashkëta të të dhënave administrative të biznesit dhe qeverisë. Pas kësaj, unë do të përshkruaj tri qasje kërkimore që mund të përdoret me këto të dhëna, qasjet që janë të përshtatshme edhe për karakteristikat e këtyre të dhënave.