Burimet e të dhënave të mëdha janë kudo, por përdorimi i tyre për hulumtime sociale mund të jetë i ndërlikuar. Në përvojën time, ekziston diçka si një rregull "pa drekë falas" për të dhënat: nëse nuk bëni shumë punë për ta mbledhur atë, atëherë ndoshta do të keni shumë punë të mendoni rreth saj dhe duke analizuar atë.
Burimet e mëdha të të dhënave sot - dhe ndoshta të nesërmen - do të kenë tendencë të kenë 10 karakteristika. Tre prej tyre janë përgjithësisht (por jo gjithmonë) të dobishme për hulumtime: të mëdha, gjithnjë në, dhe jo reaktive. Shtatë janë në përgjithësi (por jo gjithmonë) problematike për hulumtime: të paplota, të paarritshme, jo-përfaqësuese, të shkyçur, algoritmikisht të hutuar, të ndotur dhe të ndjeshëm. Shumë nga këto karakteristika përfundimisht lindin sepse burimet e mëdha të të dhënave nuk janë krijuar për qëllime të hulumtimit social.
Bazuar në idetë në këtë kapitull, mendoj se ekzistojnë tre mënyra kryesore që burimet e mëdha të të dhënave do të jenë më të vlefshme për kërkimet shoqërore. Së pari, ata mund t'u mundësojnë kërkuesve të vendosin midis parashikimeve teorike konkurruese. Shembuj të këtij lloji të punës përfshijnë Farber (2015) (New York Taxi drivers) dhe King, Pan, and Roberts (2013) (censurë në Kinë). Së dyti, burimet e mëdha të të dhënave mund të mundësojnë matje të përmirësuar për politikën përmes transmetimit. Një shembull i këtij lloji të punës është Ginsberg et al. (2009) (Google Trendet e gripit). Së fundi, burimet e mëdha të të dhënave mund t'u ndihmojnë kërkuesve të bëjnë vlerësime shkakësore pa kryer eksperimente. Shembuj të këtij lloji të punës janë Mas and Moretti (2009) (efektet e kolegëve mbi produktivitetin) dhe Einav et al. (2015) (efekti i çmimit fillestar në ankand në eBay). Secila prej këtyre qasjeve, megjithatë, tenton t'u kërkojë kërkuesve të sjellin shumë për të dhënat, siç është përcaktimi i një sasie që është e rëndësishme për të vlerësuar ose dy teoritë që bëjnë parashikime konkurruese. Kështu, mendoj se mënyra më e mirë për të menduar se çfarë burimesh të dhënash mund të bëjnë është se ata mund të ndihmojnë kërkuesit që mund të bëjnë pyetje interesante dhe të rëndësishme.
Para përfundimit, mendoj se vlen të merret në konsideratë që burimet e mëdha të të dhënave mund të kenë një efekt të rëndësishëm në marrëdhëniet mes të dhënave dhe teorisë. Deri më tani, ky kapitull ka marrë qasjen e hulumtimit empirik të drejtuar nga teori. Por burimet e mëdha të të dhënave gjithashtu u mundësojnë hulumtuesve të bëjnë teorizime të orientuara në mënyrë empirike . Kjo është, nëpërmjet akumulimit të kujdesshëm të fakteve empirike, modeleve dhe puzzles, studiuesit mund të ndërtojnë teori të reja. Ky alternativë, qasja e parë e të dhënave në teori nuk është e re dhe është artikuluar me forcë nga Barney Glaser dhe Anselm Strauss (1967) me thirrjen e tyre për teorinë e bazuar . Kjo qasje e parë e të dhënave, megjithatë, nuk nënkupton "fundin e teorisë", siç është pohuar në disa nga gazetaria rreth kërkimit në epokën dixhitale (Anderson 2008) . Përkundrazi, me ndryshimin e mjedisit të të dhënave, duhet të presim një ribalancim në marrëdhënien mes të dhënave dhe teorisë. Në një botë ku grumbullimi i të dhënave ishte i shtrenjtë, kishte kuptim për të mbledhur vetëm të dhënat që teoritë sugjerojnë se do të jenë më të dobishme. Por, në një botë ku sasi të mëdha të të dhënave tashmë janë të disponueshme për të lira, ka kuptim edhe të provoni një qasje të të dhënave (Goldberg 2015) .
Siç kam treguar në këtë kapitull, studiuesit mund të mësojnë shumë duke shikuar njerëzit. Në tre kapitujt e ardhshëm, unë do të përshkruaj se si mund të mësojmë gjëra të ndryshme dhe të ndryshme nëse ne përshtasim mbledhjen e të dhënave tona dhe bashkëveprojmë me njerëzit më drejt duke u kërkuar atyre pyetje (kapitulli 3), drejtimin e eksperimenteve (kapitulli 4), madje edhe përfshirjen e tyre në procesin e hulumtimit direkt (kapitulli 5).