Spracovanie veľkých objemov dát sú vytvárané a zhromažďované vládami na iné účely ako výskumné účely. Použitie týchto dát pre výskum, preto vyžaduje zmene použitie.
Idealizovaný pohľad na sociálneho výskumu predstaví vedca, ktorý má nápad a potom zber dát otestovať túto myšlienku. Tento štýl výskumu vedie k vytvoreniu tesného spoja medzi výskumné otázky a dát, ale je obmedzená, pretože individuálne výskumný pracovník často nemajú potrebné zdroje pre zber údajov, ktoré potrebujú, ako sú veľké, bohaté a národne reprezentatívnych údajov. Preto veľa sociálneho výskumu v minulosti používal vo veľkom meradle sociálna prieskumy, napríklad General Social Survey (GSS), American National štúdie volebného (Anes) a štúdium Panel dynamiky príjmov (PSID). Tieto prieskum vo veľkom meradle sú zvyčajne prevádzkujú tím výskumníkov a sú navrhnuté tak, aby vytvoriť dáta, ktoré môžu byť využité mnohých výskumníkov. Vzhľadom k tomu, z cieľov týchto prieskumov vo veľkom meradle, veľká starostlivosť je kladený do navrhovania zber dát a príprava výsledné dáta pre výskumníkmi. Tieto údaje sú výskumníkmi a pre výskumných pracovníkov.
Väčšina sociálny výskum pomocou digitálneho veku zdrojov je však zásadne líši. Namiesto použitia údajov zhromaždených výskumníkmi a pre výskumných pracovníkov, používa dátové zdroje, ktoré boli vytvorené a vyberá podniky i vlády pre svoje vlastné účely, ako je vytváranie zisku, poskytovanie služby, alebo pred podaním zákon. Tieto obchodné a vládne zdroje dát prišli byť nazývaný veľkých objemov dát. Robí výskum s veľkými dátami je iný, než robiť výskum s dátami, ktorý bol pôvodne vytvorený pre výskum. Porovnať, napríklad webové stránky sociálnych médií, ako je Twitter, s tradičným prieskumu verejnej mienky, ako je General Social Survey (GSS). Hlavnými cieľmi Twitter je poskytovať služby svojim užívateľom a vytvárať zisk. V procese dosiahnutie týchto cieľov, Twitter vytvára údaje, ktoré by mohli byť užitočné pre štúdium určitých aspektov verejnej mienky. Ale na rozdiel od General Social Survey (GSS), Twitter nie je primárne zameraná na sociálny výskum.
Termín spracovanie veľkých objemov dát je zúfalo vágny, a sú tu zoskupené veľa rôznych vecí. Na účely sociálneho výskumu, myslím, že je užitočné rozlišovať medzi dvoma druhmi veľkých dátových zdrojov :. vládnym administratívnych a obchodných administratívnych záznamov Vládne administratívne záznamy sú údaje, ktoré sú vytvorené vládami ako súčasť ich bežnej činnosti. Tieto druhy záznamov boli použité výskumníkmi v minulosti, ako napríklad demografov, ktorí študujú narodenie, sobáš a úmrtie záznamy, ale vlády stále častejšie zbieranie a uvoľňovanie detailné záznamy v analyzovateľné forme. Napríklad vláda New York City nainštalovaný digitálny metrov vo vnútri každého taxi v meste. Tieto prístroje zaznamenať všetky druhy dát o každom jazda taxíkom, vrátane vodiča, čas začiatku a miesto, čas a miesto zastavenia a cestovné. V štúdii, ktorá Poviem neskôr v tejto kapitole, Henry Farber (2015) repurposed tieto údaje riešiť zásadné debatu ekonomiky práce o vzťahu medzi hodinovej mzdy a počtu odpracovaných hodín.
Druhým hlavným typom spracovanie veľkých objemov dát pre sociálny výskum je obchodná administratíva záznamy. Jedná sa o dáta, ktoré obchod umožňuje zadávať a vyberať ako súčasť svojej bežnej činnosti. Tieto obchodné administratívne záznamy sú často nazývané digitálne stopy a zahŕňajú veci ako protokolov vyhľadávača dotaz, sociálne médiá príspevky, a volať záznamy z mobilných telefónov. Kriticky, tieto obchodné administratívne záznamy nie sú len o online správania. Napríklad obchody, ktoré používajú check-out skenery vytvárajú v reálnom čase mierky produktivity práce. V štúdii, ktorá ti poviem o neskôr v tejto kapitole, Alexandre Mas a Enrico Moretti (2009) repurposed tento supermarket check-out dáta študovať, ako sa produktivita robotnícky ovplyvnené produktivitou svojich rovesníkov.
Že oba tieto príklady ilustrujú, myšlienka zmene použitie je základným predpokladom pre učenie od veľkých dát. Podľa mojich skúseností, sociológovia a dátové vedcom prístup k tejto zmene použitie veľmi odlišne. Sociológovia, ktorí sú zvyknutí na prácu s dátami určenými pre výskum, sú pripravení poukázať na problémy s dátami repurposed zatiaľ čo ignoruje svoje silné stránky. Na druhú stranu, dátové vedci sú pripravení poukázať na výhody repurposed dát zatiaľ čo ignoruje svoje slabiny. Samozrejme, že najlepším riešením by bolo hybrid. To znamená, že vedci musia pochopiť vlastnosti týchto nových zdrojov dát-dobré aj zlé, a potom zistiť, ako sa učiť sa od nich. A to je plán pre zostávajúce časti tejto kapitoly. Ďalej budem popisovať desať spoločných charakteristík obchodných a vládnych administratívnych dát. Za to, že budem popisovať tri výskumné prístupy, ktoré môžu byť použité s týmito údajmi, prístupov, ktoré sa dobre hodia k charakteristike týchto údajov.