Zpracování velkých objemů dat jsou vytvářeny a shromažďovány vládami k jiným účelům než výzkumné účely. Použití těchto dat pro výzkum, proto vyžaduje změně použití.
Idealizovaný pohled na sociálního výzkumu představí vědce, který má nápad a poté sběr dat otestovat tuto myšlenku. Tento styl výzkumu vede k vytvoření těsného spoje mezi výzkumné otázky a dat, ale je omezena, protože individuální výzkumný pracovník často nemají potřebné zdroje pro sběr údajů, které potřebují, jako jsou velké, bohaté a národně reprezentativních údajů. Proto hodně sociálního výzkumu v minulosti používal ve velkém měřítku sociální průzkumy, například General Social Survey (GSS), American National studie volebního (Anes) a studium Panel dynamiky příjmů (PSID). Tyto průzkum ve velkém měřítku jsou obvykle provozují tým výzkumníků a jsou navrženy tak, aby vytvořit data, která mohou být využity mnoha výzkumníků. Vzhledem k tomu, z cílů těchto průzkumů ve velkém měřítku, velká péče je kladen do navrhování sběr dat a příprava výsledná data pro výzkumníky. Tyto údaje jsou výzkumníky a pro výzkumné pracovníky.
Většina sociální výzkum pomocí digitálního věku zdrojů je však zásadně liší. Namísto použití údajů shromážděných výzkumníky a pro výzkumné pracovníky, používá datové zdroje, které byly vytvořeny a vybírá podniky i vlády pro své vlastní účely, jako je vytváření zisku, poskytování služby, nebo před podáním zákon. Tyto obchodní a vládní zdroje dat přišli být nazýván velkých objemů dat. Dělá výzkum s velkými daty je jiný, než dělat výzkum s daty, který byl původně vytvořen pro výzkum. Porovnat, například webové stránky sociálních médií, jako je Twitter, s tradičním průzkumu veřejného mínění, jako je General Social Survey (GSS). Hlavními cíli Twitter je poskytovat služby svým uživatelům a vytvářet zisk. V procesu dosažení těchto cílů, Twitter vytváří údaje, které by mohly být užitečné pro studium určitých aspektů veřejného mínění. Ale na rozdíl od General Social Survey (GSS), Twitter není primárně zaměřena na sociální výzkum.
Termín zpracování velkých objemů dat je zoufale vágní, a jsou zde seskupeny mnoho různých věcí. Pro účely sociálního výzkumu, myslím, že je užitečné rozlišovat mezi dvěma druhy velkých datových zdrojů:. Vládními administrativních a obchodních administrativních záznamů Vládní administrativní záznamy jsou údaje, které jsou vytvořeny vládami jako součást jejich běžné činnosti. Tyto druhy záznamů byly použity výzkumníky v minulosti, jako například demografů, kteří studují narození, sňatek a úmrtí záznamy, ale vlády stále častěji sbírání a uvolňování detailní záznamy v analyzovatelné formě. Například vláda New York City nainstalován digitální metrů uvnitř každého taxi ve městě. Tyto přístroje zaznamenat všechny druhy dat o každém jízda taxíkem, včetně řidiče, čas zahájení a místo, čas a místo zastavení a jízdné. Ve studii, která Povím později v této kapitole, Henry Farber (2015) repurposed tyto údaje řešit zásadní debatu ekonomiky práce o vztahu mezi hodinové mzdy a počtu odpracovaných hodin.
Druhým hlavním typem zpracování velkých objemů dat pro sociální výzkum je obchodní administrativa záznamy. Jedná se o data, která obchod umožňuje zadávat a vybírat jako součást své běžné činnosti. Tyto obchodní administrativní záznamy jsou často nazývány digitální stopy a zahrnují věci jako protokolů vyhledávače dotaz, sociální média příspěvky, a volat záznamy z mobilních telefonů. Kriticky, tyto obchodní administrativní záznamy nejsou jen o online chování. Například obchody, které používají check-out skenery vytvářejí v reálném čase měřítka produktivity práce. Ve studii, která ti povím o později v této kapitole, Alexandre Mas a Enrico Moretti (2009) repurposed tento supermarket check-out data studovat, jak se produktivita dělnický ovlivněny produktivitou svých vrstevníků.
Že oba tyto příklady ilustrují, myšlenka změně použití je základním předpokladem pro učení od velkých dat. Podle mých zkušeností, sociologové a datové vědcům přístup k této změně použití velmi odlišně. Sociologové, kteří jsou zvyklí na práci s daty určenými pro výzkum, jsou připravení poukázat na problémy s daty repurposed zatímco ignoruje své silné stránky. Na druhou stranu, datové vědci jsou připravení poukázat na výhody repurposed dat zatímco ignoruje své slabiny. Samozřejmě, že nejlepším řešením by bylo hybrid. To znamená, že vědci musí pochopit vlastnosti těchto nových zdrojů dat-dobré i špatné, a pak zjistit, jak se učit se od nich. A to je plán pro zbývající části této kapitoly. Dále budu popisovat deseti společných charakteristik obchodních a vládních administrativních dat. Za to, že budu popisovat tři výzkumné přístupy, které mohou být použity s těmito údaji, přístupů, které se dobře hodí k charakteristice těchto údajů.