Wielkie danych są tworzone i gromadzone przez rządy do celów innych niż badania. Stosując te dane do badań, dlatego wymaga zmianie przeznaczenia.
Wyidealizowany widok badań społecznych wyobraża naukowiec mający pojęcia, a następnie zbieranie danych w celu przetestowania tego pomysłu. Ten styl badań prowadzi do ciasnym pasowaniem pomiędzy pytanie badawcze i danych, ale jest ograniczona, ponieważ dana osoba Badacz często nie mają środków potrzebnych do zbierania danych, których potrzebują, takich jak duże, bogate, jak i krajowym, reprezentatywnych danych. W związku z tym, wiele badań społecznych w przeszłości stosowane badania społeczne na dużą skalę, takie jak General Social Survey (GSS), Amerykańskiego Narodowego Wyborczej Study (Anes), oraz panel Studium dynamika przychodów (PSID). Te badania na dużą skalę są na ogół prowadzone przez zespół naukowców i są przeznaczone do tworzenia danych, które mogą być używane przez wielu badaczy. Ponieważ z celów tych badań na dużą skalę, bardzo ostrożnie wkłada się projektowaniem gromadzenie danych i przygotowywanie dane wynikowe do wykorzystania przez badaczy. Dane te są przez naukowców i badaczy.
Większość badań społecznych z wykorzystaniem cyfrowych źródeł wiekowych, jednak różni się zasadniczo. Zamiast korzystać z danych zebranych przez naukowców i badaczy, używa źródeł danych, które zostały utworzone i zebrane przez przedsiębiorstwa i rządy do własnych celów, takich jak osiągnięcia zysku, świadczenia usługi, albo podawanie prawo. Te źródła danych biznesowych i rządowych zaczęły być nazywane duże ilości danych. Prowadzenie badań z dużym danych jest inna niż robi badania z danymi, który został pierwotnie stworzony dla badań. Porównaj na przykład na stronie internetowej, social media, takich jak Twitter, z tradycyjnym badaniem opinii publicznej, takich jak General Social Survey z (GSS). Główne cele Twitter są do świadczenia usług dla użytkowników oraz w celu osiągnięcia zysku. W procesie osiągania tych celów, Twitter tworzy dane, które mogą być przydatne do badania niektórych aspektów opinii publicznej. Ale, w przeciwieństwie do General Social Survey (GSS), Twitter nie jest przede wszystkim koncentruje się na badaniach społecznych.
Termin Big Data jest frustrująca niejasne, i grupuje wiele różnych rzeczy. Do celów badań społecznych, myślę, że warto rozróżnić dwa rodzaje dużych źródeł danych. Rejestrów administracyjnych rządowych i biznesowych rejestrów administracyjnych rządowe rejestry administracyjne są to dane, które są tworzone przez rządy w ramach swoich rutynowych czynności. Tego rodzaju zapisy zostały wykorzystane przez naukowców w przeszłości, takie jak demografów studiujących urodzeń, rekordy, ale małżeństwo i śmierć rządy są coraz gromadzenia i uwalniania szczegółowych zapisów w formach analyzable. Na przykład, rząd Nowy Jork zainstalowany metrów cyfrowych wewnątrz każdej taksówki w mieście. Mierniki te rejestrują wszystkie rodzaje danych o każdym taksówką łącznie z kierowcą, czas rozpoczęcia i miejscu, czasie i miejscu zatrzymania i taryfy. W badaniu, że powiem w dalszej części tego rozdziału, Henry Farber (2015) repurposed tych danych w celu rozwiązania fundamentalnej debaty w ekonomii pracy na temat relacji między płac godzinowych i liczby przepracowanych godzin.
Drugim głównym typem dużego danych dla badań społecznych jest biznes rejestrów administracyjnych. Są to dane, które tworzą firmy i zbierają w ramach swoich rutynowych czynności. Te zapisy biznesowych administracyjne są często nazywane śladów cyfrowych, a takie rzeczy jak dzienniki zapytań w wyszukiwarkach, posty społecznościowych i wywołać rekordy z telefonów komórkowych. Co najważniejsze, te biznesu rejestrów administracyjnych nie tylko o zachowaniu online. Na przykład sklepy, które używają skanerów check-out tworzą środki w czasie rzeczywistym wydajności pracowników. W badaniu, że powiem wam o dalszej części tego rozdziału, Alexandre Mas i Enrico Moretti (2009) repurposed to Supermarket check-out, aby zbadać, jak produktywność pracowników jest wpływ wydajności rówieśnikami.
Ponieważ obie te przykłady ilustrują, idea przełożenie ma fundamentalne znaczenie dla uczenia się od dużych danych. Z mojego doświadczenia wynika, socjologowie i naukowcy danych podejście do tego przełożenie bardzo różnie. Socjologowie, którzy są przyzwyczajeni do pracy z danymi przeznaczonych do badań, są szybkie, aby zwrócić uwagę na problemy z repurposed danych ignorując swoje atuty. Z drugiej strony, naukowcy danych są szybkie podkreślić zalety repurposed danych ignorując swoje słabości. Oczywiście, najlepszym rozwiązaniem byłoby hybrydą. Oznacza to, że naukowcy muszą zrozumieć charakterystykę tych nowych źródeł danych, zarówno dobre i złe, a następnie dowiedzieć się, jak uczyć się od nich. I to jest plan dalszej części tego rozdziału. Następnie opiszę dziesięć wspólnych cech biznesowych i rządowych danych administracyjnych. Po tym, opiszę trzy podejścia badawcze, które mogą być używane z tych danych, metod, które są dobrze dostosowane do charakterystyki tych danych.