Duże źródła danych są wszędzie, ale ich wykorzystanie do badań społecznych może być trudne. Z mojego doświadczenia wynika, że istnieje coś takiego jak zasada "nie ma darmowego lunchu" dla danych: jeśli nie będziesz zbierał dużo pracy, to prawdopodobnie będziesz musiał dużo poświęcić na przemyślenie tego i analizowanie go.
Wielkie źródła danych dziś i prawdopodobnie jutro będą miały 10 cech. Trzy z nich są ogólnie (ale nie zawsze) pomocne w badaniach: duże, zawsze aktywne i niereaktywne. Siedem jest ogólnie (ale nie zawsze) problematycznych dla badań: niekompletne, niedostępne, niereprezentatywne, dryfujące, algorytmicznie mylące, brudne i wrażliwe. Wiele z tych cech ostatecznie powstaje, ponieważ duże źródła danych nie zostały stworzone do celów badań społecznych.
Opierając się na ideach w tym rozdziale, myślę, że istnieją trzy główne sposoby, że duże źródła danych będą najbardziej wartościowe dla badań społecznych. Po pierwsze, mogą umożliwić naukowcom decydowanie pomiędzy konkurującymi prognozami teoretycznymi. Przykładami tego rodzaju prac są Farber (2015) (kierowcy New York Taxi) oraz King, Pan, and Roberts (2013) (cenzura w Chinach). Po drugie, duże źródła danych mogą umożliwić lepszy pomiar dla polityki poprzez nowcastcasting. Przykładem tego rodzaju prac jest Ginsberg et al. (2009) (Google Flu Trends). Wreszcie, duże źródła danych mogą pomóc naukowcom dokonać szacunków przyczynowych bez przeprowadzania eksperymentów. Przykładami tego rodzaju prac są Mas and Moretti (2009) (wpływ rówieśników na produktywność) i Einav et al. (2015) (wpływ ceny wyjściowej na aukcje w serwisie eBay). Każde z tych podejść wymaga jednak od badaczy wniesienia dużej ilości danych, takich jak definicja ilości, która jest ważna do oszacowania, lub dwie teorie, które przewidują konkurencyjne przewidywania. Dlatego uważam, że najlepszym sposobem na zastanowienie się nad tym, co mogą zrobić duże źródła danych, jest pomoc naukowcom, którzy mogą zadawać interesujące i ważne pytania.
Zanim zakończę, myślę, że warto wziąć pod uwagę, że duże źródła danych mogą mieć istotny wpływ na związek między danymi a teorią. Do tej pory w niniejszym rozdziale przyjęto podejście oparte na teorii badań empirycznych. Ale duże źródła danych umożliwiają również badaczom empiryczne prowadzenie teorii . Oznacza to, że dzięki starannej akumulacji empirycznych faktów, wzorów i zagadek badacze mogą budować nowe teorie. To alternatywne, oparte na danych podejście do teorii nie jest nowe i zostało ono wyartykułowane przez Barneya Glasera i Anselma Straussa (1967) z ich wezwaniem do teorii ugruntowanej . Takie podejście oparte na danych nie implikuje jednak "końca teorii", jak twierdzono w niektórych dziennikarstwie wokół badań w erze cyfrowej (Anderson 2008) . Zamiast tego, wraz ze zmianą środowiska danych, powinniśmy oczekiwać ponownego zrównoważenia relacji między danymi a teorią. W świecie, w którym gromadzenie danych było drogie, sensownym było gromadzenie tylko tych danych, które według teorii będą najbardziej przydatne. Ale w świecie, w którym ogromne ilości danych są już dostępne za darmo, warto wypróbować podejście oparte na danych (Goldberg 2015) .
Jak pokazałem w tym rozdziale, naukowcy mogą się wiele nauczyć, obserwując ludzi. W następnych trzech rozdziałach opiszę, w jaki sposób możemy uczyć się więcej i różnych rzeczy, jeśli dopasujemy naszą kolekcję danych i interakcji z ludźmi bardziej bezpośrednio, zadając im pytania (rozdział 3), przeprowadzając eksperymenty (rozdział 4), a nawet angażując je bezpośrednio w procesie badawczym (rozdział 5).