A nagy adatforrások mindenhol megtalálhatók, de a társadalmi kutatásra való felhasználásuk bonyolult lehet. Tapasztalataim szerint van valami, mint az "ingyenes ebéd" szabály az adatokhoz: ha nem sok munkát gyűjtesz, akkor valószínűleg sok dolgodra kell gondolnia, és elemezve azt.
A mai, és valószínűleg holnap nagy adatforrásai általában 10 tulajdonsággal rendelkeznek. Ezek közül három általában (de nem mindig) hasznos a kutatás szempontjából: nagy, mindig is, és nem reagál. Hét általában (de nem mindig) problémás a kutatás szempontjából: hiányos, megközelíthetetlen, nem reprezentatív, sodródó, algoritmikusan összetéveszthető, piszkos és érzékeny. Végül ezek a jellemzők sokasága azért keletkezik, mert a nagyszámú adatforrást nem a társadalmi kutatás céljára hozták létre.
Az ebben a fejezetben található ötletek alapján úgy gondolom, hogy három fő módja van annak, hogy a nagy adatforrások a társadalomkutatás számára legértékesebbek lesznek. Először is, lehetővé tehetik a kutatók számára a versengő elméleti előrejelzések közötti döntést. Példák erre a munkára Farber (2015) (New York taxivezetők) és King, Pan, and Roberts (2013) (cenzúra Kínában). Másodszor, a nagy adatforrások lehetővé teszik a politikák jobb mérését a mostcasting révén. Példa erre a munkára Ginsberg et al. (2009) (Google Influenzatrendek). Végül, a nagy adatforrások segíthetnek a kutatóknak okozati becslésekben kísérlet nélküli futtatások nélkül. Példák erre a munkára Mas and Moretti (2009) (a termelékenység párhuzamos hatásai) és Einav et al. (2015) (az eBay árverési árának hatása). Mindezek a megközelítések mindazonáltal arra késztetik a kutatókat, hogy sokat juttassanak az adatokhoz, például egy olyan mennyiség meghatározásához, amely fontos a becsléshez, vagy két elmélethez, amelyek versengő előrejelzéseket tesznek. Úgy gondolom tehát, hogy a legjobb mód arra, hogy elgondolkodjunk arról, hogy milyen nagy adatforrásokkal tudunk segíteni, segíteni tudnak azoknak a kutatóknak, akik érdekes és fontos kérdéseket tehetnek fel.
A lezárás előtt azt gondolom, érdemes megfontolni, hogy a nagy adatforrások fontos hatással lehetnek az adatok és az elmélet viszonyára. Eddig ez a fejezet az elmélet által vezérelt empirikus kutatás megközelítését tette. De a nagy adatforrások lehetővé teszik a kutatók számára, hogy empirikusan vezérelt elméletet tegyenek. Vagyis az empirikus tények, minták és rejtvények gondos felhalmozása révén a kutatók új elméleteket építhetnek. Ez az alternatív, adat-első megközelítés az elmélethez nem új, és Barney Glaser és Anselm Strauss (1967) legerőteljesebben megfogalmazta a földi elméletre való felhívást. Ez az adat-első megközelítés azonban nem jelenti azt, hogy "az elmélet vége", amint azt a digitális korszak kutatásaiban részt vevő újságírásban (Anderson 2008) állítják. Inkább, ahogy az adatkörnyezet változik, számolnunk kell az adatok és az elmélet közötti kapcsolat újbóli kiegyenlítésén. Egy olyan világban, ahol az adatgyűjtés drága volt, érdemes csak olyan adatokat összegyűjteni, amelyeket az elméletek sugallnak a leghasznosabbak. De egy olyan világban, ahol hatalmas mennyiségű adat már ingyen elérhető, érdemes megpróbálni egy adat-első megközelítést is (Goldberg 2015) .
Amint azt ebben a fejezetben bemutattam, a kutatók sokat tanulhatnak az embereket figyelve. A következő három fejezetben leírom, hogyan tudunk több és különböző dolgot tanulni, ha személyre szabjuk az adatgyűjtést, és közvetlenül érintkezünk az emberekkel, kérdéseket tesz fel (3. fejezet), kísérleteket futtatunk (4. fejezet), sőt bevonjuk őket is közvetlenül a kutatási folyamatban (5. fejezet).