Stórar gagnasöfn eru alls staðar, en að nota þau til félagslegrar rannsóknar getur verið erfiður. Í minni reynslu er eitthvað eins og "engin ókeypis hádegismatur" regla um gögn: ef þú setur ekki mikið af vinnu að safna því þá þarftu líklega að þurfa að leggja mikið af vinnu að hugsa um það og greina það.
Stóra gagnasöfnin í dag - og líklega á morgun - mun hafa tilhneigingu til að hafa 10 einkenni. Þrír af þessum eru almennt (en ekki alltaf) gagnlegar fyrir rannsóknir: stór, alltaf á og óvirk. Sjö eru almennt (en ekki alltaf) vandkvæðir fyrir rannsóknir: ófullnægjandi, óaðgengilegur, órepresentative, reki, algrímlega skelfilegur, óhreinn og viðkvæmur. Mörg þessara einkenna verða að lokum vegna þess að stór gögn voru ekki búin til í þeim tilgangi að félagsleg rannsókn.
Byggt á hugmyndum í þessum kafla, held ég að það eru þrjár helstu leiðir til þess að stórar gagnasöfn séu mikilvægustu fyrir félagslega rannsóknir. Í fyrsta lagi geta þau gert forskotum kleift að ákveða á milli samkeppnislegra spáspár. Dæmi um þessa vinnu eru Farber (2015) (New York Leigubílar) og King, Pan, and Roberts (2013) (ritskoðun í Kína). Í öðru lagi geta stórar gagnaheimildir virkjað betri mælingar á stefnumótun í gegnum núgertingu. Dæmi um þessa vinnu er Ginsberg et al. (2009) (Google Flu Trends). Að lokum geta stór gagnasöfn hjálpað vísindamönnum að gera orsakasamlegar ástæður án þess að keyra tilraunir. Dæmi um þessa tegund af vinnu eru Mas and Moretti (2009) (jafningi áhrif á framleiðni) og Einav et al. (2015) (áhrif upphafsverðs á uppboðum á eBay). Hvert þessara aðferða hefur hins vegar tilhneigingu til að krefjast þess að vísindamenn geti tekið mikið af gögnum, svo sem skilgreiningu á magni sem er mikilvægt að meta eða tveir kenningar sem gera samkeppnisspár. Þannig held ég að besta leiðin til að hugsa um hvað stór gagnasöfn geta gert er að þeir geti hjálpað vísindamönnum sem geta spurt áhugaverðar og mikilvægar spurningar.
Áður en ég ályktað, held ég að það sé þess virði að íhuga að stór gögn mega hafa mikil áhrif á tengslin milli gagna og kenningar. Hingað til hefur þessi kafli tekið að sér kenningu sem byggir á kenningum sem byggjast á rannsóknum. En stór gögn heimildir gera einnig vísindamenn að gera empirically ekið theorizing . Það er, með því að ná sambandi við reynsluskilyrði, mynstur og þrautir, geta vísindamenn byggt upp nýjar kenningar. Þetta val, gagna-fyrsta nálgun við kenninguna er ekki nýtt, og Barney Glaser og Anselm Strauss (1967) höfðu það afar krafist með því að kalla þeirra til grundvallar kenningar . Þessi gögn-fyrsta nálgun þýðir hins vegar ekki "endir kenningar", eins og fram hefur komið í sumum blaðamennsku um rannsóknir á stafrænu aldri (Anderson 2008) . Frekar, þar sem gögn umhverfisins breytast, ættum við að búast við endurvægi í sambandi milli gagna og kenningar. Í heimi þar sem gagnasöfnun var dýr, gerði það skynsamlegt að safna aðeins þeim gögnum sem kenningar benda til, séu gagnlegustu. En í heimi þar sem gífurlegur fjöldi gagna er nú þegar laus fyrir frjáls, er það skynsamlegt að reyna einnig að gagna-fyrsta nálgun (Goldberg 2015) .
Eins og ég hef sýnt í þessum kafla geta vísindamenn lært mikið með því að horfa á fólk. Í næstu þremur köflum lýsi ég hvernig við getum lært meira og mismunandi hluti ef við snerum gagnasöfnun okkar og samskipti við fólk beint með því að spyrja þá spurninga (kafla 3), hlaupandi tilraunir (kafli 4) og jafnvel með þeim í rannsóknarferlinu beint (kafli 5).