Yn de analoge leeftyd, it sammeljen fan gegevens oer gedrach-wa docht wat doe't-wie djoer, en dêrom, relatyf seldsum. No, yn it digitale tiidrek, de gedragingen fan miljarden fan minsken wurde opnommen, opslein, en analyzable. Bygelyks, eltse kear jo klikke op in webside, meitsje in oprop op dyn mobyle telefoan, of betelje foar wat mei jo kredytkaart, in digitale rekôr fan jo hâlden en dragen wurdt makke en opslein troch in bedriuw. Om't dy gegevens binne in troch-produkt fan minsken fan alle dagen aksjes, se wurde faak neamd digitale spoaren. Neist dizze spoaren hâlden troch bedriuwen, oerheden ek hawwe ongelooflijk rike gegevens oer sawol minsken en bedriuwen, gegevens dy't is faak digitalisearre en analyzable. Tegearre dizze saken en oerheid records wurde faak neamd grutte gegevens.
De hieltyd-rising floed fan grutte gegevens betsjut dat wy hawwe ferhuze fan in wrâld dêr't gedrachsproblemen gegevens wie krap nei in wrâld dêr't gedrachsproblemen gegevens is oermjitte. Mar, omdat dizze typen gegevens binne relatyf nij, in ûngelokkich bedrach fan ûndersyk mei help fan harren liket wittenskippers blyn efternei beskikber gegevens. Dit haadstik, ynstee, biedt in principled oanpak foar begryp fan de ferskillende boarnen fan gegevens en hoe't sy brûkt wurde kinne. Dit rikere begryp moat helpe jo better oerien mei jo ûndersyk fragen oan passende boarnen fan gegevens. Of, as sokke besteande boarnen wurde mist, oertsjûgje jo te sammelje jo eigen gegevens mei help fan de ideeën yn takomst haadstikken.
In earste stap om it learen fan grutte gegevens is te realisearjen dat it is in part fan in bredere kategory fan gegevens dy't is brûkt foar sosjale ûndersyk jierrenlang: feiten 't waarnimming. Rûchwei, feiten 't waarnimming is alle gegevens dy' t liede út observearjen in sosjaal systeem sûnder tuskenlizzende yn guon wize. In groffe wize te tinken oer it dat feiten 't waarnimming is alles dat net belûke prate mei minsken (bygelyks, ûndersiken, it ûnderwerp fan haadstik 3) of feroarjende minsken fan omjouwings (bygelyks, eksperiminten, it ûnderwerp fan haadstik 4). Sa, neist it bedriuwslibben en de oerheid records, feiten 't waarnimming ek dingen as de tekst fan de krante artikels en satellyt foto.
Dit haadstik hat trije dielen. Earst, yn paragraaf 2.2, ik beskriuwe grutte gegevens yn mear detail en ferdúdlikjen in fûnemintele ferskil tusken it en de gegevens dy't oer it algemien brûkt foar sosjale ûndersyk yn it ferline. Dêrnei, yn paragraaf 2.3, ik beskriuwe tsien mienskiplike skaaimerken fan grutte gegevens boarnen. Ynsjoch yn dizze skaaimerken kinne wy fluch erkenne de sterke en swakke punten fan besteande boarnen en sil helpe ús harnas de nije boarnen dy't sil wurde makke yn de takomst. Ta beslút, yn paragraaf 2.4, ik beskriuwe trije wichtichste ûndersyk strategyen dy't jo brûke kinne om te learen fan feiten 't waarnimming: meirekkene dingen, forecasting dingen, en approximating in eksperimint.