Grandaj datumaj fontoj estas ĉie, sed uzi ilin por socia esplorado povas esti malfacila. En mia sperto, ekzistas io simila al "ne libera lunĉo" por datumoj: se vi ne enmetas multan laboron kolektante ĝin, vi eble devos enmeti multan laboron pensi pri ĝi kaj analizante ĝin.
La grandaj datumaj fontoj de hodiaŭ-kaj probable morgaŭ - inklinos havi 10 karakterizaĵojn. Tri el ĉi tiuj ĝenerale (sed ne ĉiam) estas helpema por esplorado: granda, ĉiam-kaj ne neactiva. Sep ĝenerale (sed ne ĉiam) estas problemaj por esplorado: nekompleta, nealirebla, ne reprezenta, drifanta, algoritme konfuzita, malpura kaj sentema. Multaj el ĉi tiuj trajtoj finfine ŝprucas ĉar grandaj datumaj fontoj ne estis kreitaj por socia esplorado.
Surbaze de la ideoj en ĉi tiu ĉapitro, mi opinias, ke ekzistas tri ĉefaj vojoj, ke grandaj datumaj fontoj estos plej valoraj por socia esplorado. Unue ili povas ebligi esploristojn decidi inter konkurencantaj teoriaj antaŭdiroj. Ekzemploj de ĉi tiu speco de laboro inkluzivas Farber (2015) (Nov-York Taxi drivers) kaj King, Pan, and Roberts (2013) (cenzuras en Ĉinio). Due, grandaj datumaj fontoj povas ebligi plibonigitan mezuradon por politiko per nunkondiĉo. Ekzemplo de ĉi tiu speco de laboro estas Ginsberg et al. (2009) (Google Flugiĝoj). Fine, grandaj datumaj fontoj povas helpi al esploristoj fari kaŭzajn taksojn sen kuraci eksperimentojn. Ekzemploj de ĉi tiu speco de laboro estas Mas and Moretti (2009) (samaj efikoj sur produktiveco) kaj Einav et al. (2015) (efiko komenci prezon sur aŭkcioj ĉe eBay). Ĉiu ĉi tiuj aliroj, tamen, inklinas postuli esploristojn alporti multon al la datumoj, kiel la difino de kvanto grava por taksi aŭ du teorioj, kiuj konkurencas antaŭdirojn. Tiel mi opinias, ke la plej bona maniero por pensi pri kiom da datumaj fontoj povas fari, ke ili povas helpi esploristojn, kiuj povas demandi interesajn kaj gravajn demandojn.
Antaŭ fini, mi opinias, ke valore konsideras, ke grandaj datumaj fontoj povas havi gravan efikon sur la rilato inter datumoj kaj teorio. Ĝis nun, ĉi tiu ĉapitro prenis la aliron de teorio-movita empirika esplorado. Sed grandaj datumaj fontoj ankaŭ ebligas esploristojn fari empirike teorigi . Tio estas, tra la zorgema amasigo de fakoj, ŝablonoj kaj emblemoj, esploristoj povas konstrui novajn teoriojn. Ĉi tiu alternativo, datumo-unua aliro al teorio ne estas nova, kaj ĝi estis plej forte klarigita de Barney Glaser kaj Anselm Strauss (1967) kun ilia alvoko por tera teorio . Ĉi tiu datumo-unua aliro tamen ne implicas "la finon de teorio", kiel oni postulis en kelkaj el la ĵurnalismo ĉirkaŭ esplorado en la cifereca aĝo (Anderson 2008) . Prefere, kiel la datum-medio ŝanĝas, ni devus atendi rebalancadon en la rilato inter datumoj kaj teorio. En mondo, kie la kolekto de datumoj estis multekosta, ĝi havis senton kolekti nur la datumojn, kiujn teorioj sugestas, ke estos la plej utilaj. Sed, en mondo, kie grandegaj kvantoj da datumoj jam estas senpagaj senpage, ĝi ankaŭ sentas ankaŭ provi datumon-unuan aliron (Goldberg 2015) .
Kiel mi montris en ĉi tiu ĉapitro, esploristoj povas lerni multe rigardante homojn. En la sekvaj tri ĉapitroj, mi priskribos, kiel ni povas lerni pli kaj malsamajn aferojn, se ni tajloros nian datumkolekton kaj interagas kun homoj pli rekte demandante ilin (ĉapitro 3), kurante eksperimentojn (ĉapitro 4) kaj eĉ engaĝante ilin en la esplora procezo rekte (ĉapitro 5).