Suuret tietolähteet ovat kaikkialla, mutta niiden käyttäminen sosiaaliseen tutkimukseen voi olla hankalaa. Kokemukseni mukaan on olemassa jotain "ilmaista lounasta" koskevaa sääntöä: jos et käytä paljon työtä keräämään sitä, sinun on todennäköisesti pantava paljon työtä ajattelemaan sitä ja analysoimalla sitä.
Tämän päivän suuret tietolähteet - ja todennäköisesti huomenna - ovat yleensä 10 ominaisuutta. Kolme näistä on yleisesti (mutta ei aina) hyödyllisiä tutkimukselle: suuret, jatkuvat ja reagoivat. Seitsemän on yleensä (mutta ei aina) ongelmallinen tutkimukselle: epätäydellinen, saavuttamaton, ei-edustava, ajelehtiva, algoritmisesti sekava, likainen ja herkkä. Monet näistä ominaisuuksista syntyvät viime kädessä, koska suuria tietolähteitä ei ole luotu yhteiskunnalliseen tutkimukseen.
Tämän luvun ajatusten pohjalta katson, että suuret tietolähteet ovat tärkeimpiä yhteiskunnalliseen tutkimukseen kolmella tavalla. Ensinnäkin ne voivat mahdollistaa tutkijoiden päättää kilpailevien teoreettisten ennusteiden välillä. Esimerkkejä tällaisesta työstä ovat Farber (2015) (New Yorkin taksinkuljettajat) ja King, Pan, and Roberts (2013) (Kiinan sensuuri). Toiseksi, suuret tietolähteet voivat mahdollistaa paremman mittaamisen politiikassa uudelleensuunnittelun kautta. Esimerkki tällaisesta työstä on Ginsberg et al. (2009) (Google-influenssatrendit). Lopulta suuret tietolähteet voivat auttaa tutkijoita tekemään syy-arvioita ilman kokeiluja. Esimerkkejä tällaisesta työstä ovat Mas and Moretti (2009) (vertaisvaikutukset tuottavuuteen) ja Einav et al. (2015) (hinta eBay-huutokaupoissa). Jokainen näistä lähestymistavoista vaatii kuitenkin tutkijoita tuomaan paljon tietoja, kuten määri- telmän, joka on tärkeä arvioida, tai kaksi teoriaa, jotka tekevät kilpailevia ennusteita. Mielestäni paras tapa miettiä mitä suuria tietolähteitä voi tehdä on, että he voivat auttaa tutkijoita, jotka voivat esittää mielenkiintoisia ja tärkeitä kysymyksiä.
Ennen kuin päätän, mielestäni on syytä harkita, että suurilla tietolähteillä voi olla merkittävä vaikutus datan ja teorian väliseen suhteeseen. Toistaiseksi tässä luvussa on käytetty teoreettisen empiirisen tutkimuksen lähestymistapaa. Mutta suuret tietolähteet antavat myös tutkijoille mahdollisuuden tehdä empiirisesti ajattua teoriaa . Eli tutkijat voivat rakentaa uusia teorioita empiiristen faktojen, mallien ja palapelien huolellisen kertymisen kautta. Tämä vaihtoehtoinen, data-first-lähestymistapa teoriaan ei ole uusi, ja Barney Glaser ja Anselm Strauss (1967) muotoilivat voimakkaimmin niiden perusteluihin perustuvaa teoriaa . Tämä data-ensimmäinen lähestymistapa ei kuitenkaan tarkoita "teorian loppua", kuten on todettu joissakin digitaalisen aikakauden tutkimuksen journalismissa (Anderson 2008) . Pikemminkin, kun tietojärjestelmä muuttuu, meidän on odotettava tasapainottavan tietojen ja teorian välistä suhdetta. Maailmassa, jossa tietojenkeruu oli kallista, oli järkevää kerätä vain sellaiset tiedot, jotka teoriat viittaavat hyödyllisiksi. Mutta maailmassa, jossa valtavia määriä tietoja on jo saatavilla ilmaiseksi, on järkevää kokeilla myös data-ensimmäinen lähestymistapa (Goldberg 2015) .
Kuten tässä luvussa olen osoittanut, tutkijat voivat oppia paljon katsomalla ihmisiä. Seuraavassa kolmessa luvussa kuvataan, kuinka voimme oppia enemmän ja erilaisia asioita, jos räätälöimme tietojenkeruumme ja toimimme vuorovaikutuksessa ihmisten kanssa suoraan kysymällä niistä kysymyksiä (luku 3), ajamalla kokeita (luku 4) ja osallistumalla niihin myös suoraan tutkimusprosessissa (luku 5).