Big data luodaan ja kerätään hallitusten muuhun tarkoitukseen kuin tutkimukseen. Käyttämällä tätä tietoa tutkimuksen, siis vaatii repurposing.
Idealisoitu näkemys yhteiskunnan tutkimuksen kuvittelee tiedemies ottaa ajatus ja sitten kerätä tietoja testata tätä ajatusta. Tämä tyyli tutkimus johtaa tiukkaan sovitukseen välillä tutkimuskysymys ja tiedot, mutta se on rajattu yksittäinen tutkija ei usein ole tarvittavia resursseja kerätä tarvitsemansa tiedot, kuten suuret, rikkaat ja kansallisesti edustavia tietoja. Siksi paljon yhteiskunnan tutkimuksen aiemmin on käytetty suuria sosiaalisia tutkimuksia, kuten General Social Survey (GSS), American National Election Study (ANES), ja paneelin tutkimus Income Dynamics (PSID). Tarvittavia laajamittaisia tutkimus yleensä hoitaa tutkijaryhmä ja ne on suunniteltu luomaan tietoja, joita voidaan käyttää monet tutkijat. Koska tavoitteita näiden suuren mittakaavan tutkimuksia, huolella otetaan suunnittelussa tiedonkeruun ja valmistella saadut tulokset tutkijoiden käyttöön. Nämä tiedot ovat tutkijoiden ja tutkijoille.
Useimmat sosiaalisen tutkimuksen avulla digitaaliaikaan lähteistä, mutta on täysin erilainen. Sen sijaan käyttää keräämien tutkijoiden ja tutkijoille, se käyttää tietolähteitä, jotka on luotu ja kerättiin yritysten ja hallitusten omiin tarkoituksiinsa, kuten voiton, joka tarjoaa palveluja, tai annetaan lainsäädäntöä. Nämä yritysten ja valtion tietolähteet ovat tulleet kutsua iso data. Tekee tutkimusta iso data on erilainen kuin tekee tutkimusta tietoja, jotka on alun perin luotu tutkimusta. Vertaa esimerkiksi sosiaalisen median sivusto, kuten Twitter, jossa on perinteinen mielipidemittauksessa kuten General Social Survey (GSS). Twitter n päätavoitteet ovat palvelun tarjoamiseksi sen käyttäjille ja tehdä voittoa. Prosessissa on saavuttaa nämä tavoitteet, Twitter luo tietoja, jotka saattavat olla hyödyllisiä opiskeluun tiettyjä näkökohtia yleisen mielipiteen. Mutta, toisin kuin General Social Survey (GSS), Twitter ei ole ensisijaisesti keskittynyt sosiaalisessa tutkimukseen.
Termi iso data on turhauttavan epämääräinen, ja se koottu monia eri asioita. Tarkoitetaan sosiaalisen tutkimuksen, minusta on hyödyllistä erottaa kahdenlaisia iso tietolähteiden: hallituksen hallinnollisiin rekistereihin ja liiketoiminnan hallinnollisia aineistoja. Hallitus hallinnolliset tiedot ovat tietoja, jotka on luotu hallitusten osana rutiinitoimintoja. Tällaisia levyjä on käytetty tutkijoiden aiemmin-kuten väestötieteilijät tutkimalla syntymä, avioliitto ja kuolema kirjaa-, mutta hallitukset ovat yhä kerätä ja vapauttaen yksityiskohtaista kirjaa analysoitavissa muodoissa. Esimerkiksi New Yorkin hallituksen asennettu digitaalinen metrin sisällä jokainen taksi kaupungissa. Nämä mittarit tallentaa kaikenlaisia tietoja kunkin taksimatkan kuljettaja mukaan lukien, alkamisaika ja sijainti, lopetusaika ja sijainti, ja hinta. Tutkimuksessa, joka Kerron myöhemmin tässä luvussa, Henry Farber (2015) repurposed nämä tiedot puuttua perusteellista keskustelua työn taloustieteen suhteesta tuntipalkka ja työtuntien.
Toinen tärkeä tyyppi big data sosiaalisen tutkimuksen liiketoimintaa hallinnollinen kirjaa. Nämä ovat tietoja, liiketoiminnan luoda ja kerätä osana rutiinitoimintoja. Nämä liiketoiminta hallinnolliset tiedot ovat usein sanottu digitaalinen jälkiä, ja ne sisältävät asioita, kuten hakukone kyselylokien, sosiaalisen median viestejä ja soittaa kirjaa matkapuhelimista. Kriittisesti, näiden yritysten hallinnollisia tietoja ei ole pelkästään verkossa käyttäytymistä. Esimerkiksi myymälöitä, jotka käyttävät check-out skannerit luovat reaaliaikaisia toimenpiteitä työntekijöiden tuottavuutta. Tutkimuksessa, joka Kerron siitä myöhemmin tässä luvussa, Alexandre Mas ja Enrico Moretti (2009) repurposed tämä supermarket uloskirjautuminen data tutkia, miten työntekijöiden tuottavuus vaikutti tuottavuutta heidän ikäisensä.
Koska molemmat esimerkit kuvaavat, ajatus repurposing on olennaista oppia iso data. Kokemukseni, yhteiskuntatieteilijät ja tietojen tutkijat lähestyä tätä repurposing hyvin eri tavalla. Yhteiskuntatieteilijät, jotka ovat tottuneet työskentelemään tietoihin suunniteltu tutkimukseen, ovat nopeasti muistuttaa ongelmia repurposed tietoja jättäen sen vahvuuksia. Toisaalta, data tutkijat ovat nopea huomauttaa hyödyt repurposed tietojen ja ohitamme sen heikkoudet. Luonnollisesti paras lähestymistapa olisi hybridi. Eli tutkijoiden on ymmärtää ominaisuudet näiden uusien lähteiden tietojen sekä hyviä että huonoja-ja sitten selvittää, miten oppia niistä. Ja se on suunnitelma jäljellä tämän luvun. Seuraavaksi aion kuvata kymmenen yhteisiä piirteitä yritysten ja valtion hallinnollisia tietoja. Sen jälkeen aion kuvata kolme tutkimusta lähestymistapoja, joita voidaan käyttää näiden tietojen lähestymistapoja, jotka sopivat hyvin ominaisuuksia tämän tiedon.