Stór gögn eru búin til og safnað af fyrirtækjum og stjórnvöldum í öðrum tilgangi en rannsóknum. Notkun þessara gagna til rannsókna krefst þess vegna að endurtaka.
Fyrsta leiðin sem margir upplifa félagslega rannsóknir á stafrænu aldri eru í gegnum það sem oft er kallað stór gögn . Þrátt fyrir víðtæka notkun þessa hugtaks, er engin samstaða um hvað stór gögn eru jafnvel. Hins vegar er ein algengasta skilgreiningin á stórum gögnum lögð áhersla á "3 Vs": Bindi, fjölbreytni og hraða. Gróft er mikið af gögnum í fjölmörgum sniðum og það er búið til stöðugt. Sumir aðdáendur stóra gagna bætast einnig við öðrum "Vs" eins og Veracity and Value, en sumir gagnrýnendur bæta við Vs eins og Vague og Vacuous. Frekar en 3 "Vs" (eða 5 "Vs" eða 7 "Vs"), í þeim tilgangi að félagsleg rannsókn, held ég að betri staður til að byrja er 5 "Ws": Hver, hvað, hvar, hvenær , og hvers vegna. Reyndar held ég að mörg af þeim áskorunum og tækifærum sem stórar gagnasöfn hafa skapað fylgja af einum einum "W": Afhverju.
Á hliðstæðu aldri voru flest gögn sem notuð voru til félagslegrar rannsóknar búin til í þeim tilgangi að gera rannsóknir. Á stafrænu aldri er hins vegar mikið af gögnum búin til af fyrirtækjum og stjórnvöldum í öðrum tilgangi en rannsóknum, svo sem að veita þjónustu, skapa hagnað og stjórna lögum. Skapandi fólk hefur þó áttað sig á því að þú getir endurútfært þessar rannsóknir á fyrirtækinu og stjórnvöldum. Hugsaðu aftur að listrænu hliðstæðu í kafla 1, eins og Duchamp endurtekið fundinn hlut til að búa til list, geta vísindamenn nú endurtekið fundinn gögn til að búa til rannsóknir.
Þó að það sé án efa mikla möguleika til að endurfjármagna, að nota gögn sem ekki voru búin til í rannsóknum, kynnir einnig nýjar áskoranir. Bera saman, til dæmis, félagslega fjölmiðlaþjónustu, svo sem Twitter, með hefðbundnum skoðanakönnunum, svo sem almennum félagsskönnun. Helstu markmið Twitter eru að veita þjónustu við notendur sína og að græða. Almenn félagsskoðun er hins vegar lögð áhersla á að búa til almennar upplýsingar um félagslega rannsóknir, einkum til rannsókna á vegum almennings. Þessi munur á markmiðum þýðir að gögnin sem búið er til af Twitter og þeim sem stofnuð eru af almennum félagsmálum hafa mismunandi eiginleika, þó að bæði sé hægt að nota til að læra almenningsálitið. Twitter starfar í mælikvarða og hraða sem almennar félagsskoðanir geta ekki passað saman, en ólíkt almennum félagslegum könnunum, gerir Twitter ekki vandlega sýnishorn af notendum og vinnur ekki erfitt að viðhalda samanburðarhæfni með tímanum. Vegna þess að þessi tvö gögn eru svo ólík, er ekki skynsamlegt að segja að almenn félagsskoðun sé betri en Twitter eða öfugt. Ef þú vilt klukkustundarráðstafanir um alþjóðlegt skap (td Golder and Macy (2011) ), Twitter er best. Á hinn bóginn, ef þú vilt skilja langtíma breytingar á fjölgun viðhorfanna í Bandaríkjunum (td DiMaggio, Evans, and Bryson (1996) ) þá er almenn félagsskoðun besti kosturinn. Almennt frekar en að reyna að halda því fram að stórar gagnasöfn séu betri eða verri en aðrar gerðir gagna, mun þessi kafli reyna að skýra fyrir hvaða tegundir rannsóknarverkefna stórar gagnamagnar hafa aðlaðandi eiginleika og hvaða spurningar sem þeir gætu ekki verið tilvalið.
Þegar hugsað er um stórar gagnasöfnanir, beinast margir vísindamenn strax um gögn á netinu sem eru búnar til og safnað af fyrirtækjum, svo sem leitarvélum og félagsmiðlum. Hins vegar er þetta þröngt fókus skilið út tveimur öðrum mikilvægum uppsprettum stórum gögnum. Í fyrsta lagi eru fjölmennari gögn frá fyrirtækjum sem koma frá stafrænum tækjum í líkamlegu heiminum. Til dæmis, í þessum kafla mun ég segja þér frá rannsókn sem endurteknar upplýsingar um matvörubúð til að kanna hvernig framleiðni starfsmanna hefur áhrif á framleiðni jafnaldra sinna (Mas and Moretti 2009) . Síðan, í síðari kafla, mun ég segja þér frá vísindamönnum sem notuðu símtalaskrár frá farsímum (Blumenstock, Cadamuro, and On 2015) og innheimtuupplýsingar sem búnar eru til af rafmagnsveitum (Allcott 2015) . Eins og þessi dæmi sýna, eru stórar gagnagagnar fyrirtækja um meira en bara hegðun á netinu.
Annað mikilvæga uppspretta stórra gagna sem gleymdist með þröngum áherslum á hegðun á netinu er gögn sem ríkisstjórnir skapa. Þessar ríkisstjórnargögn, sem vísindamenn kalla stjórnvaldsrekstrarskrár , innihalda hluti eins og skattaskrár, skólaskrár og mikilvæg gögn um tölfræði (td skrár fæðinga og dauða). Ríkisstjórnir hafa búið til slíkar upplýsingar um, í sumum tilfellum, hundruð ára, og félagsvísindamenn hafa nýtt þau í næstum eins lengi og hafa verið félagsvísindamenn. Það sem hefur breyst, er hins vegar stafrænt, sem hefur gert það verulega auðveldara fyrir stjórnvöld að safna, senda, geyma og greina gögn. Til dæmis, í þessum kafla mun ég segja þér frá rannsókn sem endurtekin gögn frá stafrænum leigubílmælum New York City stjórnvalda til að takast á við grundvallarræðu um vinnuafli (Farber 2015) . Síðan, í síðari kafla, mun ég segja þér frá því hvernig stjórnvöld safnað atkvæðagreiðslur voru notaðar í könnun (Ansolabehere and Hersh 2012) og tilraun (Bond et al. 2012) .
Ég held að hugmyndin um endurfjármögnun sé grundvallaratriði í að læra af stórum gögnum, og áður en ég tala sérstaklega um eiginleika stórra gagnaheimilda (kafla 2.3) og hvernig hægt er að nota þær í rannsóknum (kafla 2.4) að bjóða upp á tvær stykki af almennum ráðleggingum um endurupptöku. Í fyrsta lagi getur verið freistandi að hugsa um andstæða sem ég hef sett upp sem að vera á milli "fundust" gögn og "hönnuð" gögn. Það er nálægt, en það er ekki alveg rétt. Jafnvel þó, frá sjónarhóli vísindamanna, eru stór gögn uppsprettur "fundust," þeir falla ekki bara af himni. Þess í stað eru gögn uppsprettur sem eru "fundin" af vísindamönnum hannaðar af einhverjum tilgangi. Vegna þess að "fundið" gögn eru hannaðar af einhverjum mæli ég alltaf að þú reynir að skilja eins mikið og mögulegt er um fólk og ferli sem búið til gögnin þín. Í öðru lagi, þegar þú ert repurposing gögn, það er oft mjög gagnlegt að ímynda sér hugsjón gagnasöfn fyrir vandamálið þitt og þá bera saman þá hugsjón gagnasöfn við þann sem þú notar. Ef þú hefur ekki safnað gögnum sjálfur, þá er líklegt að það sé mikilvægt munur á því sem þú vilt og hvað þú hefur. Að taka eftir þessum munum mun hjálpa til við að skýra hvað þú getur og getur ekki lært af gögnum sem þú hefur og það gæti bent til nýrra gagna sem þú ættir að safna.
Í reynslunni minni hafa félagsvísindamenn og gagnafræðingar tilhneigingu til að nálgast endurskipulagningu mjög öðruvísi. Félagsvísindamenn, sem eru vanir að vinna með gögn sem eru hönnuð til rannsókna, eru yfirleitt fljótir að benda á vandamál með endurupplýstum gögnum en hunsa styrkleika þess. Á hinn bóginn eru gögn vísindamenn yfirleitt fljótir að benda á ávinninginn af endurupplýstum gögnum en hunsa veikleika þess. Auðvitað er besta aðferðin blendingur. Það er að segja að vísindamenn þurfa að skilja eiginleika stórra gagnaheimilda - bæði gott og slæmt - og þá reikna út hvernig á að læra af þeim. Og það er áætlunin fyrir afganginn af þessum kafla. Í næsta kafla mun ég lýsa tíu algengum eiginleikum stórra gagnaheimilda. Í næsta kafla mun ég þá lýsa þrjár rannsóknaraðferðir sem geta gengið vel með slíkum gögnum.