Велики подаци креирају и прикупљају компаније и владе за друге сврхе осим истраживања. Коришћење ових података за истраживање, према томе, захтева поновно обнављање.
Први начин на који се многи људи сусрећу с друштвеним истраживањима у дигиталном добу је оно што се често назива великим подацима . Упркос широко распрострањеном коришћењу овог термина, не постоји консензус о томе који су велики подаци чак и. Међутим, једна од најчешћих дефиниција великих података фокусира се на "3 Вс": волумен, варијанту и брзину. Грубо, има пуно података у различитим форматима и стално се стиче. Неки љубитељи великих података додају и друге "Вс" као што су Верацити и Валуе, док неки критичари додају Вс као што су Вагуе анд Вацуоус. Уместо 3 "Вс" (или 5 "Вс" или 7 "Вс"), у сврху социјалног истраживања, мислим да је боље место за почетак 5 "Вс": ко, шта, гдје, када , и зашто. Заправо, мислим да многи изазови и могућности које ствара велики извор података прате само један "В": зашто.
У аналогном добу, већина података који су коришћени за друштвена истраживања створена су ради истраживања. Међутим, у дигиталном добу предузећа и владе креирају огромну количину података за друге сврхе осим истраживања, као што су пружање услуга, стварање профита и управљање законима. Креативни људи, међутим, схватили су да можете кориговати ове корпоративне и владине податке за истраживање. Размишљајући се о уметничкој аналогији у поглављу 1, баш као што је Дуцхамп поправио пронадјени предмет за стварање уметности, научници сада могу да се преобликују нађене податке како би створили истраживање.
Иако постоје несумњиво огромне могућности за поновну употребу, кориштење података који нису створени у сврху истраживања представљају и нове изазове. Упоредите, на пример, услугу социјалних медија, као што је Твиттер, са традиционалним истраживањем јавног мњења, као што је Општа друштвена анкета. Главни циљеви Твиттера су пружање услуга својим корисницима и остваривање профита. Општа друштвена анкета, с друге стране, усредсређена је на стварање података опште намене за друштвена истраживања, посебно за истраживање јавног мњења. Ова разлика у циљевима значи да подаци које је креирао Твиттер и који су створили Општа друштвена истраживања имају различита својства, иако се оба могу користити за проучавање јавног мњења. Твиттер функционише у скали и брзини коју Општа друштвена истраживања не могу подударати, али, за разлику од Опште друштвене анкете, Твиттер не пажљиво узима кориснике и не ради на одржавању упоредивости током времена. Пошто су ова два извора података толико различита, нема смисла рећи да је опште друштвено истраживање боље од Твиттера или обрнуто. Ако желите сатне мере глобалног расположења (нпр. Golder and Macy (2011) ), Твиттер је најбољи. С друге стране, ако желите да схватите дугорочне промјене у поларизацији ставова у Сједињеним Државама (нпр. DiMaggio, Evans, and Bryson (1996) ), онда је општа друштвена анкета најбољи избор. Уопштено говорећи, умјесто покушаја да се тврди да су велики извори података бољи или лошији од других врста података, ово поглавље ће покушати да разјасни за које врсте истраживачких питања велики извори података имају атрактивне особине и за које врсте питања не могу бити идеалан.
Када размишљају о великим изворима података, многи истраживачи одмах се фокусирају на онлине податке које су креирале и сакупљале компаније, као што су дневници претраживача и постови друштвених медија. Међутим, овај уски фокус оставља два важна извора великих података. Прво, све већи корпоративни велики извори података потичу од дигиталних уређаја у физичком свету. На пример, у овом поглављу ћу вам рећи о студији која је поправила податке о одјавама у супермаркету како би проучила како продуктивност радника утиче на продуктивност својих вршњака (Mas and Moretti 2009) . Затим, у каснијим поглављима, рећи ћу вам о истраживачима који су користили евиденцију позива са мобилних телефона (Blumenstock, Cadamuro, and On 2015) и податке о фактурисању које су створили електрични уређаји (Allcott 2015) . Како ти примери илуструју, корпоративни велики извори података су више него само онлине понашање.
Други важан извор великих података пропуштен уском фокусом на онлине понашање су подаци које су створиле владе. Ови подаци о влади, који истраживачи називају државним административним подацима , укључују ствари као што су пореска евиденција, школска евиденција и евиденција виталних статистика (нпр. Регистри рођења и смрти). Владе стварају ове врсте података за, у неким случајевима, стотине година, а друштвени научници их експлоатишу готово толико дуго колико су били друштвени научници. Међутим, оно што се променило је дигитализација, што је учинило драматично лакшим за владе да сакупљају, преносе, чувају и анализирају податке. На пример, у овом поглављу, рећи ћу вам о студији која је поправила податке из дигиталних такси метара у влади Њујорка, како би се ријешила фундаментална дебата у економији рада (Farber 2015) . Затим, у каснијим поглављима, рећи ћу вам како су коришћени подаци о гласању (Ansolabehere and Hersh 2012) истраживању (Ansolabehere and Hersh 2012) и експеримент (Bond et al. 2012) .
Мислим да је идеја о поновном усавршавању од суштинског значаја за учење из великих извора података, и тако, пре него што детаљније разговарамо о особинама великих извора података (дио 2.3) и како се оне могу користити у истраживању (дио 2.4), волио бих да понудимо два дела општих савета о поновном успостављању. Прво, може бити замишљено размишљати о контрасту који сам поставио као између "пронађених" података и "дизајнираних" података. То је близу, али то није сасвим исправно. Иако, из перспективе истраживача, велики извори података се "налазе", не пада само са неба. Умјесто тога, изворе података које "проналазе" истраживачи дизајнирао је неко за неку сврху. Пошто су "пронађени" подаци дизајнирани од стране неког, увек препоручујем да покушате да разумијете колико год је то могуће о људима и процесима који су креирали ваше податке. Друго, када преименујете податке, често је изузетно корисно да замислите идеалан скуп података за ваш проблем, а затим упоредите тај идеални скуп података са оном који користите. Ако нисте сакупљали своје податке, вероватно ће бити важне разлике између онога што желите и онога што имате. Уочавајући ове разлике ће вам помоћи да разјасните шта можете и не можете да научите из података које имате, и то може да вам предложи нове податке које бисте требали сакупити.
По мом искуству, научници у друштву и научници података имају тенденцију да се прилагоде различито. Друштвени научници који су навикли да раде са подацима намењеним истраживању, обично брзо указују на проблеме са измењеним подацима, а игноришу његове снаге. С друге стране, научници података обично брзо истичу предности поновљених података, а игноришу његове слабости. Наравно, најбољи приступ је хибрид. То значи да истраживачи морају разумјети карактеристике великих извора података - како добре тако и лоше - а онда схватити како их научити. И, то је план за остатак овог поглавља. У следећем одељку ћу описати десет заједничких карактеристика великих извора података. Затим, у следећем одељку описаћу три истраживања која могу добро радити са таквим подацима.