Големи податоци се создаваат и собираат од страна на компании и влади за други цели освен за истражување. Според тоа, користењето на овие податоци за истражување, бара повторна употреба.
Првиот начин на кој многу луѓе се среќаваат со социјални истражувања во дигиталната ера е преку она што честопати се нарекува голем податок . И покрај широко распространетата употреба на овој термин, не постои консензус за тоа што се големи податоци. Меѓутоа, една од најчестите дефиниции за големи податоци се фокусира на "3 Vs": волумен, разновидност и брзина. Грубо, има многу податоци, во различни формати, и се создава постојано. Некои обожаватели на големи податоци, исто така, додаваат и други "Vs", како што се "Веродостојност и вредност", додека некои критичари додаваат Vs, како што се Нејасни и Вакуозни. Наместо 3 "Vs" (или 5 "Vs" или 7 "Vs"), за цели на социјални истражувања, мислам подобро место за почеток е 5 "Ws": Кој, што, каде, кога , и зошто. Всушност, мислам дека многу од предизвиците и можностите создадени од големи извори на податоци следат само од еден "З": зошто.
Во аналогната возраст, најголем дел од податоците кои биле користени за општествено истражување биле создадени со цел да се направат истражувања. Меѓутоа, во дигиталната ера, компаниите и владите создаваат огромна количина на податоци за други цели освен за истражување, како што се обезбедување услуги, генерирање профит и администрирање на законите. Креативните луѓе, сепак, сфатија дека можете да ги реинвестирате овие корпоративни и владини податоци за истражување. Размислувајќи за аналогијата на уметноста во поглавјето 1, исто како што Duchamp го вратил пронајдениот објект за создавање на уметност, научниците сега можат да ги рефлектираат пронајдените податоци за да создадат истражување.
Иако постојат несомнено огромни можности за повторна употреба, користењето на податоци кои не се создадени за потребите на истражувањето, исто така, претставуваат нови предизвици. Споредете, на пример, социјална медиумска услуга, како Твитер, со традиционално истражување на јавното мислење, како што е Општата социјална анкета. Главните цели на Твитер се да обезбедат услуга на своите корисници и да направат профит. Општата социјална анкета, од друга страна, е фокусирана на создавање на податоци од општа намена за социјални истражувања, особено за истражување на јавното мислење. Оваа разлика во целите значи дека податоците создадени од Твитер и оние создадени од Општата социјална анкета имаат различни својства, иако и двете можат да се користат за проучување на јавното мислење. Твитер работи во обем и брзина што Општата социјална анкета не може да се совпадне, но, за разлика од Општата социјална анкета, Твитер не ги зема внимателно корисниците и не работи напорно за да ја одржи споредливоста со текот на времето. Бидејќи овие два извори на податоци се толку различни, нема смисла да се каже дека Општата социјална анкета е подобра од Твитер или обратно. Ако сакате час мерки на глобално расположение (на пример, Golder and Macy (2011) ), Твитер е најдобро. Од друга страна, ако сакате да ги разберете долгорочните промени во поларизацијата на ставовите во Соединетите Американски Држави (на пример, DiMaggio, Evans, and Bryson (1996) ), тогаш општото социјално истражување е најдобриот избор. Поопшто, наместо да се обидуваме да тврдиме дека големите извори на податоци се подобри или полоши од другите типови на податоци, ова поглавје ќе се обиде да разјасни за кои видови истражувачки прашања големите извори на податоци имаат атрактивни својства и за кои видови прашања тие не можат идеален.
Кога размислуваат за големи извори на податоци, многу истражувачи веднаш се фокусираат на онлајн-податоци создадени и собрани од страна на компании, како што се логовите на пребарувачот и социјалните медиуми. Сепак, овој тесен фокус ги остава другите два важни извори на големи податоци. Прво, сè поголемите корпоративни извори на податоци доаѓаат од дигитални уреди во физичкиот свет. На пример, во ова поглавје, ќе ви кажам за една студија која ги пренасочила податоците за проверка на супермаркетите за да проучи како продуктивноста на работникот е погодена од продуктивноста на нејзините врсници (Mas and Moretti 2009) . Потоа, во подоцнежните поглавја, ќе ви кажам за истражувачите кои користеле записи за повици од мобилни телефони (Blumenstock, Cadamuro, and On 2015) и податоци за фактурирање создадени од електрични комунални претпријатија (Allcott 2015) . Како што илустрираат овие примери, големите извори на податоци на претпријатието се повеќе од само онлајн однесување.
Вториот важен извор на големи податоци пропуштен од тесен фокус на онлајн-однесувањето е податоците создадени од владите. Овие владини податоци, кои истражувачите ги нарекуваат владини административни досиеја , вклучуваат работи како што се даночни досиеја, училишни досиеја и записи од виталните статистики (на пр., Регистри за раѓања и смртни случаи). Владите создаваат вакви податоци за, во некои случаи, стотици години, а општествените научници ги експлоатирале речиси скоро додека имало општествени научници. Меѓутоа, она што се смени е дигитализација, што го направи драматично полесно за владите да собираат, пренесуваат, складираат и анализираат податоци. На пример, во ова поглавје, ќе ви кажам за една студија која ги реорганизирала податоците од дигиталните таксомери на владата на Њујорк, со цел да се осврне на фундаменталната дебата во економијата на трудот (Farber 2015) . Потоа, во подоцнежните поглавја, ќе ви кажам за тоа како биле користени државни записи за гласање во анкетата (Ansolabehere and Hersh 2012) и експеримент (Bond et al. 2012) .
Мислам дека идејата за повторување е од фундаментално значење за учење од големи извори на податоци, и така, пред да зборуваме поконкретно за својствата на големите извори на податоци (дел 2.3) и како тие можат да се користат во истражувањето (дел 2.4), би сакал да понудат две општи совети во врска со повторувањето. Прво, може да биде примамливо да се размислува за контрастот што сум го поставил помеѓу "пронајдени" податоци и "дизајнираните" податоци. Тоа е близу, но тоа не е сосема во ред. Иако, од перспектива на истражувачите, голем број извори на податоци се "пронајдени", тие не само што паѓаат од небото. Наместо тоа, изворите на податоци што ги "наоѓаат" истражувачите се дизајнирани од некој за некоја цел. Бидејќи "пронајдени" податоци се дизајнирани од некој, јас секогаш препорачувам да се обидете да ги разберете што е можно повеќе за луѓето и процесите што ги создале вашите податоци. Второ, кога пренасочувате податоци, често е исклучително корисно да се замисли идеалниот набор на податоци за вашиот проблем, а потоа да го споредите тој идеален податочен назив со оној што го користите. Ако не сте ги собрале вашите податоци сами по себе, најверојатно ќе има важни разлики помеѓу она што го сакате и она што го имате. Забележувајќи ги овие разлики ќе ви помогнеме да разјасниш што можеш и не можеш да научиш од податоците што ги имаш, и може да сугерира нови податоци што треба да ги собереш.
Според моето искуство, научниците од областа на социологијата и научниците за податоци имаат тенденција да приоѓаат многу поинаку. Општествените научници, кои се навикнати да работат со податоци наменети за истражување, најчесто ги посочуваат проблемите со преправени податоци, игнорирајќи ги неговите предности. Од друга страна, научниците за податоци вообичаено ги посочуваат придобивките од повторните податоци, игнорирајќи ги неговите слабости. Се разбира, најдобриот пристап е хибрид. Тоа е, истражувачите треба да ги разберат карактеристиките на големите извори на податоци - и добри и лоши - и потоа да дознаат како да научат од нив. И, тоа е планот за остатокот од ова поглавје. Во следниот дел, ќе опишете десет заеднички карактеристики на големи извори на податоци. Потоа, во следниот дел, ќе опишам три истражувачки пристапи кои можат да работат добро со вакви податоци.