Вялікія дадзеныя ствараюцца і збіраюцца кампаніямі і урадамі іншых , чым у даследчых мэтах. Выкарыстоўваючы гэтыя дадзеныя для даследавання, такім чынам, патрабуе перапрафілявання.
Першы спосаб , што многія людзі сутыкаюцца сацыяльныя даследаванні ў эпоху лічбавых тэхналогій праз тое , што часта называюць вялікія дадзеныя. Нягледзячы на шырокае выкарыстанне гэтага тэрміна не існуе адзінага меркавання пра тое, што вялікія дадзеныя нават ёсць. Тым не менш, адзін з найбольш распаўсюджаных вызначэнняў вялікіх дадзеных факусуюцца на «3» Vs: аб'ём, разнастайнасць і хуткасці. Груба кажучы, ёсць шмат дадзеных, у розных фарматах, і яна ствараецца пастаянна. Некаторыя аматары вялікіх дадзеных таксама дадаць іншыя «супраць», такіх як праўдзівасць і каштоўнасць, у той час як некаторыя крытыкі дадаць Vs такога як нявызначаныя і бессэнсоўная. Замест таго, 3 «супраць» (або 5 "супраць" або 7 «супраць»), для мэтаў сацыяльных даследаванняў, я думаю, лепш за ўсё пачаць з 5 «Ws»: Хто, Што, Дзе, Калі , і чаму. На самай справе, я думаю, што многія з праблем і магчымасцяў, якiя ствараюцца вялікімі крыніцамі дадзеных вынікаюць з усяго адзін «W»: Чаму.
У аналагавым ўзросце, большая частка дадзеных, якія былі выкарыстаныя для сацыяльных даследаванняў было створана з мэтай правядзення даследаванняў. У эпоху лічбавых тэхналогій, аднак, вялікая колькасць дадзеных ствараецца кампаніямі і урадамі для мэт, выдатных даследчых мэтаў, такіх як прадастаўленне паслуг, атрыманне прыбытку, а таксама ўвядзенне законаў. Творчыя людзі, аднак, зразумелі , што вы можаце паўторна выкарыстоўваць гэтыя карпаратыўныя і ўрадавыя дадзеныя для даследаванняў. Успамінаючы мастацтва аналогіі ў главе 1, гэтак жа, як дзюша пераарыентаваныя знойдзены аб'ект для стварэння твораў мастацтва, навукоўцы зараз могуць перапрафіляваць знойдзеныя дадзеныя для стварэння даследаванняў.
Нягледзячы на тое, несумненна, ёсць вялізныя магчымасці для перапрафілявання, выкарыстоўваючы дадзеныя, якія не былі створаны для мэт даследавання таксама стварае новыя праблемы. Параўнайце, напрыклад, службы сацыяльных медыя, такія як Twitter, з традыцыйным апытаннем грамадскай думкі, такія як General Social Survey. Асноўныя мэты шчабятаць павінны прадастаўляць паслугі сваіх карыстальнікаў і атрымліваць прыбытак. General Social Survey, з другога боку, накіраваны на стварэнне дадзеных агульнага прызначэння для сацыяльных даследаванняў, у прыватнасці, для вывучэння грамадскай думкі. Гэтая розніца ў мэты азначае, што дадзеныя, створаныя Twitter і створаны General Social Survey маюць розныя ўласцівасці, хоць абодва могуць быць выкарыстаны для вывучэння грамадскай думкі. Twitter працуе ў маштабе і хуткасці, што General Social Survey не можа параўнацца, але, у адрозненне ад General Social Survey, Twitter не ўважліва прыклады карыстальнікаў і не працаваць, каб захаваць сумяшчальнасць з цягам часу. Паколькі гэтыя дзве крыніцы дадзеных настолькі розныя, што не мае сэнсу казаць пра тое, што General Social Survey лепш, чым Twitter ці наадварот. Калі вы хочаце пагадзіннай меры глабальнага настрою (напрыклад, Golder and Macy (2011) ), Twitter лепш. З іншага боку, калі вы хочаце , каб зразумець доўгатэрміновыя змены ў палярызацыі адносін у Злучаных Штатах (напрыклад, DiMaggio, Evans, and Bryson (1996) ), то General Social Survey з'яўляецца лепшым выбарам. У больш агульным сэнсе, а не спрабаваць сцвярджаць, што вялікія крыніцы дадзеных лепш ці горш, чым іншыя тыпы дадзеных, у гэтай чале будзе спрабаваць растлумачыць, якія віды даследчых пытанняў, вялікія крыніцы дадзеных маюць прывабныя ўласцівасці і якія віды пытанняў, якія яны не маглі б быць ідэальна.
Калі вы думаеце пра вялікія крыніцах дадзеных, многія даследчыкі адразу засяродзіцца на аператыўных дадзеных, створаных і сабраных кампаніямі, такія як часопісы ў пошукавых сістэмах і сацыяльная медыя паведамленняў. Тым не менш, гэты вузкі фокус сыходзіць два іншых важных крыніц вялікіх аб'ёмаў дадзеных. Па-першае, усё больш карпаратыўных вялікія крыніцы дадзеных прыходзяць ад лічбавых прылад, у фізічным свеце. Напрыклад, у гэтым раздзеле я распавяду вам аб даследаванні, адаптаванага супермаркет дадзеных аб рэгістрацыі заезду, каб вывучыць , як прадукцыйнасць працы работніка ўздзейнічаюць на прадукцыйнасць сваіх аднагодкаў (Mas and Moretti 2009) . Затым, у наступных раздзелах я распавяду вам пра даследчыкаў , якія выкарыстоўвалі запісу званкоў з мабільных тэлефонаў (Blumenstock, Cadamuro, and On 2015) і аплатныя дадзеныя , створаныя энэргапрадпрыемствах (Allcott 2015) . Як паказваюць гэтыя прыклады ілюструюць, карпаратыўныя вялікія крыніцы дадзеных больш, чым проста онлайн-паводзін.
Другі важны крыніца вялікіх дадзеных, прапушчаных па вузкай накіраванасці на онлайн-паводзінах дадзеных, створаныя ўрадамі. Гэтыя ўрадавыя дадзеныя, якія даследчыкі называюць дзяржаўныя адміністрацыйныя запісу, ўключаюць у сябе такія рэчы, як падатковыя справаздачы, школьныя запісу, і жыццёва важных статыстычных справаздач (напрыклад, рэестры нараджэння і смерці). Ўрада стваралі такога роду дадзеных для, у некаторых выпадках, сотні гадоў, і грамадазнаўцы эксплуатавалі іх амаль да тых часоў, як там былі грамадазнаўцы. Што змянілася, аднак, аблічбоўка, якое зрабіла яго значна лягчэй для ўрада збіраць, перадаваць, захоўваць і аналізаваць дадзеныя. Напрыклад, у гэтым раздзеле я распавяду вам аб даследаванні, адаптаваных дадзеныя з лічбавымі метраў Нью - Ёрк ўрада таксі для вырашэння фундаментальнай дыскусіі па эканоміцы працы (Farber 2015) . Затым, у наступных раздзелах я распавяду вам пра тое , як дзяржаўныя сабраных запісу голасу былі выкарыстаныя у апытанні (Ansolabehere and Hersh 2012) і эксперымент (Bond et al. 2012) і (Bond et al. 2012) .
Я думаю, што ідэя перапрафілявання мае асноватворнае значэнне для вывучэння з буйных крыніц дадзеных, і таму, перш чым казаць больш канкрэтна пра ўласцівасці вялікіх крыніц дадзеных (раздел 2.3) і як яны могуць быць выкарыстаны ў навуковых даследаваннях (раздел 2.4), я хацеў бы прапанаваць дзве частак агульных саветаў аб перапрафіляванні. Па-першае, гэта можа быць павабна думаць пра кантрасце, што я наладзіў як паміж «знойдзеных» зьвестак і "сканструяванай» дадзеных. Гэта блізка, але гэта не зусім дакладна. Нягледзячы на тое, з пункту гледжання даследчыкаў, вялікія крыніцы дадзеных "знайшлі", яны не проста падаюць з неба. Замест гэтага, крыніцы дадзеных, якія "знайшлі" даследчыкі распрацаваны кімсьці для нейкай мэты. Таму што «знойдзеныя» дадзеныя прызначаныя кімсьці, я заўсёды рэкамендую, што вы спрабуеце зразумець, як мага больш аб людзях і працэсах, якія стварылі свае дадзеныя. Па-другое, калі вы перапрафілявання дадзеныя, часта бывае вельмі карысна прадставіць ідэальны набор дадзеных для вашай праблемы, а затым параўнаць гэта ідэальны набор дадзеных з той, якую вы выкарыстоўваеце. Калі вы не збіраць вашыя дадзеныя самастойна, то, верагодна, будуць істотныя адрозненні паміж тым, што вы хочаце і што ў вас ёсць. Заўважаючы гэтыя адрозненні дапаможа растлумачыць, што вы можаце і не можаце даведацца з дадзеных, якія вы маеце, і гэта магло б прапанаваць новыя дадзеныя, якія вы павінны сабраць.
На маю вопыту, сацыёлагі і навукоўцы дадзеных, як правіла, набліжаюцца перапрафілявання вельмі па-рознаму. Сацыёлагі, якія прывыклі працаваць з дадзенымі, прызначаных для навуковых даследаванняў, як правіла, хутка ўказаць на праблемы з дадзенымі шматкроць выкарыстоўваць, ігнаруючы пры гэтым свае моцныя бакі. З іншага боку, навукоўцы дадзеных, як правіла, хутка ўказаць на перавагі дадзеных шматкроць выкарыстоўваць, ігнаруючы пры гэтым свае слабыя бакі. Натуральна, лепшы падыход ўяўляе сабой гібрыд. Гэта значыць, даследчыкі павінны зразумець характарыстыкі буйных крыніц-і дадзеных добрых і дрэнных, а затым высветліць, як атрымаць з іх ўрокі. І, што план для пакінутай часткі гэтай часткі. У наступным раздзеле я апішу дзесяць агульных характарыстык буйных крыніц дадзеных. Затым, у наступным раздзеле я апішу тры даследчых падыходаў, якія могуць добра працаваць з такімі дадзенымі.