Вялікія дадзеныя ствараюцца і сабраны урадамі для мэтаў, выдатных даследчых мэтаў. Выкарыстоўваючы гэтыя дадзеныя для даследавання, такім чынам, патрабуе перапрафілявання.
Ідэалізаваная выгляд сацыяльных даследаванняў ўяўляе сабе навуковец, які мае ідэю, а затым збор дадзеных, каб праверыць гэтую ідэю. Гэты стыль даследаванняў прыводзіць да шчыльнае прылеганія паміж пытаннем даследаванні і дадзеных, але яна абмежаваная, таму што індывідуальны даследчык часта не маюць рэсурсаў, неабходных для збору дадзеных, у якіх яны маюць патрэбу, такія як буйныя, багатыя і нацыянальна-рэпрэзентатыўных дадзеных. Таму, шмат сацыяльных даследаванняў у мінулым выкарыстоўвалі буйнамаштабныя сацыяльныя абследавання, такія як General Social Survey (GSS), амерыканскай Нацыянальнай выбарчай даследаванні (ANES) і панэлі вывучэння дынамікі даходаў (PSID). Гэтыя буйнамаштабныя абследавання, як правіла, кіруюць групай даследчыкаў, і яны прызначаны для стварэння дадзеных, якія могуць быць выкарыстаны многімі даследчыкамі. З-за мэтаў гэтых буйнамаштабных даследаванняў, вялікую ўвагу змяшчаецца ў распрацоўцы збору дадзеных і падрыхтоўкі выніковых дадзеных для выкарыстання даследчыкамі. Гэтыя дадзеныя з'яўляюцца даследчыкамі і для даследчыкаў.
Большасць сацыяльных даследаванняў з выкарыстаннем лічбавых крыніц з узростам, аднак, істотна адрозніваецца. Замест таго каб выкарыстоўваць дадзеныя, сабраныя даследнікамі і для даследчыкаў, ён выкарыстоўвае крыніцы дадзеных, якія былі створаныя і сабраныя прадпрыемствамі і ўрадамі для сваіх уласных мэтаў, такіх як атрыманне прыбытку, прадастаўленне паслуг, або ўвядзенне закона. Гэтыя дзелавыя і ўрадавыя крыніцы даных сталі называць вялікія дадзеныя. Правядзенне даследаванняў з вялікімі дадзенымі адрозніваецца, чым рабіць даследаванні з дадзенымі, якія першапачаткова быў створаны для правядзення даследаванняў. Параўнайце, напрыклад, сайт сацыяльнай медыя, такія як Twitter, з традыцыйнага апытання грамадскай думкі, такія як General Social Survey (GSS). Асноўныя мэты шчабятаць павінны прадастаўляць паслугі сваім карыстальнікам і атрымліваць прыбытак. У працэсе дасягнення гэтых мэтаў, Twitter стварае дадзеныя, якія могуць быць карысныя для вывучэння некаторых аспектаў грамадскага меркавання. Але, у адрозненне ад General Social Survey (GSS), Twitter не ў першую чаргу сканцэнтраваны на сацыяльных даследаваннях.
Тэрмін вялікія дадзеныя гнятліва расплывістым, і яна аб'ядноўвае самыя розныя рэчы. Для мэтаў сацыяльных даследаванняў, я думаю , што было б карысна правесці адрозненне паміж двума відамі буйных крыніц дадзеных :. Дзяржаўных адміністрацыйных дакументаў і дзелавых адміністрацыйных дакументаў Дзяржаўныя адміністрацыйныя запісу дадзеных, якія ствараюцца ўрадамі ў рамках сваёй паўсядзённай дзейнасці. Такога роду запісы былі выкарыстаныя дасьледчыкамі ў мінулым, такія як дэмографаў, якія вывучаюць нараджэнне, шлюб, і запісы аб смерці, але ўрады ўсё часцей збіраць і выпускаць падрабязныя запісы ў аналізаваным формах. Напрыклад, урад Нью-Ёрка ўстаноўлены лічбавыя вымяральныя прыборы ўнутры кожнага таксі ў горадзе. Гэтыя метры запісы ўсіх відаў дадзеных аб кожнай паездцы на таксі, уключаючы вадзіцеля, час пачатку і месца, час прыпынку і месцазнаходжання, а таксама платы за праезд. У даследаванні , якое я распавяду пазней у гэтым раздзеле, Генры Фарбэр (2015) перапрафіляваны гэтыя дадзеныя для вырашэння фундаментальнай дыскусіі па эканоміцы працы аб адносінах паміж пагадзіннай заработнай платы і колькасці адпрацаваных гадзін.
Другі асноўны тып вялікіх дадзеных для сацыяльных даследаванняў з'яўляецца бізнес - адміністрацыйныя запісу. Гэта дадзеныя, якія бізнес ствараюць і сабраць як частку сваёй паўсядзённай дзейнасці. Гэтыя бізнес - адміністрацыйныя запісу часта называюць лічбавыя сляды, і ўключаюць у сябе такія рэчы , як часопісы запытаў у пошукавых сістэмах, паведамленняў у сацыяльных сетках, і выклікаць запісы з мабільных тэлефонаў. Крытычна, гэтыя бізнес-адміністрацыйныя запісу не толькі онлайн-паводзін. Напрыклад, крамы, якія выкарыстоўваюць рэгістрацыя ад'езду сканеры ствараюць меры ў рэальным часе прадукцыйнасці працы. У даследаванні , якое я вам распавяду пазней у гэтым раздзеле, Аляксандр Мас і Энрыка Марэці (2009) перапрафіляваны гэты супермаркет дадзеных Дата ад'езду для вывучэння таго, як прадукцыйнасць працы працоўнае ўздзейнічаюць на прадукцыйнасць сваіх аднагодкаў.
Паколькі абодва з гэтых прыкладаў ілюструюць, ідэя перапрафілявання мае асноватворнае значэнне для вывучэння з вялікіх аб'ёмаў дадзеных. На маю вопыту, сацыёлагі і навукоўцы дадзеныя набліжаюцца да гэтага перапрафілявання зусім па-іншаму. Сацыёлагі, якія прывыклі да працы з дадзенымі, прызначанымі для даследавання, хутка ўказаць на праблемы з дадзенымі шматкроць выкарыстоўваць, ігнаруючы пры гэтым свае моцныя бакі. З іншага боку, навукоўцы дадзеных хутка ўказаць на перавагі дадзеных шматкроць выкарыстоўваць, ігнаруючы пры гэтым свае слабыя бакі. Натуральна, што лепшым падыходам было б гібрыд. Гэта значыць, даследчыкі павінны разумець характарыстыкі гэтых новых крыніц дадзеных-як добрыя, так і дрэнныя, а затым высветліць, як атрымаць з іх ўрокі. І, што план на астатнюю частку гэтай часткі. Далей я буду апісваць дзесяць агульных характарыстык бізнесу і дзяржаўных адміністрацыйных дадзеных. Пасля гэтага я апішу тры даследчых падыходаў, якія могуць быць выкарыстаны з гэтымі дадзенымі, падыходамі, якія добра падыходзяць да характарыстыках гэтых дадзеных.