Вялікія крыніцы дадзеных ўсюды, але іх выкарыстанне сацыяльных даследаванняў можа быць складаней. На маю вопыту, ёсць нешта накшталт "не бясплатны абед» правілы для дадзеных: калі вы не прыклалі шмат працы збіраць яго, то вы, верагодна, прыйдзецца паставіць у шмат працы думаць пра гэта і аналізуючы яго.
Буйныя крыніцы дадзеных сёння, і, верагодна, заўтра будзе, як правіла, маюць 10 характарыстык. Тры з іх, як правіла (але не заўсёды) карысныя для даследавання: вялікі, заўсёды на, і інэртныя. Сем, як правіла (але не заўсёды) праблематычныя для даследавання: няпоўны, недаступнага, нерепрезентативность, дрэйфуе, алгарытмічная пасаромлена, брудныя, і адчувальныя. Многія з гэтых характарыстык у канчатковым рахунку ўзнікаюць з-за вялікімі крыніцы дадзеных не былі створаны з мэтай сацыяльных даследаванняў.
На аснове ідэй у гэтай чале, я думаю, што ёсць тры асноўныя спосаб, што вялікія крыніцы дадзеных будуць найбольш каштоўнымі для сацыяльных даследаванняў. Па-першае, яны могуць дазволіць даследчыкам выбіраць паміж канкуруючымі тэарэтычнымі прадказаннямі. Прыклады такога роду працы ўключаюць Farber (2015) (кіроўцаў таксі Нью - Ёрк) і King, Pan, and Roberts (2013) (цэнзура ў Кітаі). Па-другое, вялікія крыніцы дадзеных могуць дазволіць палепшанае вымярэнне для палітыкі праз бягучай надвор'я. Прыклад такога роду працы з'яўляецца Ginsberg et al. (2009) і Ginsberg et al. (2009) (Google Flu Trends). Нарэшце, вялікія крыніцы дадзеных могуць дапамагчы даследчыкам зрабіць ацэнкі прычынных без правядзення эксперыментаў. Прыкладамі такога роду працы з'яўляюцца Mas and Moretti (2009) (Peer эфекты на прадукцыйнасць) і Einav et al. (2015) (эфект стартавай цаны на аўкцыёне на eBay). Кожны з гэтых падыходаў, аднак, як правіла, патрабуе даследчыкаў, каб прынесці шмат дадзеных, такія як вызначэнне велічыні, якая мае важнае значэнне для ацэнкі або дзве тэорыі, якія робяць канкуруючыя прадказанні. Такім чынам, я думаю, што лепшы спосаб думаць аб тым, што вялікія крыніцы дадзеных могуць зрабіць тое, што яны могуць дапамагчы даследчыкам, якія могуць задаваць цікавыя і важныя пытанні.
У заключэнне, я думаю, што гэта варта ўлічыць, што буйныя крыніцы дадзеных могуць мець істотны ўплыў на адносіны паміж дадзенымі і тэорыяй. Да гэтага часу ў гэтай чале узяты падыход тэорыі кіраваных эмпірычных даследаванняў. Але вялікія крыніцы дадзеных таксама дазваляюць даследчыкам зрабіць эмпірычны прыводнае тэарэтызаванне. Гэта значыць, шляхам стараннага назапашвання эмпірычных фактаў, мадэляў і галаваломак, даследчыкі могуць будаваць новыя тэорыі. Гэтая альтэрнатыва, дадзеныя першага падыход да тэорыі не з'яўляецца новым, і гэта было найбольш моцна агучаны Барні Глейзер і Ансельм Штраўс (1967) з іх заклікам да абгрунтаванай тэорыі. Такі падыход дадзеных першага, аднак, не азначае «канец тэорыі» , як было заяўлена ў некаторых з журналістыкі вакол даследаванняў у лічбавую эпоху (Anderson 2008) . Хутчэй, як змены навакольнага асяроддзя дадзеных, варта чакаць змяненне балансу ў адносінах паміж дадзенымі і тэорыяй. У свеце, дзе збор дадзеных быў дарагім, гэта мела сэнс збіраць толькі тыя дадзеныя, якія тэорыі мяркуюць, будуць найбольш карыснымі. Але ў свеце , дзе велізарныя аб'ёмы дадзеных , якія ўжо даступныя бясплатна, то мае сэнс паспрабаваць падыход на дадзеныя першага (Goldberg 2015) .
Як было паказана ў гэтым раздзеле, даследчыкі могуць шмат чаму навучыцца, назіраючы за людзьмі. У наступных трох раздзелах я апішу, як мы можам даведацца больш і розныя рэчы, калі мы адаптаваць нашу калекцыю дадзеных і ўзаемадзейнічаць з людзьмі больш непасрэдна, задаючы ім пытанні (кіраўнік 3), правядзенне эксперыментаў (кіраўнік 4), і нават з удзелам іх ў працэсе даследавання непасрэдна (раздзел 5).