Големите извори на податоци се насекаде, но нивното користење за социјални истражувања може да биде незгодно. Според моето искуство, има нешто како правило за "без ручек" за податоци: ако не вложувате многу работа во собирањето, тогаш најверојатно ќе треба да се стави во многу работа размисли за тоа и анализирајќи го.
Големите извори на податоци денес и најверојатно утре ќе имаат тенденција да имаат 10 карактеристики. Три од нив се генерално (но не секогаш) корисни за истражувања: големи, секогаш и нереактивни. Седум се генерално (но не секогаш) проблематични за истражување: нецелосни, недостапни, нерепрезентативни, лебдат, алгоритамски збунети, валкани и чувствителни. Многу од овие карактеристики во крајна линија се јавуваат бидејќи не се создаваат големи извори на податоци за целите на социјалните истражувања.
Врз основа на идеите во ова поглавје, мислам дека постојат три главни начини дека големите извори на податоци ќе бидат најзначајни за општествените истражувања. Прво, тие можат да им овозможат на истражувачите да одлучуваат помеѓу конкурентните теоретски предвидувања. Примери за овој вид работа се Farber (2015) (Њујорк Таксист) и King, Pan, and Roberts (2013) (цензура во Кина). Второ, големите извори на податоци можат да овозможат подобрено мерење за политиката преку сега емитување. Пример за ваков вид на работа е Ginsberg et al. (2009) (Гугл трендови на грип). Конечно, големите извори на податоци може да им помогнат на истражувачите да направат каузални проценки без да трпат експерименти. Примери за овој вид на работа се Mas and Moretti (2009) (врснички ефекти врз продуктивноста) и Einav et al. (2015) (ефект на почетна цена на аукциите на eBay). Секој од овие пристапи, сепак, има тенденција да бара од истражувачите да донесат многу податоци, како што е дефинирањето на количина која е важна за проценка или две теории кои прават конкурентни предвидувања. Така, мислам дека најдобриот начин да се размислува за тоа што можат да направат големите извори на податоци е дека тие можат да им помогнат на истражувачите кои можат да поставуваат интересни и важни прашања.
Пред да завршам, мислам дека вреди да се земе предвид дека големите извори на податоци може да имаат важен ефект врз односот помеѓу податоците и теоријата. Досега, ова поглавје го зеде пристапот на теориски-ориентирани емпириски истражувања. Но, големите извори на податоци, исто така, им овозможуваат на истражувачите да направат емпириски теориски водич . Тоа е, преку внимателна акумулација на емпириски факти, модели и загатки, истражувачите можат да изградат нови теории. Овој алтернативен, прв податок за теоријата не е нов, и најсилно беше артикулиран од Барни Гласер и Анселм Штраус (1967) со нивниот повик за заснована теорија . Меѓутоа, овој пристап до податоци, сепак, не значи "крај на теоријата", како што се тврди во некои од новинарството околу истражување во дигиталната ера (Anderson 2008) . Наместо тоа, како што се менува околината на податоците, треба да очекуваме ребаланс на односот помеѓу податоците и теоријата. Во свет каде што собирањето на податоци е скапо, имало смисла да се соберат само податоците што теориите покажуваат дека ќе бидат најкорисни. Но, во свет каде што огромни количини на податоци веќе се достапни бесплатно, има смисла да се обиде и пристапот до податоци (Goldberg 2015) .
Како што покажав во ова поглавје, истражувачите можат многу да учат со гледање луѓе. Во следните три поглавја, ќе опишам како можеме да научиме повеќе и различни работи ако приспособиме нашата колекција на податоци и комуницираме со луѓето подиректно, поставувајќи ги прашања (поглавје 3), водење на експерименти (поглавје 4), па дури и нивно вклучување директно во истражувањето (поглавје 5).