Велики извори података су свуда, али њихово кориштење за друштвена истраживања може бити незгодно. По мом искуству, постоји нешто попут правила "без бесплатног ручка" за податке: ако не уложите пуно посла на сакупљање, онда ћете вероватно морати ставити пуно посла размислити о томе и анализирајући га.
Велики извори података данас и вјероватно сутра ће имати 10 карактеристика. Три од ових су углавном (али не увек) корисна за истраживање: велика, увек и неактивна. Седам су генерално (али не увек) проблематичне за истраживање: непотпуне, неприступачне, непрепрезентативне, дрифтинг, алгоритамски збуњене, прљаве и осетљиве. Многе од ових карактеристика на крају се појављују зато што нису створени велики извори података у сврху социјалног истраживања.
На основу идеја из овог поглавља, мислим да постоје три главна начина да ће велики извори података бити највреднији за друштвена истраживања. Прво, они могу омогућити истраживачима да одлуче између конкурентских теоријских предвиђања. Примери овакве врсте рада су Farber (2015) (Нев Иорк Таки дриверс) и King, Pan, and Roberts (2013) (цензура у Кини). Друго, велики извори података могу омогућити побољшање мерења за политику кроз сада емитовање. Пример овакве врсте посла је Ginsberg et al. (2009) (Гоогле трендови грипа). Најзад, велики извори података могу помоћи истраживачима да направе узрочне процјене без покретања експеримената. Примјери ове врсте рада су Mas and Moretti (2009) (вршњачки ефекти на продуктивност) и Einav et al. (2015) (ефекат почетне цене на аукцијама на еБаиу). Међутим, сваки од ових приступа захтева од истраживача да доставе доста података, као што је дефиниција количине која је важна за процјену или две теорије које праве конкурентне предвиђања. Према томе, мислим да је најбољи начин размишљања о томе шта велики извори података могу да уради јесте да они могу помоћи истраживачима који могу постављати занимљива и важна питања.
Пре него што завршим, мислим да је вредно размислити о томе да велики извори података могу имати значајан утицај на однос података и теорије. До сада је ово поглавље узело приступ теоријским емпиријским истраживањима. Али велики извори података такође омогућавају истраживачима да емитују теоријски утицај . То јест, кроз пажљиву акумулацију емпиријских чињеница, узорака и загонетки, истраживачи могу изградити нове теорије. Овај алтернативни, први податак о приступу теорији није нов, и то су најснажније артикулисали Барнеи Гласер и Анселм Страусс (1967) са њиховим позивом на основану теорију . Овај приступ, први податак, међутим, не подразумева "крај теорије", како се тврди у неком новинарству око истраживања у дигиталном добу (Anderson 2008) . Уместо тога, како се промјењује окружење података, требало би очекивати ребаланс у односу између података и теорије. У свету у коме је прикупљање података скупо, било је смисла прикупити само податке које су предложене теорије најкорисније. Али, у свету у којем су огромне количине података већ доступне бесплатно, има смисла и покушати први приступ података (Goldberg 2015) .
Као што сам показао у овом поглављу, истраживачи могу пуно научити гледајући људе. У наредна три поглавља ћу описати како можемо сазнати више и различите ствари ако прилагодимо нашу прикупљање података и сарађујемо с људима директније постављањем питања (поглавље 3), извођењем експеримената (поглавље 4) и чак укључивањем њих директно у истраживачком процесу (поглавље 5).