Биг подаци су креирани и прикупљају од стране влада у друге сврхе осим истраживања. Користећи ове податке за истраживање, стога, захтева намену.
Идеализована поглед друштвених истраживања замишља научника који има идеју и потом прикупљање података за тестирање ту идеју. Овај стил истраживања доводи до чврсто затегнути између истраживачког питања и података, али је ограничен, јер појединац истраживач често немају средстава да прикупља податке који су им потребни, као што су велике, богате и национално-репрезентативним подацима. Због тога, много друштвена истраживања у прошлости користио великих друштвених истраживања, као што је опште друштвене анкете (ГСС), амерички Државне изборне студије (Анес), и панел студије на успех Динамицс (ПСИД). Ово истраживање великих размера су углавном води тим истраживача и они су дизајнирани да створе податке који могу да се користе од стране многих истраживача. Због циљева ових истраживања великих, велика пажња се ставља у пројектовању прикупљање података и припрема резултат податке за употребу од стране истраживача. Ови подаци су од стране истраживача и за истраживаче.
Већина социјална истраживања коришћењем дигиталних извора старости, међутим, у основи другачији. Уместо коришћења податке прикупљене од истраживача и за истраживаче, он користи изворе података који су настали и прикупљени од стране предузећа и владе за своје потребе као што су стварање добити, пружајући услуге, или примену закона. Ови пословни и владини извори података су дошли да га зову велике податке. Истраживачки рад са великим подацима се разликује од истраживачки рад са подацима који су првобитно створена за истраживање. Упореди, на пример, сајт друштвених медија, као што су Твиттер, са традиционалним истраживања јавног мњења, као што је опште друштвене анкете (ГСС). Главни циљеви твиттер су да пружи услугу својим корисницима и да направи профит. У процесу остваривања ових циљева, Твиттер и ствара податке који би могли бити од користи за проучавање одређене аспекте јавног мњења. Али, за разлику од општег друштвеног анкете (ГСС), Твиттер је не првенствено фокусирана на друштвена истраживања.
Термин велика подаци фрустрирајуће нејасан, а ИТ групе заједно много различитих ствари. За потребе друштвена истраживања, мислим да је корисно да се направи разлика између две врсте великих извора података:. Владиних административних података и пословних административних евиденција владе административни подаци су подаци који су креирани од стране владе као део њихових рутинских активности. Овакве евиденције се користе од стране истраживача у прошлости-као што је демографа који студирају рођење, брак, а записи-али власти су све прикупљање и ослобађа детаљну евиденцију у анализабле облицима. На пример, Њујорк влада инсталира дигиталне метара унутар сваког такси у граду. Ови метара снимање свих врста података о сваком такси вожње, укључујући и возача, време почетка и локације, време стоп и локације, као и тарифе. У студији која ћу касније рећи у овом поглављу, Хенри Фарбер (2015) сврха ове податке да се обрати основно расправу у економији рада о односу између сату зарада и броја сати рада.
Други главни тип великог података за друштвена истраживања је пословни административне евиденције. То су подаци који посао стварају и сакупљају као део њихових рутинских активности. Ови пословни административне евиденције се често називају дигиталне трагове, и укључују ствари као што су претраживача трупаца упита, медија мјеста друштвених, и позвати податке из мобилних телефона. Критички, ови пословни административне евиденције се не односи само на понашање на мрежи. На пример, продавнице које користе Цхецк-оут скенера се стварају у реалном времену мере продуктивности радника. У студији која је Рећи ћу ти за касније у овом поглављу, Александр Мас и Енрико Морети (2009) сврха овог супермаркета Цхецк-оут податке да истраже како је продуктивност радничка утицајем продуктивност својих вршњака.
Као и од ових примера илуструју, идеја намену је основа за учење од великих података. По мом искуству, социолози и научници података приступ овом намену веома различито. Социолози, који су навикли на рад са подацима дизајнираним за истраживање, су брзо да се укаже на проблеме са променити сврха подацима док игнорише своје предности. С друге стране, научници података су брзо да се укаже на предности променити сврха података, а игнорише своје слабости. Наравно, најбољи приступ би био хибрид. То је, истраживачи морају да схвате карактеристике ових нових извора података-и добре и лоше а онда схватити како да уче од њих. И, да је план за остатак овог поглавља. Даље, ја ћу описати десет заједничких карактеристика пословних и владиних административних података. Након тога, ја ћу описати три истраживачка приступа који се могу користити са овим подацима, приступа који су добро погодна карактеристикама ових података.