Data mawr yn cael eu creu a'u casglu gan lywodraethau at ddibenion ar wahân ymchwil. Gan ddefnyddio'r data hwn ar gyfer ymchwil, felly, yn gofyn am roi pwrpas.
Darlun delfrydol ymchwil cymdeithasol dychmygu gwyddonydd cael syniad ac yna casglu data i brofi y syniad hwnnw. Mae hyn yn arddull yr ymchwil yn arwain at ffit tynn rhwng cwestiwn ymchwil a data, ond mae'n gyfyngedig oherwydd ymchwilydd unigol yn aml nid oes ganddynt yr adnoddau sydd eu hangen i gasglu'r data sydd eu hangen arnynt, megis data mawr, cyfoethog, ac yn genedlaethol-gynrychioliadol. arolygon Felly, mae llawer o ymchwil cymdeithasol yn y gorffennol wedi defnyddio ar raddfa fawr cymdeithasol, fel yr Arolwg Cyffredinol Cymdeithasol (GSS), Astudiaeth Etholiad Cenedlaethol Americanaidd (ANES), ac Astudiaeth Panel Dynamics Incwm (PSID). Mae'r rhain yn arolwg ar raddfa fawr yn cael eu rhedeg yn gyffredinol gan dîm o ymchwilwyr ac maent wedi'u cynllunio i greu data y gellir ei ddefnyddio gan lawer o ymchwilwyr. Oherwydd y nodau o arolygon ar raddfa fawr hyn, gofal mawr yn cael ei roi i mewn ddylunio'r gasglu data a pharatoi'r data canlyniadol ar gyfer eu defnyddio gan ymchwilwyr. Mae'r data hyn yn cael eu gan ymchwilwyr ac i ymchwilwyr.
ymchwil cymdeithasol Mae'r rhan fwyaf ddefnyddio ffynonellau oes ddigidol, fodd bynnag, yn sylfaenol wahanol. Yn hytrach na defnyddio data a gasglwyd gan ymchwilwyr ac ar gyfer ymchwilwyr, mae'n defnyddio ffynonellau data a gafodd eu creu a'u casglu gan fusnesau a llywodraethau ar gyfer eu dibenion eu hunain megis gwneud elw, gan ddarparu gwasanaeth, neu weinyddu cyfraith. Mae'r rhain yn ffynonellau data busnes a llywodraeth wedi dod i gael ei alw data mawr. Gwneud gwaith ymchwil gyda data mawr yn wahanol na gwneud ymchwil gyda data a grëwyd yn wreiddiol ar gyfer ymchwil. Cymharu, er enghraifft, gwefan cyfryngau cymdeithasol, megis Twitter, gydag arolwg o farn y cyhoedd traddodiadol fel Arolwg Cymdeithasol Cyffredinol (GSS). prif nodau Twitter yw i ddarparu gwasanaeth i'w ddefnyddwyr ac i wneud elw. Yn y broses o gyflawni'r nodau hyn, Twitter yn creu data a allai fod yn ddefnyddiol ar gyfer astudio rhai agweddau ar farn y cyhoedd. Ond, yn wahanol i'r Arolwg Cymdeithasol Cyffredinol (GSS), nid yw Twitter yn canolbwyntio'n bennaf ar ymchwil gymdeithasol.
Mae'r data mawr term yn rhwystredig o amwys, ac mae'n grwpiau ynghyd llawer o wahanol bethau. At ddibenion ymchwil gymdeithasol, yr wyf yn meddwl ei bod yn ddefnyddiol i wahaniaethu rhwng dau fath o ffynonellau data mawr:. Gofnodion gweinyddol y llywodraeth a chofnodion gweinyddol busnes cofnodion gweinyddol y Llywodraeth yn y data sy'n cael eu creu gan lywodraethau fel rhan o'u gweithgareddau arferol. Mae'r mathau hyn o gofnodion wedi cael eu defnyddio gan ymchwilwyr yn y gorffennol-fel demograffwyr sy'n astudio genedigaeth, cofnodion-ond briodas, a marwolaeth llywodraethau yn casglu gynyddol a rhyddhau cofnodion manwl mewn ffurfiau analyzable. Er enghraifft, mae'r llywodraeth New York City gosod mesuryddion digidol y tu mewn o bob tacsi yn y ddinas. Mae'r mesuryddion yn cofnodi pob math o ddata am bob taith tacsi gan gynnwys y gyrrwr, yr amser dechrau a lleoliad, yr amser stopio a lleoliad, ac mae'r pris. Mewn astudiaeth a byddaf yn dweud yn ddiweddarach yn y bennod hon, Henry Farber (2015) repurposed data hyn i fynd i'r afael dadl sylfaenol mewn economeg llafur am y berthynas rhwng cyflogau fesul awr a nifer yr oriau a weithiwyd.
Yr ail brif fath o ddata mawr ar gyfer ymchwil gymdeithasol yw cofnodion gweinyddol fusnes. Mae'r rhain yn y data y busnes hwnnw yn creu ac yn casglu fel rhan o'u gweithgareddau arferol. Mae'r rhain yn gofnodion gweinyddol busnes yn aml yn cael eu galw'n olion digidol, ac maent yn cynnwys pethau fel logiau ymholiad peiriant chwilio, pyst cyfryngau cymdeithasol, a galw cofnodion o ffonau symudol. Yn allweddol, nid yw'r rhain cofnodion gweinyddol busnes yn unig am ymddygiad ar-lein. Er enghraifft, mae siopau sy'n defnyddio sganwyr check-allan yn cael eu creu mesurau amser real o gynhyrchiant gweithiwr. Mewn astudiaeth a byddaf yn dweud wrthych am hynny yn ddiweddarach yn y bennod hon, Alexandre Mas a Enrico Moretti (2009) repurposed archfarchnad hon data wirio allan i astudio sut cynhyrchiant 'gweithwyr cael ei effeithio gan y cynhyrchiant eu cyfoedion.
Gan fod y ddau o'r enghreifftiau hyn yn dangos, mae'r syniad o roi pwrpas yn sylfaenol i ddysgu o ddata mawr. Yn fy mhrofiad i, mae gwyddonwyr cymdeithasol a gwyddonwyr data ymagwedd at hyn roi pwrpas yn wahanol iawn. gwyddonwyr cymdeithasol, sy'n gyfarwydd â gweithio gyda data a gynlluniwyd ar gyfer ymchwil, yn gyflym i dynnu sylw at y problemau gyda data repurposed tra'n anwybyddu ei gryfderau. Ar y llaw arall, mae gwyddonwyr data yn gyflym i dynnu sylw y manteision o ddata repurposed tra'n anwybyddu ei wendidau. Yn naturiol, byddai dull gorau fod yn hybrid. Hynny yw, mae angen i ymchwilwyr i ddeall nodweddion o'r rhain ffynonellau newydd o ddata-da a drwg-ac yna chyfrif i maes sut i ddysgu oddi wrthynt. Ac, hynny yw y cynllun ar gyfer y gweddill y bennod hon. Nesaf, byddaf yn disgrifio deg nodweddion cyffredin o fusnes a llywodraeth data gweinyddol. Ar ôl hynny, byddaf yn disgrifio tri dull ymchwil y gellir ei ddefnyddio gyda data hyn, ymagweddau sy'n addas yn dda i nodweddion y data hwn.