Gall cyfrif syml yn ddiddorol os ydych yn cyfuno gwestiwn da gyda data da.
Er ei fod yn swnio'n iaith soffistigedig, mae llawer o ymchwil gymdeithasol yn wir yn cyfrif pethau. Yn ystod data mawr, gall ymchwilwyr gyfrif mwy nag erioed, ond nid yw hynny yn golygu y dylent ddechrau dechrau cyfrif yn hapus. Yn lle hynny, dylai ymchwilwyr ofyn: Pa bethau sy'n werth eu cyfrif? Efallai y bydd hyn yn ymddangos yn fater hollol goddrychol, ond mae rhai patrymau cyffredinol.
Yn aml, mae myfyrwyr yn ysgogi eu hymchwil cyfrif trwy ddweud: Rwy'n mynd i gyfrif rhywbeth nad oes neb wedi'i gyfrif o'r blaen. Er enghraifft, gallai myfyriwr ddweud bod llawer o bobl wedi astudio ymfudwyr ac mae llawer o bobl wedi astudio efeilliaid, ond nid oes neb wedi astudio efeilliaid mudol. Yn fy mhrofiad i, nid yw'r strategaeth hon, yr wyf yn galw cymhelliant yn ôl absenoldeb , fel arfer yn arwain at ymchwil dda. Mae cymhelliant yn ôl absenoldeb yn debyg i ddweud bod yna dwll yno, a dwi'n mynd i weithio'n galed iawn i'w lenwi. Ond nid oes angen llenwi pob twll.
Yn hytrach na chymell yr absenoldeb, credaf mai strategaeth well yw chwilio am gwestiynau ymchwil sy'n bwysig neu'n ddiddorol (neu'n ddelfrydol). Mae'r ddwy elfen hyn yn anodd i'w diffinio, ond un ffordd i feddwl am ymchwil bwysig yw ei bod yn cael rhywfaint o effaith mesuradwy neu yn bwydo i benderfyniad pwysig gan wneuthurwyr polisi. Er enghraifft, mae mesur cyfradd diweithdra yn bwysig oherwydd ei fod yn ddangosydd o'r economi sy'n gyrru penderfyniadau polisi. Yn gyffredinol, credaf fod gan ymchwilwyr ymdeimlad eithaf da o'r hyn sy'n bwysig. Felly, yng ngweddill yr adran hon, rwy'n mynd i roi dwy enghraifft lle rwy'n credu bod cyfrif yn ddiddorol. Ym mhob achos, nid oedd yr ymchwilwyr yn cyfrif yn hapus; yn hytrach, roeddent yn cyfrif mewn lleoliadau arbennig iawn a ddatgelodd mewnwelediadau pwysig i syniadau mwy cyffredinol ynghylch sut mae systemau cymdeithasol yn gweithio. Mewn geiriau eraill, nid llawer o'r hyn sy'n gwneud yr ymarferion cyfrif penodol hyn yn ddiddorol yw'r data ei hun, mae'n deillio o'r syniadau mwy cyffredinol hyn.
Mae un enghraifft o'r pwer syml o gyfrif yn dod o astudiaeth Henry Farber (2015) o ymddygiad gyrwyr tacsi Dinas Efrog Newydd. Er na fyddai'r grŵp hwn yn swnio'n gynhenid ddiddorol, mae'n safle ymchwil strategol ar gyfer profi dau ddamcaniaeth gystadleuol mewn economeg llafur. At ddibenion ymchwil Farber, mae yna ddau nodwedd bwysig am amgylchedd gwaith gyrwyr tacsi: (1) mae eu cyflog bob awr yn amrywio o ddydd i ddydd, yn seiliedig yn rhannol ar ffactorau fel y tywydd, a (2) nifer yr oriau y maent gall y gwaith amrywio bob dydd yn seiliedig ar eu penderfyniadau. Mae'r nodweddion hyn yn arwain at gwestiwn diddorol am y berthynas rhwng cyflog bob awr ac oriau a weithiwyd. Rhagwelir y bydd modelau datrysur mewn economeg yn rhagweld y bydd gyrwyr tacsi yn gweithio'n fwy ar ddyddiau lle mae ganddynt gyflogau uwch bob awr. Fel arall, mae modelau o economeg ymddygiadol yn rhagfynegi yn union y gwrthwyneb. Os yw gyrwyr yn gosod targed incwm penodol - yn dweud $ 100 y dydd-a hyd nes y bydd y targed hwnnw'n cael ei fodloni, yna bydd yrwyr yn gweithio llai o oriau ar ddiwrnodau eu bod yn ennill mwy. Er enghraifft, os oeddech chi'n dargedwr, efallai y byddwch chi'n gweithio pedair awr ar ddiwrnod da ($ 25 yr awr) a phum awr ar ddiwrnod gwael ($ 20 yr awr). Felly, a yw gyrwyr yn gweithio mwy o oriau ar ddiwrnodau gyda chyflogau uwch awr (fel y rhagwelir gan y modelau neoclassical) neu fwy o oriau ar ddiwrnodau gyda chyflogau is fesul awr (fel y rhagwelir gan fodelau economaidd ymddygiadol)?
I ateb y cwestiwn hwn, cafodd Farber ddata ar bob taith tacsis a gymerwyd gan cabanau New York City o 2009 i 2013, data sydd bellach ar gael i'r cyhoedd. Mae'r data hyn - a gasglwyd gan fesuryddion electronig y mae'r ddinas yn ei gwneud yn ofynnol i dacsis ei ddefnyddio - cynnwys gwybodaeth am bob taith: amser cychwyn, lleoliad cychwyn, amser pen, lleoliad terfynol, pris, a blaen (os telwyd cerdyn credyd i'r tip) . Gan ddefnyddio'r data mesurydd tacsi hwn, canfu Farber fod y rhan fwyaf o yrwyr yn gweithio mwy ar ddyddiau pan fydd y cyflogau'n uwch, yn gyson â'r theori neoclassical.
Yn ogystal â'r prif ganfyddiad hwn, roedd Farber yn gallu defnyddio maint y data i gael gwell dealltwriaeth o heterogeneity a dynameg. Canfu, dros amser, fod gyrwyr newydd yn dysgu'n raddol i weithio mwy o oriau ar ddiwrnodau cyflog uchel (ee, maent yn dysgu ymddwyn wrth i'r model neoclassical ragweld). Ac mae gyrwyr newydd sy'n ymddwyn yn fwy fel enillwyr targed yn fwy tebygol o roi'r gorau i fod yn yrwyr tacsi. Roedd y ddau ganfyddiad mwy cynnil hyn, sy'n helpu i esbonio ymddygiad a welwyd gan yrwyr presennol, yn bosibl yn unig oherwydd maint y set ddata. Roeddent yn amhosib canfod mewn astudiaethau cynharach a oedd yn defnyddio taflenni taith papur gan nifer fach o yrwyr tacsis dros gyfnod byr (Camerer et al. 1997) .
Roedd astudiaeth Farber yn agos at senario achos gorau ar gyfer ymchwil gan ddefnyddio ffynhonnell ddata fawr oherwydd bod y data a gasglwyd gan y ddinas yn eithaf agos at y data y byddai Farber wedi'i gasglu (un gwahaniaeth yw y byddai Farber wedi bod eisiau data ar gyfanswm awgrymiadau cyflogau a phrisiau ychwanegol - ond dim ond awgrymiadau a dalwyd gan gerdyn credyd oedd data'r ddinas). Fodd bynnag, nid oedd y data yn unig yn ddigon. Yr allwedd i ymchwil Farber oedd dod â chwestiwn diddorol i'r data, cwestiwn sydd â goblygiadau mwy y tu hwnt i'r lleoliad penodol hwn.
Daw ail enghraifft o bethau cyfrif o ymchwil gan Gary King, Jennifer Pan, a Molly Roberts (2013) ar beirniadaeth ar-lein gan lywodraeth Tsieineaidd. Yn yr achos hwn, fodd bynnag, roedd yn rhaid i'r ymchwilwyr gasglu eu data mawr eu hunain ac roedd yn rhaid iddynt ddelio â'r ffaith bod eu data yn anghyflawn.
Roedd y Brenin a'r cydweithwyr yn cael eu cymell gan y ffaith bod swyddi cyfryngau cymdeithasol yn Tsieina yn cael eu hystyried gan gyfarpar cyflwr enfawr y credir ei fod yn cynnwys degau o filoedd o bobl. Fodd bynnag, nid oes gan ymchwilwyr a dinasyddion ychydig o synnwyr o sut mae'r rhain yn synwyryddion yn penderfynu pa gynnwys y dylid ei ddileu. Mewn gwirionedd mae gan Ysgolheigion Tsieina ddisgwyliadau gwrthdaro ynghylch pa fathau o swyddi sydd fwyaf tebygol o gael eu dileu. Mae rhai o'r farn bod censwyr yn canolbwyntio ar swyddi sy'n hanfodol i'r wladwriaeth, tra bod eraill yn meddwl eu bod yn canolbwyntio ar swyddi sy'n annog ymddygiad ar y cyd, megis protestiadau. Mae dangos pa rai o'r disgwyliadau hyn yn gywir sydd â goblygiadau ar sut mae ymchwilwyr yn deall Tsieina a llywodraethau awdurdoditarol eraill sy'n ymgysylltu â beirniadaeth. Felly, roedd y Brenin a chydweithwyr am gymharu swyddi a gyhoeddwyd ac yna eu dileu gyda swyddi a gyhoeddwyd ac na chafodd eu dileu.
Casglu swyddi hyn yn ymwneud â'r gamp peirianneg anhygoel o cropian dros 1,000 Tseiniaidd cyfryngau cymdeithasol wefannau-pob un â gwahanol dudalen gosodiadau canfod swyddi perthnasol, ac yna ailymweld swyddi hyn i weld a gafodd eu dileu ar ôl hynny. Yn ychwanegol at y problemau peirianneg arferol sy'n gysylltiedig â raddfa fawr gwe-cropian, roedd gan y prosiect hwn yr her ychwanegu bod angen iddo fod yn hynod o gyflym oherwydd bod llawer o swyddi sensro yn cael eu cymryd i lawr mewn llai na 24 awr. Mewn geiriau eraill, byddai ymlusgwr araf yn colli llawer o swyddi a gafodd eu sensro. Ymhellach, roedd gan y crawlers i wneud popeth o gasglu data hwn tra osgoi canfod rhag i'r gwefannau cyfryngau cymdeithasol rhwystro mynediad neu fel arall yn newid eu polisïau mewn ymateb i'r astudiaeth.
Erbyn i'r gorchymyn peirianneg enfawr hwn gael ei gwblhau, roedd y Brenin a chydweithwyr wedi cael tua 11 miliwn o swyddi ar 85 o bynciau gwahanol a ragdybir, gyda phob un â lefel sensitif tybiedig. Er enghraifft, pwnc o sensitifrwydd uchel yw Ai Weiwei, yr artist anhyblyg; pwnc o sensitifrwydd canol yw gwerthfawrogiad a dibrisiant arian cyfred Tseiniaidd, a phwnc o sensitifrwydd isel yw Cwpan y Byd. O'r 11 miliwn o swyddi hyn, roedd oddeutu 2 filiwn wedi cael ei feirniadu. Ychydig yn syndod, canfu'r Brenin a chydweithwyr fod swyddi ar bynciau hynod sensitif yn cael eu hystyried yn fwyfwy yn amlach na swyddi ar bynciau sensitif canolig ac isel. Mewn geiriau eraill, mae barnwyr Tsieineaidd yn debyg iawn i beidio â phostio sy'n cyfeirio at Ai Weiwei fel post sy'n sôn am Gwpan y Byd. Nid yw'r canfyddiadau hyn yn cefnogi'r syniad bod y llywodraeth yn beirniadu'r holl swyddi ar bynciau sensitif.
Fodd bynnag, gallai'r cyfrifiad syml hwn o gyfradd sensoriaeth yn ôl pwnc fod yn gamarweiniol. Er enghraifft, gallai'r llywodraeth feirniadu swyddi sy'n gefnogol i Ai Weiwei, ond yn gadael swyddi sy'n hollbwysig iddo. Er mwyn gwahaniaethu rhwng swyddi yn fwy gofalus, roedd angen i'r ymchwilwyr fesur teimlad pob swydd. Yn anffodus, er gwaethaf llawer o waith, mae dulliau awtomatig llawn o ganfod teimladau gan ddefnyddio geiriaduron sydd eisoes yn bodoli yn dal i fod yn dda iawn mewn llawer o sefyllfaoedd (meddyliwch yn ôl at y problemau sy'n creu llinell amser emosiynol ar 11 Medi 2001 a ddisgrifir yn adran 2.3.9). Felly, roedd angen ffordd gan y Brenin a chydweithwyr i labelu eu 11 miliwn o swyddi cyfryngau cymdeithasol a oeddynt (1) yn feirniadol o'r wladwriaeth, (2) yn gefnogol i'r wladwriaeth, neu (3) adroddiadau amherthnasol neu ffeithiol am y digwyddiadau. Mae hyn yn swnio fel swydd enfawr, ond fe'i datrysodd gan ddefnyddio grym pwerus sy'n gyffredin mewn gwyddoniaeth data ond yn gymharol brin mewn gwyddoniaeth gymdeithasol: dysgu dan oruchwyliaeth ; gweler ffigur 2.5.
Yn gyntaf, mewn cam fel arfer a elwir yn ragbrosesu , trosglwyddodd yr ymchwilwyr y swyddi cyfryngau cymdeithasol i mewn i fatrics cyfnod dogfen , lle roedd un rhes ar gyfer pob dogfen ac un golofn a gofnododd a oedd y swydd yn cynnwys gair penodol (ee, protest neu draffig) . Nesaf, fe wnaeth grŵp o gynorthwywyr ymchwil labelu teimlad o swyddi. Yna, defnyddiant y data hwn â llaw â llaw i greu model dysgu peiriant a allai olygu teimlad post yn seiliedig ar ei nodweddion. Yn olaf, defnyddiwyd y model hwn i amcangyfrif teimlad yr holl 11 miliwn o swyddi.
Felly, yn hytrach na darllen a labelu 11 miliwn o swyddi yn llaw - a fyddai'n rhesymegol yn rhesymegol -Belai'r Brenin a chydweithwyr labelu nifer fechan o swyddi â llaw ac yna defnyddiwyd dysgu dan oruchwyliaeth i amcangyfrif teimlad yr holl swyddi. Ar ôl cwblhau'r dadansoddiad hwn, roeddent yn gallu dod i'r casgliad nad oedd y tebygolrwydd y byddai swydd yn cael ei ddileu, yn rhywbeth syndod, yn perthyn i a oedd yn feirniadol o'r wladwriaeth neu'n gefnogol i'r wladwriaeth.
Yn y diwedd, darganfuodd y Brenin a chydweithwyr mai dim ond tri math o swyddi oedd yn cael eu censuro'n rheolaidd: pornograffi, beirniadaeth o feirnwyr, a'r rheiny a oedd â photensial gweithredu ar y cyd (hy, y posibilrwydd o arwain at brotestiadau ar raddfa fawr). Trwy arsylwi nifer fawr o swyddi a ddilewyd a swyddi na chafodd eu dileu, roedd y Brenin a chydweithwyr yn gallu dysgu sut mae'r synwyr yn gweithio'n unig trwy wylio a chyfrif. Ymhellach, rhagfynegi thema a fydd yn digwydd trwy gydol y llyfr hwn, yr ymagwedd ddysgu dan oruchwyliaeth y buont yn ei ddefnyddio i labelu rhai canlyniadau ac yna adeiladu model dysgu peiriant i labelu bod y gorffwys yn gyffredin iawn mewn ymchwil gymdeithasol yn yr oes ddigidol . Fe welwch luniau sy'n debyg iawn i ffigur 2.5 ym mhenodau 3 (Gofyn cwestiynau) a 5 (Creu cydweithredu màs); Dyma un o'r ychydig syniadau sy'n ymddangos mewn nifer o benodau.
Mae'r enghreifftiau hyn - ymddygiad gweithredol gyrwyr tacsis yn Efrog Newydd ac ymddygiad beidio â chyfryngau cymdeithasol llywodraeth Tsieineaidd - yn dangos y gall cyfrif cymharol syml o ffynonellau data mawr, mewn rhai sefyllfaoedd, arwain at ymchwil ddiddorol a phwysig. Yn y ddau achos, fodd bynnag, roedd yn rhaid i'r ymchwilwyr ddod â chwestiynau diddorol i'r ffynhonnell ddata fawr; nid oedd y data ynddo'i hun yn ddigon.