Ymchwilwyr grafu'n safleoedd cyfryngau cymdeithasol Tseiniaidd i astudio sensoriaeth. Maent yn delio â anghyflawnder gyda casgliad cudd-nodwedd.
Yn ychwanegol at y data mawr a ddefnyddiwyd yn y ddwy enghraifft flaenorol, gall ymchwilwyr hefyd yn casglu eu data arsylwadol eu hunain, fel y dangosir rhyfeddol gan Gary King, Jennifer Pan, a Molly 'Roberts (2013) ymchwil ar sensoriaeth gan y llywodraeth Tseiniaidd.
swyddi yn y cyfryngau cymdeithasol yn Tsieina yn cael eu sensro gan cyfarpar wladwriaeth enfawr y credir i gynnwys degau o filoedd o bobl. Ymchwilwyr a dinasyddion, fodd bynnag, yn cael fawr o synnwyr o sut y sensoriaid hyn penderfynu beth ddylai cynnwys yn cael ei ddileu gan y cyfryngau cymdeithasol. Ysgolheigion Tsieina mewn gwirionedd yn cael disgwyliadau sy'n gwrthdaro ynghylch pa fathau o swyddi yn fwyaf tebygol o gael eu dileu. Mae rhai yn credu bod sensoriaid canolbwyntio ar swyddi sy'n hanfodol o gyflwr tra bod eraill yn meddwl eu bod yn canolbwyntio ar swyddi sy'n annog ymddygiad ar y cyd, megis protestiadau. Figuring pa un o'r disgwyliadau hyn yn gywir oblygiadau o ran sut mae ymchwilwyr yn deall Tsieina a llywodraethau awdurdodaidd eraill sy'n cymryd rhan mewn sensoriaeth. Felly, King a chydweithwyr yn awyddus i gymharu swyddi a gafodd eu cyhoeddi a'u dileu i swyddi a gafodd eu cyhoeddi a'u dileu byth ar ôl hynny.
Casglu swyddi hyn yn ymwneud â'r gamp peirianneg anhygoel o cropian dros 1,000 Tseiniaidd cyfryngau cymdeithasol wefannau-pob un â gwahanol dudalen gosodiadau canfod swyddi perthnasol, ac yna ailymweld swyddi hyn i weld a gafodd eu dileu ar ôl hynny. Yn ychwanegol at y problemau peirianneg arferol sy'n gysylltiedig â raddfa fawr gwe-cropian, roedd gan y prosiect hwn yr her ychwanegu bod angen iddo fod yn hynod o gyflym oherwydd bod llawer o swyddi sensro yn cael eu cymryd i lawr mewn llai na 24 awr. Mewn geiriau eraill, byddai ymlusgwr araf yn colli llawer o swyddi a gafodd eu sensro. Ymhellach, roedd gan y crawlers i wneud popeth o gasglu data hwn tra osgoi canfod rhag i'r gwefannau cyfryngau cymdeithasol rhwystro mynediad neu fel arall yn newid eu polisïau mewn ymateb i'r astudiaeth.
Unwaith y bydd hyn dasg peirianyddol enfawr ei gwblhau, y Brenin a chydweithwyr wedi cael tua 11 miliwn o swyddi ar 85 o wahanol bynciau a oedd cyn-penodedig yn seiliedig ar eu lefel ddisgwyliedig o sensitifrwydd. Er enghraifft, pwnc o sensitifrwydd uchel yn Ai Weiwei, yr artist gwrthwynebol; bwnc o sensitifrwydd canol yn gwerthfawrogiad a gostyngiad yng ngwerth y arian cyfred Tseiniaidd, ac yn bwnc o sensitifrwydd isel yw Cwpan y Byd. O'r rhain 11 miliwn o swyddi tua 2 miliwn wedi'i sensro, ond mae swyddi ar bynciau sensitif iawn yn cael eu sensro dim ond ychydig yn fwy aml na swyddi ar bynciau sensitifrwydd canolig ac isel. Mewn geiriau eraill, sensoriaid Tseiniaidd ar fin mor debygol o sensro swydd sy'n crybwyll Ai Weiwei fel swydd sy'n crybwyll y Cwpan y Byd. Nid yw'r canfyddiadau yn cyd-fynd â'r syniad syml bod y llywodraeth sensoriaid yr holl swyddi ar bynciau sensitif.
Gallai hyn cyfrifiad syml o gyfradd sensoriaeth yn ôl pwnc fod yn gamarweiniol, fodd bynnag. Er enghraifft, efallai y bydd y llywodraeth yn sensro swyddi sydd yn gefnogol i Ai Weiwei, ond yn gadael swyddi sy'n hanfodol ohono. Er mwyn gwahaniaethu rhwng swyddi yn fwy gofalus, mae angen i'r ymchwilwyr i fesur teimlad pob swydd. Felly, un ffordd i feddwl am y peth yw bod y teimlad pob swydd yn nodwedd cudd pwysig pob swydd. Yn anffodus, er gwaethaf llawer o waith, nid yw'r dulliau awtomataidd yn llawn o ganfod sentiment ddefnyddio geiriaduron eisoes yn bodoli yn dal i fod yn dda iawn mewn llawer o sefyllfaoedd (meddwl yn ôl at y problemau greu llinell amser emosiynol Medi 11, 2001 o Adran 2.3.2.6). Felly, roedd angen y Brenin a chydweithwyr i ffordd i labelu eu 11 miliwn o swyddi cyfryngau cymdeithasol ynghylch a oeddent 1) feirniadol o gyflwr, 2) yn gefnogol i'r wladwriaeth, neu 3) Adroddiadau amherthnasol neu ffeithiol am y digwyddiadau. Mae hyn yn swnio fel swydd enfawr, ond maent yn datrys gan ddefnyddio tric pwerus; un sy'n gyffredin mewn gwyddoniaeth data ond ar hyn o bryd yn gymharol brin yn y gwyddorau cymdeithasol.
Yn gyntaf, mewn cam a elwir fel arfer yn cyn-brosesu, mae'r ymchwilwyr trosi swyddi cyfryngau cymdeithasol i mewn matrics dogfen tymor, lle yr oedd un rhes ar gyfer pob dogfen a un golofn a gofnodwyd a oedd y swydd yn cynnwys gair penodol (ee, protest, traffig, ac ati). Nesaf, mae grŵp o gynorthwywyr ymchwil llaw-labelu teimlad o sampl o swydd. Yna, King a chydweithwyr defnyddio hyn data labelu â llaw i amcangyfrif model dysgu peiriant a allai awgrymu y teimlad o swydd yn seiliedig ar ei nodweddion. Yn olaf, maent yn defnyddio hyn model dysgu peiriant i amcangyfrif teimlad o bob 11 miliwn o swyddi. Felly, yn hytrach na darllen â llaw a labelu 11 miliwn o swyddi (a fyddai'n logistaidd amhosibl), maent wedi'u labelu â llaw nifer fechan o swyddi ac yna wedi defnyddio pa ddata y byddai gwyddonwyr yn galw dysgu dan oruchwyliaeth i amcangyfrif y categorïau yr holl swyddi. Ar ôl cwblhau'r dadansoddiad hwn, roedd y Brenin a chydweithwyr yn gallu dod i'r casgliad bod, braidd yn syndod, y tebygolrwydd i swydd gael ei dileu yn amherthnasol i a oedd yn feirniadol o'r wladwriaeth neu gefnogol i'r wladwriaeth.
Yn y diwedd, a ddarganfuwyd Brenin a chydweithwyr mai dim ond tri math o swyddi'n cael eu sensro yn rheolaidd: pornograffi, beirniadaeth o sensoriaid, a'r rhai a oedd potensial gweithredu ar y cyd (hy, y posibilrwydd o arwain at brotestiadau ar raddfa fawr). Drwy arsylwi nifer fawr o swyddi a gafodd eu dileu a swyddi na chawsant eu dileu, roedd y Brenin a chydweithwyr yn gallu dysgu sut y mae'r sensoriaid yn gweithio dim ond trwy wylio a chyfrif. Mewn ymchwil dilynol, maent mewn gwirionedd yn ymyrryd yn uniongyrchol i mewn i'r Tseiniaidd ecosystem cyfryngau cymdeithasol drwy greu swyddi gyda systematig gwahanol cynnwys a mesur sy'n cael sensro (King, Pan, and Roberts 2014) . Byddwn yn dysgu mwy am ddulliau arbrofol ym Mhennod 4. Bellach, foreshadowing thema a fydd yn digwydd trwy gydol y llyfr, mae'r rhain yn broblemau-pa casgliad cudd-priodoledd gall weithiau gael ei datrys gyda oruchwyliaeth dysgu-troi allan i fod yn gyffredin iawn mewn ymchwil cymdeithasol yn y oes ddigidol. Byddwch yn gweld lluniau tebyg iawn i Ffigur 2.3 ym Mhenodau 3 (Gofyn cwestiynau) a 5 (Creu cydweithredu màs); mae'n un o'r ychydig syniadau sy'n ymddangos mewn penodau lluosog.
Mae'r tri o enghreifftiau-y rhain yn ymddygiad sy'n gweithio o yrwyr tacsi yn Efrog Newydd, ffurfio cyfeillgarwch gan fyfyrwyr, a chyfryngau ymddygiad sensoriaeth cymdeithasol y Tseiniaidd llywodraeth sioe y gall cyfrif gymharol syml o ddata arsylwadol galluogi ymchwilwyr i brofi rhagfynegiadau damcaniaethol. Mewn rhai achosion, data mawr yn eich galluogi i wneud cyfrif hwn yn gymharol uniongyrchol (fel yn achos y New York Tacsis). Mewn achosion eraill, bydd angen i ymchwilwyr i gasglu eu data arsylwadol eu hunain (fel yn achos y sensoriaeth Tseiniaidd); delio â anghyflawnder drwy uno data gyda'i gilydd (fel yn achos o esblygiad rhwydwaith); neu berfformio rhyw fath o inference cudd-nodwedd (fel yn achos y sensoriaeth Tseiniaidd). Fel yr wyf yn gobeithio y dengys yr enghreifftiau hyn, ar gyfer ymchwilwyr sy'n gallu gofyn cwestiynau diddorol, mawr yn dal addewid mawr.