Հետազոտողները մաքրում չինական սոցիալական լրատվամիջոցների կայքեր ուսումնասիրել գրաքննություն: Նրանք զբաղվել թերի հետ լատենտային-գծիկ հետեվություն.
Ի լրումն մեծ տվյալների օգտագործվող նախորդ երկու օրինակների, հետազոտողները կարող եք նաեւ հավաքել իրենց սեփական observational տվյալները, ինչպես էր հրաշալի նկարազարդել Գարի թագավորի, Ջենիֆեր թավայի եւ Molly Ռոբերտսի ' (2013) հետազոտություն գրաքննության է չինական կառավարության կողմից:
Սոցիալական լրատվամիջոցների հաղորդագրություններ Չինաստանում են գրաքննության հսկայական պետական ապարատի, որը մտածում է ներառել տասնյակ հազարավոր մարդիկ: Հետազոտողները եւ քաղաքացիները, սակայն, պետք է քիչ զգացում, թե ինչպես են այդ գրաքննիչները որոշեք, թե ինչ բովանդակություն պետք է հանվեն սոցիալական ԶԼՄ - ների: Գիտնականները Չինաստանում, ըստ էության, պետք է հակամարտող սպասումները, որոնց մասին տեսակի հաղորդագրությունների են, ամենայն հավանականությամբ, պետք է ստանալ ջնջվել: Ոմանք կարծում են, որ գրաքննիչները կենտրոնանալ հաղորդագրությունների որոնք քննադատաբար է պետության, իսկ մյուսները կարծում են, որ կենտրոնանալ հաղորդագրությունների որը խրախուսում է հավաքական վարքագիծը, ինչպիսիք են բողոքի ցույցերը: Figuring, թե որն է այդ ակնկալիքների ճիշտ է հետեւանքներ ունի, ինչպես հետազոտողները հասկանալ, Չինաստանի եւ այլ ավտորիտար կառավարություններին, որոնք զբաղվում են գրաքննության: Հետեւաբար, թագավորը եւ գործընկերները ցանկացել է համեմատել գրառումները, որոնք տպագրված է եւ հետագայում ջնջվել է հաղորդագրությունների որոնք հրապարակված եւ երբեք ջնջված:
Հավաքածուներ այդ գրառումները ներգրավված զարմանալի ինժեներական գլուխգործոց crawling ավելի քան 1000 չինական սոցիալական լրատվամիջոցների կայքերը-ական տարբեր էջ դասավորության-գտնելու համապատասխան գրառումները, եւ ապա վերափոխելու այդ գրառումները տեսնել, որոնք հետագայում ջնջվել. Ի լրումն սովորական ճարտարագիտական խնդիրների հետ կապված լայնամասշտաբ վեբ-Crawling, այս նախագիծը ուներ մարտահրավեր, որ պետք է լինի չափազանց արագ, քանի որ շատ censored հաղորդագրություններ են ներքեւ ավելի քիչ, քան 24 ժամվա ընթացքում: Այլ կերպ ասած, դանդաղ ոջիլ որ կարոտում շատ հաղորդագրությունների որոնք գրաքննության են ենթարկվում: Բացի այդ, crawlers ստիպված է անել այս ամենը տվյալների հավաքագրումը, իսկ խուսափելու հայտնաբերման որպէսզի սոցիալական ԶԼՄ - ների կայքերը արգելափակել կամ այլ կերպ փոխել իրենց քաղաքականությունը, ի պատասխան ուսումնասիրության:
Երբ այս զանգվածային ինժեներական խնդիրը ավարտվել, թագավորը եւ նրա գործընկերները ձեռք են բերել մոտ 11 միլիոն գրառումները 85 տարբեր թեմաներով, որոնք նախապես նշված հիման վրա իրենց ակնկալվող մակարդակից զգայունության: Օրինակ, մի թեմա բարձր զգայունության է Այ Վեյվեյին, այլախոհ նկարիչ. թեմա միջին զգայունության գնահատականն է եւ արժեզրկումը չինական արժույթի, եւ թեման ցածր զգայունության է աշխարհի գավաթի խաղարկությանը: Այդ 11 մլն հաղորդագրությունների մոտ 2 մլն էր գրաքննության, բայց հաղորդագրություններ վրա բարձր զգայուն թեմաների էին գրաքննվել են միայն մի փոքր ավելի հաճախ, քան հաղորդագրությունների Մերձավոր եւ ցածր զգայունության թեմաների: Այլ կերպ ասած, չինական գրաքննիչները մոտ, ամենայն հավանականությամբ, գրաքննության մի գրառում, որը հիշատակվում Այ Վեյվեյին որպես պաշտոնում, որը հիշատակվում է աշխարհի գավաթը. Այս բացահայտումները չի համապատասխանում այն simplistic գաղափարը, որ կառավարությունը գրաքննիչները բոլոր գրառումները զգայուն թեմաների:
Այս պարզ հաշվարկը գրաքննության տոկոսադրույքը թեմայի կարող է լինել ապակողմնորոշող, սակայն. Օրինակ, կառավարությունը կարող է գրաքննության գրառումները, որոնք աջակցում Այ Վեյվեյին, բայց թողնում գրառումները, որոնք քննադատաբար նրան. Որպեսզի տարբերակելու հաղորդագրությունների ավելի ուշադիր է, որ հետազոտողները պետք է չափել հետաքրքրությունը յուրաքանչյուր գրառմանը. Այսպիսով, մեկ ճանապարհ է մտածել դրա մասին է, որ զգացմունքների յուրաքանչյուր գրառումը կարեւոր թաքնված առանձնահատկությունն յուրաքանչյուր գրառմանը. Ցավոք սրտի, չնայած շատ աշխատանք, լիովին ավտոմատացված մեթոդները տրամադրությունների հայտնաբերման օգտագործելով նախընտրական գոյություն ունեցող բառարաններ դեռ չեն, շատ լավ է, շատ իրավիճակներում (կարծում եմ, որ վերադառնում է խնդիրների ստեղծելու հուզական ժամանակացույցը սեպտեմբերի 11, 2001 - ից Բաժին 2.3.2.6). Հետեւաբար, թագավորը եւ նրա գործընկերները պետք է մի կերպ են իրենց պիտակավորել 11 մլն սոցիալական լրատվամիջոցների գրառումները, ինչպես նաեւ, թե արդյոք նրանք էին 1) քննադատաբար է պետության, 2) աջակցում է պետության, կամ 3) ոչ պիտանի կամ փաստական հաշվետվությունների դեպքերի մասին: Այս հնչում նման զանգվածային աշխատանքի, բայց նրանք լուծվում այն, օգտագործելով հզոր հնարք. մեկը, որ տարածված տվյալների գիտության, բայց ներկայումս համեմատաբար հազվադեպ հասարակագիտության.
Նախ, մի քայլ, որպես կանոն, որը կոչվում նախնական մշակման, հետազոտողները փոխարկվում սոցիալական մեդիայի գրառումները մեջ փաստաթղթերի ժամկետային մատրիցով, որտեղ կար մեկը, տողի յուրաքանչյուր փաստաթղթի համար, եւ մեկ սյունակ, որ արձանագրվել է արդյոք Գրառման պարունակում է որոշակի բառը (օրինակ, բողոքի, երթեւեկության, եւ այլն): Հաջորդը, մի խումբ հետազոտական օգնականների ձեռքի պիտակավորված զգացմունքը մի նմուշի գրառմանը. Այնուհետեւ, թագավորը եւ նրա գործընկերները օգտագործել այս ձեռքի պիտակավորված տվյալները, որպեսզի գնահատել մի մեքենա ուսուցման մոդել, որը կարող է եզրակացնել, որ հետաքրքրությունը մի պաշտոնի վրա հիմնված իր հատկանիշներով: Ի վերջո, նրանք օգտագործել այս մեքենա ուսուցման մոդելը գնահատել հետաքրքրությունը բոլոր 11 միլիոն հաղորդագրությունների. Այսպիսով, ավելի շուտ, քան ձեռքով կարդում եւ պիտակավորման 11 մլն հաղորդագրություններ (որը կլինի logistically անհնար է), նրանք ձեռքով պիտակավորված մի փոքր շարք հաղորդագրությունների եւ ապա օգտագործվում ինչ տվյալների գիտնականները կանվանեի վերստուգվող սովորում է գնահատել կատեգորիաները բոլոր գրառումների. Ավարտելուց հետո այս վերլուծությունը, թագավորը եւ գործընկերները կարողացել է եզրակացնել, որ, որոշ չափով զարմանալիորեն, հավանականությունը պաշտոնում ջնջվում էր անկապ, թե արդյոք դա վճռորոշ է պետության, կամ աջակցում է պետության:
Ի վերջո, թագավորը եւ նրա գործընկերները հայտնաբերել են, որ միայն երեք տեսակի հաղորդագրությունների պարբերաբար գրաքննության: պոռնոգրաֆիա, քննադատությունը գրաքննիչների, եւ նրանք, որ ունեցել է հավաքական գործողությունների ներուժ (այսինքն, հնարավորություն առաջատար է լայնածավալ բողոքի ակցիաների): Ըստ դիտարկելով մի մեծ շարք հաղորդագրությունների որոնք ջնջված եւ հաղորդագրություններ, որոնք չեն ջնջված, թագավորը եւ գործընկերները կարողացան իմանալ, թե ինչպես գրաքննողները է աշխատել հենց հետեւում եւ հաշվում. Հետագա հետազոտության, նրանք, ըստ էության, ուղղակիորեն միջամտել դեպի չինական սոցիալական լրատվամիջոցների էկոհամակարգի `ստեղծելով գրառումները հետ համակարգված տարբեր բովանդակությամբ եւ չափիչ, որը ստանում գրաքննված (King, Pan, and Roberts 2014) : Մենք պետք է սովորենք ավելի մոտ փորձարարական մոտեցումների գլխի 4 հետագա, նախապատկերելով մի թեմա, որը տեղի կունենա ողջ գրքում, այդ լատենտային-հատկանիշը հետեվություն խնդիրները, որոնք երբեմն կարող են լուծվել վերահսկման ուսուցում-պարզվում է, որ շատ տարածված է սոցիալական հետազոտությունների թվային դարաշրջանում. Դուք կարող եք տեսնել նկարները շատ նման է նկար 2.3 գլուխներով 3 (հարցեր տալ) եւ 5 (Creating զանգվածային համագործակցությունը); դա մեկն է այն մի քանի գաղափարների, որ հայտնվում է բազմաթիվ գլուխների.
Երեքն այդ օրինակներից-աշխատանքային վարքագծի տաքսու վարորդները Նյու-Յորքում, բարեկամության ձեւավորման ուսանողների կողմից եւ սոցիալական լրատվամիջոցների գրաքննության վարքագծի չինական կառավարության-շոուի, որ համեմատաբար պարզ հաշվարկը դիտողական տվյալների կարող է հնարավորություն տալ հետազոտողներին փորձարկել տեսական կանխատեսումներ: Որոշ դեպքերում, մեծ տվյալները հնարավորություն է տալիս Ձեզ անել այս հաշվարկը համեմատաբար ուղղակիորեն (ինչպես նաեւ այն դեպքում, Նյու Յորքի տաքսիները): Այլ դեպքերում, հետազոտողները պետք է հավաքել իրենց սեփական observational տվյալները (ինչպես նաեւ այն դեպքում, չինական գրաքննության). զբաղվել թերի է միաձուլման տվյալները միասին (ինչպես այն դեպքում ցանցի էվոլյուցիայի); կամ կատարողական որոշակի ձեւ լատենտային-գծիկ հետեվություն (ինչպես նաեւ այն դեպքում, չինական գրաքննության): Քանի որ ես հույս ունեմ, որ այդ օրինակները ցույց են տալիս, հետազոտողների համար, ովքեր ի վիճակի են հարցնել հետաքրքիր հարցեր, մեծ շատ խոստումնալից: