Cercetatorii au fragmentat site - uri de social media din China pentru a studia cenzura. Ei au ocupat de incompletitudine cu inferență latentă trăsătură.
În plus față de datele mari utilizate în cele două exemple anterioare, cercetatorii pot colecta , de asemenea , propriile lor date de observație, așa cum a fost ilustrat excelent de Gary King, Jennifer Pan, și "Molly Roberts (2013) de cercetare cu privire la cenzura de guvernul chinez.
posturi sociale mass-media din China sunt cenzurate de către un aparat de stat enormă care se crede că pentru a include zeci de mii de oameni. Cercetători și cetățeni, cu toate acestea, au prea mult sens de modul în care aceste cenzorilor decide ce conținut ar trebui eliminat din social media. Oamenii de știință din China, de fapt, au așteptări contradictorii cu privire la care tipuri de posturi sunt cele mai susceptibile de a fi șters. Unii cred că se concentreze pe cenzorii posturi care sunt critice ale statului în timp ce alții cred că se concentreze pe posturi care încurajează un comportament colectiv, cum ar fi protestele. Imaginind care dintre aceste așteptări sunt corecte are implicatii pentru modul in care cercetatorii inteleg China si alte guverne autoritare care se angajează în cenzura. Prin urmare, King si colegii sai au vrut sa compare posturi care au fost publicate și șterse în posturi care au fost publicate și șterse niciodată ulterior.
Colectarea de aceste posturi implicate feat inginerie uimitoare de accesare cu crawlere mai mult de 1.000 de chinezi site-uri de social media-fiecare cu diferite pagini aspecte de constatare posturi relevante, iar apoi revizitarea aceste posturi pentru a vedea care au fost eliminate ulterior. În plus față de problemele de inginerie normale asociate pe scară largă de web-crawling, acest proiect a avut provocarea a adăugat că este nevoie să fie extrem de rapid, deoarece multe posturi cenzurate sunt luate în jos în mai puțin de 24 de ore. Cu alte cuvinte, un crawler lent ar fi dor de o mulțime de posturi care au fost cenzurate. În plus, crawlerele a trebuit să facă toate acestea de colectare a datelor în timp ce se sustrage de detectare ca nu cumva site-urile de social media bloca accesul sau în alt mod să își schimbe politicile ca răspuns la studiu.
Odată ce această sarcină masivă de inginerie a fost finalizat, King si colegii sai au obtinut aproximativ 11 milioane de mesaje pe 85 teme diferite, care au fost pre-specificate în funcție de nivelul așteptat de sensibilitate. De exemplu, un subiect de mare sensibilitate este Ai Weiwei, artistul disident; un subiect de sensibilitate de mijloc este de apreciere și devalorizare a monedei chineze, precum și un subiect de sensibilitate scăzută este Cupa Mondială. Dintre aceste 11 de milioane de posturi de aproximativ 2 milioane au fost cenzurate, dar posturi pe subiecte extrem de sensibile au fost cenzurate doar puțin mai des decât mesaje pe teme de sensibilitate medii și mici. Cu alte cuvinte, cenzorii chinezi sunt la fel de susceptibile de a cenzura un post care menționează Ai Weiwei ca un post care menționează Cupa Mondială. Aceste descoperiri nu au corespuns ideea simplistă că guvernul cenzureaza toate mesajele pe teme sensibile.
Acest calcul simplu al ratei de cenzură de subiect ar putea induce în eroare, cu toate acestea. De exemplu, guvernul ar putea să cenzureze posturi care se sprijină de Ai Weiwei, dar lasă posturi care sunt critice de el. Pentru a putea distinge între posturi mai atent, cercetatorii au nevoie pentru a măsura sentimentul fiecărui post. Astfel, un mod de a gândi despre el este că sentimentul fiecărui post într-o caracteristică latentă importantă a fiecărui post. Din păcate, în ciuda mult de lucru, metode complet automatizate de detectare a sentimentelor care utilizează dicționare pre-existente nu sunt încă foarte bune în multe situații (gândesc la problemele care creează un calendar emoțional data de 11 septembrie, 2001 emisă de secțiunea 2.3.2.6). Prin urmare, King si colegii sai au nevoie de o modalitate de a eticheta lor de 11 de milioane de posturi media sociale dacă acestea au fost 1) critice ale statului, 2) de susținere a statului, sau 3), rapoarte irelevante sau de fapt despre evenimente. Acest lucru sună ca un loc de muncă masiv, dar l-au rezolvat folosind un truc puternic; una care este comună în domeniul științei de date, dar în prezent relativ rare în științele sociale.
În primul rând, într - o etapă în mod tipic numit de pre-procesare, cercetatorii au convertit posturile de social media într - o matrice pe termen document, în cazul în care a existat un rând pentru fiecare document și o coloană care a înregistrat dacă postul conținea un anumit cuvânt ( de exemplu, protest, trafic etc.). În continuare, un grup de asistenți de cercetare de mână marcat sentimentul unui eșantion de post. Apoi, King si colegii sai au folosit aceste date marcat cu mana pentru a estima un model de învățare mașină care ar putea deduce sentimentul unui post pe baza caracteristicilor sale. În cele din urmă, au folosit acest model de învățare mașină pentru a estima sentimentul de toate cele 11 de milioane de posturi. Astfel, în loc de a citi și manual de etichetare de 11 milioane de posturi (care ar fi imposibil logistic), au etichetat manual un număr mic de posturi și utilizate apoi ce date oamenii de știință s- ar numi învățare monitorizat pentru a estima categoriile de toate posturile. După finalizarea acestei analize, King si colegii sai au putut concluziona că, în mod oarecum surprinzător, probabilitatea unui post să fie șters nu are legătură cu dacă acesta a fost critic al statului sau de susținere a statului.
În cele din urmă, King si colegii sai au descoperit ca doar trei tipuri de posturi au fost cenzurate in mod regulat: pornografia, critica cenzorilor, iar cei care au avut un potențial de acțiune colectivă (de exemplu, posibilitatea de a conduce la proteste pe scară largă). Prin observarea unui număr foarte mare de posturi care au fost șterse și posturi care nu au fost șterse, King si colegii sai au fost capabili să învețe cum cenzorilor funcționează doar prin vizionarea și de numărare. In cercetarea ulterioare, au intervenit în mod direct , în ecosistemul social media chineză prin crearea de posturi cu conținut diferit în mod sistematic și de măsurare care obține cenzurat (King, Pan, and Roberts 2014) . Vom afla mai multe despre abordările experimentale în Capitolul 4. Mai mult, prevestind o temă care va avea loc pe tot parcursul cărții, aceste probleme-care latente atributul inferență pot fi uneori rezolvate cu învățarea supravegheată-se dovedesc a fi foarte frecvente în cercetarea socială în cadrul era digitala. Veți vedea imagini foarte asemănătoare cu figura 2.3 în capitolele 3 (Punerea întrebări) și 5 (Crearea de colaborare în masă); este una dintre puținele idei care apare în mai multe capitole.
Toate aceste trei exemple comportamentul de lucru al șoferilor de taxi din New York, formarea de prietenie de către studenți, și mass-media comportamentul social al cenzurii chinez guvern arată că relativ simplu de numărare a datelor de observatie pot permite cercetatorilor pentru a testa predicții teoretice. În unele cazuri, date de mare vă permite să faceți acest lucru în mod direct de numărare relativ (așa cum este în cazul New York, taxiurile). In alte cazuri, cercetătorii vor trebui să colecteze propriile date de observație (în cazul cenzurii din China); face cu incompletitudine prin fuzionarea datelor împreună (ca în cazul evoluției rețelei); sau efectuarea de o anumită formă de inferență latentă trăsătură (la fel ca în cazul cenzurii din China). Așa cum am sper aceste exemple arată, pentru cercetătorii care sunt capabili de a pune întrebări interesante, mari detine o mare promisiune.