Numărare simplă poate fi interesant dacă se combină o întrebare bună cu date bune.
Deși este redactat într-un limbaj sofisticat, o mulțime de cercetări sociale se bazează doar pe lucruri. În epoca datelor mari, cercetătorii pot conta mai mult ca niciodată, dar asta nu înseamnă că ar trebui să înceapă să numere în mod accidental. În schimb, cercetătorii ar trebui să întrebe: Ce lucruri merită să numărați? Acest lucru poate părea o chestiune cu totul subiectivă, dar există câteva modele generale.
Adesea, studenții își motivează cercetarea numărătoare, spunând: Voi număra ceva pe care nimeni nu l-a numărat vreodată. De exemplu, un student ar putea spune că mulți oameni au studiat migranții și mulți oameni au studiat gemeni, dar nimeni nu a studiat gemeni migranți. Din experiența mea, această strategie, pe care o numesc motivație prin absență , nu conduce de obicei la o cercetare bună. Motivarea prin absență este un fel de a spune că există o gaură acolo și voi lucra foarte mult pentru ao umple. Dar nu orice gaură trebuie să fie umplută.
În loc să motivați prin absență, cred că o strategie mai bună este să căutați întrebări de cercetare importante sau interesante (sau, în mod ideal, ambele). Ambii termeni sunt greu de definit, dar o modalitate de a gândi despre cercetări importante este că are un impact măsurabil sau se alimentează într-o decizie importantă din partea factorilor de decizie politică. De exemplu, măsurarea ratei șomajului este importantă deoarece este un indicator al economiei care determină deciziile politice. În general, cred că cercetătorii au un sens destul de bun despre ceea ce este important. Deci, în restul acestei secțiuni, voi oferi două exemple în care cred că numărarea este interesantă. În fiecare caz, cercetătorii nu numărau întâmplător; mai degrabă, aceștia se numărau într-un cadru foarte special, care a dezvăluit o perspectivă importantă asupra unor idei mai generale despre modul în care funcționează sistemele sociale. Cu alte cuvinte, multe din ceea ce face ca aceste exerciții speciale de numărare să fie interesante nu sunt datele în sine, ci provin din aceste idei mai generale.
Un exemplu de simplă putere de numărare vine de la studiul lui Henry Farber (2015) despre comportamentul șoferilor de taxi din New York. Deși acest grup ar putea să nu pară inerent interesant, este un site de cercetare strategică pentru testarea a două teorii concurente în economia forței de muncă. În scopul cercetării lui Farber, există două caracteristici importante privind mediul de lucru al șoferilor de taxi: (1) salariul lor orar variază de la o zi la alta, bazat în parte pe factori precum vremea și (2) numărul de ore munca poate fluctua în fiecare zi pe baza deciziilor lor. Aceste caracteristici conduc la o întrebare interesantă despre relația dintre salariile orare și orele lucrate. Modelele neoclasice din economie prevăd că șoferii de taxi vor lucra mai mult în zilele în care au salarii pe oră mai mari. Alternativ, modelele din economia comportamentală prezic exact contrariul. În cazul în care șoferii stabilesc un anumit obiectiv de venit - să zicem 100 de dolari pe zi - și să lucreze până când obiectivul respectiv este îndeplinit, atunci șoferii vor sfârși să lucreze mai puține ore în zilele în care câștigă mai mult. De exemplu, dacă ați fost un beneficiar țintă, s-ar putea să terminați să lucrați patru ore într-o zi bună (25 USD pe oră) și cinci ore într-o zi proastă (20 USD pe oră). Deci, șoferii lucrează mai multe ore în zile cu salarii pe oră mai mari (așa cum au prezis modele neoclasice) sau mai multe ore pe zile cu salarii mai mici pe oră (așa cum sunt prezise de modelele economice comportamentale)?
Pentru a răspunde la această întrebare, Farber a obținut date despre fiecare călătorie cu taxiul efectuată de cabinele din New York City în perioada 2009 - 2013, date care sunt acum disponibile publicului. Aceste date - care au fost colectate prin contoare electronice pe care orașul necesită utilizarea taxiurilor - includ informații despre fiecare călătorie: ora de începere, locația de pornire, ora de încheiere, destinația finală, tariful și sfatul (dacă sfatul a fost plătit cu un card de credit) . Folosind aceste date de taxi, Farber a constatat că majoritatea șoferilor lucrează mai mult pe zile când salariile sunt mai mari, conforme cu teoria neoclasică.
În plus față de această constatare principală, Farber a reușit să utilizeze mărimea datelor pentru o mai bună înțelegere a eterogenității și dinamicii. El a constatat că, de-a lungul timpului, șoferii mai noi învață treptat să lucreze mai multe ore în zilele cu salarii mari (de exemplu, învață să se comporte așa cum prezice modelul neoclasic). Iar noii conducători auto care se comportă mai mult ca cei care doresc să-și atingă obiectivele sunt mai predispuși să renunțe la șoferii de taxi. Ambele constatări mai subtile, care explică comportamentul observat al șoferilor actuali, au fost posibile numai datorită dimensiunii setului de date. Erau imposibil de detectat în studiile anterioare care foloseau coli de hârtie de la un număr mic de șoferi de taxi într-o perioadă scurtă de timp (Camerer et al. 1997) .
Studiul lui Farber a fost aproape de un scenariu optim pentru o cercetare folosind o mare sursă de date, deoarece datele colectate de oraș erau destul de apropiate de datele pe care Farber le-ar fi colectat (o diferență este că Farber ar fi vrut date despre total salariile-tarifele plus sfaturi-dar datele din oraș includ doar sfaturi plătite prin card de credit). Cu toate acestea, datele nu erau suficiente. Cheia cercetării lui Farber aducea o întrebare interesantă datelor, o întrebare care are implicații mai mari dincolo de acest cadru specific.
Un al doilea exemplu de a număra lucrurile vine de la cercetările lui Gary King, Jennifer Pan și Molly Roberts (2013) privind cenzura online de către guvernul chinez. În acest caz, totuși, cercetătorii trebuiau să-și strângă propriile date mari și trebuiau să se ocupe de faptul că datele lor erau incomplete.
Regele și colegii au fost motivați de faptul că posturile sociale din China sunt cenzurate de un aparat de stat enorm, despre care se crede că include zeci de mii de oameni. Cercetătorii și cetățenii, totuși, au puțină sens asupra modului în care acești cenzori decid ce conținut ar trebui să fie șters. Cercetătorii din China au, de fapt, așteptări conflictuale cu privire la tipurile de posturi care sunt cel mai probabil să fie șterse. Unii cred că cenzura se concentrează asupra posturilor care sunt critice față de stat, în timp ce alții cred că se concentrează asupra posturilor care încurajează comportamentul colectiv, cum ar fi protestele. Identificarea corectă a acestor așteptări are implicații asupra modului în care cercetătorii înțeleg China și alte guverne autoritare care se angajează în cenzură. Prin urmare, King și colegii au dorit să compare postările care au fost publicate și ulterior eliminate cu postări care au fost publicate și nu au fost șterse.
Colectarea de aceste posturi implicate feat inginerie uimitoare de accesare cu crawlere mai mult de 1.000 de chinezi site-uri de social media-fiecare cu diferite pagini aspecte de constatare posturi relevante, iar apoi revizitarea aceste posturi pentru a vedea care au fost eliminate ulterior. În plus față de problemele de inginerie normale asociate pe scară largă de web-crawling, acest proiect a avut provocarea a adăugat că este nevoie să fie extrem de rapid, deoarece multe posturi cenzurate sunt luate în jos în mai puțin de 24 de ore. Cu alte cuvinte, un crawler lent ar fi dor de o mulțime de posturi care au fost cenzurate. În plus, crawlerele a trebuit să facă toate acestea de colectare a datelor în timp ce se sustrage de detectare ca nu cumva site-urile de social media bloca accesul sau în alt mod să își schimbe politicile ca răspuns la studiu.
Până în momentul în care această sarcină masivă de inginerie a fost finalizată, Rege și colegii au obținut aproximativ 11 milioane de posturi pe 85 de subiecte specificate, fiecare având un nivel de sensibilitate presupus. De exemplu, un subiect de înaltă sensibilitate este Ai Weiwei, artistul disident; un subiect de sensibilitate de mijloc este aprecierea și devalorizarea monedei chinezești, iar un subiect de sensibilitate scăzută este Cupa Mondială. Dintre aceste 11 milioane de posturi, aproximativ 2 milioane au fost cenzurate. Oarecum surprinzător, Regele și colegii au descoperit că postările pe teme extrem de sensibile au fost cenzurate doar puțin mai des decât posturile cu subiecte sensibile la nivel mediu și scăzut. Cu alte cuvinte, cenzorii chinezi sunt la fel de probabil să cenzureze un post care menționează Ai Weiwei ca post care menționează Cupa Mondială. Aceste constatări nu susțin ideea că guvernul cenzurează toate postările pe subiecte sensibile.
Acest calcul simplu al ratei cenzurii pe subiect ar putea însă să fie înșelător. De exemplu, guvernul ar putea să cenzureze posturi care susțin Ai Weiwei, dar să lase posturi critice față de el. Pentru a distinge mai atent posturile, cercetătorii au trebuit să măsoare sentimentul fiecărui post. Din păcate, în ciuda multor lucruri, metodele complet automatizate de detectare a sentimentului folosind dicționarele preexistente nu sunt încă foarte bune în multe situații (gândiți-vă la problemele care creează o cronică emoțională din 11 septembrie 2001 descrisă în secțiunea 2.3.9). Prin urmare, Regele și colegii au avut nevoie de o modalitate de a eticheta cele 11 milioane de posturi de social media în ceea ce privește dacă acestea erau (1) critice față de stat, (2) sprijinirea statului sau (3) rapoarte irelevante sau factuale despre evenimente. Acest lucru pare a fi un loc de muncă masiv, dar au rezolvat-o folosind un truc puternic care este obișnuit în știința datelor, dar relativ rar în știința socială: învățarea supravegheată ; vezi figura 2.5.
În primul rând, într-un pas numit în mod preprocesat , cercetătorii au convertit postările social media într-o matrice de termeni pentru documente , unde a existat un rând pentru fiecare document și o coloană care a înregistrat dacă postul conținea un anumit cuvânt (de exemplu protest sau trafic) . Apoi, un grup de asistenți de cercetare marchează manual sentimentul unui eșantion de posturi. Apoi, au folosit aceste date marcate manual pentru a crea un model de învățare a mașinilor care ar putea deduce sentimentul unui post pe baza caracteristicilor sale. În sfârșit, au folosit acest model pentru a estima sentimentul tuturor celor 11 milioane de postări.
Astfel, mai degrabă decât citirea și etichetarea manuală a 11 milioane de posturi - ceea ce ar fi imposibil din punct de vedere logistic - King și colegii au etichetat manual un număr mic de posturi și apoi au folosit învățarea supravegheată pentru a estima sentimentul tuturor posturilor. După ce au finalizat această analiză, au reușit să concluzioneze că, oarecum surprinzător, probabilitatea ca un post să fie eliminat nu avea nicio legătură cu faptul că acesta era critic față de stat sau care susținea statul.
În final, regizorii și colegii au descoperit că doar trei tipuri de posturi au fost cenzurate în mod regulat: pornografia, critica cenzorilor și cele care aveau potențial de acțiune colectivă (adică posibilitatea de a conduce la proteste la scară largă). Observând un număr imens de postări care au fost șterse și mesaje care nu au fost șterse, King și colegii au reușit să afle cum funcționează cenzurii doar prin vizionarea și numărarea. Mai mult, prefigurând o temă care va apărea pe parcursul acestei cărți, abordarea învățată supravegheată pe care o foloseau - marcarea unor rezultate și apoi construirea unui model de învățare a mașinilor pentru a marca restul - se dovedește a fi foarte frecventă în cercetarea socială în era digitală . Veți vedea imagini foarte asemănătoare cu cele din figura 2.5 în capitolele 3 (Întrebări adresate) și 5 (Crearea colaborării în masă); aceasta este una dintre puținele idei care apar în mai multe capitole.
Aceste exemple - comportamentul de lucru al șoferilor de taxi din New York și comportamentul de cenzură din partea mass-media socială a guvernului chinez - arată că numărarea relativ simplă a surselor mari de date poate duce, în unele situații, la cercetări interesante și importante. În ambele cazuri, totuși, cercetătorii au trebuit să aducă întrebări interesante sursei mari de date; datele de la sine nu au fost suficiente.