Cuntari Simple pò èssiri ntirissanti s'è vo mudificà una bona quistioni cu bona dati.
Eppuru chì hè stata in un linguaggiu sofistidu, unepoche di a ricerca sociale hè veramente contu e cose. In l'età di grande dati, i circh merchante pò cunfondà più ch'è sempre, ma questu ùn vole micca di dì chì avìanu da esse cuminciati cumminci cuntalli in bocca. Invece, i circhudergheru deve dumandà: Chì cosi ci vanu a cuntari? Chistu pò esse un affissu sianu sottumettivu, ma ci sò parechje pattii generale.
Spessu, l'alumnue motivate a so ricchira di ricerca di dicendu: Ùn avete qualcosa qualcosa chì nimu ha mai avutu cun noi. Per esempiu, un studiente pudia dì chì assai persone anu studiatu emigranti è assai persone anu studiatu bietti, ma nuddu hà studiatu gimmi migrati. In a mo spirimintà, questa stratugia, chì dicu motivazione da assenza , ùn sia micca spessu guida à una bona ricerca. A motivazione per l'assenza hè tipu di cum'è chì dice chì ci hè un pirtusore quà sopra, è ne vogliu travaglià assai duru per fà. Ma ùn ogni furasteru deve bisognu à pienu.
Invece di motivate da assenza, crede chì una stratiggia megliu hè di circà e dumande di ricerca chì sò impurtanti o interessanti (o idealmentu duie). Eppuru sti termini un pocu duru di definisce, ma un modu per penserà nantu à ricerca impurtante hè chì hà qualchì impurtante quantità chì pò esse in una decisione impurtante da i pulitichi. Per esempiu, a misurazione di u rate of unemployment hè impurtante perchè hè un indicatore di l'ecunumia chì impulse e decisioni pulitica. In generale, crede chì i circhificaturi anu un sensu bonu di ciò chì hè impurtante. Allora, in u restu di sta rùbbrica, vi aiuterà per esse dui esempi cume mi pensare cuntendu interessante. In ogni casu, i circunsidenti ùn eranu micca contu in cursu; Invece, eranu contando in un paràmetru particulari chì revelò ideologiche impurtanti in idei più generali nantu à cumu u funziunamentu di u sistema sociale. In altre parolle, assai di ciò chì facenu stu particulari esercitivu di cuntinte interessanti ùn hè micca a dati stessu, vene da sti idee più generale.
Un esempiu di l'putenza simplicità di cuntà veni da l'studiu di Henry Farber (2015) di u cumpurtamentu di i citatini di taxi di New York City. Invece questu gruppu ùn puderà micca micca interessanti interessante, hè un locu strategicu strategicu per pruvà dui teori rivolgiri in l'economia di u travagliu. Per a scopi di a ricerca di Farber, ci sò dui funziunalità impurtanti nantu à l'ambiente di u travagliu di i taxisti: (1) u so pagamentu per un'orumu fluttu di u ghjornu à ghjornu, basatu in parte à fatturi com l'u tempu, è (2) u numaru d'ose travagliu pò fluveru ogni ghjornu basatu annantu à e so decisione. Sti carattuli ponenu una quistioni interessanti nantu à a relazione trà u pagu di l'houru è l'ore hà travagliatu. E mudelli neoclasichi in economia predichendu chì i taxatori sò travagliate più nantu à i ghjorni chì anu un pagamentu più largu. Oltremente, mudelli di l'economia cumportamentale predichenu per quessa o opere. Se e metteur determinate una destinazione di ingressu particulari-dite $ 100 per ghjornu, è travagliu finu à chì u pianu di destinazione hè stata metta, i discindenti finiscinu di travaglià mancu minuti in ghjorni chì guateanu più. Per esempiu, s'ellu era un ingignore di u destinazione, pudete finisce quì duranu 4 ore à un bonu ghjornu ($ 25 per l'ora) è 5 ore à un ghjornu malu ($ 20 per l'ora). Allora, chì i prughjetti di u travagliu più di suli nantu à i ghjorni cù pagine per più di l'ore (quantu predichendu per i mudelli neoclàssici) o più di suli nantu à i ghjorni cù pagi perpende di u sughjettu (quant'è predice da mudelli economicu di cumportamentu)?
Per risponde à sta quistione Farber hà pussibule infurmazioni nantu à ogni viaghju taxi pigliata da a New York City cù di u 2009 à u 2013, a dati chì sò dispunibili publicamente. Queste dati chì anu riaccettatu per mette elettroni chì a cità hè bisognu di riferenzi per u usu, includenu nant'à u vostru viaghju: principiu di inizziu, principiu di situazione, a fini di u tempu, a locazione finale, a tarifa è a punta (se a punta era pagata cù una carta di creditu) . Usendu stu metru di taxi mette, Farber truvò chì a maiò parte di i travagliadori travaglianu più nantu à i ghjorni chì i salari sò più altezzii, cunstanti cù a teoria neoclàssica.
In più di stu principale truvà, Farber hà pudendu utilizà a dimensione di e dati per una comprensione di l'heterogeneità è a dinamica. Hà trova chì, cù u tempu, i più di novu guideri apprendu pocu tempu à travaglià più di sughjorni nantu à i ghjornu di u sughjettu (per esempiu, anu sappiutu cumportanu cum'è u mudellu neoclàssicu predice). E novi conducturi chì si cumpurtavanu più com'è assicurati di destinazione sò più prubabile di esse stati mutori di taxi. Tutti dui svinuti più suttili, chì aieghjanu à spiegà u cumpurtamentu di i cuntrolli di corrente, eranu solu pussibuli per u grandu di u settore. Hè impussibile di detta in i studii antichi chì anu usatu fulmini di carta di viaghju da un pianu numeri di taxisti per un corpu di tempu (Camerer et al. 1997) .
L'estimatura di Farber era vicinu à un scopu più favorevule per una ricerca chì utilizava una grande fonte di dati perchè e dati chì anu riaccettati da a cità era quasi vicinu à a dati chì Farber s'havia rioplatatu (una diffirenza hè chì Farber avia avutu dumandatu data nantu à u tutale salarii e più cunsiglii, ma l'infurmazioni di a cità ùn sò solu cunsiglii pagati da una carta di creditu). Tuttavia, i dati ùn sò micca solu. A chiavi di a ricerca di Farber era di furnisce una quistione interessanti per a dati, una quistione chì hà una implicazione più grande da quillu solu questu settore puntuale.
Un secondu esempiu di cuntendu e cose da a ricerche di Gary King, Jennifer Pan è Molly Roberts (2013) nantu à a censura in linea da u guvernu chinese. In questu casu, però, i circadveri anu bisognu di cullà i so proprii grandi dati è anu avutu per trattà cun u fattu chì i so dati era micca cumplettu.
Re è i culleghi sò motivati da u fattu chì i publichi di e social media in Cina sò censurati da un enormu aparadoru statali chì hè pensatu per cumprendi parechji millares di persone. L'urganizazione è i citadini anu sensu pocu sensu di cumu questi i censori decidenu quale u contenutu deve esse eliminatu. I Scholars di a Cina attualmente ci anu expectati cunflittu chì i tipi di posti sò più probabili di esse eliminati. Certi pensanu chì i censori fucalizza nantu à i posti chì anu criticu di l'statu, mentri àutri chì pensanu chì fughjenu nantu à i posti chì favurizanu u cumpurtamentu cullettivu, cum'è protesta. Scupriteu quale di questi aspettavule hè correctu tenu implicazione per quelli chì i ricercà circhendu Chine è autri gveri autoritarici chì si ponenu in censura. Per quessa, King è i collegues anu vulsutu per paragunate publiciti chì anu publicati è sussuggistramentu sguassati cù publiciti chì anu publicatu è micca mai borru.
Storia sti posti privitti la maravigghiusu ft geniu di rossu di più chè 1000 cinese a sucetà di cumunicazione siti-ogni cù i sfarenti pagina romantica-truvannu i posti Bandera di a, e poi revisiting sti posti à vede chi eranu finiti sguassati. 'N agghiunta a lu nurmali prublemi ingegneria assuciata cu granni scala Web-rossu, stu pruggettu a sfida aghjustatu chì hè vulsutu à esse assai viloci picchì tanti posti cinzurata sò purtati davanti à menu di 24 ore. Nta àutri paroli, una francese crawler lentu si parlerà carchi di i posti chì eranu cinzurata. In seguita, u crawlers avia a fari tuttu stu cullezzione di dati mentri evading dittizzioni paura chì i siti suciale di cumunicazione bluccà un accessu o macari cunnìti canciari lu pròpiu Pulitica a risposta à u studiu.
À quellu tempu chì sta dumanda massima d'ingignizia hè stata completa, King è i culleghi anu obtatu circa 11 miliuni di posti nantu à 85 temi prespecifichi diffirenti, ognunu cù un nivellu di sensitività assuntu. Per esempiu, un tema di alta sensibilita hè Ai Weiwei, l'artista dissidenti; un tema di sensibiliità media hè l'apprezzazione è a valore divaluazione di a valuta chinesa, è un tema di bassinu sensibilita hè a Copa del Mundo. Da questi 11 million posts, circa 2 miliuni anu stati censurati. Hè sorpresa, King è i culleghji truvaru chì i posti nantu à tematichi sensitivi sò stati censurati solu più di più spessu chì posti nantu à temàtzi media è sensitivu. In autri vocabuli, i censuraturi chinesi sò circhendu crescente di censurà una missa chì mencu à Ai Weiwei cum'è postu chì riferisce à a Copa Mondiale. Sti fatti ùn anu micca avè l'idea chì u censu di guvernu tutti i posti nantu à temi sensittivi.
Stu calculu simplice di a tarifa di censura per tema puderia esse ingrata. Per esempiu, u guvernu pudia censurà e posti chì sò supportive di Ai Weiwei, ma permettenu i posti chì anu criticu. Per pudè distingueru più cù cura di i posti, i circh merchandiserati necessariu per misurà u sentimentu di ogni postu. Por desgradu, anche u travagliu, i metudi automatizati di sentimentu detection using dictionaries pre-existing still are not very good in many situations (think back to the problems creating a timeline emotional of September 11, 2001 described in section 2.3.9). Per quessa, King è i culleghi d'avè bisognu di modu di sballà i 11 milioni di messageria cumerciale per esse (1) critichi di l'statu, (2) supportive di l'statu, o (3) rapporti irrellevati o fattuti nantu à i manifesti. Questu sona cum'è un travagliu massiu, ma l'hà resolvutu cù un pudore putente chì ghjè cumunu in a scienza di dati, ma hè pocu raru in a scienza suciali: l'imparazione supervisata ; vede a figura 2.5.
Prima, in un passaghju chjamatu chjamatu preprucessu , i ricerchi anu convertutu i publichi messaggiani suciale in una matrice di documentu , induve hè statu una fila per ogni documentu è una colonna chì hà registratu chì u postu cuntene una parolla precisa (per esempiu, protesta o trafficu) . U seguitu, un gruppu di assistenti di ricerca manitulati u sentimentu di una mostra di posti. Allora, anu utilizatu l'infurmazione articuli ditti per creà un mudellu d'addevu di e tecnulugia chì puderia inferisce u sentimentu di un postu basatu annantu à e so caratteristiche. Finalmente, anu utilizatu stu mudellu per calculà u sentimentu di i 11 milioni di posti.
Cusì, invece di manuelmente lighjia è ubligatoriu 11 miliuna di posti-chì puderia esse logistichi micca pussibile - u Re è i culleghi discritti manualmente un pocu nimu di posti è poi usavanu studienti verificatu per estimà u sentimentu di tutti i posti. Dopu finalizà stu analisi, anu capace di cuncludi chì, un pocu chì sorprenente, a probabilità di un postu chì hè stata eliminata era micca valore per esse chjamatu di u statu o di supportu di l'statu.
A fine, King è i culleghji scupreru chì solu trè tippi di posti anu persuamente censurati: pornografia, critica di i censori, è quelli chì anu pussidianu attivatu d'esecutà cullettiva (per esempiu, a pussibilità di guidà in protesta grande). In osservazione una quantità numerosa di e posti chì anu stati suprimi è posti chì ùn sò micca eliminati, King è i culleghi sò stati capaci di sapè cumu i censori sò u travagliu solu à vede è cuntendu. Avanza, prumessioni di un tema chì si prisenteranu in tuttu u libru, l'approccu di furmazione tutale chì utilizonu-labellu qualcosa di ricerca è custruiscenu un mudellu di mudellu di furmulariu à sguassà u reste chì turnava à esse cumunu in a ricerca suciale in l'era digitale . Tandu vi vede ritratti assai simili à a figura 2.5 in i caputi 3 (dumande) è 5 (Creazione di colazione civila); Questu hè una di e pochi idee chì vene in parechje capudi.
Queste esempi, u cumportamentu di travagliu di i taxatori di taxi in New York è a cumpurtamentu di a censura suciale di u guvernu chinese, indicanu chì un cuntattu semplice di numeru di e grandi fonti di dati pò, in certi situazione, guidanu à ricerca interessanti è impurtante. In i dui casi, i circannatori avianu aduprà interete interessanti à a big data source; i dati per sè stessu ùn era micca abbastanza.