Puru siddu si pò esse tantu aggalabbata, priannu LEU pò esse putente.
Un avvicinamentu diffirenti di droghe cù u TRANCIATO di dati traccia digitale, hè a arricchiri lu direttamente cù dati log, un prucessu chì mi chiamu priannu arriccùtu. Un esempiu di priannu arriccùtu hè u studiu di Burke and Kraut (2014) , chì aghju discritta pricidenti in lu capitulu (Section 3.2), su siasi in interazzione unu nant'à Facebook aumenta a forza amicizia. In stu casu, Burke e bosciu, cumbinatu di dati log cù dati di strada Facebook.
U tramontu ca Burke e bosciu travagliò in, parò, significava ca iddi nun hannu a fari li cunti ccu dui li problemi chi circadori pràtica facci dumandendu arriccùtu. Prima, primurosu di u ligame, insieme la serii-una dati prucessu ciamatu fiche lingua, u corrispondenza di 'na casa discugràfica in unu dataset cu la fiche spone in l' altri dataset-ponu esse difficiule è errore-acostumaus (no Mulateri Di L'vidi un esempiu di stu prublema quì sottu ). U secondu prublema maiò di priannu arriccùtu è chì a qualità di i vistichi digitale vi friquintimenti esse difficiule di circadori à griglia. Per esempiu, certi volti u prucessu à traversu cuali hè racolta hè pruprietà industriale è pudia esse sottumessi à parechji di i prublemi discritta in Chapter 2. Nta àutri paroli, priannu LEU vi friquintimenti vennu cuimmurciuti errore-acostumaus rilatandu di Salumeria a fonti di dati neri-box di scunnisciutu a qualità. Nunustanti lu cuncerna ca sti dui prublemi presentà, hè pussibuli à fà e ricerche mpurtanti cu sta strategia comu fu dimustratu da Stephen Ansolabehere e Luciano Hersh (2012) in a so ricerca supra a essayer vutendu in i Stati Uniti. Hè Fashion à andà nantu à stu studiu in certi tecnica chì parechji di i segni chì Ansolabehere e Hersh sviluppatu serà ùtule in altre appiicazioni di priannu arriccùtu.
In latinu turning hè statu u sugettu di largu di ricerca in scenze pulitiche, è in u passatu, si capisci circadori 'di quale voti è per quessa has been, giniralmenti si basa supra l' analisi di dati log. Vutari a li Stati Uniti, parò, hè un cumpurtamentu rara in chì i cartulari di lu guvernu s'ellu ogni citatinu hà vutatu (di sicuru, u guvernu ùn nutari ca ogni citatinu voti per). Per parechji anni, sti cartulari vutendu guvirnativi eranu dispunibbili su diàlogu, carta, sparnucciati in varii uffizii, lu cuviernu lucali intornu à u paese. Stu fattu hè difficiule, ma micca impussibile, per scinziati pulitica à avè un ritrattu cumpleta di lu Maschera e pi cunfruntari ciò chì dicenu in Salumeria su vutari pi lu so cumpurtamentu vutendu cuncertazione (Ansolabehere and Hersh 2012) .
Ma, avà sti cartulari vutari sò state digitized, è un numeru di cumpagnii privati anu ripetuta di folklori e si cunfunniu sti cartulari vutendu à pruducia i schedari cumpletu vutendu patruni ca nutari li cumpurtamentu vutendu di tutte e miricani. Ansolabehere e Hersh partinarii cù unu di sti sucitati-Catalist LCC-di modu à aduprà u so schedariu di vutendu maestru à aiutà à sviluppà una megliu image de la Maschera. In seguita, per via ch'ella si basau supra i cartulari digitale, studiusu e curated da un impresa, è uffrì un nùmeru di vantaghji supra merre sforzi par circadori ca avìa statu fattu senza l'aiutu di l'impresi è aduprendu i cartulari simulate.
Comu tanti di li fonti traccia digitale in Chapter 2, u schedariu da maestru Catalist ùn prividia micca tantu di l'infurmazioni demugrafica, attitudinal, è cultura ca Ansolabehere e Hersh bisognu. In più di què, Ansolabehere e Hersh fònu interested in comparing cumpurtamentu vutendu hà dettu chì a cumpurtamentu vutendu validati (vale à dì, u infurmazioni à nantu à a basa di dati Catalist). Cusì, i circadori studiusu di i dati chì ùn vulia comu parti di lu Cungressu USA di Cooperative Election Corso di lingua Francese (CCES), na granni log suciali. Next, i circadori detti stu dati à Catalist, è Catalist detti lu circadori dames un schedariu chì si cunfunniu dati ca cumprinnìa validati cumpurtamentu vutendu (da Catalist), u cumpurtamentu vutendu self-Etudiante (da CCES) e lu dem demographics e cumpurtamentu di respondents (da CCES ). Nta àutri paroli, Ansolabehere e Hersh arriccùtu nzinu a quannu li dati vutari cu dati log, e la schedariu s'ammiscau cu risurtatu ca permette micca di fà calcosa chì nè u schedariu permessu lea.
Par arricchennula u schedariu di dati signore Catalist cù dati log, Ansolabehere e Hersh ghjunse à trè cuegghiè mpurtanti. Prima, più di-Reegan di vutari è rampante: quasi la mità di u cada-elettori hà dettu chì vutendu. Or, un antru modu di taliarla hè s'è qualchissia hà dettu chì vutendu, ùn ci hè chè un casu 80% chì si intreccia u votu. Seconda, più di-Reegan ùn hè incerta; più di-Reegan hè più cumunu trà high-mediu, bè educatu-, di l 'àutra chì sò impegnati in l' affari publichi. Nta àutri paroli, lu pòpulu ca si ncòntranu cchiù prubbabbili pìgghianu sò ancu più atta a diri 'na minzogna su vutari. Terzu, è più critically, per via di a natura sistimàticu di più di-Reegan, la diffirenza cuncertazione trà elettori e non-elettori sò urigginariu d 'iddi cci vennu sulu da Salumeria. Per esempiu, quelli cù una licenza bachelors sò circa 22 punti pircintuali di più prubabile, pi dinunziari a vutari, ma sò solu 10 punti pircintuali di più di spiriri ô votu à l 'apparenza. In seguita, tiurii Vanina-based esistenti di vutendu sunnu tantu megghiu di pridisci chì vi fessite vutendu chè chì intreccia voti, un truvannu la rialità chì chjamanu di novu li tiurìi pi capiri e predict vutari.
Ma, how much s'è no si fida di sti risultati? Ricurdativi di sti risultati addipenni rilatandu errore-acostumaus a data, neri-box cu limitati scunnisciutu di errore. Più pricisamenti, i risultati faisait nantu à dui passi chiavi: 1) a capacità di Catalist à i valdi di tanti fonti di dati disparate pi prudùciri na pricisa datafile patruni e 2) la capacitati di Catalist à lià i dati log à u so maestru datafile. Ciascuna de 'sti passi è arquantu difficili, è ùn viaghjavanu più a sonai a prùssima putìa cumannari circadori à u cuegghiè è sbagghiatu. Tuttavia, à prò di trasfurmazioni di dati, è corrispondenza sò critica à u cuntinuvatu esistenza di Catalist comu 'na cumpagnia accussì si pò invistiscia i risorsi a risolviri sti prublemi, spessu à una scala chì nimu militante accademicu individuali o di gruppu di circadori pò currisponde. In u più di lettura à a fini di u capitulu, I numaru di sti prublemi, in più tecnica è cumu Ansolabehere e Hersh di custruisce di canusciri i so risultati. Macari si chisti li dittagli sò specifichi à stu studiu, resultati similar to Saranu a mio zitella di lucca circadori chì venenu à lià à neri-box fonti di dati traccia numerica.
Qualessi sò i lezioni ginirali circadori pò piglià da issu studiu? Prima, ci hè a densita valuri da arricchennula vistichi numerica dati log. Siconda, anchi si sti aggregated, fonti di dati di cumerciu deve micca tantu di putìrilu cunziddirari "verità terra", in certi casi ponu esse tandu interessante. In fin'di contu, hè megliu a parauni di sti funti data, ùn a Verità Si Face assuluta (da ch'elli vi sempri innamurà corta). Invece, hè megliu à elli parauni a àutri fonti di dati dispunibbili, ca hannu invariabilamenti errori, oltri.