2.3.2.6 Dirty

Big databronne kan gelaai word met rommel en spam.

Sommige navorsers glo dat groot databronne, veral dié van aanlyn bronne, is ongeskonde, want hulle outomaties versamel. Trouens, mense wat gewerk het met 'n groot databronne weet dat hulle gereeld vuil. Dit wil sê, hulle dikwels sluit data wat nie weerspieël die werklike optrede van belang is vir navorsers. Baie sosiale wetenskaplikes is reeds vertroud is met die proses van die skoonmaak van grootskaalse sosiale opname data, maar die skoonmaak van groot data bronne is moeiliker om twee redes: 1) dit was nie geskep deur navorsers vir navorsers en 2) navorsers oor die algemeen minder begrip van hoe hulle geskape is.

Die gevare van vuil digitale spoor data geïllustreer deur heen en kollegas se (2010) studie van die emosionele reaksie op die aanvalle van 11 September, 2001 Navorsers tipies die reaksie op dramatiese gebeure met behulp van terugwerkende data ingesamel oor maande of selfs jare bestudeer. Maar, rug en kollegas het gevind dat 'n altyd-op bron van digitale spore-die timestamped, outomaties aangeteken boodskappe van 85.000 Amerikaanse pagers-en dit in staat gestel het die navorsers tot emosionele reaksie op 'n baie fyner tydskaal bestudeer. Terug en kollegas het 'n minuut-vir-minuut emosionele tydlyn van 11 September deur kodering die emosionele inhoud van die pager boodskappe deur die persentasie van woorde in verband met (1) hartseer (bv, huil, hartseer), (2) angs (bv, bekommerd, bang), en (3) woede (bv, haat, kritiese). Hulle het bevind dat hartseer en angs gewissel gedurende die dag sonder 'n sterk patroon, maar dat daar 'n treffende toename in woede oor die hele dag. Hierdie navorsing lyk na 'n wonderlike voorbeeld van die krag van altyd-op databronne wees: met behulp van standaard metodes is dit onmoontlik om so 'n hoë-resolusie tydlyn van die onmiddellike reaksie op 'n onverwagte gebeurtenis sou wees.

Net 'n jaar later, egter, Cynthia Pury (2011) kyk na die data meer versigtig. Sy ontdek dat 'n groot aantal van die sogenaamde kwaad boodskappe is gegenereer deur 'n enkele pager en hulle was almal identies. Hier is wat die sogenaamde kwaad boodskappe gesê:

"Reboot NT masjien [naam] in die kabinet [naam] te [plek]: KRITIESE: [datum en tyd]"

Hierdie boodskappe is gemerk kwaad omdat hulle die woord "kritieke", wat oor die algemeen woede kan aandui, maar nie in hierdie geval ingesluit. die boodskappe wat deur hierdie enkele outomatiese pager verwydering heeltemal elimineer die oënskynlike toename in woede oor die loop van die dag (Figuur 2.2). Met ander woorde, die belangrikste resultaat in Back, Küfner, and Egloff (2010) was 'n juweel van 'n pager. Aangesien hierdie voorbeeld illustreer, relatief eenvoudige ontleding van relatief komplekse en slordig data het die potensiaal ernstig skeefloop.

Figuur 2.2: Beraamde tendense in toorn oor die loop van September 11, 2001 op grond van 85.000 Amerikaanse pagers (Terug, Kufner, en Egloff 2010; Pury 2011; Back, Kufner, en Egloff 2011). Oorspronklik, Terug, Kufner, en Egloff (2010) berig 'n patroon van toenemende woede oor die hele dag. Maar die meeste van hierdie skynbare kwaad boodskappe is gegenereer deur 'n enkele pager wat herhaaldelik gestuur die volgende boodskap: Reboot NT masjien [naam] in die kabinet [naam] te [plek]: KRITIESE: [datum en tyd]. Met hierdie boodskap verwyder, die oënskynlike toename in woede verdwyn (Pury 2011; Back, Kufner, en Egloff 2011). Hierdie syfer is 'n reproduksie van Fig 1 B in Pury (2011).

Figuur 2.2: Beraamde tendense in toorn oor die loop van September 11, 2001 op grond van 85.000 Amerikaanse pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Oorspronklik, Back, Küfner, and Egloff (2010) berig 'n patroon van toenemende woede oor die hele dag. Maar die meeste van hierdie skynbare kwaad boodskappe is gegenereer deur 'n enkele pager wat herhaaldelik gestuur die volgende boodskap: "Reboot NT masjien [naam] in die kabinet [naam] te [plek]: KRITIESE: [datum en tyd]". Met hierdie boodskap verwyder, die oënskynlike toename in woede verdwyn (Pury 2011; Back, Küfner, and Egloff 2011) . Hierdie syfer is 'n reproduksie van Fig 1 B in Pury (2011) .

Terwyl vuil data wat geskep onbedoeld-soos van een lawaaierige pager-kan deur 'n redelike versigtig navorser opgespoor is, is daar ook 'n paar online stelsels wat opsetlike spammers te lok. Hierdie spammers aktief te genereer vals inligting, en dikwels gemotiveer deur wins-werk baie hard om te hou hulle bestoking versteek. Byvoorbeeld, politieke aktiwiteit op Twitter lyk ten minste 'n paar redelik gesofistikeerde spam, waardeur sommige politieke oorsake doelbewus gemaak meer gewild as hulle werklike is om te kyk insluit (Ratkiewicz et al. 2011) . Navorsers werk met data wat opsetlike spam bevat uitgedaag oortuig hulle gehoor dat hulle opgespoor en verwyder relevante spam.

Ten slotte, wat beskou word as vuil data kan staatmaak op subtiele maniere op jou navorsingsvrae. Byvoorbeeld, is baie wysigings aan Wikipedia geskep deur outomatiese bots (Geiger 2014) . As jy belangstel in die ekologie van Wikipedia is, dan is dit bots is belangrik. Maar, as jy belangstel in hoe die mens bydra tot Wikipedia is, hierdie wysigings wat deur hierdie bots uitgesluit moet word.

Die beste maniere om te verhoed dat die bos gelei deur vuil data is om te verstaan ​​hoe jou data is geskep om eenvoudig ondersoekende analise uit te voer, soos die maak van eenvoudige verspreidingsgrafieke.