2.3.2.6 Dirty

Big gegevens boarnen kinne wurde laden mei winske en spam.

Guon ûndersikers tinke dat grutte gegevens boarnen, benammen dy fan online boarnen, binne skansearre om't se wurde sammele automatysk. Yndie, minsken dy't wurke mei grutte gegevens boarnen witte dat se binne faak smoarch. Dat is, se faak befetsje gegevens dy't net oerien mei echte aksjes fan belang foar ûndersikers. In protte sosjale wittenskippers binne al bekend mei it proses fan skjinmeitsjen fan grutskalige sosjale ûndersyk gegevens, mar it skjinmeitsjen grutte gegevens boarnen wurdt dreger om twa redenen: 1) se waarden net makke troch ûndersikers foar ûndersikers en 2) ûndersikers algemien hawwe minder begryp fan hoe se waarden makke.

De gefaren fan smoarch digitale spoare gegevens wurde yllustrearre troch Back en kollega ' (2010) stúdzje fan de emosjonele oanlieding foar it oanfallen fan septimber 11, 2001. Undersikers typysk studearje de reaksje op tragyske foarfallen brûkende oersjochtentoanstelling gegevens sammele oer moannen of sels jier. Mar Tebek en kollega fûn in altyd-op boarne fan digitale spoaren-de timestamped, automatysk opnommen berjochten fan 85.000 Amerikaanske pagers-en dit ynskeakele de ûndersikers te bestudearjen emosjonele antwurd op in soad skerpere timescale. Werom en kollega makke in minút-troch-minút emosjonele tiidbalke fan septimber 11 troch taalkodearjen yn it emosjonele ynhâld fan de pager berjochten troch it persintaazje fan wurden yn ferbân mei (1) treurichheid (bygelyks, crying, leed), (2) bangens (eg, besoarge, freeslik), en (3) grime (bygelyks, haat, kritysk). Se fûn dat fertriet en eangst skommele de hiele dei sûnder in sterke patroan, mar dat der wie in opfallende stiging yn grime de hiele dei. Dit ûndersyk liket te wêzen in prachtige yllustraasje fan 'e macht fan altyd-op gegevens boarnen: brûkend standert metoaden it soe ûnmooglik te hawwe sa'n hege-resolúsje tiidbalke fan de direkte oanlieding foar in ûnferwachte barren.

Mar ien jier letter, lykwols, Cynthia Pury (2011) seach de gegevens mear mei soarch. Se ûntdutsen dat in grut tal fan 'e sabeare lilk berjochten waarden opwekt troch in inkele pager en se wienen allegear gelyk. Hjir is wat dy sabeare lilk berjochten sei:

"Reboot NT masine [namme] yn kabinet [namme] op [lokaasje]: Kritysk: [datum en tiid]"

Dizze berjochten waarden bestimpele lilk omdat sy opnaam it wurd "kritysk", dat kinne it algemien wize grime, mar docht net yn dit gefal. It fuortsmiten fan de berjochten oanmakke troch dizze single automatisearre pager folslein elimineert de skynbere ferheging yn grime oer de rin fan de dei (Figure 2.2). Yn oare wurden, it wichtichste resultaat yn Back, Küfner, and Egloff (2010) wie in Artifact fan ien pager. As dit foarbyld yllustrearret, relatyf ienfâldige analyze fan relatyf kompleks en rommelich gegevens hat de mooglikheden om te gean serieus mis.

Figure 2.2: Estimated trends yn grime oer de rin fan 11 septimber, 2001 basearre op 85.000 Amerikaanske pagers (Werom, Küfner, en Egloff 2010; Pury 2011; Back, Küfner, en Egloff 2011). Oarspronklik, Werom, Küfner, en Egloff (2010) rapportearre in patroan fan tanimmende grime de hiele dei. Lykwols, de measte fan dy skynbere lilke berjochten waarden oanmakke troch ien pager dat kearen stjoerde út de folgjende berjocht: Reboot NT masine [namme] yn kabinet [namme] op [lokaasje]: Kritysk: [datum en tiid]. Mei dit berjocht fuorthelle, de skynbere ferheging yn grime ferdwynt (Pury 2011; Back, Küfner, en Egloff 2011). Dizze figuer is in reproduksje fan Fig 1B yn Pury (2011).

Figure 2.2: Estimated trends yn grime oer de rin fan 11 septimber, 2001 basearre op 85.000 Amerikaanske pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Oarspronklik, Back, Küfner, and Egloff (2010) rapportearre in patroan fan tanimmende grime de hiele dei. Lykwols, de measte fan dy skynbere lilke berjochten waarden oanmakke troch ien pager dat kearen stjoerde út de folgjende berjocht: "Reboot NT masine [namme] yn kabinet [namme] op [lokaasje]: Kritysk: [datum en tiid]". Mei dit berjocht fuorthelle, de skynbere ferheging yn grime ferdwynt (Pury 2011; Back, Küfner, and Egloff 2011) . Dizze figuer is in reproduksje fan Fig 1B yn Pury (2011) .

Wylst dirty gegevens dy't skepen unintentionally-lykas út ien lawaaierige pager-kin wurde ûntdutsen troch in ridlik foarsichtich ûndersiker, binne der ek guon online systemen dy't oanlûke opsetlike spammers. Dy spammers aktyf generearje fake gegevens, en-faak motivearre troch winst-wurk tige hurd te hâlden harren spamming ferburgen. Bygelyks, politike aktiviteit op Twitter liket binne op syn minst wat ridlik subtyl ûnpost, dêr't guon politike oarsaken binne mei opsetsin makke te sjen mear populêr as se werklik binne (Ratkiewicz et al. 2011) . Ûndersikers dwaande mei gegevens dy't kinne befetsje intentional ûnpost foar de útdaging fan oertsjûgjen harren publyk dat se hawwe ûntdutsen en fuortsmiten relevante spam.

As lêste, wat wurdt beskôge dirty gegevens kin ôfhinklik yn subtile manieren op jo ûndersyk fragen. Bygelyks, in soad bewurkings oan Wikipedy wurde makke troch automatisearre bots (Geiger 2014) . As jo ​​ynteressearre binne yn de ekology fan Wikipedy, dan dy bots binne wichtich. Mar, as jo binne ynteressearre yn hoe't minsken bydrage oan Wikipedia, dy bewurkings makke troch dizze bots moatte wurde útsletten.

De bêste manieren te kommen dat kaai nei de wrâld troch smoarch gegevens binne om te begripen hoe't jo gegevens waarden makke te fieren ienfâldige ferkennend analyze, sa as it meitsjen fan ienfâldige scatter kavels.