2.3.2.6 sal

Big sous done yo ka chaje ak tenten ak Spam.

Gen kèk chèchè kwè ke gwo sous done, sitou sa yo ki soti nan sous sou entènèt, yo primitif paske yo pou yo ranmase otomatikman. An reyalite, moun ki te travay ak sous done gwo konnen ke yo yo se souvan sal. Sa se, yo souvan gen ladan done ki pa reflete aksyon reyèl nan enterè chèchè. Anpil syantis sosyal yo deja abitye ak pwosesis la nan netwaye gwo-echèl done sondaj sosyal, men netwaye gwo sous done se pi difisil pou de rezon: 1) yo pa te kreye pa chèchè pou chèchè epi 2) chèchè jeneralman gen mwens konesans de kòman tout bagay fèt.

Danje ki genyen nan sal done dijital tras yo ilistre pa Retounen ak kòlèg ' (2010) etid sou repons lan emosyonèl nan atak yo nan, 11 septanm 2001. Chèchè tipikman etidye repons lan nan evènman trajik lè l sèvi avèk done retrospektiv kolekte nan mwa oswa menm plizyè ane. Men, Retounen ak kòlèg jwenn yon mesaj toujou-sou sous dijital tras-timestamped a, otomatikman anrejistre soti nan 85,000 Ameriken bipè-yo ak sa a pèmèt chèchè yo yo etidye repons emosyonèl sou yon peryòd tan pi sibtilite. Retounen ak kòlèg kreye yon delè minit-pa-minit emosyonèl nan mwa septanm 11yèm pa kodaj kontni an emosyonèl nan mesaj yo bipè pa pousantaj la nan mo ki gen rapò ak (1) tristès (egzanp, yo t'ap rele, chagren), (2) enkyetid (egzanp, enkyete, pè), ak (3) kòlè (egzanp, rayi, kritik). Yo te jwenn ke tristès ak enkyetid fluktue pandan tout jounen an san yo pa yon modèl fò, men ke te gen yon ogmantasyon travyè nan kòlè pandan tout jounen an. Rechèch sa a sanble ap yon ilistrasyon bèl bagay nan pouvwa a nan toujou-sou sous done: lè l sèvi avèk metòd estanda li ta enposib yo gen tankou yon delè-wo rezolisyon nan repons imedya a nan yon evènman inatandi.

Jis yon ane pita, sepandan, Cynthia Pury (2011) gade done yo ki pi plis ak anpil atansyon. Li dekouvri ke yon gwo kantite mesaj yo sipozeman fache te pwodwi pa yon bipè sèl ak yo tout te ki idantik. Men sa sa yo mesaj sipozeman fache te di:

"Rdemaraj NT machin [name] nan kabinè [name] nan [kote]: KRITIK: [dat ak lè]"

mesaj sa yo te ki make fache paske yo enkli pawòl Bondye a "KRITIK", ki ka jeneralman endike kòlè men li pa nan ka sa a. Retire mesaj yo ki te pwodwi pa sa a bipè sèl otomatik konplètman elimine ogmantasyon nan aparan nan kòlè sou kou a nan jounen an (Figi 2.2). Nan lòt mo, rezilta prensipal la nan Back, Küfner, and Egloff (2010) te yon asosye nan yon sèl bipè. Kòm egzanp sa a montre, relativman senp analiz de done relativman konplèks ak sal gen potansyèl la yo ale seryezman mal.

Figi 2.2: Estimasyon tandans nan kòlè sou kou a nan, 11 septanm 2001 ki baze sou 85,000 bipè Ameriken (Retounen, Küfner, ak Egloff 2010; Pury 2011; Retounen, Küfner, ak Egloff 2011). Originally, Retounen, Küfner, ak Egloff (2010) rapòte yon modèl pou ogmante kòlè pandan tout jounen an. Sepandan, pi fò nan sa yo mesaj aparan fache te pwodwi pa yon bipè sèl ki repete voye mesaj sa a: rdemaraj NT machin [name] nan kabinè [name] nan [kote]: KRITIK: [dat ak lè]. Avèk mesaj sa a retire, ogmantasyon nan aparan nan kòlè disparèt (Pury 2011; Retounen, Küfner, ak Egloff 2011). Figi sa a se yon repwodiksyon nan Fig 1B nan Pury (2011).

Figi 2.2: Estimasyon tandans nan kòlè sou kou a nan, 11 septanm 2001 ki baze sou 85,000 bipè Ameriken (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Originally, Back, Küfner, and Egloff (2010) rapòte yon modèl pou ogmante kòlè pandan tout jounen an. Sepandan, pi fò nan sa yo mesaj aparan fache te pwodwi pa yon bipè sèl ki repete voye mesaj sa a: "rdemaraj NT machin [name] nan kabinè [name] nan [kote]: KRITIK: [dat ak lè]". Avèk mesaj sa a retire, ogmantasyon nan aparan nan kòlè disparèt (Pury 2011; Back, Küfner, and Egloff 2011) . Figi sa a se yon repwodiksyon nan Fig 1B nan Pury (2011) .

Pandan ke done sal ki kreye san-tankou soti nan yon fè bwi bipè-ka detekte avèk yon chèchè rezonab atansyon, genyen tou kèk sistèm sou entènèt ki atire spame entansyonèl. spame sa yo aktivman jenere done fo, ak-souvan motive pa Peye-travay trè difisil yo kenbe abu yo kache. Pou egzanp, aktivite politik sou Twitter sanble genyen ladan yo omwen kèk Spam rezonab sofistike, annakò ak sa kèk nan koz ki politik yo entansyonèlman te fè nan gade pi popilè pase yo aktyèl yo (Ratkiewicz et al. 2011) . Chèchè k ap travay ak done ki kapab genyen entansyonèl Spam fè fas a defi a nan konvenk odyans yo ke yo te detekte epi retire ki enpòtan Spam.

Finalman, sa ki konsidere kòm done sal ka depann nan fason sibtil sou kesyon rechèch ou an. Pou egzanp, anpil edits Wikipedya yo kreye pa robo otomatik (Geiger 2014) . Si w enterese nan ekoloji a nan Wikipedya, Lè sa a, robo sa yo, se enpòtan. Men, si w enterese nan ki jan moun kontribye nan Wikipedya, edits sa yo fèt pa robo sa yo ta dwe dwe pou ekskli.

Pi bon fason yo evite ke yo te twonpe pa done sal yo a konprann ki jan done ou te kreye fè senp analiz eksploratwa, tankou fè simityè gaye senp.