Big sous done yo ka chaje ak tenten ak Spam.
Gen kèk chèchè kwè ke gwo done sous, sitou sous sou entènèt, yo primitif paske yo ranmase otomatikman. An reyalite, moun ki te travay ak sous done gwo konnen ke yo yo souvan sal . Sa se, yo souvan gen ladan done ki pa reflete aksyon reyèl nan enterè chèchè yo. Pifò syantis sosyal yo deja abitye ak pwosesis la nan netwaye gwo-echèl done sondaj sosyal, men netwaye sous done gwo sanble ap pi difisil. Mwen panse ke sous la ultim nan difikilte sa a se ke anpil nan sous sa yo gwo done pa janm te gen entansyon pou itilize pou rechèch, e konsa yo pa ranmase, ki estoke, ak dokimante nan yon fason ki fasilite done netwayaj.
Danje ki genyen nan done tras dijital sal yo ilistre pa Retounen ak kòlèg ' (2010) etid sou repons emosyonèl la nan atak yo nan 11 septanm 2001, ki mwen yon ti tan mansyone pi bonè nan chapit la. Chèchè anjeneral etid repons lan nan evènman trajik lè l sèvi avèk done retrospective kolekte sou mwa oswa menm ane. Men, Retounen ak kòlèg li yo te jwenn yon sous toujou nan tras dijital-timestamped a, otomatikman anrejistre mesaj ki soti nan 85,000 pager Ameriken - e sa te pèmèt yo etidye repons emosyonèl sou yon timecale anpil sibtilite. Yo te kreye yon minit pou minit emosyonèl minit 11 septanm nan kodaj emosyonèl nan mesaj pager yo pa pousantaj mo ki gen rapò ak (1) tristès (egzanp, "kriye" ak "lapenn"), (2) enkyetid ( egzanp, "enkyete" ak "pè"), ak (3) kòlè (egzanp, "rayi" ak "kritik"). Yo te jwenn ke tristès ak enkyetid fluktués pandan tout jounen an san yon modèl fò, men ke te gen yon ogmantasyon frape nan kòlè pandan tout jounen an. Rechèch sa a sanble se yon ilistrasyon bèl bagay nan pouvwa a nan toujou-sou sous done: si tradisyonèl done sous te itilize, li ta enposib jwenn tankou yon delè-wo rezolisyon nan repons imedya a nan yon evènman inatandi.
Jis yon ane pita, sepandan, Cynthia Pury (2011) gade done yo plis ak anpil atansyon. Li te dekouvri ke yon gwo kantite mesaj swadizan yo te pwodwi pa yon pager sèl epi yo tout te idantik. Isit la nan sa ki mesaj swadizan fache te di:
"Rdemaraj NT machin [name] nan kabinè [name] nan [kote]: KRITIK: [dat ak lè]"
Mesaj sa yo te make fache paske yo enkli mo "CRITICAL", ki ka jeneralman endike kòlè men nan ka sa a pa. Retire mesaj ki te pwodwi pa yon sèl pager sa a otomatik ki te konplètman elimine ogmantasyon an aparan nan kòlè sou kou a nan jounen an (figi 2.4). Nan lòt mo, rezilta prensipal la nan Back, Küfner, and Egloff (2010) se te yon asosif nan yon sèl pager. Kòm egzanp sa a montre, relativman senp analiz de done relativman konplèks ak sal gen potansyèl la ale seryezman mal.
Pandan ke done sal ki kreye envolontè - tankou sa ki soti nan yon sèl bri pager - ka detekte pa yon chèchè rezonab anpil prekosyon, genyen tou kèk sistèm sou entènèt ki atire espektatè entansyonèl. Sa yo spame aktivman jenere done fo, epi-souvan motive pa pwofi-travay trè difisil kenbe spamming yo kache. Pou egzanp, aktivite politik sou Twitter sanble yo gen ladan omwen kèk Spam rezonab sofistike, kote kèk kòz politik yo entansyonèlman fè yo gade pi popilè pase yo aktyèlman yo (Ratkiewicz et al. 2011) . Malerezman, retire entansyonèl sa a ka byen difisil.
Natirèlman sa ki konsidere kòm done sal ka depann, an pati, sou kesyon an rechèch. Pou egzanp, anpil edits nan Wikipedia yo kreye pa robo otomatik (Geiger 2014) . Si ou enterese nan ekoloji nan Wikipedia, Lè sa a, sa yo bot-kreye edits yo enpòtan. Men, si ou enterese nan ki jan moun kontribye nan Wikipedia, Lè sa a, edisyon bot-kreye yo ta dwe eskli.
Pa gen okenn teknik statistik sèl oswa apwòch ki ka asire ke ou te ase netwaye done sal ou. Nan fen a, mwen panse ke fason ki pi bon pou fè pou evite ke yo te twonpe pa done sal se yo konprann kòm anpil ke posib sou ki jan done ou yo te kreye.