2.3.2.6 Dirty

Çavkaniyên daneyan Big dikare were bi kar ênan û spam barkirin.

Hin lêkolîner bawer dikin ku çavkaniyên daneyan mezin, bi taybetî jî yên ji jêderên online, zengîn in, ji ber ku ew bi xweber komkirin. Di rastiyê de, kesên ku bi çavkaniyên daneyan mezin de kar kiriye dizanin, ku ew gelek caran qirêj in. e ku, ew gelek caran de daneya ku bi çalakiyên rast bala lêkolîneran roniyê ne. Gelek zanistên civakî, ji xwe bi pêvajoya ji paqijîyê mezin daneyên lêkolîna civakî, di heman demê de paqijî û çavkaniyên daneyan mezin e, ji ber du sedeman bêtir dijwartir nas: 1) ji aliyê lêkolînerên ji bo lêkolîner û 2) lêkolîneran tên ne bûn bi gelemperî têgihîştina kêmtir ji çawa ew hatin afirandin.

Xetereyên ji welat şopên dîjîtal qirêj bi destê Back û hevalên 'wêneyî (2010) xebatê de ji bertekeke hestyarî ji bo êrîşên xwe yên li September 11, 2001. lêkolîn, bêhtirê caran bixwîne bersiv ji bûyerên trajîk bi kar welat Şukru komkirin li ser mehan an jî salan. Lê belê, Back û hevalên xwe an mesajên herdem-li ser çavkaniya dîjîtal şopên-the timestamped, automatically ba me ji 85,000 American dîtin pagers-û ev derfet afirandin ku lêkolîner ji bo lêkolîna bertekeke hestyarî li ser dema bihéné pir. Back û hevalên a minute-by-minute cedwela dilovanî ya 11ê Îlonê ya ji aliyê binî naveroka dilovanî ya mesajên pager de ji aliyê rêjeya peyvên related to (1) xemgîniya tên afirandin (wek nimûne, bi girîn, xemgînî), (2) Tirs (wek nimûne, bi fikar, tirsehêz e), û (3) hêrsa (wek nimûne, nefret, rexne). Wan dît ku xemgînî û dilgiraniyê li seranserî rojê bê pattern xurt fluctuated, di heman demê de bû ku zêdebûna balkêş di hêrsa di nava rojê de heye. Ev lêkolîn xuya bibe mesele ji nedîtî yên ku bi hêza herdem-li ser çavkaniyên daneyan: bikaranîna rêbazên standard ew ne mumkin be ku bi vî rengî cedwela-Versyonekî bilind ya carekêr'a caba bûyereke ku nedihat.

Bi tenê yek sal paşê, lê belê, Cynthia Pury (2011) li welat bi baldarî lê nihêrî. Wê dît ku hejmareke mezin ji mesajên ku qaşo bi hêrs by a pager yek bi giştî hatin kirin û ew hemû jî ne wek hevin bûn. Li vir çi kesên ku mesajên qaşo bi hêrs got:

"Makîneya nû ve NT [name] li kabîneya [name] li [location]: krîzîsî: [date û dem]"

Ev mesajên hêrs etîketa bûn, ji ber ku ew di nav de peyva "krîzîsî", yên ku dikarin bi giştî nîşan dide hêrs lê di vê rewşê de ne. Jêbirin mesajên ku bi giştî ji aliyê vê pager yek automated bi temamî ji holê zêdebûna peyivan de hêrsa li ser Bêguman yên rojê de (WÊNE 2.2). Bi gotineke din, di encama sereke di Back, Küfner, and Egloff (2010) an, berhemên ji yek pager bû. Ji ber ku ev nimûne h'ejmara, analîzên nisbî hêsan ya welat nisbeten aloz û di rojevê de heye, da karibe here bi giranî şaş e.

Figure 2.2: bêyûm Předpokládaná di hêrsa li ser Bêguman of September 11, 2001, li ser 85,000 pagers amerîkî (Back, Kufner, û Egloff 2010; Pury 2011; Back, Kufner, û Egloff 2011). Bi eslê xwe, Back, Kufner, û Egloff (2010) a pattern yên zêde hêrsa di nava rojê de ragihand. Ji nû ve NT machine [name] li kabîneya [name] li [location]:: krîzîsî: [date û dem] Lê belê, piraniya van mesajên hêrs diyar by a pager single ku gelek caran peyama ku şand bi giştî hatin kirin. Bi vê peyamê rakirin, zêdebûna ku di hêrsa winda dibe (Pury 2011; Back, Kufner, û Egloff 2011). De ev hêjmar vehilberana yên Hêjîrê 1B li Pury (2011) e.

Figure 2.2: bêyûm Předpokládaná di hêrsa li ser Bêguman of September 11, 2001, li ser 85,000 pagers amerîkî (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Bi eslê xwe, Back, Küfner, and Egloff (2010) a pattern yên zêde hêrsa di nava rojê de ragihand. "Makîneya nû ve NT [name] li kabîneya [name] li [location]:: krîzîsî: [date û dem]" Lê belê, piraniya van mesajên hêrs diyar by a pager single ku gelek caran peyama ku şand bi giştî hatin kirin. Bi vê peyamê rakirin, zêdebûna ku di hêrsa winda dibe (Pury 2011; Back, Küfner, and Egloff 2011) . De ev hêjmar vehilberana yên Hêjîrê 1B li e Pury (2011) .

Gava ku welat qirêj ku tên afirandin jî bêzanebûn-wek ji yek şên a pager-ji aliyê lêkolînera bi mentiq baldar bên naskirin, bi hin sîstemên bike ku dadikevin û spamgeran bi mebest hene. Van û spamgeran aktîf hilberîna daneyên sexte, û-caran ji aliyê qezenckirina-kar pir dijwar de sextekarî biparêze mailek xwe venaşêrim. Ji bo nimûne, çalakiyên siyasî li ser Twitter xuya dike da ku qet nebe hin zibil bi mentiq sofîstîke, hişt ku hin sedemên siyasî bi zanebûn ji bo ku binêrin bêhtir populer ew rastî ne (Ratkiewicz et al. 2011) . Lêkolînerên ku bi daneyên ku belkî zibil bi mebest di warê îqna temaşevanên xwe ku ew naskirin û rakirin spam têkildar bi rû ne.

Di dawiyê de, çi tê hesibandin welat qirêj dikarin bi gelek şeklên li ser pirsên lêkolîna xwe binêrim. Ji bo nimûne, gelek Guherandinên ji Wikipedia bi destê Bot'an automated tên afirandin (Geiger 2014) . Heke hun dixwazin li ekolojiya yên Wikipedia in, wê demê wê ev Bot'an girîng in. Lê belê, eger hûn bala mirov çawa ji bo Wikipedia piştgirî ne, van Guherandinên ji aliyê van Bot'an divê hiştin bê.

Rêyên herî baş, ji bo ku neyên xapandin, welat qirêj in fêm bikin ku çawa daneyên te ji bo pêkanîna analîzên exploratory sade, wek çêkirina komployên belav sade tên kirin.