2.3.2.6 Dirty

Մեծ տվյալների աղբյուրները կարող են բեռնված junk եւ պետք է գրանցվեք:

Որոշ հետազոտողներ կարծում են, որ մեծ տվյալների աղբյուրները, հատկապես նրանք, ովքեր առցանց աղբյուրներից, որոնք մաքուր, քանի որ նրանք հավաքվում են ինքնաբերաբար: Ի դեպ, մարդիկ, ովքեր աշխատել մեծ տվյալների աղբյուրների գիտեն, որ իրենք են հաճախակի կեղտոտ. Այսինքն, նրանք հաճախ ներառում է տվյալներ, որոնք չեն արտացոլում իրական գործողությունները հետաքրքրություն հետազոտողների. Շատ հասարակագետները արդեն ծանոթ գործընթացի մաքրման լայնածավալ սոցիալական հետազոտության տվյալները, սակայն մաքրման մեծ տվյալների աղբյուրների ավելի դժվար է երկու պատճառներով: 1), նրանք չեն ստեղծվում հետազոտողների համար հետազոտողների եւ 2) հետազոտողների, ընդհանուր առմամբ, պետք է ավելի քիչ պատկերացում, թե ինչպես նրանք են ստեղծվում:

Վտանգների կեղտոտ թվային հետք տվյալները, որոնք նկարազարդել են ետ եւ գործընկերները » (2010) Ուսումնասիրության հուզական պատասխան հարձակումներից սեպտեմբերի 11, 2001 թ. Հետազոտողները սովորաբար ուսումնասիրելու պատասխանը ողբերգական իրադարձություններին` օգտագործելով հետահայաց տվյալները հավաքագրված շուրջ ամիսներ կամ նույնիսկ տարիներ. Բայց, Back եւ գործընկերները գտել է մշտապես աղբյուր թվային հետքեր-րդ timestamped, ինքնաբերաբար արձանագրված հաղորդագրությունները 85.000 ամերիկյան pagers, եւ սա հնարավորություն է տալիս ուսումնասիրել էմոցիոնալ պատասխան է շատ նուրբ ժամկետներում: Back եւ գործընկերները ստեղծել է րոպե առ րոպե հուզական ժամանակացույցը սեպտեմբերի 11-ի կոդավորման հուզական բովանդակությունը pager հաղորդագրություններ ի տոկոսային բառերի հետ կապված (1) տխրության (օրինակ, լաց, վիշտը), (2) անհանգստությունը (օրինակ, մտահոգված է, վախեցնող), եւ (3) բարկությունը (օրինակ, ատելության, քննադատական): Նրանք պարզել են, որ տխրությունն ու անհանգստություն տատանվել է ամբողջ օրը, առանց ուժեղ օրինակին, սակայն, որ կար մի վառ աճ է զայրույթի ողջ օրվա ընթացքում: Այս հետազոտությունը, կարծես, մի ​​հրաշալի վկայում է իշխանության մշտապես տվյալների աղբյուրների `օգտագործելով ստանդարտ մեթոդներ, դա անհնար է ունենալ այնպիսի բարձր բանաձեւը ժամանակացույցը անմիջական պատասխան անսպասելի իրադարձության:

Պարզապես մեկ տարի անց, սակայն, Սինթիա Pury (2011) նայեց տվյալները ավելի ուշադիր: Նա հայտնաբերվել է, որ մեծ թվով ենթադրաբար զայրացած ուղերձներ էին գեներացվում է միայն մեկ Էջագրիչ, եւ նրանք բոլորն էլ միանման. Ահա թե ինչ է այդ, ենթադրաբար, զայրացած ուղերձները ասաց.

«Reboot NT մեքենայի [name] - ի կառավարության [name] - ին [վայրում]: ՔՆՆԱԴԱՏԱԿԱՆ: [ամսաթիվը եւ ժամանակը]»

Այս հաղորդագրություններն պիտակավորված բարկացած, քանի որ նրանք ընդգրկված բառը "Կրիտիկական», որը կարող է, ընդհանուր առմամբ, ցույց է տալիս, զայրույթը, բայց չի այս դեպքում: Removing հաղորդագրությունները գեներացվել է այս մեկ ավտոմատ Էջագրիչ ամբողջությամբ վերացնում ակնհայտ աճ զայրույթի ընթացքում օրը (Նկար 2.2). Այլ կերպ ասած, հիմնական արդյունք Back, Küfner, and Egloff (2010) Եղել է artifact մեկ Էջագրիչ. Քանի որ այս օրինակը ցույց է տալիս, համեմատաբար պարզ վերլուծությունը համեմատաբար բարդ ու խառնաշփոթ տվյալների ունի ներուժ գնալ լուրջ սխալ.

Նկար 2.2: Մոտավոր միտումները զայրույթի ընթացքում սեպտեմբերի 11, 2001 հիման վրա 85.000 ամերիկյան pagers (Back, Küfner, եւ Egloff 2010 թ. Pury 2011 թ. Back, Küfner, եւ Egloff 2011): Originally, Back, Küfner, եւ Egloff (2010) հաղորդում է օրինակը բարձրացման զայրույթը ողջ օրվա ընթացքում: Սակայն, մեծ մասը, այդ ակնհայտ վրդովված ուղերձներ էին գեներացվում է միայն մեկ Էջագրիչ, որը բազմիցս ուղարկվել է հետեւյալ հաղորդագրությունը: Reboot NT մեքենա [name] - ի կաբինետի [name] - ին [վայրում]: ծայրահեղ [ամսաթիվը եւ ժամանակը: Հետ այս հաղորդագրության հանել, ակնհայտ աճը զայրույթի անհետանում (Pury 2011; վերադառնալ, Küfner եւ Egloff 2011): Այս ցուցանիշը մի վերարտադրումը Նկ 1B է Pury (2011):

Նկար 2.2: Մոտավոր միտումները զայրույթի ընթացքում սեպտեմբերի 11, 2001 հիման վրա 85.000 ամերիկյան pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) : Originally, Back, Küfner, and Egloff (2010) հաղորդում է օրինակը բարձրացման զայրույթը ողջ օրվա ընթացքում: Սակայն, մեծ մասը, այդ ակնհայտ վրդովված ուղերձներ էին գեներացվում է միայն մեկ Էջագրիչ, որը բազմիցս ուղարկվել է հետեւյալ հաղորդագրությունը: "reboot NT մեքենայի [name] - ի կառավարության [name] - ին [վայրում]: ծայրահեղ [ամսաթվի եւ ժամանակի]»: Հետ այս հաղորդագրության հանել, ակնհայտ աճը զայրույթի անհետանում (Pury 2011; Back, Küfner, and Egloff 2011) : Այս ցուցանիշը մի վերարտադրումը Նկ 1B է Pury (2011) :

Թեեւ կեղտոտ տվյալները, որը ստեղծվել ակամա, ինչպիսիք են մեկ աղմկոտ Էջագրիչ կարող է հայտնաբերել մի ողջամտորեն զգույշ գիտաշխատող, կան նաեւ որոշ առցանց համակարգեր, որոնք գրավելու կանխամտածված spammers. Այս spammers ակտիվորեն առաջացնում կեղծ տվյալներ, եւ հաճախ հիմնավորվում է շահույթ աշխատանքի շատ դժվար է պահել իրենց Spamming թաքցրել: Օրինակ, քաղաքական ակտիվությունը on Twitter, կարծես ներառել առնվազն որոշ ողջամտորեն բերի սպամ, որով որոշ քաղաքական պատճառները միտումնավոր արված է նայել ավելի հայտնի է, քան նրանք փաստացի կարող են (Ratkiewicz et al. 2011) . Հետազոտողները աշխատող տվյալները, որոնք կարող են պարունակել դիտավորությամբ սպամ կանգնած մարտահրավերի համոզելու իրենց լսարանը, որ իրենք հայտնաբերվել եւ հեռացվել համապատասխան սպամ:

Վերջապես, ինչ համարվում է կեղտոտ տվյալները կարող կախված է նուրբ ձեւերով վրա ձեր հետազոտական ​​հարցերին: Օրինակ, շատ խմբագրումները Վիքիփեդիա են ստեղծվում ավտոմատացված bots- երից (Geiger 2014) : Եթե ​​դուք հետաքրքրված են էկոլոգիայի Վիքիպեդիայի, ապա այդ բոտերին կարեւոր են: Սակայն, եթե դուք հետաքրքրված եք, թե ինչպես են մարդիկ նպաստել Վիքիփեդիա, այդ խմբագրումները կողմից արված այդ bots- երից, պետք է բացառվի:

Լավագույն միջոցներից է խուսափել fooled կողմից կեղտոտ տվյալներն են հասկանալ, թե ինչպես է ձեր տվյալները, ստեղծված են կատարել պարզ հետախուզական վերլուծություն, ինչպես, օրինակ, պարզ բաժանման սյուժեները: