Մեծ տվյալների աղբյուրները կարող են բեռնված junk եւ պետք է գրանցվեք:
Որոշ հետազոտողներ կարծում են, որ մեծ տվյալների աղբյուրները, հատկապես նրանք, ովքեր առցանց աղբյուրներից, որոնք մաքուր, քանի որ նրանք հավաքվում են ինքնաբերաբար: Ի դեպ, մարդիկ, ովքեր աշխատել մեծ տվյալների աղբյուրների գիտեն, որ իրենք են հաճախակի կեղտոտ. Այսինքն, նրանք հաճախ ներառում է տվյալներ, որոնք չեն արտացոլում իրական գործողությունները հետաքրքրություն հետազոտողների. Շատ հասարակագետները արդեն ծանոթ գործընթացի մաքրման լայնածավալ սոցիալական հետազոտության տվյալները, սակայն մաքրման մեծ տվյալների աղբյուրների ավելի դժվար է երկու պատճառներով: 1), նրանք չեն ստեղծվում հետազոտողների համար հետազոտողների եւ 2) հետազոտողների, ընդհանուր առմամբ, պետք է ավելի քիչ պատկերացում, թե ինչպես նրանք են ստեղծվում:
Վտանգների կեղտոտ թվային հետք տվյալները, որոնք նկարազարդել են ետ եւ գործընկերները » (2010) Ուսումնասիրության հուզական պատասխան հարձակումներից սեպտեմբերի 11, 2001 թ. Հետազոտողները սովորաբար ուսումնասիրելու պատասխանը ողբերգական իրադարձություններինօգտագործելովհետահայացտվյալներըհավաքագրվածշուրջամիսներկամնույնիսկտարիներ.Բայց,Backեւգործընկերներըգտելէմշտապեսաղբյուրթվայինհետքեր-րդ×tamped,ինքնաբերաբարարձանագրվածհաղորդագրությունները85.000ամերիկյանpa≥rs,եւսահնարավորությունէտալիսուսումնասիրելէմոցիոնալպատասխանէշատնուրբժամկետներում:Backեւգործընկերներըստեղծելէրոպեառրոպեհուզականժամանակացույցըսեպտեմբերի11-իկոդավորմանհուզականբովանդակությունըpa≥rհաղորդագրություններիտոկոսայինբառերիհետկապված(1)տխրության(օրինակ,լաց,վիշտը),(2)անհանգստությունը(օրինակ,մտահոգվածէ,վախեցնող),եւ(3)բարկությունը(օրինակ,ատելության,քննադատական):Նրանքպարզելեն,որտխրություննուանհանգստությունտատանվելէամբողջօրը,առանցուժեղօրինակին,սակայն,որկարմիվառաճէզայրույթիողջօրվաընթացքում:Այսհետազոտությունը,կարծես,միհրաշալիվկայումէիշխանությանմշտապեստվյալներիաղբյուրներիօգտագործելով ստանդարտ մեթոդներ, դա անհնար է ունենալ այնպիսի բարձր բանաձեւը ժամանակացույցը անմիջական պատասխան անսպասելի իրադարձության:
Պարզապես մեկ տարի անց, սակայն, Սինթիա Pury (2011) նայեց տվյալները ավելի ուշադիր: Նա հայտնաբերվել է, որ մեծ թվով ենթադրաբար զայրացած ուղերձներ էին գեներացվում է միայն մեկ Էջագրիչ, եւ նրանք բոլորն էլ միանման. Ահա թե ինչ է այդ, ենթադրաբար, զայրացած ուղերձները ասաց.
«Reboot NT մեքենայի [name] - ի կառավարության [name] - ին [վայրում]: ՔՆՆԱԴԱՏԱԿԱՆ: [ամսաթիվը եւ ժամանակը]»
Այս հաղորդագրություններն պիտակավորված բարկացած, քանի որ նրանք ընդգրկված բառը "Կրիտիկական», որը կարող է, ընդհանուր առմամբ, ցույց է տալիս, զայրույթը, բայց չի այս դեպքում: Removing հաղորդագրությունները գեներացվել է այս մեկ ավտոմատ Էջագրիչ ամբողջությամբ վերացնում ակնհայտ աճ զայրույթի ընթացքում օրը (Նկար 2.2). Այլ կերպ ասած, հիմնական արդյունք Back, Küfner, and Egloff (2010) Եղել է artifact մեկ Էջագրիչ. Քանի որ այս օրինակը ցույց է տալիս, համեմատաբար պարզ վերլուծությունը համեմատաբար բարդ ու խառնաշփոթ տվյալների ունի ներուժ գնալ լուրջ սխալ.
Նկար 2.2: Մոտավոր միտումները զայրույթի ընթացքում սեպտեմբերի 11, 2001 հիման վրա 85.000 ամերիկյան pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) : Originally, Back, Küfner, and Egloff (2010) հաղորդում է օրինակը բարձրացման զայրույթը ողջ օրվա ընթացքում: Սակայն, մեծ մասը, այդ ակնհայտ վրդովված ուղերձներ էին գեներացվում է միայն մեկ Էջագրիչ, որը բազմիցս ուղարկվել է հետեւյալ հաղորդագրությունը: "reboot NT մեքենայի [name] - ի կառավարության [name] - ին [վայրում]: ծայրահեղ [ամսաթվի եւ ժամանակի]»: Հետ այս հաղորդագրության հանել, ակնհայտ աճը զայրույթի անհետանում (Pury 2011; Back, Küfner, and Egloff 2011) : Այս ցուցանիշը մի վերարտադրումը Նկ 1B է Pury (2011) :
Թեեւ կեղտոտ տվյալները, որը ստեղծվել ակամա, ինչպիսիք են մեկ աղմկոտ Էջագրիչ կարող է հայտնաբերել մի ողջամտորեն զգույշ գիտաշխատող, կան նաեւ որոշ առցանց համակարգեր, որոնք գրավելու կանխամտածված spammers. Այս spammers ակտիվորեն առաջացնում կեղծ տվյալներ, եւ հաճախ հիմնավորվում է շահույթ աշխատանքի շատ դժվար է պահել իրենց Spamming թաքցրել: Օրինակ, քաղաքական ակտիվությունը on Twitter, կարծես ներառել առնվազն որոշ ողջամտորեն բերի սպամ, որով որոշ քաղաքական պատճառները միտումնավոր արված է նայել ավելի հայտնի է, քան նրանք փաստացի կարող են (Ratkiewicz et al. 2011) . Հետազոտողները աշխատող տվյալները, որոնք կարող են պարունակել դիտավորությամբ սպամ կանգնած մարտահրավերի համոզելու իրենց լսարանը, որ իրենք հայտնաբերվել եւ հեռացվել համապատասխան սպամ:
Վերջապես, ինչ համարվում է կեղտոտ տվյալները կարող կախված է նուրբ ձեւերով վրա ձեր հետազոտական հարցերին: Օրինակ, շատ խմբագրումները Վիքիփեդիա են ստեղծվում ավտոմատացված bots- երից (Geiger 2014) : Եթե դուք հետաքրքրված են էկոլոգիայի Վիքիպեդիայի, ապա այդ բոտերին կարեւոր են: Սակայն, եթե դուք հետաքրքրված եք, թե ինչպես են մարդիկ նպաստել Վիքիփեդիա, այդ խմբագրումները կողմից արված այդ bots- երից, պետք է բացառվի:
Լավագույն միջոցներից է խուսափել fooled կողմից կեղտոտ տվյալներն են հասկանալ, թե ինչպես է ձեր տվյալները, ստեղծված են կատարել պարզ հետախուզական վերլուծություն, ինչպես, օրինակ, պարզ բաժանման սյուժեները: