Մեծ տվյալների աղբյուրները կարող են բեռնված junk եւ պետք է գրանցվեք:
Որոշ հետազոտողներ կարծում են, որ մեծ տվյալների աղբյուրները, հատկապես նրանք, ովքեր առցանց աղբյուրներից, որոնք մաքուր, քանի որ նրանք հավաքվում են ինքնաբերաբար: Ի դեպ, մարդիկ, ովքեր աշխատել մեծ տվյալների աղբյուրների գիտեն, որ իրենք են հաճախակի կեղտոտ. Այսինքն, նրանք հաճախ ներառում է տվյալներ, որոնք չեն արտացոլում իրական գործողությունները հետաքրքրություն հետազոտողների. Շատ հասարակագետները արդեն ծանոթ գործընթացի մաքրման լայնածավալ սոցիալական հետազոտության տվյալները, սակայն մաքրման մեծ տվյալների աղբյուրների ավելի դժվար է երկու պատճառներով: 1), նրանք չեն ստեղծվում հետազոտողների համար հետազոտողների եւ 2) հետազոտողների, ընդհանուր առմամբ, պետք է ավելի քիչ պատկերացում, թե ինչպես նրանք են ստեղծվում:
Վտանգների կեղտոտ թվային հետք տվյալները, որոնք նկարազարդել են ետ եւ գործընկերները » (2010) Ուսումնասիրության հուզական պատասխան հարձակումներից սեպտեմբերի 11, 2001 թ. Հետազոտողները սովորաբար ուսումնասիրելու պատասխանը ողբերգական իրադարձություններին` օգտագործելով հետահայաց տվյալները հավաքագրված շուրջ ամիսներ կամ նույնիսկ տարիներ. Բայց, Back եւ գործընկերները գտել է մշտապես աղբյուր թվային հետքեր-րդ timestamped, ինքնաբերաբար արձանագրված հաղորդագրությունները 85.000 ամերիկյան pagers, եւ սա հնարավորություն է տալիս ուսումնասիրել էմոցիոնալ պատասխան է շատ նուրբ ժամկետներում: Back եւ գործընկերները ստեղծել է րոպե առ րոպե հուզական ժամանակացույցը սեպտեմբերի 11-ի կոդավորման հուզական բովանդակությունը pager հաղորդագրություններ ի տոկոսային բառերի հետ կապված (1) տխրության (օրինակ, լաց, վիշտը), (2) անհանգստությունը (օրինակ, մտահոգված է, վախեցնող), եւ (3) բարկությունը (օրինակ, ատելության, քննադատական): Նրանք պարզել են, որ տխրությունն ու անհանգստություն տատանվել է ամբողջ օրը, առանց ուժեղ օրինակին, սակայն, որ կար մի վառ աճ է զայրույթի ողջ օրվա ընթացքում: Այս հետազոտությունը, կարծես, մի հրաշալի վկայում է իշխանության մշտապես տվյալների աղբյուրների `օգտագործելով ստանդարտ մեթոդներ, դա անհնար է ունենալ այնպիսի բարձր բանաձեւը ժամանակացույցը անմիջական պատասխան անսպասելի իրադարձության:
Պարզապես մեկ տարի անց, սակայն, Սինթիա Pury (2011) նայեց տվյալները ավելի ուշադիր: Նա հայտնաբերվել է, որ մեծ թվով ենթադրաբար զայրացած ուղերձներ էին գեներացվում է միայն մեկ Էջագրիչ, եւ նրանք բոլորն էլ միանման. Ահա թե ինչ է այդ, ենթադրաբար, զայրացած ուղերձները ասաց.
«Reboot NT մեքենայի [name] - ի կառավարության [name] - ին [վայրում]: ՔՆՆԱԴԱՏԱԿԱՆ: [ամսաթիվը եւ ժամանակը]»
Այս հաղորդագրություններն պիտակավորված բարկացած, քանի որ նրանք ընդգրկված բառը "Կրիտիկական», որը կարող է, ընդհանուր առմամբ, ցույց է տալիս, զայրույթը, բայց չի այս դեպքում: Removing հաղորդագրությունները գեներացվել է այս մեկ ավտոմատ Էջագրիչ ամբողջությամբ վերացնում ակնհայտ աճ զայրույթի ընթացքում օրը (Նկար 2.2). Այլ կերպ ասած, հիմնական արդյունք Back, Küfner, and Egloff (2010) Եղել է artifact մեկ Էջագրիչ. Քանի որ այս օրինակը ցույց է տալիս, համեմատաբար պարզ վերլուծությունը համեմատաբար բարդ ու խառնաշփոթ տվյալների ունի ներուժ գնալ լուրջ սխալ.
Թեեւ կեղտոտ տվյալները, որը ստեղծվել ակամա, ինչպիսիք են մեկ աղմկոտ Էջագրիչ կարող է հայտնաբերել մի ողջամտորեն զգույշ գիտաշխատող, կան նաեւ որոշ առցանց համակարգեր, որոնք գրավելու կանխամտածված spammers. Այս spammers ակտիվորեն առաջացնում կեղծ տվյալներ, եւ հաճախ հիմնավորվում է շահույթ աշխատանքի շատ դժվար է պահել իրենց Spamming թաքցրել: Օրինակ, քաղաքական ակտիվությունը on Twitter, կարծես ներառել առնվազն որոշ ողջամտորեն բերի սպամ, որով որոշ քաղաքական պատճառները միտումնավոր արված է նայել ավելի հայտնի է, քան նրանք փաստացի կարող են (Ratkiewicz et al. 2011) . Հետազոտողները աշխատող տվյալները, որոնք կարող են պարունակել դիտավորությամբ սպամ կանգնած մարտահրավերի համոզելու իրենց լսարանը, որ իրենք հայտնաբերվել եւ հեռացվել համապատասխան սպամ:
Վերջապես, ինչ համարվում է կեղտոտ տվյալները կարող կախված է նուրբ ձեւերով վրա ձեր հետազոտական հարցերին: Օրինակ, շատ խմբագրումները Վիքիփեդիա են ստեղծվում ավտոմատացված bots- երից (Geiger 2014) : Եթե դուք հետաքրքրված են էկոլոգիայի Վիքիպեդիայի, ապա այդ բոտերին կարեւոր են: Սակայն, եթե դուք հետաքրքրված եք, թե ինչպես են մարդիկ նպաստել Վիքիփեդիա, այդ խմբագրումները կողմից արված այդ bots- երից, պետք է բացառվի:
Լավագույն միջոցներից է խուսափել fooled կողմից կեղտոտ տվյալներն են հասկանալ, թե ինչպես է ձեր տվյալները, ստեղծված են կատարել պարզ հետախուզական վերլուծություն, ինչպես, օրինակ, պարզ բաժանման սյուժեները: