Մեծ տվյալների աղբյուրները կարող են բեռնված junk եւ պետք է գրանցվեք:
Որոշ հետազոտողներ կարծում են, որ մեծ տվյալների աղբյուրները, հատկապես առցանց աղբյուրները, պրեզիդենտ են, քանի որ դրանք ավտոմատ կերպով հավաքվում են: Փաստորեն, մարդիկ, ովքեր աշխատել են մեծ տվյալների աղբյուրներով, գիտեն, որ դրանք հաճախ կեղտոտ են : Այսինքն, նրանք հաճախ պարունակում են տվյալներ, որոնք չեն արտացոլում հետազոտողների հետաքրքրության իրական գործողությունները: Սոցիալական գիտնականների մեծ մասը արդեն ծանոթ է սոցիալական զննումների լայնածավալ տվյալների մաքրման գործընթացին, սակայն մեծ տվյալների աղբյուրների մաքրումը կարծես թե ավելի բարդ է: Կարծում եմ, այս դժվարության վերջնական աղբյուրը այն է, որ այդ մեծ աղբյուրներից շատերը երբեք չեն օգտագործվել հետազոտության համար, ուստի դրանք հավաքագրված չեն, պահվում եւ փաստաթղթավորվում են այնպես, որ հեշտացնում են տվյալների մաքրումը:
Կեղտոտ թվային հետագծերի տվյալների վտանգները նկարագրված են Back եւ գործընկերների կողմից (2010) 2001 թ. Սեպտեմբերի 11-ի հարձակումների զգացմունքային արձագանքի ուսումնասիրությունը, որը ես շեշտել եմ ավելի վաղ հիշատակված գլխում: Հետազոտողները սովորաբար ուսումնասիրում են ողբերգական իրադարձությունների արձագանքը `օգտագործելով ամիսներ եւ նույնիսկ տարիներ վերցված հետադարձ տվյալների մասին: Սակայն, Back- ը եւ գործընկերները գտել են թվային հետքերի մշտապես աղբյուրը `ժամանակագրական նշանով, ավտոմատ կերպով արձանագրված 85,000 ամերիկյան հրավիրատերերից ստացված հաղորդագրությունները, եւ դա հնարավորություն է տալիս նրանց ուսումնասիրել զգացմունքային արձագանք ավելի լավ ժամանակահատվածում: Նրանք ստեղծեցին սեպտեմբերի 11-ի րոպեավճարի հուզական ժամանակահատվածը, ծածկելով 1) տխրության (օրինակ, «լալիս» եւ «վիշտ»), (2) անհանգստության (2) («անհանգստացած» եւ «վախ»), եւ (3) բարկություն (օրինակ, «ատել» եւ «քննադատական»): Նրանք գտան, որ տխրությունն ու տագնապը ամբողջ օրվա ընթացքում տատանվում են առանց հզոր օրինակների, սակայն օրվա ընթացքում զայրույթով հարուստ աճ էր նկատվում: Այս հետազոտությունը, կարծես, միշտ էլ տվյալների աղբյուրների ուժի հրաշալի օրինակ է. Եթե ավանդական տվյալների աղբյուրները օգտագործվել են, անհնար է ստանալ անսպասելի իրադարձության անմիջական արձագանքի այդպիսի բարձր լուծման ժամանակացույց:
Ընդամենը մեկ տարի անց, սակայն, Cynthia Pury (2011) նայեց տվյալների ավելի ուշադիր: Նա հայտնաբերեց, որ ենթադրաբար զայրացած հաղորդագրությունների մեծ թվաքանակը ստեղծվել է միայն մեկ հրաշագործի կողմից եւ բոլորը նույնն էին: Ահա թե ինչ են ենթադրաբար այդ զայրացած հաղորդագրություններն ասում.
«Reboot NT մեքենայի [name] - ի կառավարության [name] - ին [վայրում]: ՔՆՆԱԴԱՏԱԿԱՆ: [ամսաթիվը եւ ժամանակը]»
Այս ուղերձները զայրացած էին, քանի որ դրանք ընդգրկում էին «CRITICAL» բառը, որը, ընդհանուր առմամբ, կարող է ցույց տալ, որ զայրույթը, բայց այս դեպքում չի: Այս միասնական ավտոմատացված հրահանգիչի կողմից ուղարկված հաղորդագրությունները հեռացնելով ամբողջությամբ վերացնում է օրվա ընթացքում զայրույթի ակնհայտ աճը (նկ. 2.4): Այլ կերպ ասած, Back, Küfner, and Egloff (2010) ի հիմնական արդյունքը Back, Küfner, and Egloff (2010) Եղել է մեկ հրաշագործի արտեֆակտ: Քանի որ այս օրինակը ցույց է տալիս, համեմատաբար բարդ եւ խառնաշփոթ տվյալների համեմատաբար պարզ վերլուծությունը ներուժ ունի լրջորեն սխալվելու համար:
Չնայած այն հանգամանքին, որ կեղծ տվյալները ստեղծվում են աննկատ կերպով, ինչպես, օրինակ, մի աղմկոտ հրատապի միջոցով, կարող է հայտնաբերվել խելամիտ զգայուն հետազոտողի կողմից, կան նաեւ որոշ օնլայն համակարգեր, որոնք գրավիչ սպամեր են ներգրավում: Այս սպամերները ակտիվորեն առաջացնում են կեղծ տվյալներ, եւ հաճախ շահութաբեր գործով շահագրգռված են շատ ծանր պահելով իրենց spamming թաքցրել: Օրինակ, Twitter- ում քաղաքական գործունեությունը կարծես թե ներառում է առնվազն խելամտորեն բարդ spam, որով որոշակի քաղաքական պատճառները դիտավորյալ են դարձնում ավելի հայտնի տեսք ունենալու, քան իրականում (Ratkiewicz et al. 2011) : Ցավոք, այս կանխամտածված սպամի հեռացումը կարող է շատ դժվար լինել:
Իհարկե, այն, ինչ համարվում է կեղտոտ տվյալները, կարող են կախված լինել հետազոտության հարցից: Օրինակ, Վիքիպեդիայի բազմաթիվ վերամշակումներ են ստեղծվում ավտոմատացված բոտերով (Geiger 2014) : Եթե ձեզ հետաքրքրում է Վիքիպեդիայի էկոլոգիան, ապա այս բոտի ստեղծած խմբագրումները կարեւոր են: Սակայն, եթե հետաքրքրված եք, թե ինչպես են մարդիկ նպաստում Վիքիպեդիային, ապա բոտերի ստեղծած փոփոխությունները պետք է բացառվեն:
Կա ոչ մի վիճակագրական տեխնիկա կամ մոտեցում, որը կարող է ապահովել, որ դուք բավականաչափ մաքրել եք ձեր կեղտոտ տվյալները: Ի վերջո, կարծում եմ, որ կեղտոտ տվյալների հիման վրա խուսափելու լավագույն միջոցը հնարավոր է հասկանալ, թե ինչպես է ձեր տվյալները ստեղծվել: