ബിഗ് ഡാറ്റ ഉറവിടങ്ങളിൽ ജങ്ക് സ്പാം കയറ്റി കഴിയും.
വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ, പ്രത്യേകിച്ച് ഓൺലൈൻ ഉറവിടങ്ങൾ, അവ സ്വയമേവ ശേഖരിക്കുന്നു എന്നതിനാൽ ചില ഗവേഷകർ വിശ്വസിക്കുന്നു. വാസ്തവത്തിൽ, വലിയ ഡാറ്റാ സ്രോതസ്സുകളുമായി പ്രവർത്തിച്ച ആളുകൾ പലപ്പോഴും അവർ വൃത്തികെട്ടവരാണെന്ന് അറിയാം. അതായത്, ഗവേഷകർക്ക് താൽപര്യമുള്ള യഥാർത്ഥ പ്രവർത്തനങ്ങളെ പ്രതിഫലിപ്പിക്കാത്ത ഡാറ്റ ഉൾപ്പെടുന്നു. ഭൂരിഭാഗം സാമൂഹിക ശാസ്ത്രജ്ഞന്മാരും വൻ തോതിലുള്ള സോഷ്യൽ സർവ്വെ ഡാറ്റ ക്ലീൻ ചെയ്യാനുള്ള പ്രക്രിയയെക്കുറിച്ച് മുൻകൂട്ടി അറിഞ്ഞിട്ടുണ്ട്, എന്നാൽ വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ വൃത്തിയാക്കുന്നു എന്നത് കൂടുതൽ ബുദ്ധിമുട്ടുള്ളതായി തോന്നുന്നു. ഈ പ്രശ്നത്തിന്റെ ആത്യന്തിക ഉറവിടം ഗവേഷണത്തിനായി ഉപയോഗിക്കാൻ ഉദ്ദേശിച്ചവയല്ല എന്നതിനാലാണ് ഇത്രയും വലിയ ഡാറ്റ സ്രോതസ്സുകൾ ഉണ്ടാക്കിയത്, അതിനാൽ അവർ ശേഖരിക്കുന്നതും സൂക്ഷിക്കപ്പെടുന്നതും രേഖപ്പെടുത്താൻ തയ്യാറാകുന്നതുമായ വിവരങ്ങളില്ല.
വൃത്തികെട്ട ഡിജിറ്റൽ ട്രെയ്സ് ഡേറ്റയുടെ അപകടങ്ങളെക്കുറിച്ച് ബാക്ക് ആൻഡ് സഹകാരികളുടെ (2010) വിവരണങ്ങൾ വ്യക്തമാക്കുന്നു. 2001 സെപ്റ്റംബർ 11 ആക്രമണത്തെക്കുറിച്ചുള്ള വികാരപരമായ പ്രതികരണം, അത് ഞാൻ നേരത്തെ പരാമർശിച്ച അധ്യായത്തിൽ പരാമർശിച്ചിരുന്നു. മാസത്തിലുടനീളം അല്ലെങ്കിൽ വർഷങ്ങൾകൊണ്ട് ശേഖരിച്ച മുൻകാലസ്വാധീനമുള്ള വിവരങ്ങൾ ഉപയോഗിച്ച് ഗവേഷകർ സാധാരണഗതിയിൽ ദുരന്ത സംഭവങ്ങളിലേക്കുള്ള പ്രതികരണങ്ങൾ പഠിക്കുന്നു. എന്നാൽ, 85,000 അമേരിക്കൻ പേജർമാരിൽ നിന്നുള്ള ടൈംസ്റ്റാമ്പഡ്, ഓട്ടോമാറ്റിക്കായി രേഖപ്പെടുത്തിയിരിക്കുന്ന സന്ദേശങ്ങൾ, എല്ലായ്പ്പോഴും ഡിജിറ്റൽ ട്രെയ്സുകളുടെ ഉറവിട സ്രോതസ്സിൽ തിരിച്ചെത്തി, സഹപ്രവർത്തകരെ കണ്ടെത്തുകയുണ്ടായി. ഇത് കൂടുതൽ മികച്ച സമയങ്ങളിൽ വൈകാരിക പ്രതികരണം പഠിക്കാൻ അവരെ പ്രാപ്തരാക്കി. (1) ദുഃഖം (ഉദാ: "കരയുന്നതും" "ദുഃഖം"), (2) ഉത്കണ്ഠ (2) ആശങ്ക ( ഉദാ: "ദുഃഖിതനും ഭയങ്കരനുമായ"), (3) കോപം (ഉദാ: "വെറുപ്പ്", "ഗുരുതരമായ"). ശക്തമായ പാറ്റേൺ ഇല്ലാതെ ദിവസം മുഴുവൻ വേദനയും ഉത്കണ്ഠയും വ്യതിചലിച്ചുവെന്ന് അവർ കണ്ടെത്തി, എന്നാൽ ദിവസം മുഴുവൻ ഉഗ്രമായ ഉഗ്രമായ വർദ്ധനവ് ഉണ്ടായി. ഈ ഗവേഷണം എല്ലായ്പ്പോഴും ഊർജ്ജസ്വലമായ ഒരു ഊർജ്ജ സ്രോതസ്സായി കണക്കാക്കപ്പെടുന്നു: പരമ്പരാഗത വിവര സ്രോതസ്സുകൾ ഉപയോഗിച്ചിട്ടുണ്ടെങ്കിൽ, അപ്രതീക്ഷിതമായ സംഭവത്തിലേക്കുള്ള അടിയന്തിര പ്രതികരണത്തിൻറെ അത്തരമൊരു ഉയർന്ന നിലവാരത്തിലുള്ള കാലഘട്ടം ലഭിക്കുക അസാധ്യമാണ്.
എന്നാൽ ഒരു വർഷം കഴിഞ്ഞ്, സിന്താരിയ പുരി (2011) കൂടുതൽ ശ്രദ്ധാപൂർവം പരിശോധിച്ചു. ഒരുപാട് പേപ്പറുകൾ ഉണ്ടെങ്കിൽ, ഒരൊറ്റ ബാജർ ഉണ്ടാക്കിയതാണെന്ന് അവർ കണ്ടെത്തി, അവ എല്ലാം ഒരേപോലെ തന്നെയായിരുന്നു. കോപാകുലരായ ആ സന്ദേശങ്ങൾ ഇങ്ങനെയാണ് പറഞ്ഞിരിക്കുന്നത്:
"റീബൂട്ട് എൻ.ടി. മെഷീൻ [പേര്] മന്ത്രിസഭയിൽ [പേര്] [ലൊക്കേഷൻ] ചെയ്തത്: ഗുരുതരമായ: [തീയതിയും സമയവും]"
ഈ സന്ദേശങ്ങൾ കോപം എന്ന് ലേബൽ ചെയ്തിരുന്നു, കാരണം അവർ "CRITICAL" എന്ന വാക്ക് ഉൾപ്പെട്ടിരുന്നു, അത് സാധാരണയായി കോപം സൂചിപ്പിക്കുമെങ്കിലും ഈ സാഹചര്യത്തിൽ. ഈ ഒറ്റ ഓട്ടോമേറ്റഡ് പേജറിലൂടെ സൃഷ്ടിക്കപ്പെടുന്ന സന്ദേശങ്ങൾ നീക്കം ചെയ്യുന്നത് ദിവസം മുഴുവൻ ക്രമാനുഗതമായ വർദ്ധനവിനെ പൂർണ്ണമായും ഇല്ലാതാക്കുന്നു (ചിത്രം 2.4). മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, Back, Küfner, and Egloff (2010) പ്രധാന ഫലം ഒരു Back, Küfner, and Egloff (2010) ഒരു കലാരൂപമായിരുന്നു. ഈ ഉദാഹരണത്തിൽ വിവരിക്കുന്നതുപോലെ, താരതമ്യേന സങ്കീർണ്ണവും കുഴഞ്ഞുമറിഞ്ഞ ഡാറ്റയും താരതമ്യേന ലളിതമായ വിശകലനം ഗുരുതരമായ തെറ്റാകാനുള്ള സാധ്യതയുണ്ട്.
മനഃപൂർവ്വം സൃഷ്ടിക്കുന്ന വൃത്തികെട്ട ഡാറ്റ, ഒരു ശബ്ദപദാർത്ഥം മുതൽ, ഒരു ശ്രദ്ധാപൂർവ്വം ശ്രദ്ധാപൂർവ്വമുള്ള ഗവേഷകൻ കണ്ടെത്തുമ്പോൾ, ഉദ്ദേശിക്കുന്ന സ്പാമർമാരെ ആകർഷിക്കുന്ന ചില ഓൺലൈൻ സംവിധാനങ്ങളും ഉണ്ട്. ഈ സ്പാമർ സജീവമായി വ്യാജ ഡാറ്റ സൃഷ്ടിക്കുകയും, പലപ്പോഴും ലാഭം സൃഷ്ടിക്കുകയും അവരുടെ സ്പാമിംഗ് മറച്ചുവെയ്ക്കാൻ വളരെ പ്രയാസമാണ്. ഉദാഹരണത്തിന്, ട്വിറ്ററിലെ രാഷ്ട്രീയ പ്രവർത്തനങ്ങൾ കുറഞ്ഞത് ചില (Ratkiewicz et al. 2011) ചെയ്ത സ്പാമുകൾ ഉൾക്കൊള്ളുന്നു, ചില രാഷ്ട്രീയ കാരണങ്ങൾ യഥാർഥത്തിൽ (Ratkiewicz et al. 2011) കൂടുതൽ (Ratkiewicz et al. 2011) . നിർഭാഗ്യവശാൽ, ഈ താൽക്കാലിക സ്പാമുകൾ നീക്കം ചെയ്യുന്നത് വളരെ പ്രയാസകരമാണ്.
തീർച്ചയായും, മോശമായ ഡാറ്റയെക്കുറിച്ച് ഗവേഷണ ചോദ്യത്തിലോ ഭാഗികമായോ ആശ്രയിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, വിക്കിപീഡിയയിലേക്കുള്ള പല എഡിറ്റുകളും ഓട്ടോമേറ്റഡ് ബോട്ടുകൾ (Geiger 2014) . താങ്കൾ വിക്കിപീഡിയയുടെ പരിസ്ഥിതിയിൽ താത്പര്യമെങ്കിൽ ഈ ബോട്ട് നിർമ്മിച്ച എഡിറ്റുകൾ പ്രധാനമാണ്. പക്ഷേ, മനുഷ്യർ വിക്കിപീഡിയയിൽ സംഭാവന ചെയ്യുന്നത് എങ്ങനെ, എങ്കിൽ ബോട്ട് സൃഷ്ടിച്ച എഡിറ്റുകൾ ഒഴിവാക്കണം.
നിങ്ങളുടെ വൃത്തികെട്ട ഡാറ്റ മതിയായ എന്ന് ഉറപ്പുവരുത്താൻ ഒരൊറ്റ സ്റ്റാറ്റിസ്റ്റിക്കൽ ടെക്നിക്കവും സമീപനവുമില്ല. അവസാനമായി, വൃത്തികെട്ട ഡാറ്റ മൂലം ഒഴിവാക്കാൻ ഏറ്റവും നല്ല മാർഗം നിങ്ങളുടെ ഡാറ്റ എങ്ങനെ സൃഷ്ടിച്ചു എന്നതിനെക്കുറിച്ച് എത്രത്തോളം മനസ്സിലാക്കാൻ കഴിയുമെന്ന് ഞാൻ കരുതുന്നു.