ബിഗ് ഡാറ്റ ഉറവിടങ്ങളിൽ ജങ്ക് സ്പാം കയറ്റി കഴിയും.
ചില ഗവേഷകർ വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ വിശ്വസിക്കുന്നു, പ്രത്യേകിച്ച് ഓൺലൈൻ ഉറവിടങ്ങളിൽ നിന്ന് അവർ സ്വയം ശേഖരിക്കുന്നത് കാരണം തരക്കാരും ഉണ്ട്. വാസ്തവത്തിൽ, ബിഗ് ഡാറ്റ ഉറവിടങ്ങളിൽ പ്രവർത്തിച്ച ജനം പതിവായി വൃത്തികെട്ട എല്ലാവരും അറിയും. അവർ പതിവായി ഗവേഷകർ പലിശ യഥാർത്ഥ പ്രതിഫലിപ്പിക്കുക ചെയ്യാത്ത ഡാറ്റ ഉൾപ്പെടുന്നു ആണ്. ധാരാളം സാമൂഹിക ശാസ്ത്രജ്ഞർ ഇതിനകം വലിയ തോതിലുള്ള സോഷ്യൽ സർവേ ഡാറ്റ ക്ലീനിംഗ് പ്രക്രിയ പരിചയമുണ്ട്, പക്ഷേ വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ ക്ലീനിംഗ് രണ്ട് കാരണങ്ങളാൽ കൂടുതൽ ബുദ്ധിമുട്ടാണ്: 1) അവർ ഗവേഷകർക്കും 2 ഗവേഷകർ സൃഷ്ടിച്ച ചെയ്തിട്ടില്ല) ഗവേഷകർ പൊതുവെ എങ്ങനെയാണ് കുറവ് ഗ്രാഹ്യം അവർ സൃഷ്ടിച്ചത്.
വൃത്തികെട്ട ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ബാക്ക് സഹപ്രവർത്തകരും 'ചിത്രീകരിക്കുന്നു ചെയ്യുന്നു അപകടങ്ങളെ (2010) സപ്തംബർ 11 ആക്രമണത്തിന്റെ വികാരങ്ങളെ പഠനത്തിന് 2001 ഗവേഷകർ സാധാരണയായി മാസം അല്ലെങ്കിൽ പോലും വർഷങ്ങളായി ശേഖരിച്ച മുന്കാല ഡാറ്റ ഉപയോഗിച്ച് ദുരന്തങ്ങൾ പ്രതികരണമായി പഠിക്കുന്നു. എന്നാൽ, പിന്നോട്ട്, സഹപ്രവർത്തകർ എപ്പോഴും ഡിജിറ്റൽ പ്രകടമാകുന്നത്-timestamped ഉറവിടം ഒരു കണ്ടു 85,000 അമേരിക്കൻ വിരസമായ-ഈ നിന്നും യാന്ത്രികമായി രേഖപ്പെടുത്തിയിട്ടുണ്ട് സന്ദേശങ്ങൾ വളരെ സൂക്ഷ്മ അച്ചടക്കം ന് വികാരങ്ങളെ പഠിക്കാൻ ഗവേഷകർ പ്രാപ്തമാക്കി. തിരികെ സഹപ്രവർത്തകരും (1) ഖവും (ഉദാ, കരച്ചിൽ, ദുഃഖം), (2) ഉത്കണ്ഠ (ഉദാ ബന്ധപ്പെട്ട വാക്കുകളുടെ ശതമാനം അനുസരിച്ച് പേജർ സന്ദേശങ്ങൾ വൈകാരിക ഉള്ളടക്കം കോഡിങ്ങ് വഴി സെപ്റ്റംബർ 11 മിനിട്ട്-ബൈ-മിനിറ്റ് വൈകാരിക ടൈംലൈൻ സൃഷ്ടിച്ചു , സംശയിച്ചിരുന്നു ഭീരുക്കൾ), (3) കോപം (ഉദാ, വിദ്വേഷം, ഗുരുതര). അവർ ഖവും ഉത്കണ്ഠ ശക്തമായ പാറ്റേൺ കൂടാതെ ദിവസം മുഴുവനും മാറ്റങ്ങള് കണ്ടെത്തി, പക്ഷേ ദിവസം മുഴുവൻ കോപത്തിൽ ഒരു തറയ്ക്കുന്ന വർദ്ധനവ് ഉണ്ടായി എന്നു. അതു ഒരു അപ്രതീക്ഷിത ഇവന്റ് ഉടൻ പ്രതികരണമാണ് അത്തരം ഒരു ഉയർന്ന റെസല്യൂഷൻ ടൈംലൈൻ അസാദ്ധ്യമാണ് തന്നെ സാധാരണ രീതികൾ ഉപയോഗിച്ച്: ഈ ഗവേഷണ ഡാറ്റ ഉറവിടങ്ങളിൽ എപ്പോഴും ശക്തി ഒരു അത്ഭുതകരമായ ദൃഷ്ടാന്തം തോന്നുന്നു.
അടുത്ത വർഷം എന്നാൽ, സിന്തിയ Pury (2011) ഡാറ്റ അധികം ജാഗ്രതയോടെ നോക്കി. അവൾ സംഭവമാണ് ദേഷ്യം സന്ദേശങ്ങൾ ഒരു വലിയ സംഖ്യ ഒറ്റ പേജർ ഉത്പാദിപ്പിക്കപ്പെടുന്നത്, അവർ എല്ലാവരും ഒരേപോലുള്ള കണ്ടെത്തിയിട്ടുണ്ട്. ആ സംഭവമാണ് കോപിച്ചു സന്ദേശങ്ങൾ പറഞ്ഞത് ഇതാണ്:
"റീബൂട്ട് എൻ.ടി. മെഷീൻ [പേര്] മന്ത്രിസഭയിൽ [പേര്] [ലൊക്കേഷൻ] ചെയ്തത്: ഗുരുതരമായ: [തീയതിയും സമയവും]"
അവർ പൊതുവിൽ കോപം സൂചിപ്പിക്കുന്നു എന്നാൽ ഈ കേസിൽ അല്ലേ ചെയ്യാം പദം "ഗുരുതരം", ഉൾപ്പെടുത്തിയിട്ടുണ്ട് കാരണം ഈ സന്ദേശങ്ങൾ ദേഷ്യം ലേബൽ ചെയ്തു. സന്ദേശങ്ങൾ ഈ ഒരൊറ്റ ഓട്ടോമേറ്റഡ് പേജർ ഉത്പാദിപ്പിക്കപ്പെടുന്നത് നീക്കംചെയ്യുന്നത് പൂർണ്ണമായും ദിവസത്തെ കോഴ്സ് മേൽ കോപം പ്രകടമാണ് വർദ്ധനവ് (ചിത്രം 2.2) ഇല്ലാതാക്കുന്നു. മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, പ്രധാന ഫലം Back, Küfner, and Egloff (2010) ഒറ്റ പേജർ ഒരു ശില്പമാണ് ആയിരുന്നു. ഈ ഉപമ വിവരിച്ചുതന്നിരിക്കുന്നു പോലെ, താരതമ്യേന സങ്കീർണ്ണമായ മുറിവാലന് ഡാറ്റ താരതമ്യേന ലളിതമായ വിശകലനം ഗൗരവത്തോടെ തെറ്റിച്ചുകളഞ്ഞു കാടിനോട്.
ഒറ്റ ശബ്ദായമാനമായ നിന്ന് പോലെ ലക്ഷ്യബോധമില്ലാതെ-അത്തരം സൃഷ്ടിക്കപ്പെട്ടു വൃത്തികെട്ട ഡാറ്റ യുക്തിസഹമായി ശ്രദ്ധിക്കുക ഗവേഷകൻ കണ്ടുപിടിയ്ക്കുവാൻ പേജർ-കഴിയുമ്പോൾതന്നെ അവിടെ പുറമേ മനപൂർവം സ്പാമർമാർ ആകർഷിക്കാൻ ചില ഓൺലൈൻ സിസ്റ്റങ്ങളാണു്. ഈ സ്പാമർമാരെ സജീവമായി വ്യാജ ഡാറ്റ സൃഷ്ടിക്കും, മിക്കപ്പോഴും അവരുടെ സ്പാമിങ്ങോ മറച്ചു നിലനിർത്താൻ വളരെ ഹാർഡ് ലാഭം-പ്രവൃത്തി പ്രേരിതമായ. ഉദാഹരണത്തിന്, ട്വിറ്റർ രാഷ്ട്രീയ പ്രവർത്തനം ഉതകാത്ത ചില രാഷ്ട്രീയ കാരണങ്ങൾ മനപ്പൂർവ്വം അവർ യഥാർത്ഥ വില കൂടുതല് നോക്കൂ ഉണ്ടാകുന്നത് കുറഞ്ഞപക്ഷം ചില യുക്തിസഹമായി ഡ്രീംലൈനറിന്റെ സ്പാം ഉൾപ്പെടുത്തുന്നതിനായി തോന്നുന്നു ആകുന്നു (Ratkiewicz et al. 2011) . കല്പിച്ചുകൂട്ടിയ സ്പാം ഉൾക്കൊള്ളുന്ന ഡാറ്റ പ്രവർത്തിച്ചും ഗവേഷകർ കണ്ടെത്തി പ്രസക്തമായ സ്പാം നീക്കംചെയ്തു അവരുടെ പ്രേക്ഷകരെ പോക്കേ എന്ന വെല്ലുവിളി നേരിടാൻ.
ഒടുവിൽ എന്തു വൃത്തികെട്ട ഡാറ്റ കണക്കാക്കുന്നു നിങ്ങളുടെ ഗവേഷണം ചോദ്യങ്ങൾക്ക് സൂക്ഷ്മമായ വഴികളിൽ ആശ്രയിച്ചിരിക്കും കഴിയും. ഉദാഹരണത്തിന്, വിക്കിപീഡിയ പല എഡിറ്റുകൾ ഓട്ടോമേറ്റഡ് യന്ത്രങ്ങൾ സൃഷ്ടിച്ചത് (Geiger 2014) . വിക്കിപീഡിയ ആവാസ താൽപ്പര്യമില്ലെങ്കിൽ, ഈ യന്ത്രങ്ങളെ പ്രധാനമാണ്. പക്ഷേ, നിങ്ങൾ മനുഷ്യർക്ക് വിക്കിപീഡിയയിലേക്ക് സംഭാവന എങ്ങനെ താല്പര്യം ഉണ്ടെങ്കിൽ, ഈ യന്ത്രങ്ങളെ നടത്തിയ ഈ എഡിറ്റുകൾ ഒഴിവാക്കേണ്ടത്.
വൃത്തികെട്ട ഡാറ്റ നുണകൾ ഒഴിവാക്കാൻ മികച്ച വഴികൾ ഡാറ്റ പോലുള്ള ലളിതമായ ചിതറിച്ചുകളയേണം പ്ലോട്ടുകൾ making, ലളിതമായ കണ്ടെത്താനുള്ള വിശകലനം നടത്താൻ സൃഷ്ടിക്കപ്പെട്ടു എങ്ങനെ മനസ്സിലാക്കുന്നുവോ.