2.3.2.6 ഡേർട്ടി

ബിഗ് ഡാറ്റ ഉറവിടങ്ങളിൽ ജങ്ക് സ്പാം കയറ്റി കഴിയും.

ചില ഗവേഷകർ വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ വിശ്വസിക്കുന്നു, പ്രത്യേകിച്ച് ഓൺലൈൻ ഉറവിടങ്ങളിൽ നിന്ന് അവർ സ്വയം ശേഖരിക്കുന്നത് കാരണം തരക്കാരും ഉണ്ട്. വാസ്തവത്തിൽ, ബിഗ് ഡാറ്റ ഉറവിടങ്ങളിൽ പ്രവർത്തിച്ച ജനം പതിവായി വൃത്തികെട്ട എല്ലാവരും അറിയും. അവർ പതിവായി ഗവേഷകർ പലിശ യഥാർത്ഥ പ്രതിഫലിപ്പിക്കുക ചെയ്യാത്ത ഡാറ്റ ഉൾപ്പെടുന്നു ആണ്. ധാരാളം സാമൂഹിക ശാസ്ത്രജ്ഞർ ഇതിനകം വലിയ തോതിലുള്ള സോഷ്യൽ സർവേ ഡാറ്റ ക്ലീനിംഗ് പ്രക്രിയ പരിചയമുണ്ട്, പക്ഷേ വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ ക്ലീനിംഗ് രണ്ട് കാരണങ്ങളാൽ കൂടുതൽ ബുദ്ധിമുട്ടാണ്: 1) അവർ ഗവേഷകർക്കും 2 ഗവേഷകർ സൃഷ്ടിച്ച ചെയ്തിട്ടില്ല) ഗവേഷകർ പൊതുവെ എങ്ങനെയാണ് കുറവ് ഗ്രാഹ്യം അവർ സൃഷ്ടിച്ചത്.

വൃത്തികെട്ട ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ബാക്ക് സഹപ്രവർത്തകരും 'ചിത്രീകരിക്കുന്നു ചെയ്യുന്നു അപകടങ്ങളെ (2010) സപ്തംബർ 11 ആക്രമണത്തിന്റെ വികാരങ്ങളെ പഠനത്തിന് 2001 ഗവേഷകർ സാധാരണയായി മാസം അല്ലെങ്കിൽ പോലും വർഷങ്ങളായി ശേഖരിച്ച മുന്കാല ഡാറ്റ ഉപയോഗിച്ച് ദുരന്തങ്ങൾ പ്രതികരണമായി പഠിക്കുന്നു. എന്നാൽ, പിന്നോട്ട്, സഹപ്രവർത്തകർ എപ്പോഴും ഡിജിറ്റൽ പ്രകടമാകുന്നത്-timestamped ഉറവിടം ഒരു കണ്ടു 85,000 അമേരിക്കൻ വിരസമായ-ഈ നിന്നും യാന്ത്രികമായി രേഖപ്പെടുത്തിയിട്ടുണ്ട് സന്ദേശങ്ങൾ വളരെ സൂക്ഷ്മ അച്ചടക്കം ന് വികാരങ്ങളെ പഠിക്കാൻ ഗവേഷകർ പ്രാപ്തമാക്കി. തിരികെ സഹപ്രവർത്തകരും (1) ഖവും (ഉദാ, കരച്ചിൽ, ദുഃഖം), (2) ഉത്കണ്ഠ (ഉദാ ബന്ധപ്പെട്ട വാക്കുകളുടെ ശതമാനം അനുസരിച്ച് പേജർ സന്ദേശങ്ങൾ വൈകാരിക ഉള്ളടക്കം കോഡിങ്ങ് വഴി സെപ്റ്റംബർ 11 മിനിട്ട്-ബൈ-മിനിറ്റ് വൈകാരിക ടൈംലൈൻ സൃഷ്ടിച്ചു , സംശയിച്ചിരുന്നു ഭീരുക്കൾ), (3) കോപം (ഉദാ, വിദ്വേഷം, ഗുരുതര). അവർ ഖവും ഉത്കണ്ഠ ശക്തമായ പാറ്റേൺ കൂടാതെ ദിവസം മുഴുവനും മാറ്റങ്ങള് കണ്ടെത്തി, പക്ഷേ ദിവസം മുഴുവൻ കോപത്തിൽ ഒരു തറയ്ക്കുന്ന വർദ്ധനവ് ഉണ്ടായി എന്നു. അതു ഒരു അപ്രതീക്ഷിത ഇവന്റ് ഉടൻ പ്രതികരണമാണ് അത്തരം ഒരു ഉയർന്ന റെസല്യൂഷൻ ടൈംലൈൻ അസാദ്ധ്യമാണ് തന്നെ സാധാരണ രീതികൾ ഉപയോഗിച്ച്: ഈ ഗവേഷണ ഡാറ്റ ഉറവിടങ്ങളിൽ എപ്പോഴും ശക്തി ഒരു അത്ഭുതകരമായ ദൃഷ്ടാന്തം തോന്നുന്നു.

അടുത്ത വർഷം എന്നാൽ, സിന്തിയ Pury (2011) ഡാറ്റ അധികം ജാഗ്രതയോടെ നോക്കി. അവൾ സംഭവമാണ് ദേഷ്യം സന്ദേശങ്ങൾ ഒരു വലിയ സംഖ്യ ഒറ്റ പേജർ ഉത്പാദിപ്പിക്കപ്പെടുന്നത്, അവർ എല്ലാവരും ഒരേപോലുള്ള കണ്ടെത്തിയിട്ടുണ്ട്. ആ സംഭവമാണ് കോപിച്ചു സന്ദേശങ്ങൾ പറഞ്ഞത് ഇതാണ്:

"റീബൂട്ട് എൻ.ടി. മെഷീൻ [പേര്] മന്ത്രിസഭയിൽ [പേര്] [ലൊക്കേഷൻ] ചെയ്തത്: ഗുരുതരമായ: [തീയതിയും സമയവും]"

അവർ പൊതുവിൽ കോപം സൂചിപ്പിക്കുന്നു എന്നാൽ ഈ കേസിൽ അല്ലേ ചെയ്യാം പദം "ഗുരുതരം", ഉൾപ്പെടുത്തിയിട്ടുണ്ട് കാരണം ഈ സന്ദേശങ്ങൾ ദേഷ്യം ലേബൽ ചെയ്തു. സന്ദേശങ്ങൾ ഈ ഒരൊറ്റ ഓട്ടോമേറ്റഡ് പേജർ ഉത്പാദിപ്പിക്കപ്പെടുന്നത് നീക്കംചെയ്യുന്നത് പൂർണ്ണമായും ദിവസത്തെ കോഴ്സ് മേൽ കോപം പ്രകടമാണ് വർദ്ധനവ് (ചിത്രം 2.2) ഇല്ലാതാക്കുന്നു. മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, പ്രധാന ഫലം Back, Küfner, and Egloff (2010) ഒറ്റ പേജർ ഒരു ശില്പമാണ് ആയിരുന്നു. ഈ ഉപമ വിവരിച്ചുതന്നിരിക്കുന്നു പോലെ, താരതമ്യേന സങ്കീർണ്ണമായ മുറിവാലന് ഡാറ്റ താരതമ്യേന ലളിതമായ വിശകലനം ഗൗരവത്തോടെ തെറ്റിച്ചുകളഞ്ഞു കാടിനോട്.

(; Pury 2011; മടങ്ങുക, Küfner, ഒപ്പം Egloff 2011 ബാക്ക്, Küfner, ഒപ്പം Egloff 2010) കണക്കാക്കിയ കോപത്തിൽ 2001 സെപ്റ്റംബര് 11 കോഴ്സ് മേൽ 85,000 അമേരിക്കൻ വിരസമായ അടിസ്ഥാനമാക്കി പ്രവണതകളും: 2.2 ചിത്രം. ആദ്യം ബാക്ക്, Küfner, ഒപ്പം Egloff (2010) ദിവസം മുഴുവൻ കോപം വർദ്ധിച്ചുവരുന്ന ഒരു പാറ്റേൺ റിപ്പോർട്ട്. ക്രിട്ടിക്കൽ: [തീയതിയും സമയവും] [ലൊക്കേഷൻ] ചെയ്തത് മന്ത്രിസഭയിൽ റീബൂട്ടിനു് എൻ.ടി. മെഷീൻ [പേര്] [പേര്] എന്നിരുന്നാലും ആവർത്തിച്ച് പറയുന്ന സന്ദേശം അയച്ചു ഒരു ഒറ്റ പേജർ ഈ പ്രകടമാണ് കോപിച്ചു സന്ദേശങ്ങൾ ഏറ്റവും ജനറേറ്റ് ചെയ്തു. ഈ സന്ദേശം നീക്കം കോപത്തോടെ പ്രത്യക്ഷത്തിൽ വർദ്ധനവ് അപ്രത്യക്ഷമാകുകയും (Pury 2011; ബാക്ക്, Küfner, ഒപ്പം Egloff 2011). ഈ കണക്ക് Pury ലെ ചിത്രം 1B (2011) ഒരു പ്രത്യുൽപാദനമാണ്.

കണക്കാക്കിയ കോപത്തിൽ 2001 സെപ്റ്റംബര് 11 കോഴ്സ് മേൽ 85,000 അമേരിക്കൻ വിരസമായ അടിസ്ഥാനമാക്കി പ്രവണതകളും: 2.2 ചിത്രം (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . ആദ്യം Back, Küfner, and Egloff (2010) ദിവസം മുഴുവൻ കോപം വർദ്ധിച്ചുവരുന്ന ഒരു പാറ്റേൺ റിപ്പോർട്ട്. "റീബൂട്ട് എൻ.ടി. മെഷീൻ [പേര്] മന്ത്രിസഭയിൽ [പേര്] [ലൊക്കേഷൻ] ചെയ്തത്:: ഗുരുതരമായ: [തീയതിയും സമയവും]" എന്നിരുന്നാലും ഈ പ്രകടമാണ് കോപിച്ചു സന്ദേശങ്ങൾ ഏറ്റവും ആവർത്തിച്ച് താഴെ സന്ദേശം അയച്ചു ഒരു ഒറ്റ പേജർ ഉത്പാദിപ്പിക്കപ്പെടുന്നത് ചെയ്തു. ഈ സന്ദേശം നീക്കം കോപത്തോടെ പ്രത്യക്ഷത്തിൽ വർദ്ധനവ് അപ്രത്യക്ഷമാകുകയും (Pury 2011; Back, Küfner, and Egloff 2011) . ഈ കണക്ക് ലെ ചിത്രം 1B ഒരു പ്രത്യുൽപാദനമാണ് Pury (2011) .

ഒറ്റ ശബ്ദായമാനമായ നിന്ന് പോലെ ലക്ഷ്യബോധമില്ലാതെ-അത്തരം സൃഷ്ടിക്കപ്പെട്ടു വൃത്തികെട്ട ഡാറ്റ യുക്തിസഹമായി ശ്രദ്ധിക്കുക ഗവേഷകൻ കണ്ടുപിടിയ്ക്കുവാൻ പേജർ-കഴിയുമ്പോൾതന്നെ അവിടെ പുറമേ മനപൂർവം സ്പാമർമാർ ആകർഷിക്കാൻ ചില ഓൺലൈൻ സിസ്റ്റങ്ങളാണു്. ഈ സ്പാമർമാരെ സജീവമായി വ്യാജ ഡാറ്റ സൃഷ്ടിക്കും, മിക്കപ്പോഴും അവരുടെ സ്പാമിങ്ങോ മറച്ചു നിലനിർത്താൻ വളരെ ഹാർഡ് ലാഭം-പ്രവൃത്തി പ്രേരിതമായ. ഉദാഹരണത്തിന്, ട്വിറ്റർ രാഷ്ട്രീയ പ്രവർത്തനം ഉതകാത്ത ചില രാഷ്ട്രീയ കാരണങ്ങൾ മനപ്പൂർവ്വം അവർ യഥാർത്ഥ വില കൂടുതല് നോക്കൂ ഉണ്ടാകുന്നത് കുറഞ്ഞപക്ഷം ചില യുക്തിസഹമായി ഡ്രീംലൈനറിന്റെ സ്പാം ഉൾപ്പെടുത്തുന്നതിനായി തോന്നുന്നു ആകുന്നു (Ratkiewicz et al. 2011) . കല്പിച്ചുകൂട്ടിയ സ്പാം ഉൾക്കൊള്ളുന്ന ഡാറ്റ പ്രവർത്തിച്ചും ഗവേഷകർ കണ്ടെത്തി പ്രസക്തമായ സ്പാം നീക്കംചെയ്തു അവരുടെ പ്രേക്ഷകരെ പോക്കേ എന്ന വെല്ലുവിളി നേരിടാൻ.

ഒടുവിൽ എന്തു വൃത്തികെട്ട ഡാറ്റ കണക്കാക്കുന്നു നിങ്ങളുടെ ഗവേഷണം ചോദ്യങ്ങൾക്ക് സൂക്ഷ്മമായ വഴികളിൽ ആശ്രയിച്ചിരിക്കും കഴിയും. ഉദാഹരണത്തിന്, വിക്കിപീഡിയ പല എഡിറ്റുകൾ ഓട്ടോമേറ്റഡ് യന്ത്രങ്ങൾ സൃഷ്ടിച്ചത് (Geiger 2014) . വിക്കിപീഡിയ ആവാസ താൽപ്പര്യമില്ലെങ്കിൽ, ഈ യന്ത്രങ്ങളെ പ്രധാനമാണ്. പക്ഷേ, നിങ്ങൾ മനുഷ്യർക്ക് വിക്കിപീഡിയയിലേക്ക് സംഭാവന എങ്ങനെ താല്പര്യം ഉണ്ടെങ്കിൽ, ഈ യന്ത്രങ്ങളെ നടത്തിയ ഈ എഡിറ്റുകൾ ഒഴിവാക്കേണ്ടത്.

വൃത്തികെട്ട ഡാറ്റ നുണകൾ ഒഴിവാക്കാൻ മികച്ച വഴികൾ ഡാറ്റ പോലുള്ള ലളിതമായ ചിതറിച്ചുകളയേണം പ്ലോട്ടുകൾ making, ലളിതമായ കണ്ടെത്താനുള്ള വിശകലനം നടത്താൻ സൃഷ്ടിക്കപ്പെട്ടു എങ്ങനെ മനസ്സിലാക്കുന്നുവോ.