വലിയ ഡാറ്റാസെറ്റുകളുടെ ഒരു അവസാനം അർത്ഥമാക്കുന്നത്; അവർ സ്വയം ഒരു അവസാനമല്ല.
വലിയ ഡാറ്റാ ഉറവിടങ്ങളുടെ ഏറ്റവും പരക്കെ ചർച്ച ചെയ്യപ്പെടുന്ന സവിശേഷത അവർ ബിജിയാണ് എന്നതാണ്. ഉദാഹരണത്തിന്, പല പത്രങ്ങളും, അവർ വിശകലനം ചെയ്ത ഡാറ്റയെക്കുറിച്ച് ചിലപ്പോഴൊക്കെ ചർച്ചചെയ്യുന്നു-ചിലപ്പോൾ ചിലവാക്കുന്നു. ഉദാഹരണത്തിന്, ഗൂഗിൾ ബുക്സ് കോർപ്പസിലെ വാക്കുകളുടെ ഉപയോഗത്തെക്കുറിച്ചുള്ള പഠന ശാസ്ത്രത്തിൽ പ്രസിദ്ധീകരിച്ച ഒരു പ്രബന്ധം താഴെ കൊടുത്തിട്ടുണ്ട് (Michel et al. 2011) :
ഇംഗ്ലീഷ് ഭാഷയിൽ (361 കോടി), ഫ്രഞ്ച് (45 കോടി), സ്പാനിഷ് (45 കോടി), ജർമൻ (37 കോടി), ചൈനീസ് (13 ബില്ല്യൻ), റഷ്യൻ (35 കോടി), ഹീബ്രു (2 ബില്ല്യൻ). 1500-കളിൽ ഏറ്റവും പഴയ കൃതി പ്രസിദ്ധീകരിച്ചത്. ആദ്യ ദശകങ്ങൾ ഓരോ വർഷവും ഏതാനും ആയിരക്കണക്കിനു വാക്കുകളാണ് ഉൾക്കൊള്ളുന്നത്. 1800 ആയപ്പോഴേക്കും കോർപ്പസ് വർഷംതോറും 98 മില്യൺ വാക്കുകളായി വളരുന്നു. 1900 ഓടെ, 1.8 ബില്ല്യൻ; 2000 ആവുമ്പോഴേക്കും 11 ബില്ല്യൻ. ഒരു മനുഷ്യനാൽ കോർപ്പസ് വായിക്കാൻ കഴിയുകയില്ല. 2000-ൽ നിന്ന് ഇംഗ്ലീഷ് ഭാഷയിലുള്ള എൻട്രികൾ മാത്രം വായിക്കാൻ നിങ്ങൾ ശ്രമിച്ചിരുന്നെങ്കിൽ, 200 വാക്കുകളോ മിനിട്ടോ ഉള്ള ന്യായമായ വേഗതയിൽ ഭക്ഷണത്തിലോ ഉറക്കത്തിലോ തടസ്സങ്ങളില്ലാതെ 80 വർഷം എടുക്കും. അക്ഷരങ്ങളുടെ അനുപാതം മനുഷ്യ ജീനോം എന്നതിനേക്കാൾ 1000 മടങ്ങ് കൂടുതൽ നീണ്ടുപോയിരിക്കുന്നു: നിങ്ങൾ അതിനെ ഒരു നേർരേഖയിൽ എഴുതിയതെങ്കിൽ, അത് ചന്ദ്രനോട് വീണ്ടും പത്ത് മടങ്ങ് വരും. "
ഈ ഡാറ്റയുടെ അളവ് തീർച്ചയായും തികച്ചും മതിപ്പുളവാക്കുന്നതാണ്, ഈ വിവരങ്ങൾ ഗൂഗിൾ ബുക്കുകൾ സംഘം പൊതുജനങ്ങൾക്ക് ലഭ്യമാക്കിയിട്ടുണ്ട് (വാസ്തവത്തിൽ, ഈ അദ്ധ്യായത്തിൻറെ അവസാനത്തിൽ ചില പ്രവർത്തനങ്ങൾ ഈ ഡാറ്റ ഉപയോഗിക്കുന്നത്). എന്നാൽ, ഇതുപോലുള്ള കാര്യങ്ങൾ നിങ്ങൾ കാണുമ്പോൾ നിങ്ങൾ ചോദിക്കണം: എല്ലാ ഡാറ്റയും യഥാർഥത്തിൽ ചെയ്യുന്നത് എന്താണ്? ഡാറ്റ ചന്ദ്രനിൽ എത്തുന്നതിന് ഒരിക്കൽ മാത്രം ഒരേ ഗവേഷണം നടത്താൻ കഴിയുമോ? എവറസ്റ്റ് കൊടുമുടിയിലേക്കോ ഈഫൽ ഗോപുരത്തിന്റെ മുകളിലേക്കോ എത്തിച്ചേർന്നാൽ എന്ത് സംഭവിക്കും?
ഈ സാഹചര്യത്തിൽ, അവരുടെ ഗവേഷണത്തിന്, വളരെ ചുരുങ്ങിയ കാലഘട്ടത്തിൽ, വാക്കുകളുടെ വൻശേഖരം ആവശ്യമുള്ള ചില കണ്ടെത്തലുകൾ ഉണ്ട്. ഉദാഹരണം, അവർ പര്യവേക്ഷണം ചെയ്യുന്ന ഒരു കാര്യം വ്യാകരണം, പ്രത്യേകിച്ച് ക്രമരഹിത ക്രിയാ സംജ്ഞയിലെ നിരക്ക് എന്നിവയാണ്. ചില അനിയന്ത്രിതമായ ക്രിയകൾ വളരെ അപൂർവ്വമായിരുന്നതിനാൽ, കാലാകാലങ്ങളിൽ മാറ്റങ്ങൾ കണ്ടെത്താൻ ഡാറ്റ ഒരു വലിയ അളവ് ആവശ്യമാണ്. എന്നിരുന്നാലും, മിക്ക ഗവേഷകരും വലിയ അളവിലുള്ള ഡാറ്റാ ഉറവിടത്തെ ഒരു പരിധി വരെ കണക്കിലെടുക്കുന്നു- "എനിക്ക് എത്രമാത്രം ഞെരുക്കാനാകുമെന്നത് നോക്കൂ" - കുറച്ചുകാലംകൂടി ചില സുപ്രധാന ശാസ്ത്ര ലക്ഷ്യങ്ങളിലേക്ക് ഒരു മാർഗ്ഗവും.
എന്റെ അനുഭവത്തിൽ, അപൂർവ സംഭവങ്ങളുടെ പഠനം വലിയ ഡാറ്റാസെറ്റുകൾ പ്രവർത്തനക്ഷമമാക്കുന്ന മൂന്ന് പ്രത്യേക ശാസ്ത്ര അന്തിമ ഘട്ടങ്ങളിലൊന്നാണ്. രണ്ടാമത്തേത് അമേരിക്കയിലെ സാമൂഹ്യ ചലനത്തെക്കുറിച്ചുള്ള രാജ് ചെട്ടി, സഹപ്രവർത്തകരായ (2014) നടത്തിയ ഒരു പഠനത്തിലൂടെ ചിത്രീകരിക്കാൻ കഴിയും. കഴിഞ്ഞകാലങ്ങളിൽ, പല ഗവേഷകരും മാതാപിതാക്കളുടെയും കുട്ടികളുടെയും ജീവിതാനുഭവങ്ങളെ താരതമ്യം ചെയ്തുകൊണ്ട് സാമൂഹിക ചലനാത്മകത പഠിച്ചു. ഈ സാഹിത്യത്തിൽ നിന്ന് ഒരു സ്ഥിരതയുള്ള കണ്ടെത്തൽ, ഗുണഫലമുള്ള മാതാപിതാക്കൾ കുട്ടികളെ പ്രയോജനപ്പെടുത്തിയിട്ടുണ്ടെങ്കിലും, ഈ ബന്ധത്തിന്റെ ശക്തി കാലാകാലങ്ങളിൽ രാജ്യങ്ങളിലും (Hout and DiPrete 2006) . എന്നിരുന്നാലും അടുത്തകാലത്തായി, ചെട്ടിനും സഹപ്രവർത്തകർക്കുമുള്ള നികുതി രേഖകൾ 40 ദശലക്ഷം ആൾക്കാർക്ക് യു.എസ്.എയിലെ വിവിധ പ്രദേശങ്ങളിൽ ചലനാത്മക ചലനങ്ങളുമായി ബന്ധിപ്പിക്കാൻ കഴിഞ്ഞു. ഉദാഹരണത്തിന് ഒരു ദേശീയ കുട്ടിയുടെ ദേശീയ വരുമാനത്തിന്റെ വിതരണത്തിലെ ഏറ്റവും മികച്ച ക്വിന്റൈൽ എത്തുന്നതിന് സാധ്യത കുറവാണെന്ന് അവർ കണ്ടെത്തി. കാലിഫോർണിയയിലെ സാൻ ജോസസിൽ ഒരു കുടുംബത്തിൽ നിന്നും 13% മാത്രമേ കുട്ടികൾ തുടങ്ങുന്നുള്ളൂ. വടക്കൻ കരോലിനയിലെ ഷാർലോട്ടിൽ 4% മാത്രമാണ്. നിങ്ങൾ ഒരു നിമിഷം ചിത്രം 2.1 നോക്കിയാൽ, മറ്റുള്ളവയെക്കാൾ ചിലയിടങ്ങളിൽ intergenerational ചലനാത്മകത എന്തിനാണ് ഉയർത്തുന്നത് എന്ന് നിങ്ങൾ ചിന്തിച്ചേക്കാം. ചെട്ടിയും സഹപ്രവർത്തകരും ഒരേ ചോദ്യം തന്നെ ഉണ്ടായിരുന്നു. ഉയർന്ന ചലനശേഷി പ്രദേശങ്ങൾ റസിഡൻഷ്യൽ വേർതിരിവ്, കുറഞ്ഞ വരുമാന അസമത്വം, മെച്ചപ്പെട്ട പ്രാഥമിക വിദ്യാലങ്ങൾ, കൂടുതൽ സാമൂഹ്യ മൂലധനം, വലിയ കുടുംബ സ്ഥിരത എന്നിവയാണെന്ന് അവർ കണ്ടെത്തി. ഈ ഘടകങ്ങൾ മാത്രം ഈ ഘടകങ്ങൾ ഉയർന്ന ചലനങ്ങളെ കുറിച്ചാണെന്ന് കാണിക്കില്ല. പക്ഷേ, കൂടുതൽ പ്രവൃത്തികളിൽ കണ്ടെത്താൻ കഴിയുന്ന സാധ്യമായ സംവിധാനങ്ങൾ അവർ നിർദ്ദേശിക്കുന്നു. അത് പിന്നീട് ചെട്ടിനും സഹപ്രവർത്തകരും തുടർന്നുവന്ന കാര്യങ്ങളാണ് ചെയ്തത്. ഈ പദ്ധതിയിൽ ഡാറ്റയുടെ വലുപ്പം എത്രമാത്രം പ്രധാനപ്പെട്ടതാണെന്ന് ശ്രദ്ധിക്കുക. ചെട്ടിയുടേയും സഹപ്രവർത്തകരുടേയും 40 മില്ല്യൻ ജനസംഖ്യയുടെ 40 ലക്ഷത്തിൽപ്പരം ടാക്സ് റെക്കോർഡുകൾ ഉപയോഗിച്ചിരുന്നെങ്കിൽ, അവർക്ക് പ്രാദേശിക വൈജാത്യതയെ കണക്കാക്കാൻ കഴിയുമായിരുന്നില്ല, ഈ വ്യതിയാനങ്ങളെ സൃഷ്ടിക്കുന്നതിനുള്ള പ്രവർത്തനങ്ങളെ തിരിച്ചറിയാൻ അവർക്ക് പിന്നീട് ഗവേഷണങ്ങൾ നടത്താൻ കഴിയുമായിരുന്നില്ല.
ഒടുവിൽ, അപൂർവ്വ സംഭവങ്ങളെക്കുറിച്ച് പഠിക്കുന്നതിനും വൈറ്റമിൻറേയും പഠനത്തിനുമൊപ്പം, വലിയ ഡാറ്റാസെറ്റുകളും ചെറിയ വ്യത്യാസങ്ങൾ കണ്ടെത്തുന്നതിന് ഗവേഷകർ സഹായിക്കുന്നു. വാസ്തവത്തിൽ, വ്യവസായ രംഗത്തെ വലിയ അളവിലുള്ള വിവരണങ്ങൾ ഈ ചെറിയ വ്യത്യാസങ്ങളെപ്പറ്റിയാണ്: ഒരു വ്യത്യാസത്തിൽ 1% മുതൽ 1.1% വരെ ക്ലിക്കുകളിലൂടെയുള്ള വ്യത്യാസത്തെ വിശ്വസനീയമായി കണ്ടെത്തുന്നതിലൂടെ ദശലക്ഷക്കണക്കിന് ഡോളറുകൾ അധിക വരുമാനമായി വിവർത്തനം ചെയ്യാൻ കഴിയും. എന്നാൽ ചില ശാസ്ത്രീയ സംവിധാനങ്ങളിൽ, അത്തരം ചെറിയ വ്യത്യാസങ്ങൾ ഒരു പ്രധാന പ്രാധാന്യമല്ലായിരിക്കാം, അവ സ്ഥിതിവിവരക്കണക്കനുസരിച്ച് പ്രാധാന്യംതന്നെയാണെങ്കിലും (Prentice and Miller 1992) . എന്നാൽ, ചില നയ ക്രമീകരണങ്ങളിൽ, സംഗ്രഹത്തിൽ കാണുമ്പോൾ അവ പ്രധാനപ്പെട്ടതായിത്തീരാനിടയുണ്ട്. ഉദാഹരണത്തിന്, രണ്ട് പൊതുജനാരോഗ്യ ഇടപെടലുകൾ ഉണ്ടെങ്കിൽ ഒന്ന് മറ്റൊന്നിനേക്കാൾ അൽപം കൂടുതൽ ഫലപ്രദമാണ്, കൂടുതൽ ഫലപ്രദമായ ഇടപെടലുകൾ നടത്തുന്നത് ആയിരക്കണക്കിന് അധിക ജീവികളെ സംരക്ഷിക്കാൻ സഹായിക്കും.
ശരിയായി ഉപയോഗിക്കാറുണ്ടെങ്കിൽ ബിഗ്നസ്സ് സാധാരണയായി നല്ലൊരു സ്വത്തു് ആണെങ്കിലും, ചിലപ്പോൾ ഇത് ഒരു ആശയപ്രചാരമായ പിശകിലേക്കു് നയിച്ചേക്കാം എന്നു ഞാൻ ശ്രദ്ധിച്ചു. ചില കാരണങ്ങളാൽ, ബിഗ്നസ് ഗവേഷകർ തങ്ങളുടെ ഡാറ്റ എങ്ങനെയാണ് സൃഷ്ടിക്കപ്പെട്ടതെന്ന് അവഗണിക്കാനാവശ്യപ്പെടുന്നത്. ചിട്ടയായ ക്രമത്തിൽ പിഴവ് ഉണ്ടാകുന്നതിനെ കുറിച്ചു് വിഷമിക്കേണ്ടതാണു്, അതു് യഥാർത്ഥത്തിൽ സിസ്റ്റത്തിന്റെ പിഴവുകളെക്കുറിച്ചു് വിഷമിക്കേണ്ടതിൻറെ ആവശ്യം വർദ്ധിപ്പിയ്ക്കുന്നു . ഡേറ്റാ എങ്ങനെയാണ് നിർമ്മിച്ചിരിയ്ക്കുന്നതെന്നതിനെപ്പറ്റി പക്ഷപാതിത്വത്തിൽ നിന്നും ഉണ്ടാകുന്ന പിശകുകൾ. ഉദാഹരണമായി, ഈ അദ്ധ്യായത്തിൽ ഞാൻ വിവരിക്കുന്ന ഒരു പ്രോജക്റ്റിൽ, 2001 സെപ്റ്റംബർ 11 ന് ഭീകരർ ആക്രമണങ്ങളെ (Back, Küfner, and Egloff 2010) പ്രതികരിക്കാനുള്ള ഉയർന്ന മിഴിവുള്ള വൈകാരിക കാലികത നിർമ്മിക്കാൻ ഗവേഷകർ 2001 സെപ്റ്റംബർ 11 ന് ഉപയോഗിച്ച സന്ദേശങ്ങൾ ഉപയോഗിച്ചാണ്. ഗവേഷകർക്ക് വളരെയധികം സന്ദേശങ്ങൾ ഉണ്ടായിരുന്നു എന്നതിനാൽ, അവർ കണ്ട പാറ്റേണുകൾ ആ ദിവസം ക്രമേണ രോഷം ഉളവാക്കുമോ എന്ന കാര്യത്തിൽ ആശങ്കപ്പെടേണ്ടതില്ല. വളരെയധികം ഡാറ്റയും പാറ്റേണും വളരെ വ്യക്തമായിരുന്നു. ഇത് ഒരു യഥാർത്ഥ മാതൃകയാണെന്ന് എല്ലാ സ്റ്റാറ്റിസ്റ്റിക്കൽ സ്റ്റാറ്റിസ്റ്റിക്കൽ ടെസ്റ്റുകളും നിർദ്ദേശിച്ചു. എന്നാൽ ഡാറ്റ എങ്ങനെയാണ് സൃഷ്ടിക്കപ്പെട്ടതെന്ന് ഈ സ്റ്റാറ്റിസ്റ്റിക്കൽ പരിശോധനകൾ അറിവില്ലായിരുന്നു. വാസ്തവത്തിൽ, പല രീതികളും ഒരു ബോട്ടിന് കാരണമായെന്ന് തെളിഞ്ഞു, ദിവസം മുഴുവനും കൂടുതൽ അർത്ഥരഹിതമായ സന്ദേശങ്ങൾ സൃഷ്ടിച്ചു. ഈ ഒരു ബോട്ട് നീക്കം ചെയ്യുമ്പോൾ പേപ്പറിന്റെ ചില പ്രധാന കണ്ടെത്തലുകൾ പൂർണ്ണമായും തകർന്നു (Pury 2011; Back, Küfner, and Egloff 2011) . ലളിതമായി, വ്യവസ്ഥാപിത പിശക് സംബന്ധിച്ച് ചിന്തിക്കാത്ത ഗവേഷകർ ഒരു ഓട്ടോമാറ്റഡ് ബോട്ട് നിർമിക്കുന്ന അർത്ഥരഹിതമായ സന്ദേശങ്ങളുടെ വൈകാരിക ഉള്ളടക്കം പോലുള്ള അപ്രധാനമായ അളവ് കൃത്യമായി കണക്കാക്കാൻ അവരുടെ വലിയ ഡാറ്റാസെറ്റുകൾ ഉപയോഗിക്കുന്നതിനുള്ള സാധ്യതയെ നേരിടുന്നു.
ചുരുക്കത്തിൽ, വലിയ ഡാറ്റാസെറ്റുകൾ അവയൊന്നും അവസാനിക്കുന്നില്ല, എന്നാൽ ചില അപൂർവ സംഭവങ്ങളെക്കുറിച്ചുള്ള പഠനങ്ങളും വൈരുദ്ധ്യാത്മകതയുടെ വിലയിരുത്തലും ചെറിയ വ്യത്യാസങ്ങൾ കണ്ടെത്തുകയും ഉൾപ്പെടെ ചില ഗവേഷണങ്ങളെ അവർ പ്രാപ്തരാക്കും. ബിഗ് ഡാഡാസെറ്റുകൾ ചില ഗവേഷകർ തങ്ങളുടെ ഡാറ്റ എങ്ങനെയാണ് സൃഷ്ടിക്കപ്പെട്ടതെന്ന് അവഗണിക്കണമെന്ന് തോന്നിയത്, ഒരു അപ്രധാന വലുപ്പത്തിന്റെ കൃത്യമായ അനുമാനം ലഭിക്കുന്നതിന് ഇത് ഇടയാക്കും.