2.3.1.1 ബിഗ്

വലിയ ഡാറ്റാസെറ്റുകളുടെ ഒരു അവസാനം അർത്ഥമാക്കുന്നത്; അവർ സ്വയം ഒരു അവസാനമല്ല.

ബിഗ് ഡാറ്റ മൂന്നു നല്ല സ്വഭാവസവിശേഷതകൾ ആദ്യ ഏറ്റവും കൂടുതൽ ചർച്ച ആകുന്നു; ബിഗ് ഡാറ്റ ഉണ്ട്. പലരും, ഒരാൾക്ക് കുറേ വിവരങ്ങൾ, അല്ലെങ്കിൽ കാലക്രമേണ പല നിരീക്ഷണങ്ങൾ: ഈ ഡാറ്റ ഉറവിടങ്ങളിൽ മൂന്ന് വ്യത്യസ്ത വഴികളിൽ വലിയ കഴിയും. ഒരു വലിയ ഡാറ്റാഗണത്തിന്റെ നേരിടുന്നുണ്ടോ ഗവേഷണ-അളന്നു heterogeneity ചില പ്രത്യേക തരം, ചെറിയ വ്യത്യാസങ്ങൾ കണ്ടെത്തുന്നതിൽ, അപൂർവ ഇവന്റുകൾ പഠിക്കുന്ന പ്രാപ്തമാക്കുന്നു, ഒപ്പം നിരീക്ഷണ ഡാറ്റ നിന്ന് കാര്യകാരണങ്ങളെ കണക്കുകളിൽ. ഇത് sloppiness ഒരു പ്രത്യേക തരം നയിക്കും തോന്നുന്നു.

ഏത് വലുപ്പം വളരെ ആദ്യം കാര്യം നിർദ്ദിഷ്ട ഉപഗ്രൂപ്പുകൾ മതിപ്പു ഉണ്ടാക്കുവാൻ ആവറേജ് അപ്പുറം മാറുകയാണ്. ഉദാഹരണത്തിന്, ഗാരി രാജാവ്, ജെന്നിഫർ പാൻ, ഒപ്പം മോളി റോബർട്സ് (2013) ചൈനയിൽ സോഷ്യൽ മീഡിയ കുറിപ്പുകൾ സർക്കാർ സെൻസർ ലഭിക്കുമെന്ന് പ്രോബബിലിറ്റി അളന്നു. സ്വയം മാർഗം മായ്ക്കൽ ഈ ശരാശരി സംഭാവ്യത സർക്കാർ ചില കുറിപ്പുകൾ പക്ഷേ മറ്റുള്ളവരെ സെൻസർമാർ എന്തുകൊണ്ടാണ് വളരെ സഹായകരമല്ല. എന്നാൽ, അവരുടെ ഡാറ്റാഗണത്തിന്റെ ഉൾപ്പെടുത്തിയിട്ടുണ്ട് കാരണം 11 ദശലക്ഷം കുറിപ്പുകൾ, രാജാവ് സഹപ്രവർത്തകരും പുറമേ 85 പ്രത്യേക വിഭാഗങ്ങൾ (ഉദാ, ബേഷിംഗ് അശ്ലീലം, ടിബറ്റ്, ട്രാഫിക്) പോസ്റ്റുകളും വേണ്ടി സെൻസർഷിപ്പ് പ്രോബബിലിറ്റി മതിപ്പു നിർമ്മിക്കുന്നത്. വിവിധ വിഭാഗങ്ങളിലായി പോസ്റ്റുകൾക്കായി സെൻസർഷിപ്പ് പ്രോബബിലിറ്റി താരതമ്യം അവർ എങ്ങനെ, എന്തുകൊണ്ട് സർക്കാർ പോസ്റ്റുകളും ചില തരത്തിലുള്ള സെൻസർമാർ കുറിച്ച് കൂടുതൽ മനസ്സിലാക്കാൻ കഴിഞ്ഞത്. 11 ദശലക്ഷം പോസ്റ്റുകൾ (11 മില്യൺ പകരം പോസ്റ്റുകൾ) അവർ ഈ പ്രത്യേക വിഭാഗം എസ്റ്റിമേറ്റുകൾ ഉത്പാദിപ്പിക്കാൻ കഴിയും എന്നു പറയുന്നു.

രണ്ടാമത്തേത്, വലുപ്പം അപൂർവ സംഭവങ്ങളുടെ പഠിക്കുന്ന തരംഗങ്ങൾ പ്രയോജനപ്പെടുന്നത്. ഉദാഹരണത്തിന്, ഗോയൽ സഹപ്രവർത്തകരും (2015) ട്വീറ്റുകൾ വൈറൽ പോകാൻ കഴിയും വ്യത്യസ്ത വഴികൾ പഠിക്കാൻ ആഗ്രഹിച്ചു. കാരണം റീ-ട്വീറ്റുകൾ വലിയ കാസ്കാഡെസ് ഒരു 3000-അവർ തങ്ങളുടെ വിശകലനത്തിനായി മതി വലിയ കാസ്കാഡെസ് കണ്ടെത്താൻ വേണ്ടി ഒരു ബില്യൺ കൂടുതൽ ട്വീറ്റുകൾ പഠിക്കാൻ ആവശ്യമായ വളരെ വിരളമായിരുന്നു-കുറിച്ച് ഒന്നാണ്.

മൂന്നാമതായി, വലിയ ഡാറ്റാസെറ്റുകൾ ചെറിയ വ്യത്യാസങ്ങൾ കണ്ടെത്താനായി ഗവേഷകർ പ്രാപ്തമാക്കാൻ. സത്യത്തിൽ, വ്യവസായം ബിഗ് ഡാറ്റ ഊന്നൽ വളരെ ഈ ചെറിയ വ്യത്യാസങ്ങൾ കുറിച്ച്: വിശ്വസനീയമായി ഒരു പരസ്യം 1% 1.1% ക്ലിക്ക്-മുഖേന നിരക്കുകൾ തമ്മിലുള്ള വ്യത്യാസം കണ്ടെത്തുന്നതിൽ അധിക വരുമാനം ദശലക്ഷക്കണക്കിനു ഡോളർ വിവർത്തനം കഴിയും. ചില ശാസ്ത്രീയ ക്രമീകരണങ്ങൾ, ഇത്തരം ചെറിയ വ്യത്യാസങ്ങൾ പ്രത്യേക പ്രധാനപ്പെട്ട വരണമെന്നില്ല (അവർ പ്രാധാന്യമർഹിക്കുന്നത്രയുമില്ല പോലും). എന്നാൽ, ചില നയം ക്രമീകരണങ്ങളിൽ, ഇത്തരം ചെറിയ വ്യത്യാസങ്ങൾ പ്രധാനപ്പെട്ട സംഗ്രഹിച്ച് വീക്ഷിക്കുമ്പോൾ കഴിയും. ഉദാഹരണത്തിന്, രണ്ടു പൊതുജനാരോഗ്യ ഇടപെടലുകൾ ഉണ്ട് എങ്കിൽ മറ്റൊരു അല്പം കൂടുതൽ ഫലപ്രദമാണ്, കൂടുതൽ ഫലപ്രദമായ ഇടപെടൽ മാറുന്നതിൽ കയറി അധിക പരക്കുകയും ആയിരക്കണക്കിന് സംരക്ഷിക്കുന്നത് അവസാനിച്ചു.

ഒടുവിൽ, വലിയ ഡാറ്റ സെറ്റുകൾ ഏറ്റവും നിരീക്ഷണ ഡാറ്റ നിന്ന് കാര്യകാരണങ്ങളെ എസ്റ്റിമേറ്റുകൾ ഉണ്ടാക്കുവാൻ ഞങ്ങളുടെ കഴിവ് വർദ്ധിപ്പിക്കുക. വലിയ ഡാറ്റാസെറ്റുകളുടെ അടിസ്ഥാനപരമായി നിരീക്ഷണ ഡാറ്റ നിന്ന് കാര്യകാരണങ്ങളെ നിഗമനമാകാം making പ്രശ്നങ്ങൾ, പൊരുത്തപ്പെടുന്ന പ്രകൃതി പരീക്ഷണങ്ങൾ-രണ്ടു ഗവേഷകർ വലിയ ഡാറ്റാസെറ്റുകള്ക്കു ധാരാളം പ്രയോജനം നിരീക്ഷണ ഡാറ്റ-രണ്ടും നിന്ന് കാര്യകാരണങ്ങളെ അവകാശവാദങ്ങൾ നടത്തുന്നതിനുള്ള വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട് ആ വിദ്യകൾ മാറ്റാൻ ചെയ്യരുത് ആണെങ്കിലും. ഞാൻ ഗവേഷണ തന്ത്രങ്ങൾ വിവരിക്കുക സമയത്ത് ഞാൻ പിന്നീട് ഈ അദ്ധ്യായത്തിൽ വിശദമായി വിശദമാക്കി വിശദീകരിയ്ക്കുന്നു കാണാം ഈ ക്ലെയിം.

ശരിയായി ഉപയോഗിച്ചപ്പോൾ bigness സാധാരണയായി ഒരു നല്ല പ്രോപ്പർട്ടി ആണെങ്കിലും, ഞാൻ bigness പൊതുവേ പഠനവിഷയം പിശക് നയിക്കുന്ന ശ്രദ്ധയിൽപ്പെട്ടു. ഏതോ കാരണത്താൽ, bigness അവരുടെ ഡാറ്റ ജനറേറ്റ് എങ്ങനെ അവഗണിക്കാൻ ഗവേഷകർക്കും നയിക്കാൻ തോന്നുന്നു. Bigness റാൻഡം പിശക് വിഷമിക്കേണ്ടതില്ല ആവശ്യം കുറയ്ക്കാൻ കൂടി, ഇത് യഥാർത്ഥത്തിൽ സിസ്റ്റമാറ്റിക് പിശകുകൾ വിഷമിക്കേണ്ടതില്ല വർദ്ധിപ്പിക്കുകയും ഞാൻ കൂടുതൽ ചുവടെ വിവരിക്കുക കാണാം പിഴവുകൾ തരത്തിലുള്ള ഡാറ്റ സൃഷ്ടിക്കുകയും ശേഖരിക്കുന്നത് എങ്ങനെ പക്ഷപാത എഴുന്നേല്ക്കും. ഒരു ചെറിയ ഡാറ്റാഗണത്തിലെ, റാൻഡം പിശക് മുതലാളിത്തത്തിനു പിശക് ഇരുവരും പ്രധാനപ്പെട്ട കാര്യമാണ്, പക്ഷെ ഒരു വലിയ ഡാറ്റാഗണത്തിലെ റാൻഡം പിശക് അകലെ ശരാശരിയാണ് ചിട്ടയായ പിശക് മേധാവിത്വം ആണ് കഴിയും. ആർ ചിട്ടയായ പിശക് കുറിച്ച് കരുതുന്നില്ല ഗവേഷകർ തെറ്റായ കാര്യം ഒരു കൃത്യമായ എസ്റ്റിമേറ്റ് ലഭിക്കാൻ അവരുടെ വലിയ ഡാറ്റാസെറ്റുകള്ക്കു ഉപയോഗിച്ച് കലാശിക്കും; അവർ കൃത്യമായി കൃത്യമല്ലാത്ത ആയിരിക്കും (McFarland and McFarland 2015) .