വലിയ ഡാറ്റാ ഉറവിടങ്ങൾ എല്ലായിടത്തും ഉണ്ട്, എന്നാൽ സാമൂഹ്യ ഗവേഷണത്തിനായി അവ ഉപയോഗിക്കുന്നത് തന്ത്രപരമാണ്. എന്റെ അനുഭവത്തിൽ, ഒരു "സൌജന്യ ഉച്ചഭക്ഷണം" എന്ന നിയമത്തെ സംബന്ധിച്ച ഒരു നിയമം നിലവിലുണ്ട്: നിങ്ങൾ അതിനെ വളരെയധികം ജോലിയാക്കിയിട്ടുമില്ലെങ്കിൽ, ഒരുപക്ഷേ നിങ്ങൾ ഒരുപാട് പണിയിക്കേണ്ടി വരും. അതു വിശകലനം ചെയ്യുന്നു.
ഇന്നത്തെ വലിയ ഡാറ്റ ഉറവിടങ്ങളും സാധ്യതയനുസരിച്ച് നാളെ 10 സാധ്യതകളും ഉണ്ടാകും. ഇവയിൽ മൂന്നെണ്ണം ഗവേഷണത്തിനായി സാധാരണയായി (പക്ഷേ എല്ലായ്പ്പോഴും അല്ല): വലിയ, എല്ലായ്പ്പോഴും, കൂടാതെ രേറുകയുമില്ലാത്തത്. ഏഴ് പൊതുവായുള്ള (എന്നാൽ എല്ലായ്പ്പോഴും) ഗവേഷണത്തിന് പ്രശ്നമൊന്നുമില്ല: അപൂർണമായ, എത്തിപ്പെടാനാകാത്തത്, റഫർ ചെയ്യാത്തത്, ഡ്രോയിംഗ്, അൽഗോരിഥമിക്ക് ആശയവിനിമയം, വൃത്തികെട്ട, സെൻസിറ്റീവ്. ഈ സ്വഭാവസവിശേഷതകളിൽ പലതും ഉത്ഭവിക്കുന്നത് കാരണം സോഷ്യൽ ഗവേഷണത്തിനായി വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ സൃഷ്ടിക്കപ്പെട്ടിട്ടില്ല.
ഈ അധ്യായത്തിലെ ആശയങ്ങളെ അടിസ്ഥാനമാക്കി, സോഷ്യൽ ഗവേഷണത്തിനായി വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ ഏറ്റവും മൂല്യവത്തായതായിരിക്കുന്നത് മൂന്ന് പ്രധാന മാർഗങ്ങളാണെന്നാണ് ഞാൻ കരുതുന്നത്. ഒന്നാമതായി, മത്സരാധിഷ്ഠിത പ്രവചനങ്ങൾ തമ്മിൽ ഗവേഷകരെ തീരുമാനിക്കാൻ അവർക്ക് കഴിയും. Farber (2015) (ന്യൂയോർക്ക് ടാക്സി ഡ്രൈവർമാർ), King, Pan, and Roberts (2013) (ചൈനയിൽ സെൻസർഷിപ്പ് King, Pan, and Roberts (2013) എന്നിവയാണ് ഇത്തരത്തിലുള്ള കാര്യങ്ങൾക്ക് ഉദാഹരണങ്ങൾ. രണ്ടാമതായി, വലിയ ഡാറ്റാ സ്രോതസ്സുകൾ പോളിസിക്ക് ഇപ്പോൾ മെച്ചപ്പെട്ട അളവുകൾ നൽകാൻ കഴിയും. ഇത്തരത്തിലുള്ള ഒരു ജോലിയാണ് Ginsberg et al. (2009) (ഗൂഗിൾ ഫ്ലൂ ട്രെൻഡ്സ്). ഒടുവിൽ, വലിയ ഡാറ്റ സ്രോതസ്സുകൾ ഗവേഷകർ നടത്തുന്ന പരീക്ഷണങ്ങളില്ലാത്ത ഗണനീയമായ കണക്കാക്കാൻ സഹായിക്കും. ഇത്തരത്തിലുള്ള പ്രവൃത്തികൾ Mas and Moretti (2009) (ഉൽപാദനക്ഷമതയുടെ സമപ്രായ ഫലങ്ങൾ), Einav et al. (2015) (eBay ൽ ലേലം ആരംഭിക്കുന്നതിനുള്ള പ്രഭാവം). എന്നാൽ ഈ സമീപനങ്ങളിൽ ഓരോന്നിനും ഗവേഷകരെ ആവശ്യമെങ്കിൽ അളവെടുക്കേണ്ടതുണ്ട്, അതായത്, കണക്കുകൂട്ടൽ വളരെ പ്രധാനമായ അളവിലുള്ള നിർവചനം അല്ലെങ്കിൽ മത്സരിക്കുന്ന പ്രവചനങ്ങൾ ഉണ്ടാക്കുന്ന രണ്ട് സിദ്ധാന്തങ്ങൾ. അതിനാല്, വലിയ വിവരസ്രോതസ്സുകള്ക്ക് എന്തുചെയ്യാനാകുമെന്നതിനെക്കുറിച്ച് ചിന്തിക്കാന് ഏറ്റവും മികച്ച മാര്ഗ്ഗം, രസകരവും പ്രധാനപ്പെട്ടതുമായ ചോദ്യങ്ങള് ചോദിക്കുന്നവരെ ഗവേഷകര്ക്ക് സഹായിക്കാന് കഴിയുന്നതാണ്.
അവസാനിക്കുന്നതിനു മുമ്പ്, ഡാറ്റ വിവരണത്തിനും സിദ്ധാന്തത്തിനുമിടയിലുള്ള ബന്ധത്തിൽ വലിയ ഡാറ്റാ സ്രോതസ്സുകൾക്ക് ഒരു പ്രധാന പ്രഭാവം ഉണ്ടായിരിക്കുമെന്നത് പരിഗണിക്കുന്നതാണ്. ഇതുവരെ, ഈ അധ്യായത്തിൽ നിന്ന് സിദ്ധാന്ത-ഊർജ്ജിത പരീക്ഷണ ഗവേഷണത്തിന്റെ സമീപനം സ്വീകരിച്ചിട്ടുണ്ട്. എന്നാൽ വലിയ ഡാറ്റ സ്രോതസ്സുകളും ഗവേഷകർക്ക് അനുമാനപൂർവ്വം അനുമാനിക്കുന്നതാണ് . അതായത്, അനുഭവവൽകൃത വസ്തുതകൾ, പാറ്റേണുകൾ, തന്ത്രങ്ങൾ എന്നിവയുടെ സൂക്ഷ്മതമൂലനം വഴി ഗവേഷകർക്ക് പുതിയ സിദ്ധാന്തങ്ങൾ നിർമ്മിക്കാൻ കഴിയും. ഈ ബദൽ, ഡാറ്റ-ആദ്യ സിദ്ധാന്തം പുതിയതല്ല. ബർണി ഗ്ലസർ, അൻസെം സ്ട്രോസ് (1967) തുടങ്ങിയവയാണ് ഏറ്റവും അടിസ്ഥാനപരമായ സിദ്ധാന്തം . ഡിജിറ്റൽ യുഗത്തിൽ (Anderson 2008) ഗവേഷണത്തെക്കുറിച്ചുള്ള ചില ജേണലിസങ്ങളിൽ ക്ലെയിം ചെയ്തിരിക്കുന്നതുപോലെ, ഈ വിവരങ്ങളുടെ ആദ്യ സമീപനം "സിദ്ധാന്തത്തിന്റെ അവസാനം" ആയിരിക്കില്ല. മറിച്ച്, ഡാറ്റ പരിതസ്ഥിതി മാറുന്നതിനനുസരിച്ച്, ഡാറ്റയും സിദ്ധാന്തങ്ങളും തമ്മിലുള്ള ബന്ധത്തിൽ പുനർചിന്തനം പ്രതീക്ഷിക്കണം. ഡാറ്റ ശേഖരം ചെലവേറിയ ഒരു ലോകം, സിദ്ധാന്തം നിർദേശങ്ങൾ വളരെ ഉപയോഗപ്രദമാകുമ്പോൾ മാത്രമേ ശേഖരിക്കാനാകൂ. എന്നാൽ, ഒരുപാട് ഡാറ്റ ഇപ്പോൾ സൌജന്യമായി ലഭ്യമാകുന്ന ലോകത്ത്, ഡാറ്റ-സമീപന സമീപനത്തിനും (Goldberg 2015) ശ്രമിക്കാനും അത് ഉപകരിക്കും.
ഞാൻ ഈ അധ്യായത്തിൽ കാണിച്ചിരിക്കുന്നതുപോലെ, ഗവേഷകർക്ക് ആളുകളെ നിരീക്ഷിക്കുന്നതിലൂടെ ധാരാളം പഠിക്കാനാകും. അടുത്ത മൂന്ന് അധ്യായങ്ങളിൽ, ഞങ്ങളുടെ ഡാറ്റ ശേഖരം ഞങ്ങൾ കൂട്ടിച്ചേർക്കുകയും ചോദ്യങ്ങൾ നേരിട്ട് (അധ്യായം 3), പരീക്ഷണങ്ങൾ നടത്തുന്നത് (അധ്യായം 4), ഒപ്പം അവരെ ഉൾപ്പെടുത്തുകയും ചെയ്തുകൊണ്ട് കൂടുതൽ വ്യത്യസ്തങ്ങളായ കാര്യങ്ങൾ എങ്ങനെ പഠിക്കാമെന്ന് ഞാൻ വിവരിക്കുന്നു. ഗവേഷണ പ്രക്രിയയിൽ നേരിട്ട് (അദ്ധ്യായം 5).