ഈ അധ്യായത്തിൽ ഉൾപ്പെടാത്ത ഒരു തരം നിരീക്ഷണം ethnography ആണ്. ഡിജിറ്റൽ Boellstorff et al. (2012) എത്നോഗ്രാഫിയെക്കുറിച്ച് കൂടുതലറിയാൻ, Boellstorff et al. (2012) , മിക്സഡ് ഡിജിറ്റൽ, ഫിസിക്കൽ സ്പെയ്സുകളിൽ എത്ലോഗ്രാഫിക്ക് കൂടുതൽ വിവരങ്ങൾക്ക്, Lane (2016) .
"വലിയ ഡാറ്റ" എന്നതിന് ഒരു ഏകീകൃത നിർവ്വചനം ഇല്ലെങ്കിലും "3 Vs" - ൽ പല നിർവ്വചനങ്ങളും ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു: വോളിയം, വൈവിധ്യം, വേഗത (ഉദാ: Japec et al. (2015) ). De Mauro et al. (2015) നിർവചനങ്ങൾ അവലോകനം ചെയ്യുക.
വലിയ വിവരങ്ങളുടെ വിഭാഗത്തിൽ സർക്കാർ അഡ്മിനിസ്ട്രേറ്റിവ് ഡാറ്റ ഉൾപ്പെടുത്തുന്നത് എനിക്ക് അല്പം അസാധാരണമാണ്, മറ്റുള്ളവർ ഈ Legewie (2015) കൂടാതെ, Legewie (2015) , Connelly et al. (2016) Legewie (2015) Connelly et al. (2016) , Einav and Levin (2014) . ഗവേഷണത്തിനായി സർക്കാർ അഡ്മിനിസ്ട്രേറ്റിവ് ഡാറ്റയുടെ മൂല്യം സംബന്ധിച്ച കൂടുതൽ വിവരങ്ങൾക്ക്, Card et al. (2010) കാണുക Card et al. (2010) , Adminstrative Data Taskforce (2012) , Grusky, Smeeding, and Snipp (2015) .
ഗവൺമെന്റ് സ്റ്റാറ്റിസ്റ്റിക്കൽ സിസ്റ്റത്തിെൻറ, പ്രത്യേകിച്ച് യു.എസ് സെൻസസ് ബ്യൂറോയുടെ ഭാഗമായ ഭരണപരമായ ഗവേഷണത്തിനായി Jarmin and O'Hara (2016) . സ്വിറ്റ്സർലണ്ടിലെ അഡ്മിനിസ്ട്രേറ്റീവ് റെക്കോർഡ്സ് ഗവേഷണങ്ങളുടെ ഒരു പുസ്തക-ദൈർഘ്യ ചികിത്സക്കായി Wallgren and Wallgren (2007) .
സോഷ്യൽ മീഡിയ ഡാറ്റ ട്വിറ്റർ പോലുള്ള ജനറൽ സോഷ്യൽ സർവെ (ജിഎസ്എസ്) പോലെയുള്ള ഒരു പരമ്പരാഗത സർവേയുമായി ഞാൻ ഹ്രസ്വമായി താരതമ്യം ചെയ്തു. പരമ്പരാഗത സർവേകളും സോഷ്യൽ മീഡിയ ഡാറ്റയും തമ്മിലുള്ള സമഗ്രവും ശ്രദ്ധാപൂർവ്വവുമായ താരതമ്യത്തിന്, Schober et al. (2016) .
വലിയ 10 ഡേറ്റകളുടെ 10 ഗുണങ്ങൾ വ്യത്യസ്ത രചയിതാക്കളുടെ വിവിധങ്ങളായ വ്യത്യസ്ത രീതികളിൽ വിവരിച്ചിട്ടുണ്ട്. ഈ പ്രശ്നങ്ങളിൽ എന്റെ ചിന്തയെ സ്വാധീനിക്കുന്ന എഴുത്ത്, Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) Lazer (2015) K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Goldstone and Lupyan (2016) .
ഈ അധ്യായത്തിലുടനീളം, ഞാൻ ഡിജിറ്റൽ ട്രെയ്സസ് എന്ന പദം ഉപയോഗിച്ചു, അത് താരതമ്യേന നിഷ്പക്ഷതയാണെന്ന് ഞാൻ കരുതുന്നു. ഡിജിറ്റൽ ആത്മപരിശോധന മറ്റൊരു പ്രശസ്തമായ പദം ഡിജിറ്റൽ കാൽപ്പാടുകൾ ആണ് (Golder and Macy 2014) , എന്നാൽ ഹാൽ അബെല്സൊന്, കെൻ ലെദെഎന്, ഹാരി ലൂവീസ് (2008) ചൂണ്ടിക്കാണിച്ച കൂടുതൽ ഉചിതമായ പദം ഒരുപക്ഷേ ഡിജിറ്റൽ വിരലടയാളങ്ങൾ ആണ്. നിങ്ങൾ കാൽപ്പാടുകൾ സൃഷ്ടിക്കുമ്പോൾ, സംഭവിക്കുന്നതെന്താണെന്ന് നിങ്ങൾക്ക് അറിയാം, നിങ്ങളുടെ പാദങ്ങൾ നിങ്ങൾക്ക് വ്യക്തിപരമായി അറിയാൻ കഴിയില്ല. നിങ്ങളുടെ ഡിജിറ്റൽ ട്രെയ്സുകളിൽ ഇതുതന്നെ സത്യമല്ല. സത്യത്തിൽ, വളരെക്കുറച്ച് അറിവുള്ള കാര്യങ്ങളെല്ലാം നിങ്ങൾ കാണും. ഈ ട്രെയ്സുകളിൽ നിങ്ങളുടെ പേര് ഇല്ലെങ്കിലും, അവ മിക്കപ്പോഴും നിങ്ങൾക്ക് വീണ്ടും ബന്ധിപ്പിക്കാൻ കഴിയും. മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, അവർ വിരലടയാളങ്ങളെ പോലെയാണ്: അദൃശ്യവും വ്യക്തിപരമായി തിരിച്ചറിയുന്നതും.
വലിയ ഡാറ്റാസെറ്റേറ്റുകൾ റെജിഡർ സ്റ്റാറ്റിസ്റ്റിക്കൽ ടെസ്റ്റുകൾ M. Lin, Lucas, and Shmueli (2013) കാരണം കൂടുതൽ അറിയാൻ, M. Lin, Lucas, and Shmueli (2013) , McFarland and McFarland (2015) M. Lin, Lucas, and Shmueli (2013) McFarland and McFarland (2015) . ഈ വിഷയങ്ങൾ ഗവേഷകരെ സ്റ്റാറ്റിസ്റ്റിക്കൽ പ്രാധാന്യത്തെക്കാൾ പ്രായോഗിക പ്രാധാന്യത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കേണ്ടതാണ്.
രാജ് ചെട്ടിയേയും സഹപ്രവർത്തകരേയും നികുതി രേഖകളിൽ എങ്ങനെ എത്തിക്കാനാവും എന്നതിനെക്കുറിച്ച് കൂടുതൽ അറിയാൻ Mervis (2014) .
വലിയ ഡാറ്റകൾ ഒരു കമ്പ്യൂട്ടറിന്റെ കഴിവുകൾക്കും അപ്പുറമുള്ള കമ്പ്യൂട്ടേഷണൽ പ്രശ്നങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും. അതിനാൽ വലിയ അളവിലുള്ള ഡാറ്റാ ഗേറ്റുകളിൽ നടത്തിയ ഗവേഷണങ്ങൾ പല കമ്പ്യൂട്ടറുകളിലുമുള്ള പ്രവൃത്തിയെ വ്യാപകമായി ഉപയോഗിക്കുന്നു, ചിലപ്പോൾ പാരലൽ പ്രോഗ്രാമിങ് എന്ന് വിളിക്കുന്നു. സമാന്തര പ്രോഗ്രാമിങ്ങിനുള്ള ആമുഖം, പ്രത്യേകിച്ച് ഹഡോപ് എന്ന ഒരു ഭാഷ, Vo and Silvia (2016) .
എപ്പോഴും ഓൺ-ഡാറ്റ കണക്കിലെടുക്കുമ്പോൾ, നിങ്ങൾ കൃത്യമായി ഒരേ ആളുകളുമായി സമയം ചെലവിടുന്നുണ്ടോ അല്ലെങ്കിൽ ആളുകളുടെ ചില മാറ്റമുള്ള ഗ്രൂപ്പുകളുമായി താരതമ്യം ചെയ്യുന്നുണ്ടോ എന്നത് പരിഗണിക്കേണ്ടത് പ്രധാനമാണ്; ഉദാഹരണം, Diaz et al. (2016) .
വെർച്വൽ നോട്ടുകളുടെ ഒരു ക്ലാസിക് ബുക്ക് Webb et al. (1966) . ആ പുസ്തകത്തിലെ ഉദാഹരണങ്ങൾ ഡിജിറ്റൽ പ്രായം മുൻകൂട്ടി പറയുകയാണെങ്കിൽ, അവ ഇപ്പോഴും വെളിച്ചം വീശുന്നു. ജനകീയ നിരീക്ഷണത്തിന്റെ സാന്നിധ്യം കാരണം ആളുകൾ അവരുടെ സ്വഭാവത്തെ മാറ്റുന്നതിന്റെ ഉദാഹരണങ്ങൾക്കായി, Penney (2016) , Brayne (2014) .
ഗവേഷണ ആവശ്യകതകൾ (Orne 1962; Zizzo 2010) , ഹത്തോൺ എഫക്റ്റ് (Adair 1984; Levitt and List 2011) പ്രതിപ്രവർത്തനങ്ങൾ ഏറ്റവും അടുത്തത്.
Dunn (1946) , Fellegi and Sunter (1969) ), Larsen and Winkler (2014) (ആധുനികം) എന്നിവ കാണുക. ഡാറ്റാ ഡീഡപ്ലിക്കേഷൻ, ഇൻസ്റ്റൻസ് ഐഡന്റിഫിക്കേഷൻ, പേര് പൊരുത്തപ്പെടുത്തൽ, ഡ്യൂപ്ലിക്കേറ്റ് ഡിറ്റക്ഷൻ, ഡ്യൂപ്ലിക്കേറ്റ് റെക്കോർഡ് ഡിറ്റക്ഷൻ (Elmagarmid, Ipeirotis, and Verykios 2007) തുടങ്ങിയ കമ്പ്യൂട്ടർ ശാസ്ത്രത്തിൽ സമാനമായ സമീപനങ്ങളും വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. വ്യക്തിപരമായി തിരിച്ചറിയാൻ കഴിയുന്ന വിവരങ്ങളുടെ സംപ്രേക്ഷണം ആവശ്യമില്ലാത്ത ലിങ്കുകൾ റെക്കോർഡ് ചെയ്യാനുള്ള സ്വകാര്യതാ സംരക്ഷണ രീതികളും ഉണ്ട് (Schnell 2013) . അവരുടെ രേഖകൾ വോട്ടിംഗിനെ പെരുപ്പിക്കുന്നതിനുള്ള പ്രക്രിയയും ഫേസ്ബുക്ക് വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. ഈ അദ്ധ്യായം 4 (Bond et al. 2012; Jones et al. 2013) ഞാൻ നിങ്ങളോട് പറയുന്ന ഒരു പരീക്ഷണത്തെ വിലയിരുത്തുന്നതിനായി ചെയ്തു.
Shadish, Cook, and Campbell (2001) അദ്ധ്യായം കാണുക.
AOL തിരയൽ ലോഗ് തകരാറുകളിൽ കൂടുതൽ അറിയാൻ, Ohm (2010) . ഞാൻ പരീക്ഷണങ്ങൾ വിവരിക്കുമ്പോൾ 4-ാം അദ്ധ്യായത്തിൽ കമ്പനികളും സർക്കാരുകളുമായി പങ്കിടുന്നതിനെക്കുറിച്ച് ഞാൻ നിർദ്ദേശിക്കുന്നു. പ്രവേശനയോഗ്യമല്ലാത്ത വിവരങ്ങളെ ആശ്രയിക്കുന്ന ഗവേഷണത്തെക്കുറിച്ച് നിരവധി എഴുത്തുകാർ ആശങ്ക പ്രകടിപ്പിച്ചിട്ടുണ്ട്. Huberman (2012) boyd and Crawford (2012) .
യൂണിവേഴ്സിറ്റി ഗവേഷകർ ഡാറ്റ ആക്സസ് സ്വന്തമാക്കുന്നതിന് വേണ്ടി വൺ നല്ല വഴി ഒരു തടവുകാരി അല്ലെങ്കിൽ സന്ദർശിച്ച് ഗവേഷകൻ പോലെ ഒരു കമ്പനി പ്രവർത്തനമാണ്. ഡാറ്റ ആക്സസ് പ്രാപ്തമാക്കുന്ന പുറമേ, ഈ പ്രക്രിയ പുറമേ ഗവേഷകൻ ഡാറ്റ എങ്ങനെ സൃഷ്ടിക്കപ്പെട്ടിരിക്കുന്നു കുറിച്ച് കൂടുതൽ മനസ്സിലാക്കാൻ, വിശകലനത്തിനായി പ്രധാനപ്പെട്ട ആണ് സഹായിക്കും.
ഗവൺമെന്റിന്റെ ഡേറ്റയുടെ ലഭ്യതയുടെ അടിസ്ഥാനത്തിൽ, രാജ് ചെട്ടിയും സഹപ്രവർത്തകരും സോഷ്യൽ മൊബിലിറ്റിയെ കുറിച്ചുള്ള അവരുടെ ഗവേഷണങ്ങളിൽ ഉപയോഗിക്കുന്ന നികുതി രേഖകളിൽ എങ്ങനെ പ്രവേശനം നേടി എന്ന് Mervis (2014) ചർച്ച ചെയ്യുന്നു.
Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) .
സ്നോന്റെയും ചുരുക്കപ്പേട്ടിയുടെയും ഡോൾസും ഹില്ലും ചെയ്യുന്ന പ്രവർത്തനങ്ങളുടെ എന്റെ സംഗ്രഹങ്ങൾ ചുരുക്കിപ്പറഞ്ഞവയാണ്. കോളറയിലെ Freedman (1991) കൂടുതൽ വിവരങ്ങൾക്ക് Freedman (1991) . ബ്രിട്ടീഷ് ഡോക്ടർസ് പഠനത്തെക്കുറിച്ച് കൂടുതൽ അറിയാൻ Doll et al. (2004) , Keating (2014) .
ഡോൾ ആൻഡ് ഹിൽ സ്ത്രീ ഡോക്ടർമാരിൽ നിന്നും 35 വയസിനു താഴെയുള്ള ഡോക്ടർമാരിൽ നിന്നും ശേഖരിച്ച വിവരങ്ങൾ മനസിലാക്കിയെങ്കിലും അവരുടെ മനസിലാക്കാൻ അവർ ആദ്യം മനസിലാക്കാൻ തയ്യാറായില്ല. അവർ വാദിച്ചു: "ശ്വാസകോശ കാൻസർ സ്ത്രീകൾക്കും 35 വയസിന് താഴെയുള്ള പുരുഷന്മാരിലും വളരെ അപൂർവമായതിനാൽ, ഏതാനും വർഷങ്ങളായി ഈ ഗ്രൂപ്പുകളിൽ പ്രയോജനമുള്ള ഉപയോഗങ്ങൾ ലഭ്യമാകില്ല. അതിനാൽ പ്രാഥമിക റിപ്പോർട്ടിൽ ഞങ്ങൾ 35 വയസിനു മുകളിൽ പ്രായമുള്ളവരെ ശ്രദ്ധിച്ചു. " Rothman, Gallacher, and Hatch (2013) പ്രകോപനപരമായ തലക്കെട്ട്" എന്തിനാണ് representativeness ഒഴിവാക്കേണ്ടത് "എന്നതിന്റെ മൂല്യം. ബോധപൂർവമല്ലാത്ത രേഖകൾ സൃഷ്ടിക്കുക
ഒരു ജനസംഖ്യയെക്കുറിച്ച് പ്രസ്താവന നടത്താൻ ആഗ്രഹിക്കുന്ന ഗവേഷകർക്കും സർക്കാരുകൾക്കും ഒരു പ്രധാന പ്രശ്നമാണ്. കമ്പനികൾക്കുള്ള ഒരു ആശങ്ക കുറവാണ്, സാധാരണയായി ഉപയോക്താക്കളെ ഉദ്ദേശിക്കുന്ന കമ്പനികൾ. ബിസിനസ്സ് വൻകിട ഡാറ്റയെക്കുറിച്ച് വിശദീകരിക്കാത്ത വിവരണം സംബന്ധിച്ച സ്ഥിതിവിവരക്കണക്കുകൾ നെതർലാൻഡ്സ് എങ്ങനെ കാണുന്നുവെന്നത് സംബന്ധിച്ച കൂടുതൽ വിവരങ്ങൾക്ക്, Buelens et al. (2014) .
വലിയ ഡാറ്റാ സ്രോതസ്സുകളുടെ പ്രതിനിധാനം ചെയ്യാത്ത സ്വഭാവത്തെക്കുറിച്ച് ഗവേഷകരുടെ ഉദാഹരണങ്ങൾക്കായി, K. Lewis (2015b) boyd and Crawford (2012) , K. Lewis (2015b) Hargittai (2015) , Hargittai (2015) .
സോഷ്യൽ സർവേകളുടെയും എപ്പിഡീമിയോളജിക്കൽ ഗവേഷണത്തിൻറെയും കൂടുതൽ വിശദമായ താരതമ്യത്തിനായി, Keiding and Louis (2016) കാണുക Keiding and Louis (2016) .
വോട്ടർമാർക്ക് പുറത്തുള്ള സാമ്പിൾ പൊതുവൽക്കരണത്തിനായി 2009 Jungherr (2013) ജർമൻ തെരഞ്ഞെടുപ്പിനെ Jungherr (2013) ട്വിറ്റർ ഉപയോഗിക്കാൻ കൂടുതൽ ശ്രമിച്ചതിന് Jungherr (2013) , Jungherr (2015) . Tumasjan et al. (2010) പ്രവർത്തനത്തിനു ശേഷം Tumasjan et al. (2010) ലോകത്തെമ്പാടുമുള്ള ഗവേഷകർ വിവിധ തരത്തിലുള്ള തിരഞ്ഞെടുപ്പുകളെ പ്രവചിക്കാൻ ട്വിറ്റർ ഡാറ്റയുടെ കഴിവ് മെച്ചപ്പെടുത്തുന്നതിന്-പാർട്ടികളുടെ നല്ലതും നെഗറ്റീവായ പരാമർശങ്ങളും തമ്മിൽ വേർതിരിച്ചറിയാൻ സെറ്റിംഗ്മെന്റ് വിശകലനം ഉപയോഗിക്കുന്നു- (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) തെരഞ്ഞെടുപ്പ് പ്രവചിക്കുന്നതിനുള്ള ഈ ശ്രമങ്ങളുടെ ഫലങ്ങൾ സംഗ്രഹിച്ചതായി ഇവിടെ വിവരിക്കുന്നു:
"സോഷ്യൽ മീഡിയയെ അടിസ്ഥാനമാക്കിയുള്ള എല്ലാ അറിയപ്പെടുന്ന പ്രവചന രീതികളും പരാജയപ്പെട്ടു. ഈ പരാജയങ്ങൾ രീതിശാസ്ത്രപരമായ അല്ലെങ്കിൽ അൽഗോരിഥ്മിക് ബുദ്ധിമുട്ടുകൾക്ക് പകരം, സോഷ്യൽ മീഡിയയുടെ അടിസ്ഥാന സ്വഭാവങ്ങളുടെ അടിസ്ഥാനത്തിലാണ്. ചുരുക്കത്തിൽ, സോഷ്യലിസ്റ്റ് സംവിധാനങ്ങൾ സ്ഥിരതയില്ലാത്ത, നിഷ്പക്ഷമായ ഒരു പ്രതിനിധി ചിത്രം, വോട്ടർമാരെ പ്രതിനിധാനം ചെയ്യുകയില്ല. സോഷ്യൽ മീഡിയയുടെ കൺസൾട്ടിംഗ് സാമ്പിളുകൾ ഈ പ്രശ്നങ്ങൾ പരിഹരിക്കാനുള്ള മതിയായ ഡാറ്റ ഇല്ല. "
3-ാം അദ്ധ്യായത്തിൽ, വളരെ വിശദമായി സാമ്പിൾ ചെയ്യുന്നതും മൂല്യവർദ്ധനവുമാണ് ഞാൻ വിവരിക്കുന്നത്. ഡാറ്റ അവലംബമില്ലാത്തവയെങ്കിലും, ചില വ്യവസ്ഥകൾക്കനുസൃതമായി അവ നല്ല മൂല്യനിർണ്ണയത്തിന് ഉതകും.
പുറത്ത് നിന്ന് കാണുന്നതിന് സിസ്റ്റം കുഴപ്പങ്ങൾ വളരെ ബുദ്ധിമുട്ടാണ്. എങ്കിലും, സിനിമാൻസ് പദ്ധതി (അധ്യായം 4 ൽ കൂടുതൽ ചർച്ചചെയ്തത്) ഒരു അക്കാദമിക് റിസർച്ച് ഗ്രൂപ്പിന് 15 വർഷത്തിലേറെയാണ് പ്രവർത്തിപ്പിച്ചത്. അതിനാൽ, കാലക്രമേണ സിസ്റ്റം പരിഷ്കരിച്ച രീതിയെക്കുറിച്ചും അത് എങ്ങനെ വിശകലനം (Harper and Konstan 2015) എന്നിവയെക്കുറിച്ചും വിവരങ്ങൾ രേഖപ്പെടുത്താനും പങ്കുവയ്ക്കാൻ കഴിഞ്ഞു.
പണ്ഡിത എണ്ണം ട്വിറ്റർ ൽ ചായ് കേന്ദ്രീകരിച്ചായിരുന്നു ചെയ്തിരിക്കുന്നു: Liu, Kliman-Silver, and Mislove (2014) ഉം Tufekci (2014) .
ജനസംഖ്യാ ചലനങ്ങളുമായി ഇടപെടുന്നതിനുള്ള ഒരു സമീപനം ഉപയോക്താക്കളുടെ ഒരു പാനൽ സൃഷ്ടിക്കുന്നതിനാണ്, ഗവേഷകർ ഒരേ സമയം ഒരേ സമയം പഠിക്കാൻ അനുവദിക്കുന്നത്, Diaz et al. (2016) .
ജോണി ക്ലെൻബെർഗ് ഒരു പ്രഭാഷണത്തിൽ ഉപയോഗിച്ച "അൽഗോരിറ്റിക് മെമ്മറി" എന്ന വാക്ക് ഞാൻ ആദ്യം കേട്ടു. പക്ഷേ, നിർഭാഗ്യവശാൽ ഞാൻ എവിടെയോ എവിടെയാണ് സംസാരിച്ചത് എന്ന് ഓർക്കുന്നില്ല. ഞാൻ ആദ്യമായി കണ്ട ഈ പദം Anderson et al. (2015) , ഡേറ്റിംഗ് സൈറ്റുകൾ ഉപയോഗിക്കുന്ന അൽഗോരിതങ്ങൾ എങ്ങനെ സോഷ്യൽ മുൻഗണനകൾ പഠിക്കുന്നതിനായി ഈ സൈറ്റുകളിൽ നിന്ന് ഡാറ്റ ഉപയോഗിക്കുന്ന ഗവേഷകരുടെ കഴിവിനെ സങ്കീർണ്ണമാക്കുന്നതിനെക്കുറിച്ചുള്ള രസകരമായ ഒരു ചർച്ചയാണ്. Anderson et al. (2014) പ്രതികരിച്ച K. Lewis (2015a) ഈ ആശയം ഉയർത്തി Anderson et al. (2014) .
ഫേസ്ബുക്ക് കൂടാതെ, ട്വിഡിക് ക്ലോഷർ എന്ന ആശയം അടിസ്ഥാനമാക്കി ഉപയോക്താക്കൾക്ക് പിന്തുടരാനായുള്ള ട്വിറ്റർ നിർദ്ദേശിക്കുന്നു. Su, Sharma, and Goel (2016) . ട്വിഡറിൽ മൂന്നിരട്ടിയോളം ക്ലോഷർ ഉണ്ടാവുന്നത് ത്രിമൂർത്തിയുടെ അടച്ചുപിടിക്കുന്ന ചില മാനുഷിക പ്രവണതകളും ത്രിമീകൃത ക്ലോഷരെ ഉയർത്താനുള്ള ചില അൽഗോരിത്മിക് പ്രവണതകളുമാണ്.
ചില സാമൂഹ്യശാസ്ത്ര സിദ്ധാന്തങ്ങൾ "ക്യാമറകൾക്കല്ല, എൻജിനുകൾ അല്ല" (അതായത് വെറും വിവരണത്തെയല്ല, പകരം അവർ ലോകത്തെ രൂപപ്പെടുത്തുന്നത്) - സെ Mackenzie (2008) .
സർക്കാർ സ്റ്റാറ്റിസ്റ്റിക്കൽ ഏജൻസികൾ ഡേറ്റാ ക്ലീനിംഗ് സ്റ്റാറ്റിസ്റ്റിക്കൽ ഡേറ്റാ എഡിറ്റിംഗാണ് വിളിക്കുന്നത്. സർ De Waal, Puts, and Daas (2014) എന്നിവ സർവേ ഡാറ്റയുടെ വികേന്ദ്രീകൃതമായ വിവരശേഖരണ വിവരശേഖരങ്ങളെ വിശദീകരിക്കുന്നു. വലിയ ഡാറ്റ സ്രോതസുകളിൽ അവർ ബാധകമാകുന്ന അളവുകൾ പരിശോധിക്കുന്നു, ഒപ്പം Puts, Daas, and Waal (2015) കൂടുതൽ സാധാരണ പ്രേക്ഷകർ.
സോഷ്യൽ ബോട്ടുകളുടെ ഒരു ചുരുക്കവിവരണം, Ferrara et al. (2016) കാണുക Ferrara et al. (2016) . ട്വിറ്ററിലെ സ്പാം കണ്ടെത്തുക എന്ന വിഷയത്തിൽ പഠനത്തിന്റെ ചില ഉദാഹരണങ്ങൾക്കായി, Clark et al. (2016) കാണുക Clark et al. (2016) , Chu et al. (2012) . അവസാനമായി, Subrahmanian et al. (2016) ട്വിറ്റർ ബോട്ട് ചലഞ്ചിന്റെ ഫലങ്ങളെ വിവരിക്കുന്നു, Twitter- ൽ ബോട്ടുകൾ കണ്ടെത്തുന്നതിനുള്ള സമീപനങ്ങളുമായി താരതമ്യം ചെയ്യാനുള്ള ഒരു ബഹുജന സഹകരണം.
Ohm (2015) അവലോകനങ്ങൾ മുമ്പത്തെ സെൻസിറ്റീവ് വിവരങ്ങളുടെ ആശയം ഗവേഷണം ഒരു മൾട്ടി ഫാക്ടർ ടെസ്റ്റ് വാഗ്ദാനം. അദ്ദേഹം നിർദ്ദേശിക്കുന്ന നാല് വസ്തുതകൾ ദോഷത്തിൻറെ അളവുകോൽ, ഹാനികരത്തിന്റെ സാധ്യത, രഹസ്യാത്മക ബന്ധത്തിന്റെ സാന്നിദ്ധ്യം എന്നിവയാണ്, കൂടാതെ റിസ്ക് ഭൂരിപക്ഷ ആശങ്കകളെ പ്രതിഫലിപ്പിക്കുന്നുണ്ടോ എന്ന്.
ന്യൂയോർക്കിലെ ഫാർബർ ടാക്സ് സംബന്ധിച്ച പഠനം മുൻപേ Camerer et al. (1997) നേരത്തെ നടത്തിയ പഠനത്തിലാണ് Camerer et al. (1997) , പേപ്പർ ട്രിപ്പ് ഷീറ്റിന്റെ മൂന്നു വ്യത്യസ്ത സാമ്പിളുകൾ. ഈ മുൻപത്തെ പഠനത്തിൽ ഡ്രൈവറുകൾ ലക്ഷ്യം വെച്ചുള്ളവർ ആയി തോന്നി: അവരുടെ വേതനം ഉയർന്ന ദിവസം അവർ കുറവാണ് ജോലി.
തുടർന്നുള്ള സൃഷ്ടികളിൽ, ചൈനയിലും (King, Pan, and Roberts 2014, [@king_how_2016] ) ഓൺലൈൻ സെൻസർഷിപ്പ് സന്ദർശിച്ചു. ചൈനയിൽ ഓൺലൈൻ സെൻസർഷിപ്പ് അളക്കുന്നതിനുള്ള ബന്ധപ്പെട്ട സമീപനത്തിനായി Bamman, O'Connor, and Smith (2012) . 11 ദശലക്ഷം പോസ്റ്റുകളുടെ വികാരം കണക്കാക്കാനായി King, Pan, and Roberts (2013) ഉപയോഗിച്ചിരിക്കുന്ന സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികളെക്കുറിച്ചറിയാൻ Hopkins and King (2010) . സൂപ്പർവൈസുചെയ്ത പഠനത്തെക്കുറിച്ച് കൂടുതൽ അറിയാൻ James et al. (2013) ( Hastie, Tibshirani, and Friedman (2009) സാങ്കേതിക), Hastie, Tibshirani, and Friedman (2009) (കൂടുതൽ സാങ്കേതിക).
വ്യാവസായിക ഡാറ്റ ശാസ്ത്രത്തിന്റെ ഒരു വലിയ ഭാഗമാണ് പ്രവചനം (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . സോഷ്യൽ റിസർച്ചർമാർ നടത്തുന്ന ഒരുതരം പ്രവണത ജനസംഖ്യാ പ്രവചനമാണ്. ഉദാഹരണത്തിന്, Raftery et al. (2012) .
ഗൂഗിൾ ഫ്ലൂ ട്രെൻഡ്സ് ആദ്യ വിവരമാകില്ല, ഇപ്പോൾ ഇൻകമിംഗ് ഇൻഫ്ലുവൻസ പ്രഭാവത്തിന് തിരയൽ ഡാറ്റ ഉപയോഗിക്കുന്നത്. (Hulth, Rydevik, and Linde 2009) (Polgreen et al. 2008; Ginsberg et al. 2009) സ്വീഡനും (Hulth, Rydevik, and Linde 2009) ചില (Hulth, Rydevik, and Linde 2009) നിബന്ധനകൾ (ഉദാ: "ഫ്ലൂ") ദേശീയ പൊതുജനാരോഗ്യ നിരീക്ഷണത്തിനു മുൻപായി ഡാറ്റ റിലീസ് ചെയ്യുന്നതിന് മുമ്പായി. തുടർച്ചയായി നിരവധി, വിവിധ പദ്ധതികൾ രോഗം നിരീക്ഷണം കണ്ടെത്തൽ ഡിജിറ്റൽ ട്രേസ് ഡാറ്റ ഉപയോഗിക്കാൻ ശ്രമിച്ചിട്ടുണ്ട്; Althouse et al. (2015) അവലോകനത്തിനായി.
ആരോഗ്യപരമായ ഫലങ്ങൾ പ്രവചിക്കാൻ ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ഉപയോഗിക്കുന്നതിന് പുറമേ, തെരഞ്ഞെടുപ്പു ഫലങ്ങൾ പ്രവചിക്കാൻ ട്വിറ്റർ ഡാറ്റ ഉപയോഗിച്ച് വലിയ തുക ഉണ്ടായിരുന്നു; അവലോകനങ്ങൾ കാണും Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (അധ്യായം 7), ഒപ്പം Huberty (2015) . മൊത്ത ആഭ്യന്തര ഉൽപ്പാദനം (ജിഡിപി) പോലെയുള്ള സാമ്പത്തിക സൂചകങ്ങൾ ഇപ്പോൾ സെൻട്രൽ ബാങ്കുകളിൽ സാധാരണമാണ്, Bańbura et al. (2013) കാണുക Bańbura et al. (2013) . ലോകത്തിലെ ചില സംഭവങ്ങളെ മുൻകൂട്ടി വിശദീകരിക്കുന്നതിന് ചില ഡിജിറ്റൽ ട്രെയ്സുകൾ ഉപയോഗിക്കുന്ന പഠനങ്ങളുടെ ചില ഉദാഹരണങ്ങൾ പട്ടിക 2.8 ൽ ഉൾക്കൊള്ളുന്നു.
ഡിജിറ്റൽ ട്രെയ്സ് | ഫലം | ഉദ്ധരണി |
---|---|---|
ട്വിറ്റർ | യുഎസിലെ മൂവികളുടെ ബോക്സ് ഓഫീസ് വരുമാനം | Asur and Huberman (2010) |
ലോഗുകൾ തിരയുക | യു എസിൽ സിനിമകൾ, സംഗീതം, പുസ്തകങ്ങൾ, വീഡിയോ ഗെയിമുകളുടെ വിൽപ്പന | Goel et al. (2010) |
ട്വിറ്റർ | ഡൗ ജോൻസ് ഇൻഡസ്ട്രിയൽ ശരാശരി (അമേരിക്കൻ സ്റ്റോക്ക് മാർക്കറ്റ്) | Bollen, Mao, and Zeng (2011) |
സോഷ്യൽ മീഡിയയും തിരയൽ ലോഗുകളും | യുണൈറ്റഡ് സ്റ്റേറ്റ്സ്, യുണൈറ്റഡ് കിംഗ്ഡം, കാനഡ, ചൈന എന്നിവിടങ്ങളിൽ നിക്ഷേപ സെന്ററും സ്റ്റോക്ക് മാർക്കറ്റുകളും നടത്തിയ സർവേകൾ | Mao et al. (2015) |
ലോഗുകൾ തിരയുക | സിംഗപ്പൂരിൽയും ബാങ്കോക്കിലെയും ഡെങ്കിപ്പനി ബാധിക്കുന്നു | Althouse, Ng, and Cummings (2011) |
ഒടുവിൽ, ജോണി ക്ലെയിൻബെർഗും സഹപ്രവർത്തകരും (2015) ചൂണ്ടിക്കാട്ടുന്നു, പ്രവചനങ്ങൾ തമ്മിൽ വ്യത്യസ്തമായ രണ്ടു വിഭാഗങ്ങളാണുള്ളത്, സാമൂഹ്യ ശാസ്ത്രജ്ഞന്മാർ ഒന്നിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുകയും മറ്റേതെങ്കിലും അവഗണിക്കുകയും ചെയ്യുന്നുവെന്നാണ്. ഒരു പോളിസി നിർമ്മാതാവിനെ സങ്കല്പിക്കുക, ഞാൻ വരാനിരിക്കുന്ന അണ്ണയെ വിളിക്കാം, വരൾച്ചയെ നേരിടുകയാണ്, മഴയുടെ സാധ്യത വർദ്ധിപ്പിക്കാൻ മഴ നൃത്തത്തിന് ഒരു ഷാമിയുണ്ടോ എന്ന് തീരുമാനിക്കേണ്ടത്. മറ്റൊരു പോളിസി മേക്കർ, ഞാൻ ബെറ്റി എന്നു വിളിക്കാം, വീടിനകത്ത് വീണുകിടക്കുന്നത് ഒഴിവാക്കാൻ ഒരു കുടക്കീഴമെടുക്കുമോ എന്ന് തീരുമാനിക്കേണ്ടതുണ്ട്. കാലാവസ്ഥയെ മനസ്സിലാക്കിയാൽ അണ്ണും ബെറ്റിയും മെച്ചപ്പെട്ട തീരുമാനമെടുക്കാൻ കഴിയും, പക്ഷേ അവർ പല കാര്യങ്ങളും അറിഞ്ഞിരിക്കണം. മഴ നൃത്തം മഴ പെയ്യുന്നുണ്ടോ എന്ന് അണ്ണ അറിഞ്ഞിരിക്കണം. മറുവശത്ത്, ബെറ്റി, അസറ്റിനെക്കുറിച്ച് എന്തെങ്കിലും മനസ്സിലാക്കേണ്ട ആവശ്യമില്ല; അവൾക്ക് ഒരു കൃത്യമായ പ്രവചനം ആവശ്യമാണ്. സാമൂഹ്യ ഗവേഷകർ പലപ്പോഴും അണ്ണാ നേരിടുന്ന പ്രശ്നങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു - ക്ലെയിൻബെർഗും സഹപ്രവർത്തകരും "മഴനൃഷി പോലെയുള്ള" നയപ്രശ്നങ്ങൾ എന്നു വിളിക്കുന്നു - കാരണം അവ പ്രശ്നങ്ങളുടെ ചോദ്യങ്ങളുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. ക്റ്റിൻബെർഗും സഹപ്രവർത്തകരും "കുട പോലെ പോലെയുള്ള" നയപ്രശ്നങ്ങൾ എന്നു വിളിക്കുന്ന ചോദ്യങ്ങൾ ബെറ്റി തന്നെ അഭിമുഖീകരിക്കുന്നു. ഇത് വളരെ പ്രധാനമാണ്, പക്ഷേ സാമൂഹ്യശാസ്ത്രജ്ഞരിൽനിന്ന് വളരെ കുറച്ചുമാത്രം ശ്രദ്ധ പിടിച്ചു പറ്റിയിട്ടുമുണ്ട്.
വലിയ ഡാറ്റ, മൂലകൃത അനുമാനം, ഔപചാരിക സിദ്ധാന്തം, Clark and Golder (2015) പി.എസ്. പൊളിറ്റിക്കൽ സയൻസിൽ ജേണലായിരുന്നു ഓരോ സംഭാവനയും. അമേരിക്കൻ ഐക്യനാടുകളിലെ നാഷണൽ അക്കാദമി ഓഫ് സയൻസിലെ ജേണലീസ് പ്രോസീഡിങ്ങുകൾക്ക് കോമണൽ അനുമാനവും വലിയ ഡാറ്റയും ഒരു സിമ്പോസിയം ഉണ്ടായിരുന്നു, Shiffrin (2016) ഓരോ സംഭാവനയും സംഗ്രഹിക്കുന്നു. വലിയ ഡാറ്റാ സ്രോതസുകളുടേതായ സ്വാഭാവിക പരീക്ഷണങ്ങൾ സ്വപ്രേരിതമായി കണ്ടുപിടിക്കാൻ ശ്രമിക്കുന്ന യന്ത്രസാമഗ്രികളുടെ സമീപനത്തിന്, Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) .
പ്രകൃതിദത്ത പരീക്ഷണങ്ങളുടെ അടിസ്ഥാനത്തിൽ, Dunning (2012) നിരവധി ഉദാഹരണങ്ങളോടെ ഒരു ആമുഖ, ബുക്-ദൈർഘ്യം ചികിത്സ നൽകുന്നു. Rosenzweig and Wolpin (2000) (സാമ്പത്തികശാസ്ത്രം) അല്ലെങ്കിൽ Sekhon and Titiunik (2012) (രാഷ്ട്രീയ ശാസ്ത്രം) എന്നിവ കാണുക. Deaton (2010) , Heckman and Urzúa (2010) വാദിച്ചു. പ്രകൃതിദത്ത പരീക്ഷണങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ ഗവേഷകർക്ക് അതിപ്രധാനമായ കാരണങ്ങളാൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ സാധിക്കുമെന്ന് വാദിക്കുന്നു. Imbens (2010) ഈ വാദം പ്രകൃതിപരമായ പരീക്ഷണങ്ങളുടെ മൂല്യത്തെക്കുറിച്ച് കൂടുതൽ ശുഭാപ്തിവിശ്വാസം പുലർത്തുന്നു.
ഒരു ഗവേഷകൻ എങ്ങനെ പ്രവർത്തിക്കുമെന്നതിന്റെ ഫലമായി, എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനെപ്പറ്റി വിവരിക്കുമ്പോൾ, ഞാൻ ഇൻസ്ട്രുമെന്റൽ വേരിയബിളുകൾ എന്നു വിളിക്കുന്ന ഒരു രീതി വിവരിക്കുന്നു. Imbens and Rubin (2015) , അവരുടെ അദ്ധ്യായങ്ങൾ 23, 24 ൽ കരട് ലോട്ടറി ഒരു ഉദാഹരണമായി അവതരിപ്പിക്കുകയും ഉപയോഗിക്കുകയും ചെയ്യുന്നു. പരാതിക്കാരന്റെ മേലുള്ള സൈനിക സേവനത്തിന്റെ സ്വാധീനം പലപ്പോഴും കമ്പിസിയുടെ ശരാശരി കാരണവും (CACE) ചിലപ്പോൾ പ്രാദേശിക ശരാശരി ചികിത്സാ പ്രഭാവം (LATE) എന്നും വിളിക്കുന്നു. രാഷ്ട്രീയ ശാസ്ത്രത്തിലും സാമ്പത്തികശാസ്ത്രത്തിലും സോഷ്യോളജിയിലും, Sovey and Green (2011) ഉപകരണങ്ങളുടെ വേരിയബിളുകൾ ഉപയോഗിച്ചുള്ള അവലോകനങ്ങൾ, Sovey and Green (2011) , Angrist and Krueger (2001) , Bollen (2012) "വായനക്കാരന്റെ ചെക്ക്ലിസ്റ്റ്" ഇന്സ്ട്രുമെന്റൽ വേരിയബിളുകൾ ഉപയോഗിച്ച് പഠനങ്ങൾ വിലയിരുത്തുക.
1970 ലെ കരട് ലോട്ടറി അല്ല, വാസ്തവത്തിൽ ശരിയായി ക്രമീകരിച്ചത്; ശുദ്ധമായ രചനകളിൽ നിന്ന് ചെറിയ വ്യതിയാനങ്ങൾ ഉണ്ടായിരുന്നു (Fienberg 1971) . Berinsky and Chatfield (2015) ഈ ചെറിയ വ്യതിയാനം വളരെ പ്രധാനപ്പെട്ടതാണെന്നും ശരിയായി നടത്തിയ റാൻഡമൈസേഷന്റെ പ്രാധാന്യം ചർച്ച ചെയ്യുമെന്നും വാദിക്കുന്നു.
പൊരുത്തപ്പെടുത്തുന്നതിനെ സംബന്ധിച്ചിടത്തോളം, Stuart (2010) ഒരു ശുഭാപ്തിവിഷയമായ അവലോകനത്തിനായി, ഒരു അശുഭാപ്തിപരമായ അവലോകനത്തിനായി Sekhon (2009) കാണുക. ഒരു തരം അരിവാൾകൊണ്ടു പൊരുത്തപ്പെടുന്നതിന്, Ho et al. (2007) കാണുക Ho et al. (2007) . ഓരോ വ്യക്തിയുമായും ഒരൊറ്റ നല്ല മത്സരം കണ്ടെത്തുന്നതും പലപ്പോഴും ബുദ്ധിമുട്ടുള്ള കാര്യമാണ്. ഒന്നാമതായി, കൃത്യമായ മത്സരങ്ങൾ ലഭ്യമല്ലാത്തപ്പോൾ, രണ്ട് യൂണിറ്റുകൾ തമ്മിലുള്ള ദൂരം അളക്കാൻ ഗവേഷകർ തീരുമാനിക്കേണ്ടതുണ്ട്. ചികിത്സാരംഗത്ത് ഓരോ കേസിനും ഒന്നിലധികം മത്സരങ്ങൾ ഉപയോഗിക്കാൻ ഗവേഷകർ ആഗ്രഹിക്കുന്നെങ്കിൽ രണ്ടാമത്തെ സങ്കീർണ്ണത ഉയരുന്നു, കാരണം ഇത് കൂടുതൽ കൃത്യമായ കണക്കുകൾക്ക് ഇടയാക്കും. ഈ രണ്ട് പ്രശ്നങ്ങളും അതുപോലെ മറ്റുള്ളവരും Imbens and Rubin (2015) 18-ാം അധ്യായത്തിൽ വിശദമായി പ്രതിപാദിച്ചിരിക്കുന്നു. ഇതിന്റെ രണ്ടാം ഭാഗവും ( ??? ) .
Dehejia and Wahba (1999) ഒരു Dehejia and Wahba (1999) റാൻഡം നിയന്ത്രിത പരീക്ഷണങ്ങളിൽ നിന്ന് സമാനമായ കണക്കുകൾ നിർമ്മിക്കാൻ സാധിച്ചു. എന്നാൽ, ഒരു പരീക്ഷണാത്മക ബെഞ്ച്മാർക്ക് പുനർനിർമ്മിക്കുന്നതിന് പൊരുത്തപ്പെടുന്ന രീതികൾ പരാജയപ്പെടുന്നതിനുള്ള ഉദാഹരണങ്ങൾക്കായി, Arceneaux, Gerber, and Green (2010) Arceneaux, Gerber, and Green (2006) , Arceneaux, Gerber, and Green (2010) എന്നിവ കാണുക.
Rosenbaum (2015) , Hernán and Robins (2016) എന്നിവ വൻ ഡാറ്റാ സ്രോതസുകളിൽ പ്രയോജനകരമായ താരതമ്യങ്ങൾ കണ്ടെത്തുന്നതിനുള്ള മറ്റ് മാർഗനിർദേശങ്ങൾ വാഗ്ദാനം ചെയ്യുന്നു.