കൂടുതൽ കമന്ററി

ഈ വിഭാഗം .അതേതു വായിക്കണം പകരം, ഒരു റഫറൻസ് ആയി ഉപയോഗിക്കുന്ന രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്.

  • ആമുഖം (വിഭാഗം 2.1)

ആ നിരീക്ഷിക്കുവാൻ ഒരു തരത്തിലുള്ള ഈ അധ്യായത്തിൽ ഉൾപ്പെടുത്തിയിട്ടില്ല ethnography ആണ്. ഡിജിറ്റൽ സ്ഥലങ്ങളിലും ethnography കൂടുതലറിയാൻ കാണുന്ന Boellstorff et al. (2012) , ഒപ്പം ethnography ന് അതിലേറെ മിക്സഡ് ഡിജിറ്റൽ ശാരീരിക ഇടങ്ങൾ കാണുന്ന Lane (2016) .

  • ബിഗ് ഡാറ്റ (വിഭാഗം 2.2)

നിങ്ങൾ ഡാറ്റ repurposing ചെയ്യുമ്പോൾ, നിങ്ങൾ അഭിമുഖീകരിക്കുന്ന സാധ്യത പ്രശ്നങ്ങൾ മനസ്സിലാക്കാൻ സഹായിക്കുന്ന രണ്ട് മാനസിക തന്ത്രങ്ങളും ഉണ്ട്. ആദ്യമായി നിങ്ങളുടെ പ്രശ്നം അനുയോജ്യം ഡാറ്റാഗണത്തിന്റെ സങ്കൽപ്പിക്കാനാവില്ല നിങ്ങൾ ഉപയോഗിക്കുന്നത് മാധ്യത്തെക്കുറിച്ചുള്ള ആ താരതമ്യം ശ്രമിക്കാം. അവർ എങ്ങനെ സമാനമായ അവ എങ്ങനെയാണ് വ്യത്യസ്തമാണ്? നിങ്ങൾ സ്വയം നിങ്ങളുടെ ഡാറ്റ ശേഖരിച്ച് ചെയ്തില്ല എങ്കിൽ, നിങ്ങൾ ആഗ്രഹിക്കുന്നുവെന്നും എന്താണ് ഞങ്ങൾക്കുണ്ട് തമ്മിലുള്ള വ്യത്യാസം സാധ്യത ഉണ്ട്. പക്ഷേ, നിങ്ങൾ ഈ വ്യത്യാസങ്ങൾ ചെറുതോ വലുതോ തീരുമാനിയ്ക്കുക ഞങ്ങൾക്കുണ്ട്.

രണ്ടാമത്തേത്, ആരെങ്കിലും ചില കാരണങ്ങളാൽ നിങ്ങളുടെ ഡാറ്റ സൃഷ്ടിക്കുകയും ശേഖരിച്ച ഓർക്കുക. നിങ്ങൾ അവരുടെ ന്യായവാദം മനസ്സിലാക്കാൻ ശ്രമിക്കണം. റിവേഴ്സ്-എൻജിനീയറിങ് ഇത്തരത്തിലുള്ള നിങ്ങളുടെ ദുരുദ്ദേശ്യങ്ങൾക്കുപയോഗിക്കാമെന്ന് ഡാറ്റ സാധ്യമായ പ്രശ്നങ്ങളും അത് തിരിച്ചറിയുന്നതിനും സഹായിക്കും.

"വലിയ ഡാറ്റ" എന്ന ഒറ്റ സമവായം നിർവചനം ഉണ്ട്, എന്നാൽ പല നിർവചനങ്ങൾ 3 ആഴ്ച ശ്രദ്ധ തോന്നുന്ന: വോള്യം, മുറികൾ, വേഗതയും (ഉദാ, Japec et al. (2015) ). പകരം ഡാറ്റ പ്രത്യേകതകൾ ഊന്നിയായിരുന്നു അധികം എന്റെ നിർവചനം കൂടുതൽ എന്തിനാണ് ഡാറ്റ സൃഷ്ടിക്കപ്പെട്ടിരിക്കുന്നു കേന്ദ്രീകരിക്കുന്നു.

ബിഗ് ഡാറ്റ വിഭാഗം അകത്ത് സർക്കാർ ഭരണപരമായ ഡാറ്റ എന്റെ ഉൾപ്പെടുത്തുന്നതിനായി ഒരു ബിറ്റ് അസാധാരണമാംവിധം ആണ്. ഈ സാഹചര്യത്തിൽ ആക്കിയിരിക്കുന്നു മറ്റുള്ളവരോ ഉൾപ്പെടുന്നു Legewie (2015) , Connelly et al. (2016) , ഒപ്പം Einav and Levin (2014) . റിസർച്ച് സർക്കാർ ഭരണപരമായ ഡാറ്റ മൂല്യം കൂടുതൽ വിവരങ്ങൾക്ക്, കാണുക Card et al. (2010) , Taskforce (2012) , ഒപ്പം Grusky, Smeeding, and Snipp (2015) .

സർക്കാർ സ്ഥിതിവിവര സിസ്റ്റം, പ്രത്യേകിച്ച് അമേരിക്കൻ സെൻസസ് ബ്യൂറോയുടെ അകത്തും ഭരണ ഗവേഷണത്തിന്റെ കാഴ്ച കാണുക Jarmin and O'Hara (2016) . സ്റ്റാറ്റിസ്റ്റിക്സ് സ്ലോവാക്യ ചെയ്തത് ഭരണ റെക്കോർഡുകൾ ഗവേഷണത്തിന്റെ പുസ്തകം നീളം ചികിത്സ, കാണുക Wallgren and Wallgren (2007) .

അധ്യായത്തിൽ, ഞാൻ സംക്ഷിപ്തമായി അത്തരം ട്വിറ്റര് ഒരു സോഷ്യൽ മീഡിയ ഡാറ്റ ഉറവിടം അത്തരം ജനറൽ സോഷ്യൽ സർവേ (ജിഎസ്എസ്) ആയി പരമ്പരാഗത സർവേ അപേക്ഷിച്ച്. പരമ്പരാഗത സർവേകളിൽ സോഷ്യൽ മീഡിയ ഡാറ്റ തമ്മിലുള്ള സമഗ്രമായി ആൻഡ് ശ്രദ്ധിക്കുക താരതമ്യത്തിന്, കാണുക Schober et al. (2016) .

  • വലിയ ഡാറ്റ പൊതുസവിശേഷതകൾ (വിഭാഗം 2.3)

വലിയ ഡാറ്റ ഈ 10 സ്വഭാവസവിശേഷതകൾ വിവിധ രചയിതാക്കളുടെ വിവിധ രീതികളിൽ മുറികൾ വിവരിച്ചിട്ടുണ്ട്. ഈ പ്രശ്നങ്ങളിൽ തെല്ല് സ്വാധീനിച്ച എഴുത്ത് ഉൾപ്പെടുന്നു: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ഒപ്പം Goldstone and Lupyan (2016) .

ഈ അധ്യായം ഉടനീളം, ഞാൻ താരതമ്യേന ന്യൂട്രൽ കരുതുന്നു പദം ഡിജിറ്റൽ തെളിവുകൾ ഉപയോഗിച്ചു. ഡിജിറ്റൽ ആത്മപരിശോധന മറ്റൊരു പ്രശസ്തമായ പദം ഡിജിറ്റൽ കാൽപ്പാടുകൾ ആണ് (Golder and Macy 2014) , എന്നാൽ ഹാൽ Abelson, കെൻ Ledeen, ഹാരി ലൂവീസ് (2008) ചൂണ്ടിക്കാണിച്ച കൂടുതൽ ഉചിതമായ പദം ഒരുപക്ഷേ ഡിജിറ്റൽ വിരലടയാളങ്ങൾ ആണ്. നിങ്ങൾ കാൽപ്പാടുകൾ സൃഷ്ടിക്കുമ്പോൾ, സംഭവിക്കുന്ന കാര്യങ്ങൾ അറിഞ്ഞിരിക്കണം നിങ്ങളുടെ കാൽപ്പാടുകൾ പൊതുവെ നിങ്ങളെ വ്യക്തിപരമായി ഉദ്ഭവസ്രോതസ്സ് കഴിയില്ല. ഒരേ നിങ്ങളുടെ ഡിജിറ്റൽ ആത്മപരിശോധന ശരിയല്ല. സത്യത്തിൽ, പ്രകടമാകുന്നത് നിങ്ങൾ വളരെ ചെറിയ അറിവില്ലാത്ത കുറിച്ച് എല്ലാ സമയത്തും പുറത്തുപോകുന്നു. പിന്നെ, ഈ പ്രകടമാകുന്നത് അവരെ നിങ്ങളുടെ പേര് ഇല്ല ആണെങ്കിലും, അവർ പലപ്പോഴും തിരികെ ലിങ്കുചെയ്യാനാകൂ. അദൃശ്യവും വ്യക്തിപരമായി തിരിച്ചറിയാൻ: മറ്റു വാക്കുകളിൽ അവർ കൂടുതൽ വിരലടയാളം പോലെയാണ്.

ബിഗ്

എന്തുകൊണ്ട് വലിയ ഡാറ്റാസെറ്റുകളും പ്രശ്നക്കാരായ സ്റ്റാറ്റിസ്റ്റിക്കൽ പരിശോധനകൾ റെൻഡർ കൂടുതലറിയാൻ, കാണുക Lin, Lucas, and Shmueli (2013) ഉം McFarland and McFarland (2015) . ഈ പ്രശ്നങ്ങൾ പകരം സ്റ്റാറ്റിസ്റ്റിക്കൽ പ്രാധാന്യം പ്രായോഗിക പ്രാധാന്യം ശ്രദ്ധ ഗവേഷകർ നടപ്പാക്കേണ്ടതുണ്ട്.

എല്ലായ്പ്പോഴും-ഓൺ

എപ്പോഴും പരിഗണിക്കുമ്പോൾ ഡാറ്റ, നിങ്ങൾ കാലാകാലങ്ങളിൽ കൃത്യമായ അതേ ആളുകളെ താരതമ്യം ചെയ്യുന്നു അല്ലെങ്കിൽ നിങ്ങൾ ജനത്തിന്റെ ചിലതിൽ മാറ്റം ഗ്രൂപ്പ് താരതമ്യം ചെയ്യുന്നു എന്ന് പരിഗണിക്കുക പ്രധാനമാണ്; ഉദാഹരണത്തിന് കാണുന്നു Diaz et al. (2016) .

പ്രതികരണമില്ലാത്ത

നോൺ-ക്രിയാത്മകങ്ങളാണ് നടപടികൾ ക്ലാസിക്ക് പുസ്തകമാണ് Webb et al. (1966) . പുസ്തകം മുൻകൂട്ടി തീയതി ഉദാഹരണങ്ങൾ ഡിജിറ്റൽ യുഗത്തിൽ, എന്നാൽ അവർ ഇപ്പോഴും പ്രകാശം ചെയ്യുന്നു. ബഹുജന നിരീക്ഷണ സാന്നിദ്ധ്യം അവരുടെ സ്വഭാവം മാറ്റുന്നതിൽ ജനത്തിന്റെ ഉദാഹരണങ്ങൾ കാണുക Penney (2016) ഉം Brayne (2014) .

അപൂര്ണ്ണമായ

റെക്കോർഡ് ബന്ധം കൂടുതലറിയാൻ, കാണുക Dunn (1946) ഉം Fellegi and Sunter (1969) (ചരിത്ര) ഉം Larsen and Winkler (2014) (ആധുനിക). സമാനമായ സമീപിച്ചു പോലുള്ള ഡാറ്റ ഡീഡ്യൂപ്ലിക്കേഷൻ, ഉദാഹരണത്തിന് ഐഡന്റിഫിക്കേഷൻ, പേര് പൊരുത്തപ്പെടുന്ന പേരുകൾ കീഴിൽ കമ്പ്യൂട്ടർ സയൻസിൽ വികസിപ്പിച്ചെടുത്തത് കണ്ടെത്തൽ ഡ്യൂപ്ലിക്കേറ്റ്, റെക്കോർഡ് കണ്ടെത്തൽ ഡ്യൂപ്ലിക്കേറ്റ് (Elmagarmid, Ipeirotis, and Verykios 2007) . ഏത് വ്യക്തിപരമായി തിരിച്ചറിയുന്ന വിവരങ്ങളിൽ വ്യാപനവും ആവശ്യമില്ല റെക്കോർഡ് ബന്ധം ലേക്കുള്ള സമീപനങ്ങളെയും സൂക്ഷിക്കുന്നത് സ്വകാര്യത ഉണ്ട് (Schnell 2013) . ഫേസ്ബുക്ക് ഒരു പെരുമാറ്റം വോട്ടിങ് അവരുടെ റെക്കോർഡുകൾ ലിങ്ക് ചെയ്യാൻ മുന്നോട്ട് വികസിച്ചു; ഇതു ഞാൻ അദ്ധ്യായം 4 കുറിച്ച് പറയാം ഒരു പരീക്ഷണം വിലയിരുത്താൻ സംഭവിച്ചതു (Bond et al. 2012; Jones et al. 2013) .

പരവലയങ്ങൾക്കു് സാധുത കൂടുതലറിയാൻ, കാണുക Shadish, Cook, and Campbell (2001) , അദ്ധ്യായം 3.

അഗമമായ

AOL തിരയൽ രേഖ ഏകദിനമത്സരങ്ങളിൽ കൂടുതലറിയാൻ, കാണുക Ohm (2010) . ഞാൻ പരീക്ഷണങ്ങൾ വിവരിക്കുക വരുമ്പോൾ അദ്ധ്യായം 4 കമ്പനികൾ സർക്കാരുകൾ പങ്കാളിയായിക്കൊണ്ട് കുറിച്ച് ഉപദേശവും വാഗ്ദാനം. രചയിതാക്കളുടെ ഒരു എണ്ണം നല്കുമെന്നും ഡാറ്റ ആശ്രയിക്കുന്നത് ഗവേഷണത്തിന്റെ കുറിച്ച് ആശങ്കകൾ, കാണുക വ്യക്തമാക്കിയാൽ Huberman (2012) ഉം boyd and Crawford (2012) .

യൂണിവേഴ്സിറ്റി ഗവേഷകർ ഡാറ്റ ആക്സസ് സ്വന്തമാക്കുന്നതിന് വേണ്ടി വൺ നല്ല വഴി ഒരു തടവുകാരി അല്ലെങ്കിൽ സന്ദർശിച്ച് ഗവേഷകൻ പോലെ ഒരു കമ്പനി പ്രവർത്തനമാണ്. ഡാറ്റ ആക്സസ് പ്രാപ്തമാക്കുന്ന പുറമേ, ഈ പ്രക്രിയ പുറമേ ഗവേഷകൻ ഡാറ്റ എങ്ങനെ സൃഷ്ടിക്കപ്പെട്ടിരിക്കുന്നു കുറിച്ച് കൂടുതൽ മനസ്സിലാക്കാൻ, വിശകലനത്തിനായി പ്രധാനപ്പെട്ട ആണ് സഹായിക്കും.

നോൺ-പ്രതിനിധി

നോൺ-representativeness ഗവേഷകർക്കും ഒരു മുഴുവൻ ജനസംഖ്യയിൽ വെളിപ്പെടുത്തലുകൾക്ക് ആഗ്രഹിക്കുന്നവർക്ക് സർക്കാരുകൾക്ക് ഒരു പ്രധാന പ്രശ്നമാണ്. ഇത് സാധാരണയായി അവരുടെ ഉപയോക്താക്കൾ ശ്രദ്ധിക്കുന്നു കമ്പനികളുടെ പേരിൽ ആശങ്ക കുറവാണ്. സ്റ്റാറ്റിസ്റ്റിക്സ് നെതർലാൻഡ്സ് ബിസിനസ്സിന്റെ നോൺ-representativeness വലിയ ഡാറ്റ പ്രശ്നം കരുതുന്നതു് എങ്ങനെ കൂടുതൽ, കാണുക Buelens et al. (2014) .

അദ്ധ്യായം 3, ഞാൻ വളരെ വിശദമായി ഒരുപറ്റം ആൻഡ് മതിപ്പു വിവരിക്കുക കാണാം. ഡാറ്റ നോൺ-പ്രതിനിധി പോലും, ചില നിബന്ധനകൾക്ക് വിധേയമായി അവർ നല്ല എസ്റ്റിമേറ്റുകൾ ഉത്പാദിപ്പിക്കാൻ വെയ്റ്റഡ് കഴിയും.

ഡ്രിഫ്റ്റിംഗ്

സിസ്റ്റം ചായ് പുറത്തു നിന്ന് കാണാൻ വളരെ ബുദ്ധിമുട്ടാണ്. എന്നിരുന്നാലും, MovieLens പദ്ധതി (കൂടുതൽ അദ്ധ്യായം 4 ചർച്ച) ഒരു അക്കാദമിക ഗവേഷണ സംഘം 15 വർഷത്തോളമായി ഓടിവരും ചെയ്തു. അതുകൊണ്ടു അവർ വിവരിച്ചിരിക്കുന്ന പങ്കിട്ട സിസ്റ്റം കാലക്രമേണ മാറിയിരിക്കുന്നു എങ്ങനെ ഈ വിശകലനം ബാധിച്ചേക്കാം ആ വഴി കുറിച്ചുള്ള വിവരങ്ങൾ (Harper and Konstan 2015) .

പണ്ഡിത എണ്ണം ട്വിറ്റർ ലെ ചായ് കേന്ദ്രീകരിച്ചായിരുന്നു ചെയ്തിരിക്കുന്നു: Liu, Kliman-Silver, and Mislove (2014) ഉം Tufekci (2014) .

അൽഗൊരിത അമ്പരന്നു

ഞാൻ ആദ്യം പദം "അൽഗൊരിത അമ്പരന്നു" പ്രസംഗത്തിലൂടെയോ ജോൺ Kleinberg ഉപയോഗിച്ച കേട്ടു. Performativity പിന്നിൽ പ്രധാന ആശയം ചില സോഷ്യൽ സയൻസ് സിദ്ധാന്തങ്ങൾ "എഞ്ചിനുകൾ അല്ല ക്യാമറകൾ" എന്നതാണ് (Mackenzie 2008) . അവർ യഥാർത്ഥത്തിൽ അത് പിടിച്ചെടുത്ത് പകരം ലോകത്തെ ആകൃതി, ആണ്.

അഴുക്കായ

സർക്കാരിതര സ്റ്റാറ്റിസ്റ്റിക്കൽ ഏജൻസികൾ ഡാറ്റ ക്ലീനിംഗ്, സ്ഥിതിവിവര കണക്കുകള് എഡിറ്റിംഗ് വിളിക്കും. De Waal, Puts, and Daas (2014) സർവേ ഡാറ്റ വികസിപ്പിച്ച സ്ഥിതിവിവര കണക്കുകള് എഡിറ്റിംഗ് വിദ്യകൾ വിവരിക്കാനും വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ, ഒപ്പം ബാധകമായ ആയ പരിധിവരെ പരിശോധിക്കാം Puts, Daas, and Waal (2015) കൂടുതൽ പൊതു പ്രേക്ഷകർക്ക് ഒരേ ആശയങ്ങൾ ചില അവതരിപ്പിക്കുന്നു.

ട്വിറ്റർ സ്പാം കേന്ദ്രീകരിച്ചായിരുന്നു പഠനങ്ങൾ ചില ഉദാഹരണങ്ങൾക്ക്, Clark et al. (2016) ഉം Chu et al. (2012) . ഒടുവിൽ Subrahmanian et al. (2016) DARPA ട്വിറ്റർ ബോട്ടം ചാലഞ്ച് ഫലങ്ങൾ വിവരിക്കുന്നു.

തന്ത്രപ്രധാനമായ

Ohm (2015) തന്ത്രപ്രധാനമായ വിവരം എന്ന ആശയം നേരത്തെ ഗവേഷണം അവലോകനം ചെയ്ത് ഒരു മൾട്ടി-ഘടകം ടെസ്റ്റ് പ്രദാനം. അവൻ നിർദ്ദേശിക്കുന്നു നാല് ഘടകങ്ങൾ ഇവയാണ്: ദോഷവും പ്രോബബിലിറ്റി; ദോഷം പ്രോബബിലിറ്റി; ഒരു രഹസ്യമായ ബന്ധം സാന്നിധ്യം; വേണ്ടയോ റിസ്ക് ഭൂരിപക്ഷ ആശങ്കകൾ പ്രതിഫലിപ്പിക്കുന്നു.

  • വോട്ടെണ്ണൽ കാര്യങ്ങൾ (വിഭാഗം 2.4.1)

ന്യൂയോർക്കിലെ ടാക്സി ഫാർബർ പഠനത്തെ ഒരു മുൻ സർവ്വേ അടിസ്ഥാനമാക്കിയായിരുന്നു Camerer et al. (1997) സമയം, അവസാനിക്കുന്ന സമയം, ഒപ്പം യാത്രാനിരക്ക് ആരംഭിക്കാൻ ട്രിപ്പ് രേഖപ്പെടുത്താൻ ഡ്രൈവർമാർ ഉപയോഗിക്കുന്ന പേപ്പർ ട്രിപ്പ് ഷീറ്റുകൾ-പേപ്പർ ഫോമുകൾ മൂന്ന് വ്യത്യസ്ത സൗകര്യം സാമ്പിളുകൾ ഉപയോഗിച്ചത്. അവരുടെ കൂലി കൂടുതൽ മരിച്ചുവീഴുന്ന ദിവസങ്ങളിൽ അവർ മണിക്കൂറാക്കി: ഈ മുൻ സർവ്വേ ഡ്രൈവർമാർ ടാർഗെറ്റ് വലക്കണ്ണിയിലേക്ക് തോന്നി എന്ന് കണ്ടെത്തി.

Kossinets and Watts (2009) സോഷ്യൽ നെറ്റ്വർക്ക് homophily ഉൽപ്പത്തി കേന്ദ്രീകരിച്ചായിരുന്നു ചെയ്തു. കാണുക Wimmer and Lewis (2010) ഏത് ഫേസ്ബുക്ക് നിന്ന് ഡാറ്റ ഉപയോഗിക്കുന്നു അതേ പ്രശ്നം മറ്റൊരു സമീപനം.

തുടർന്നുള്ള പ്രവർത്തനത്തിൽ, രാജാവ് സഹപ്രവർത്തകരും കൂടുതൽ ചൈനയിൽ ഓൺലൈൻ സെൻസർഷിപ്പ് അടുത്തറിഞ്ഞ ചെയ്തിരിക്കുന്നു (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . ചൈനയിൽ ഓൺലൈൻ സെൻസർഷിപ്പ് അളന്നു ഒരു ബന്ധപ്പെട്ട സമീപനം കാണുക Bamman, O'Connor, and Smith (2012) . ഉപയോഗിച്ച ഇതുപോലുള്ള സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികൾ കൂടുതലറിയാൻ King, Pan, and Roberts (2013) 11 ദശലക്ഷം പോസ്റ്റുകളുടെ വികാരം കണക്കാക്കാൻ, കാണുക Hopkins and King (2010) . സൂപ്പർവൈസുചെയ്ത പഠനത്തിൻറെ കൂടുതൽ, കാണുക James et al. (2013) (കുറവ് സാങ്കേതിക) ഉം Hastie, Tibshirani, and Friedman (2009) (കൂടുതൽ സാങ്കേതിക).

  • പ്രവചന (വിഭാഗം 2.4.2)

പ്രവചന വ്യവസായ ഡാറ്റ ശാസ്ത്രത്തിന്റെ ഒരു വലിയ ഭാഗമാണ് (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . സാധാരണയായി സോഷ്യൽ ഗവേഷകർ നടക്കുന്ന പ്രവചന ഒരു തരം ജനസംഖ്യാപരമായ പ്രവചന, മാതൃകയും Raftery et al. (2012) .

Google ഫ്ലൂ ട്രെൻഡ് ഇൻഫ്ലുവൻസ വരാനുള്ള nowcast തിരച്ചിലിൽ ഡാറ്റ ഉപയോഗിക്കുന്ന ആദ്യ പദ്ധതി ആയിരുന്നില്ല. സത്യത്തിൽ, യുണൈറ്റഡ് സ്റ്റേറ്റ്സ് ഗവേഷകർ (Polgreen et al. 2008; Ginsberg et al. 2009) , സ്വീഡന് (Hulth, Rydevik, and Linde 2009) ചില തിരയൽ പദങ്ങൾ കണ്ടെത്തിയിരിക്കുന്നു (ഉദാ, "ഫ്ലൂ") ദേശീയ പൊതുജനാരോഗ്യ നിരീക്ഷണം പ്രവചിച്ച ഡാറ്റ അതു പുറത്തിറക്കുന്നതിന് മുമ്പ്. തുടർന്ന് ധാരാളം മറ്റു പദ്ധതികൾ, രോഗം നിരീക്ഷണം കണ്ടെത്തൽ ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ഉപയോഗിക്കാൻ കാണാൻ ശ്രമിച്ചു Althouse et al. (2015) ഒരു അവലോകനത്തിനായി.

ആരോഗ്യ പാടുന്നവർ പ്രവചിക്കാൻ ഡിജിറ്റൽ ട്രെയ്സ് ഡാറ്റ ഉപയോഗിച്ച് പുറമേ, അവിടെ പുറമേ തെരഞ്ഞെടുപ്പ് പാടുന്നവർ പ്രവചിക്കാൻ ട്വിറ്റർ ഡാറ്റ ഉപയോഗിച്ച് സൃഷ്ടിയുടെ വൻ തുക ശിക്ഷിച്ചു; അവലോകനങ്ങൾ കാണും Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (CH. 7), ഒപ്പം Huberty (2015) .

ഡാറ്റ തിരയൽ ഇൻഫ്ലുവൻസ വരാനുള്ള ഷിതമായത് തിരഞ്ഞെടുപ്പുകളെ ലോകത്തിലെ ഇവന്റ് ചില പ്രവചിക്കാൻ ഡിജിറ്റൽ അംശവും ചില ഉപയോഗിച്ച് ഇരുവരും ഉദാഹരണങ്ങളാണ് പ്രവചിക്കാൻ ട്വിറ്റർ ഡാറ്റ ഉപയോഗിച്ച് ലേക്ക് ഉപയോഗിച്ച്. ഈ പൊതു ഘടന ഉണ്ടു എന്നു പഠനങ്ങൾ ഒരു പടുകൂറ്റൻ എണ്ണം ഉണ്ട്. പട്ടിക 2.5 ഏതാനും മറ്റ് ഉദാഹരണങ്ങൾ ഉൾപ്പെടുന്നു.

പട്ടിക 2.5: ചില ഇവന്റ് പ്രവചിക്കാൻ ചില ഡിജിറ്റൽ അംശമോ ഉപയോഗിക്കാൻ പഠനങ്ങൾ ഭാഗിക പട്ടിക.
ഡിജിറ്റൽ ട്രെയ്സ് അനന്തരഫലം ഉദ്ധരണി
ട്വിറ്റർ അമേരിക്കയിൽ സിനിമകളുടെ ബോക്സ് ഓഫീസ് വരുമാനം Asur and Huberman (2010)
തിരയൽ രേഖകൾ അമേരിക്കയിൽ മൂവികൾ, സംഗീതം, പുസ്തകങ്ങൾ, വീഡിയോ ഗെയിമുകൾ വിൽപ്പന Goel et al. (2010)
ട്വിറ്റർ ഡൗ ജോൺസ് ഇൻഡസ്ട്രിയൽ ആവറേജ് (യുഎസ് ഓഹരി വിപണി) Bollen, Mao, and Zeng (2011)
  • അപരന്മായുള്ള പരീക്ഷണങ്ങൾ (വിഭാഗം 2.4.3)

ജേണൽ പി.എസ് രാഷ്ട്രീയ മീമാംസ വലിയ ഡാറ്റ, കാര്യകാരണങ്ങളെ അലങ്കോലപ്പെടുത്തലിലേർപ്പെടുന്നു, ഔദ്യോഗിക തിയറി ഒരു സിമ്പോസിയം ഉണ്ടായിരുന്നു; Clark and Golder (2015) ഓരോ സംഭാവനയും സംഗ്രഹിക്കുന്നു. അമേരിക്കൻ ഐക്യനാടുകളുടെ സയൻസ് നാഷണൽ അക്കാദമി ഓഫ് ജേണൽ പ്രോസീഡിങ്ങ് കാര്യകാരണങ്ങളെ അലങ്കോലപ്പെടുത്തലിലേർപ്പെടുന്നു വൻകിട ഡാറ്റ ഒരു സിമ്പോസിയം ഉണ്ടായിരുന്നു; Shiffrin (2016) ഓരോ സംഭാവനയും സംഗ്രഹിക്കുന്നു.

പ്രകൃതി പരീക്ഷണങ്ങളിൽ കാര്യത്തിൽ Dunning (2012) ഒരു നല്ല പുസ്തകം നീളം ചികിത്സ നൽകുന്നു. ഒരു സ്വാഭാവിക പരീക്ഷണാടിസ്ഥാനത്തിലും വിയറ്റ്നാം കരട് ലോട്ടറി ഉപയോഗിക്കുന്നതിൽ കൂടുതൽ, കാണുക Berinsky and Chatfield (2015) . പ്രകൃതി പരീക്ഷണങ്ങൾ വലിയ ഡാറ്റ ഉറവിടങ്ങളിൽ അകം സ്വയം കണ്ടെത്താൻ ശ്രമിക്കുന്ന മെഷീൻ ലേണിംഗ് സമീപനങ്ങളിലും, കാണുക Jensen et al. (2008) ഉം Sharma, Hofman, and Watts (2015) .

പൊരുത്തമുള്ള കാര്യത്തിൽ ഒരു ശുഭാപ്തി അവലോകനത്തിനായി, കാണുക Stuart (2010) , ഒരു ആശങ്കപ്പെടുന്നുണ്ട് അവലോകനത്തിന് കാണാൻ Sekhon (2009) . വാളുകളെ ഒരു തരം പൊരുത്തപ്പെടുന്ന കൂടുതലറിയാൻ, കാണുക Ho et al. (2007) . പൊരുത്തമുള്ള മികച്ച ചികിത്സാരീതികൾ നൽകുന്ന പുസ്തകങ്ങൾ, കാണുക Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ഒപ്പം Imbens and Rubin (2015) .