2.4.2 sìde agus nowcasting

Fiosachd air an àm ri teachd tha e doirbh, ach fiosachd air an t-diugh tha e nas fhasa.

Tha an dàrna prìomh ro-innleachd a chleachdadh le luchd-rannsachaidh le beachdachail dàta sìde. Fiosachd air an t-àm ri teachd a-riamh doirbh, ach faodaidh ea bhith air leth cudromach airson co-dhùnaidh, co-dhiù a tha iad ag obair ann an companaidhean no riaghaltasan.

Kleinberg et al. (2015) a 'tabhann dà sgeulachdan a' soilleireachadh cho cudromach 'sa sìde airson àraidh a thaobh poileasaidh duilgheadasan. Smaoinich fear-dèanamh poileasaidh, canaidh mi rithe Anna, a tha mu choinneamh tart agus feumaidh co-dhùnadh co-dhiù a bhith air am fastadh a-sagairt a dhèanamh uisge dannsa gus meudachadh cothrom uisge. Another-dèanamh poileasaidh, canaidh mi e Bob, feumaidh co-dhùnadh a ghabhail air na sgàilean a bhith ag obair a sheachnadh faighinn fliuch air an t-slighe dhachaigh. An dà chuid Anna agus Bob urrainn nas fheàrr a dhèanamh co-dhùnadh ma tha iad a 'tuigsinn sìde, ach feumaidh iad a bhith eòlach air rudan eadar-dhealaichte. Anna feum a thuigsinn co-dhiù an t-uisge dannsa ag adhbharachadh uisge. Bob, air an làimh eile, chan eil feum bhith a 'tuigsinn mu dheidhinn rud sam bith causality; Feumaidh e dìreach neo-mhearachdach uairean. Sòisealta rannsachaidh tric a 'cur cudrom air dè Kleinberg et al. (2015) 'gairm "uisge-dannsa mar" poileasaidh-duilgheadasan dhaibhsan a tha ag amas air causality-agus leig seachad "sgàilean-mar" am poileasaidh air duilgheadasan a tha ag amas air sìde.

Bu toigh leam a bhith ag amas, ge-tà, gu sònraichte air an t-seòrsa sìde ris an canar nowcasting -a teirm a 'tighinn bho mheasgachadh "a-nis" agus "sìde." Seach fiosachd air an àm ri teachd, nowcasting oidhirpean a ràdh le cinnt an-diugh (Choi and Varian 2012) . Ann am briathran eile, nowcasting sìde a 'cleachdadh dhòighean-obrach airson trioblaidean tomhas. Mar sin, bu chòir dha a bhith gu h-àraid feumail do riaghaltasan a tha feumach air an deagh àm agus ceart cheuman mu dùthchannan aca. Nowcasting Faodar dealbhan as gu soilleir leis an t-eisimpleir de Google a 'chnatain mhòir Pàtrain.

Smaoinich gu bheil thu a 'faireachdainn beagan fo na h-aimsir sin a chuireas tu "muc leigheasan" into a search engine, gheibh duilleag de ceangalan fhreagairt, agus an uair sin a' leantainn fear dhiubh gu làrach-lìn feumail. Smaoinich a-nis a 'ghnìomh seo ga chluich a-mach bho shealladh na search engine. Gach dràsta, tha na milleanan de cheistean a tha a 'tighinn bho air feadh an t-saoghail, agus seo sruth de cheistean-dè Battelle (2006) tha ris an canar "stòr-dàta de rùintean" - a' toirt a 'sìor ùrachadh uinneig a-steach coitcheann air feadh na cruinne chogais. Ge-tà, a 'tionndadh seo de allt fiosrachadh ann an tomhas cho pailt' chnatain mhòir e doirbh. Simply cunntadh suas an àireamh de cheistean airson "muc leigheasan" Is dòcha nach eil ag obair gu math. Neo-uile duine aig a bheil am flù rannsachaidhean airson flù leigheasan agus chan h-uile duine a searchers airson flù leigheasan a tha an cnatan mòr.

Tha cudromach agus tapaidh cleas cùl Google a 'chnatain mhòir Pàtrain bha a' tionndadh tomhas duilgheadas a-steach do sìde duilgheadas. Tha an US ionadan Galar Control and Prevention (CDC) a tha an cnatan sgrùdadh siostam a 'cruinneachadh fiosrachadh bho dotairean air feadh na dùthcha. Ach, aon duilgheadas seo le CDC siostam tha dà aithris san t-seachdain Lag; an ùine a bheir e airson an dàta a 'tighinn bho dhotairean, a bhith air a ghlanadh, ghiullachd, agus a chaidh fhoillseachadh. Ach, nuair a làimhseachadh an galar 'tighinn am bàrr, slàinte a' phobaill oifisean nach eil ag iarraidh fios dè cho fada 'chnatan mhòr bha dà sheachdain air ais; tha iad ag iarraidh fios dè cho fada 'chnatan mhòr a tha anns a' bhad. Gu dearbh, ann an iomadh àite eile goireasan traidiseanta sòisealta dàta, tha beàrnan eadar tonnan dàta a chruinneachadh agus aithris lags. As mòr tobraichean dàta, air an làimh eile, tha daonnan-air (Earrann 2.3.1.2).

Uime sin, Jeremy Ginsberg agus co-oibrichean (2009) dh'fheuch a ràdh le cinnt an CDC flù dàta bho rannsachadh Ghoogle dàta. 'S e seo eisimpleir de "fiosachd air an t-diugh" air sgàth an luchd-rannsachaidh a' feuchainn ri tomhas dè cho mòr 'chnatain mhòir a tha a-nis le fiosachd san àm ri teachd dàta bho CDC, san àm ri teachd dàta a tha a' tomhas an-diugh. A 'cleachdadh inneal ionnsachaidh, tha iad a' lorg tron ​​50 millean eadar-dhealaichte teirmean luirg airson fhaicinn a tha 'chuid as motha de predictive an CDC flù dàta. A 'cheann thall, fhuair iad seata de 45 ceistean eadar-dhealaichte bha coltas gu math as predictive, agus na toraidhean a bha math: dh'fhaodadh iad a chleachdadh an rannsachadh dàta a ràdh le cinnt an CDC dàta. Stèidhichte ann am pàirt air a 'phàipear seo, a chaidh fhoillseachadh ann an nàdar, tha Google a' chnatain mhòir Pàtrain dh'fhàs tric repeated soirbheachadh Sgeulachd mu chumhachd mòr dàta.

Tha dà cudromach cùmhnantan seo follaiseach cho soirbheachail, ge-tà, agus a 'tuigsinn na cùmhnantan Cuidichidh sibh measadh a dhèanamh agus sìde agus nowcasting. A 'chiad, an dèanadas de Google a' chnatain mhòir Pàtrain robh chan eil mòran nas fheàrr na sìmplidh modail a 'dèanamh tuairmse gu bheil an uiread de flù stèidhichte air sreathach extrapolation bhon dà tomhas as ùire den chnatan mhòr cho pailt (Goel et al. 2010) . Agus, thairis air cuid ùine Google a 'chnatain mhòir Pàtrain robh na bu mhiosa na seo sìmplidh dòigh-obrach (Lazer et al. 2014) . Ann am briathran eile, tha Google a 'chnatain mhòir Pàtrain leis a h-uile dàta, inneal ionnsachaidh, agus cumhachdach coimpiutaireachd cha robh mòr' dèanamh nas fheàrr sìmplidh agus nas fhasa a thuigsinn heuristic. Tha seo a 'leigeil fhaicinn gu bheil nuair measadh sam bith Aimsir no nowcast tha e cudromach gus coimeas a dhèanamh an aghaidh bun-loidhne.

Tha an dàrna sanas cudromach mu Ghoogle chnatain mhòir Pàtrain gu bheil comas aice a ràdh le cinnt an CDC a 'chnatain mhòir a bha dàta buailteach do geàrr-ùine fàilligeadh agus fad-ùine air sgàth crìonadh drift agus algorithmic confounding. Mar eisimpleir, rè an 2009 nam Muc thòisich Google a 'chnatain mhòir Pàtrain gu mòr thar-thomhas an t-suim den chnatan mhòr,' s dòcha air sgàth daoine buailteach a bhith ag atharrachadh an rannsachadh giùlan ann am freagairt gu bitheanta eagal cruinneil galar lèir-sgaoilte (Cook et al. 2011; Olson et al. 2013) . A bharrachd air seo geàrr-ùine duilgheadasan, a 'coileanadh mean air mhean thar ùine air seargadh. Diagnosing na h-adhbharan airson seo ùine fhada crìonaidh tha e duilich a chionn 'rannsachadh Ghoogle-aontaran tha dìlseanach, ach tha e coltach nach ann an 2011 Google dèanamh atharrachaidhean a bhiodh a' moladh co-cheangailte ris na faclan-luirg nuair a bhios daoine lorg comharraidhean mar "fiabhras" agus "casadaich" (e cuideachd a rèir coltais gur e seo am feart nach eil gnìomhach). Cur am feart seo a tha gu tur ni reusanta a dhèanamh ma tha thu a 'ruith gnothachas search engine, agus bha e a' bhuaidh a bha aig a 'gineadh tuilleadh slàinte co-cheangailte ri rannsachaidhean. B 'e seo' s dòcha soirbheachail airson a 'ghnìomhachais, ach tha e air adhbhrachadh Google a' chnatain mhòir Pàtrain gu còrr is muc-tuairmse bitheantas (Lazer et al. 2014) .

Gu fortanach, na duilgheadasan seo le Google a 'chnatain mhòir Pàtrain tha fixable. Gu dearbh, a 'cleachdadh barrachd dhòighean cùramach, Lazer et al. (2014) agus Yang, Santillana, and Kou (2015) b 'urrainn do fhaighinn toraidhean nas fheàrr. Dol air adhart, tha mi an dùil gu bheil nowcasting sgrùdaidhean a mheasgachadh mhòr dàta le rannsaiche-dàta còmhla Duchamp-stoidhle Readymades le Michaelangelo-stoidhle Custommades-bheir comas do luchd-poileasaidh a thoirt gu buil nas luaithe agus nas tomhaisean ceart an-diugh agus ro-innse air an àm ri teachd.