Die voorspelling van die toekoms is moeilik, maar die voorspelling van die huidige is makliker.
Die tweede hoofstrategie navorsers kan gebruik met waarneming data is voorspelling . Om raai oor die toekoms te maak, is raadsaam om moeilik te wees. Miskien is die vooruitskatting van die vooruitskatting tans nie 'n groot deel van sosiale navorsing nie (hoewel dit 'n klein en belangrike deel van demografie, ekonomie, epidemiologie en politieke wetenskap is). Hier wil ek egter konsentreer op 'n spesiale soort vooruitskatting genaamd noucasting- 'n term wat afgelei is van die kombinasie van "nou" en "vooruitskatting." Eerder as om die toekoms te voorspel, probeer dit nou om idees uit voorspellings te gebruik om die huidige stand te meet. van die wêreld; dit poog om die huidige te voorspel (Choi and Varian 2012) . Nowcasting het die potensiaal om veral nuttig te wees vir regerings en maatskappye wat tydige en akkurate maatreëls van die wêreld benodig.
Een instelling waar die behoefte aan tydige en akkurate meting baie duidelik is, is epidemiologie. Oorweeg die geval van griep ("griep"). Elke jaar veroorsaak seisoenale griep-epidemies miljoene siektes en honderde duisende sterftes regoor die wêreld. Verder, elke jaar, is daar 'n moontlikheid dat 'n nuwe vorm van griep kan ontstaan wat miljoene sou doodmaak. Die uitbarsting van die griep uit 1918, byvoorbeeld, word geskat tussen 50 en 100 miljoen mense (Morens and Fauci 2007) . As gevolg van die behoefte om op te spoor en potensieel te reageer op uitbrake van griep, het regerings regoor die wêreld griep toesigstelsels geskep. Byvoorbeeld, die Amerikaanse Sentrums vir Siektebeheer en -voorkoming (CDC) versamel gereeld en sistematies inligting van versigtig gekeurde dokters regoor die land. Alhoewel hierdie stelsel hoëgehalte data lewer, het dit 'n rapportageverlaging. Dit is as gevolg van die tyd wat dit vereis dat die dokters se data wat skoongemaak, verwerk en gepubliseer moet word, die CDC-stelsel vrygestel het van hoeveel griep daar twee weke gelede was. Maar by die hantering van 'n opkomende epidemie wil openbare gesondheidsbeamptes nie weet hoeveel griep daar twee weke gelede was nie; hulle wil weet hoeveel griep daar tans is.
Op dieselfde tyd dat die CDC data versamel om griep op te spoor, versamel Google ook data oor griepvoorkoms, alhoewel dit in 'n heel ander vorm is. Mense van regoor die wêreld stuur voortdurend navrae na Google, en sommige van hierdie navrae, soos "griepremedies" en "griep simptome" -miskien dui daarop dat die persoon wat die navraag doen griep het. Maar die gebruik van hierdie navrae om griepvoorkoms te skat, is moeilik: nie almal wat griep het, maak griepverwante soektog nie, en nie elke griepverwante soektog is van iemand met griep nie.
Jeremy Ginsberg en 'n span kollegas (2009) , sommige by Google en sommige by CDC, het die belangrike en slim idee gehad om hierdie twee databronne te kombineer. Sowat, deur middel van 'n soort statistiese alchemie, het die navorsers die vinnige en onakkurate soekdata gekombineer met die stadige en akkurate CDC-data om vinnige en akkurate metings van griepvoorkoms te produseer. Nog 'n manier om daaroor te dink, is dat hulle die soekdata gebruik om die CDC-data te bespoedig.
Meer spesifiek, met behulp van data van 2003 tot 2007, het Ginsberg en kollegas die verhouding tussen die voorkoms van griep in die CDC-data en die soekvolume vir 50 miljoen afsonderlike terme beraam. Uit hierdie proses, wat heeltemal data-gedrewe was en nie gespesialiseerde mediese kennis benodig het nie, het die navorsers 'n stel van 45 verskillende navrae gevind wat die meeste voorspelbaar was van die CDC-griepvoorkomsdata. Met behulp van die verhoudings wat hulle van die 2003-2007 data geleer het, het Ginsberg en kollegas hul model tydens die 2007-2008 griepseisoen getoets. Hulle het bevind dat hul prosedures inderdaad nuttige en akkurate newcasts kan maak (figuur 2.6). Hierdie uitslae is in die natuur gepubliseer en het die dekking van persverklarings ontvang. Hierdie projek, wat Google Flu-neigings genoem word, het 'n dikwels herhaalde gelykenis geword oor die krag van groot data om die wêreld te verander.
Hierdie skynbare suksesverhaal het egter uiteindelik 'n verleentheid geword. Met verloop van tyd het navorsers twee belangrike beperkings ontdek wat die Griekse neigings van die Grieks minder indrukwekkend maak as wat dit aanvanklik verskyn het. Eerstens was die prestasie van Google Grense-tendense eintlik nie veel beter as dié van 'n eenvoudige model wat die hoeveelheid griep wat gebaseer is op 'n lineêre ekstrapolasie van die twee mees onlangse metings van griepvoorkoms (Goel et al. 2010) skat. En oor 'n paar tydperke was die Griekse neigings van die Grieks eintlik erger as hierdie eenvoudige benadering (Lazer et al. 2014) . Met ander woorde, die grense van Google Grense met al sy data, masjienleer en kragtige rekenaar het nie dramaties 'n eenvoudige en makliker verstaanbare heuristiese prestasie behaal nie. Dit dui daarop dat wanneer u enige voorspelling of nuuts evalueer, dit belangrik is om te vergelyk teen 'n basislyn.
Die tweede belangrike waarskuwing oor Google Grense-tendense is dat die vermoë om die CDC griep data te voorspel, geneig is tot korttermynversaking en langtermynbederf as gevolg van wegdrywing en algoritmiese verwarring . Byvoorbeeld, tydens die 2009-uitwisseling van varkgriep het Google Grense-tendense die hoeveelheid griep oorskat, waarskynlik omdat mense geneig is om hul soekgedrag te verander in reaksie op wydverspreide vrees vir 'n wêreldwye pandemie (Cook et al. 2011; Olson et al. 2013) . Benewens hierdie korttermynprobleme, het die prestasie mettertyd verval. Om die redes vir hierdie langtermynbederf te diagnoseer, is moeilik omdat die Google-soekalgoritmes eie is, maar dit blyk dat Google in 2011 begin met verwante soekterme wanneer mense na griepsimptome soos koors en "hoes" soek (dit lyk ook of hierdie funksie is nie meer aktief nie). Om hierdie funksie by te voeg, is 'n baie redelike ding om te doen as jy 'n soekenjin bestuur, maar hierdie algoritmiese verandering het die gevolg dat meer gevorderde soektogte opgewek word, wat veroorsaak het dat griep-tendense die voorkoms van griep oorskat (Lazer et al. 2014) .
Hierdie twee voorbeelde kompliseer toekomstige nuwelinge, maar hulle doen hulle nie. Om die waarheid te sê, deur die gebruik van meer versigtige metodes, Lazer et al. (2014) en Yang, Santillana, and Kou (2015) kon hierdie twee probleme vermy. Gaan voort, verwag ek dat nouwerke studies wat groot databronne kombineer met data wat deur navorsers versamel is, maatskappye en regerings in staat stel om meer tydige en meer akkurate ramings te skep deur wesenlik met verloop van tyd herhaaldelik meting te versnel. Nowcasting-projekte soos Google Grense-tendense wys ook wat kan gebeur as groot databronne gekombineer word met meer tradisionele data wat vir die doeleindes van navorsing geskep is. Om terug te dink aan die kuns-analogie van hoofstuk 1, het noukrag die potensiaal om Duchamp-styl lesers te kombineer met Michelangelo-styl custommades om besluitnemers meer tydige en akkurate metings te gee van die hede en voorspellings van die nabye toekoms.