భవిష్యత్తులో ఊహించడం కష్టం, కానీ ప్రస్తుతం అంచనా సులభం.
రెండవ ప్రధాన వ్యూహం పరిశోధకులు పరిశీలన డేటా అంచనా తో ఉపయోగించవచ్చు. భవిష్యత్ గురించి ఊహిస్తూ ఊహించడం చాలా కష్టంగా ఉంది, బహుశా ఆ కారణంగా, ప్రస్తుతం సామాజిక పరిశోధనలో పెద్ద భాగం కాదు (ఇది జనాభా మరియు ఆర్థిక శాస్త్రం, ఆర్థిక శాస్త్రం మరియు రాజకీయ విజ్ఞాన శాస్త్రం యొక్క చిన్న మరియు ముఖ్యమైన భాగం). అయితే, ఇక్కడ "ఇప్పుడు" మరియు "భవిష్యత్" కలపడం నుండి అనే పదం యొక్క ఒక ప్రత్యేక రకమైన భవిష్యదృష్టిపై దృష్టి పెట్టాలని నేను కోరుకుంటున్నాను. భవిష్యత్ అంచనా వేయడానికి బదులుగా, ప్రస్తుత రాష్ట్రాన్ని అంచనా వేయడానికి అంచనా వేసే ఆలోచనలు ఉపయోగించుకోవడం కోసం ప్రపంచంలోని; ఇది "ప్రస్తుతం అంచనా వేస్తుంది" (Choi and Varian 2012) . ప్రపంచంలోని సకాలంలో మరియు ఖచ్చితమైన చర్యలు అవసరమయ్యే ప్రభుత్వాలకు మరియు సంస్థలకు ప్రత్యేకంగా ఉపయోగపడుతుంది.
సకాలంలో మరియు ఖచ్చితమైన కొలత యొక్క అవసరాన్ని స్పష్టంగా వివరించే ఒక వ్యవస్థ అంటువ్యాధి. ఇన్ఫ్లుఎంజా విషయంలో ("ఫ్లూ") పరిగణించండి. ప్రతి సంవత్సరం, కాలానుగుణ ఇన్ఫ్లుఎంజా ఎపిడెమిక్స్ మిలియన్ల సంఖ్యలో అనారోగ్యం మరియు ప్రపంచవ్యాప్తంగా వందల వేలమంది మరణాలకు కారణమవుతుంది. ఇంకా, ప్రతి సంవత్సరం, ఇన్ఫ్లుఎంజా యొక్క నవల రూపం మిలియన్ల మందిని చంపుతుంది. ఉదాహరణకు, 1918 ఇన్ఫ్లుఎంజా వ్యాప్తికి 50 నుంచి 100 మిలియన్ల మంది ప్రజలు (Morens and Fauci 2007) చంపబడ్డారు. ఇన్ఫ్లుఎంజా వ్యాప్తికి ట్రాక్ చేయటం మరియు సమర్థవంతంగా ప్రతిస్పందించటం వలన ప్రపంచవ్యాప్తంగా ప్రభుత్వాలు ఇన్ఫ్లుఎంజా నిఘా వ్యవస్థలను సృష్టించాయి. ఉదాహరణకు, US సెంటర్స్ ఫర్ డిసీజ్ కంట్రోల్ అండ్ ప్రివెన్షన్ (CDC) దేశవ్యాప్తంగా జాగ్రత్తగా ఎంపిక చేసిన వైద్యులు నుండి క్రమం తప్పకుండా మరియు క్రమపద్ధతిలో సమాచారాన్ని సేకరిస్తుంది. ఈ వ్యవస్థ అధిక-నాణ్యత డేటాను ఉత్పత్తి చేస్తున్నప్పటికీ, ఇది ఒక నివేదన లాగ్ను కలిగి ఉంటుంది. అంటే, వైద్యులు నుండి శుభ్రం చేయబడిన, ప్రాసెస్ చేయబడిన, మరియు ప్రచురించే డేటాకు తీసుకువెళ్ళే సమయము, CDC వ్యవస్థ రెండు వారాల క్రితం ఎంత ఫ్లూ ఉన్నట్లు అంచనా వేసింది. అయితే, ఒక అభివృద్ధి చెందుతున్న అంటువ్యాధి నిర్వహణలో, ప్రజా ఆరోగ్య అధికారులు రెండు వారాల క్రితం ఎంత ఇన్ఫ్లుఎంజా ఉందో తెలుసుకోవాలనుకోలేదు; వారు ఇప్పుడు ఎంత ఇన్ఫ్లుఎంజా ఉన్నారో తెలుసుకోవాలనుకుంటారు.
అదే సమయంలో CDC ఇన్ఫ్లుఎంజాని ట్రాక్ చేయడానికి డేటాను సేకరిస్తుంది, గూగుల్ ఇన్ఫ్లుఎంజా ప్రాబల్యం గురించి డేటాను కూడా సేకరిస్తుంది, అయితే చాలా భిన్నమైన రూపంలో. ప్రపంచ వ్యాప్తంగా ఉన్న వ్యక్తులు నిరంతరం Google కు ప్రశ్నలను పంపుతున్నారు, మరియు "ఫ్లూ నివారణలు" మరియు "ఫ్లూ లక్షణాలు" వంటి కొన్ని ప్రశ్నలు-ప్రశ్న సూచిస్తున్న వ్యక్తికి ఫ్లూ ఉంది అని సూచిస్తుంది. కానీ, ఫ్లూ ప్రాబల్యం అంచనా వేయడానికి ఈ శోధన ప్రశ్నలను ఉపయోగించడం గమ్మత్తైనది: ఫ్లూ ఉన్న ప్రతి ఒక్కరు ఫ్లూ-సంబంధిత శోధనను కలిగి ఉండరు మరియు ఫ్లూ కలిగి ఉన్న ప్రతి ఫ్లూ సంబంధిత శోధన నుండి కాదు.
జెరెమీ గిన్స్బెర్గ్ మరియు సహచరుల బృందం (2009) , గూగుల్ వద్ద కొందరు మరియు CDC లో కొందరు ఈ రెండు సమాచార వనరులను కలపడానికి ముఖ్యమైన మరియు తెలివైన ఆలోచన కలిగి ఉన్నారు. ఒక రకమైన గణాంక రసవాదం ద్వారా, పరిశోధకులు వేగవంతమైన మరియు సరికాని శోధన డేటాను నెమ్మదిగా మరియు ఖచ్చితమైన CDC డేటాతో కలిపి ఇన్ఫ్లుఎంజా ప్రాబల్యం యొక్క వేగవంతమైన మరియు ఖచ్చితమైన కొలతలను ఉత్పత్తి చేయడానికి ఉపయోగిస్తారు. దాని గురించి ఆలోచించటానికి మరో మార్గం ఏమిటంటే వారు CDC డేటాను వేగవంతం చేయడానికి శోధన డేటాను ఉపయోగించారు.
మరింత ప్రత్యేకంగా, 2003 నుండి 2007 వరకు డేటాను ఉపయోగించి, గిన్స్బెర్గ్ మరియు సహచరులు CDC డేటాలో ఇన్ఫ్లుఎంజా ప్రాబల్యం మరియు 50 మిలియన్ల వ్యత్యాసాల కోసం శోధన పరిమాణం మధ్య సంబంధాన్ని అంచనా వేశారు. ఈ ప్రక్రియ నుండి, పూర్తిగా డేటా ఆధారిత మరియు ప్రత్యేక వైద్య జ్ఞానం అవసరం లేదు, పరిశోధకులు CDC ఫ్లూ వ్యాప్తి డేటా అత్యంత ప్రిడిక్టివ్ అనిపించింది 45 వేర్వేరు ప్రశ్నలు సమితి దొరకలేదు. అప్పుడు, వారు 2003-2007 డేటా నుండి నేర్చుకున్న సంబంధాలను ఉపయోగించి, గిన్స్బెర్గ్ మరియు సహచరులు 2007-2008 ఇన్ఫ్లుఎంజా సీజన్లో వారి నమూనాను పరీక్షించారు. వారి విధానాలు నిజానికి ఉపయోగకరమైన మరియు ఖచ్చితమైన ఇప్పుడు సృష్టించగలరని కనుగొన్నారు (సంఖ్య 2.6). ఈ ఫలితాలు ప్రకృతిలో ప్రచురించబడ్డాయి మరియు ప్రెస్ కవరేజ్ పొందింది. Google ఫ్లూ ట్రెండ్స్ అని పిలవబడే ఈ ప్రాజెక్ట్-ప్రపంచాన్ని మార్చడానికి పెద్ద డేటా శక్తి గురించి తరచూ పునరావృతమయ్యేలా చేసింది.
అయితే, ఈ స్పష్టమైన విజయం కథ చివరకు ఒక ఇబ్బంది మారింది. కాలక్రమేణా, పరిశోధకులు గూగుల్ ఫ్లూ ట్రెండ్స్ ప్రారంభంలో కనిపించిన దానికంటే తక్కువ ఆకట్టుకునేలా చేసే రెండు ముఖ్యమైన పరిమితులను కనుగొన్నారు. మొదట, Google ఫ్లూ ట్రెండ్స్ యొక్క పనితీరు నిజానికి సాధారణ మోడల్ కంటే మెరుగైనది కాదు, ఇది ఫ్లూ వ్యాప్తి యొక్క రెండు ఇటీవల కొలతల నుండి ఒక లీనియర్ ఎక్స్పోపోలేషన్ పై ఆధారపడి ఫ్లూ మొత్తంని అంచనా వేసింది (Goel et al. 2010) . మరియు, కొన్ని సమయాల్లో, గూగుల్ ఫ్లూ ట్రెండ్స్ ఈ సరళమైన విధానానికంటే వాస్తవానికి అధ్వాన్నంగా ఉంది (Lazer et al. 2014) . మరో మాటలో చెప్పాలంటే, గూగుల్ ఫ్లూ ట్రెండ్స్ దాని డేటా, యంత్ర అభ్యాస మరియు శక్తివంతమైన కంప్యూటింగ్లతో సాధారణ మరియు సులభంగా అర్థం చేసుకోగలిగిన ఉపాయాన్ని అధిగమించలేదు. ఏ సూచన లేదా ఇప్పుడే విశ్లేషించేటప్పుడు, ఒక ఆధారానికి వ్యతిరేకంగా పోల్చడం ముఖ్యం అని ఇది సూచిస్తుంది.
గూగుల్ ఫ్లూ ట్రెండ్స్ గురించి రెండవ ముఖ్యమైన మినహాయింపు ఏమిటంటే, CDC ఫ్లూ డేటాను స్వల్పకాలిక వైఫల్యం మరియు దీర్ఘ-కాల క్షీణత కారణంగా డ్రిఫ్ట్ మరియు అల్గోరిథమిక్ గందరగోళం కారణంగా అంచనా వేయడం. ఉదాహరణకు, 2009 స్వైన్ ఫ్లూ వ్యాప్తి గూగుల్ ఫ్లూ ట్రెండ్స్ నాటకీయంగా, ఇన్ఫ్లుఎంజా మొత్తాన్ని అధికంగా అంచనా వేయడంతో, బహుశా ప్రజలు ప్రపంచవ్యాప్త మహమ్మారి (Cook et al. 2011; Olson et al. 2013) యొక్క విస్తృత భయానికి ప్రతిస్పందనగా వారి శోధన ప్రవర్తనను మార్చుకోవచ్చు, . ఈ స్వల్పకాలిక సమస్యలతో పాటు, పనితీరు నెమ్మదిగా క్షీణిస్తుంది. గూగుల్ సెర్చ్ ఆల్గోరిథమ్స్ యాజమాన్య ఎందుకంటే ఈ దీర్ఘకాలిక క్షయం కారణాలు కష్టం, కానీ 2011 లో Google "జ్వరం" మరియు "దగ్గు" వంటి ఫ్లూ లక్షణాలు కోసం అన్వేషణ ఉన్నప్పుడు సంబంధిత శోధన నిబంధనలు సూచిస్తూ ప్రారంభమైంది (ఇది కూడా ఈ ఫీచర్ ఇకపై చురుకుగా లేదు). ఈ లక్షణాన్ని జోడించడం అనేది మీరు ఒక శోధన ఇంజిన్ను అమలు చేస్తున్నట్లయితే పూర్తిగా చేయగల విషయం, కానీ ఈ అల్గారిథమిక్ మార్పు Google ఫ్లూ ట్రెండ్స్ను ఫ్లూ ప్రాబల్యం అధికంగా అంచనా వేయడానికి కారణమైన మరింత ఆరోగ్య సంబంధిత శోధనలను సృష్టించే ప్రభావాన్ని కలిగి ఉంది (Lazer et al. 2014) .
ఈ రెండు షరతులు భవిష్యత్తులో ఇప్పుడే ప్రయత్నాలను జటిలం చేస్తాయి, కాని వారు వాటిని డూమ్ చేయరు. నిజానికి, మరింత జాగ్రత్తగా పద్ధతులు ఉపయోగించడం ద్వారా, Lazer et al. (2014) మరియు Yang, Santillana, and Kou (2015) ఈ రెండు సమస్యలు నివారించడానికి సాధించారు. ముందుకు వెళ్ళటం, పరిశోధకులు-సేకరించిన సమాచారంతో పెద్ద సమాచార వనరులను కలపడం వంటి అధ్యయనాలు, కంపెనీలు మరియు ప్రభుత్వాలు మరింత సమయానుసారంగా మరియు మరింత ఖచ్చితమైన అంచనాలను రూపొందించడానికి సహాయపడతాయి. Google Flu Trends వంటి Nowcasting ప్రాజెక్టులు కూడా పరిశోధన కోసం ఉద్దేశించిన మరింత సంప్రదాయ డేటాతో పెద్ద డేటా మూలాలను కలిపి ఉంటే ఏమి జరుగుతుందో చూపుతుంది. అధ్యాయం 1 యొక్క కళా సారూప్యతకు తిరిగి ఆలోచిస్తూ, ప్రస్తుత కాస్కాస్టింగ్, డచాంప్-శైలి రీడైమడ్లను మిచెలాంగెలో-శైలి కస్టమడ్లతో మిళితం చేసుకొని, సమీప భవిష్యత్ యొక్క ప్రస్తుత మరియు అంచనాల యొక్క మరింత సకాలంలో మరియు మరింత ఖచ్చితమైన కొలతలతో నిర్ణేధికారులను అందించడానికి వీలు కల్పిస్తుంది.