డిజిటల్ జాడలు మీ సర్వే లింకింగ్ అన్ని సమయాల్లో ప్రతి ఒక్కరూ మీ ప్రశ్నలను అడగడం లాంటివే.
నమూనా అధ్యయనాలు మరియు జనాభా గణనలు: అడుగుతూ సాధారణంగా రెండు ప్రధాన కేతగిరీలు వస్తుంది. మీరు ప్రజలు ఒక చిన్న సంఖ్య ఆక్సెస్ పేరు నమూనా సర్వేలు, అనువైన సకాలంలో, మరియు సాపేక్షంగా చౌకగా ఉంటుంది. అయితే, నమూనా సర్వేలు, వారు ఒక నమూనా ఆధారంగా ఎందుకంటే, తరచుగా వారి లొ పరిమితమైనవి; ఒక నమూనా సర్వే, ఇది నిర్దిష్ట భౌగోళిక ప్రాంతాల్లో గురించి లేదా నిర్దిష్ట జనాభా సమూహాలు అంచనాలు కష్టపడి తరచుగా ఉంది. జనాభా గణనలను ఇతర న, జనాభాలో అందరికీ ఇంటర్వ్యూ ప్రయత్నం. వారు గొప్ప స్పష్టత కలిగి, కానీ వారు సకాలంలో కాదు (వారు వంటి ప్రతి 10 సంవత్సరాల, ఒక స్థిర షెడ్యూల్లో జరిగే) సాధారణంగా ఖరీదైన దృష్టి సంకుచితమైన (వారు మాత్రమే ప్రశ్నలు ఒక చిన్న సంఖ్య ఉన్నాయి), మరియు (Kish 1979) . పరిశోధకులు నమూనా అధ్యయనాలు మరియు జనాభా గణనలు యొక్క ఉత్తమ లక్షణాలు కలవచ్చు ఉంటే ఇప్పుడు ఊహించుకోండి; పరిశోధకులు ప్రతి రోజు ప్రతి ఒక్కరూ ప్రతి ప్రశ్న అడగండి కాలేదు ఊహించుకోవాలి.
సహజంగానే, ఈ నిరంతర, అంతటా, ఎప్పుడూ సర్వే సామాజిక శాస్త్రం ఫాంటసీ యొక్క రకం. కానీ, అది మేము అనేక మంది నుండి డిజిటల్ జాడలు తో ప్రజలు ఒక చిన్న సంఖ్య నుండి సర్వే ప్రశ్నలు కలపడం ద్వారా ఈ ఇంచుమించుగా చేయగలుగుతుంది అని కనిపిస్తుంది. నేను కలయిక ఈ రకం అడుగుతూ విస్తరిస్తారు కాల్. బాగా చేస్తే, అది మాకు (చిన్న భౌగోళిక ప్రాంతాలకు) మరింత స్థానిక అంచనా ప్రకారము, మరింత పొడి (నిర్దిష్ట జనాభా సమూహాలు కోసం), మరియు మరింత సకాలంలో అందిస్తుంది సహాయం కాలేదు.
విస్తరిస్తారు అడుగుతున్నప్పుడు ఒక ఉదాహరణ పేద దేశాలలో గైడ్ అభివృద్ధి సహాయం చేస్తానని డేటా సేకరించడానికి కోరుకున్న జాషువా Blumenstock, పని నుండి వస్తుంది. మరింత ప్రత్యేకంగా, Blumenstock సంపద మరియు శ్రేయస్సు సర్వేలో వశ్యత మరియు పౌనఃపున్యం ఒక జనాభా లెక్కల పరిపూర్ణతను కలిపి ఆ కొలిచే ఒక వ్యవస్థ సృష్టించడానికి కోరుకున్నారు (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . నిజానికి, నేను ఇప్పటికే Blumenstock యొక్క పని క్లుప్తంగా చాప్టర్ 1 లో వివరించిన చేసిన.
ప్రారంభించడానికి, Blumenstock ర్వాండా అతిపెద్ద మొబైల్ ఫోన్ సేవా భాగస్వామిగా. సంస్థ అతనికి anonymized లావాదేవి రికార్డులు వంటి ప్రారంభ సమయం, వ్యవధి మరియు కాలర్ మరియు రిసీవర్ యొక్క సుమారు భౌగోళిక స్థానాన్ని 2005 మరియు 2009 లాగ్లను ప్రతి కాల్ మరియు టెక్స్ట్ సందేశం గురించి సమాచారాన్ని కలిగి నుండి ప్రవర్తనను కవర్ 1.5 మిలియన్ వినియోగదారుల నుండి అందించింది. మనకు గణాంకాల సమస్యల గురించి మాట్లాడటం మొదలు ముందు, ఇది ఈ మొదటి అడుగు కష్టతరమైన ఒకటి కావచ్చు ఎత్తి చూపారు విలువ. చాప్టర్ 2 లో వివరించిన విధంగా, చాలా డిజిటల్ ట్రేస్ డేటా పరిశోధకులు అసాధ్యమైన ఉంది. మరియు, అనేక కంపెనీల ప్రైవేటు ఎందుకంటే వారి డేటాను పంచుకోవడానికి justifiably సందేహించారు; వారి వినియోగదారులకు బహుశా వారి రికార్డులు షేర్డ్ ఇన్ చేయబడుతుంది పరిశోధకులు పెద్దమొత్తంలో-తో ఊహించలేదు ఉంది. ఈ సందర్భంలో, పరిశోధకులు సమాచారాన్ని అనామకంగా జాగ్రత్తగా దశలను పట్టింది మరియు వారి పని ఒక మూడవ పార్టీ (అంటే, వారి IRB) పర్యవేక్షిస్తుంది జరిగినది. కానీ, ఈ ప్రయత్నాలు ఉన్నప్పటికీ, ఈ డేటా బహుశా ఇప్పటికీ గుర్తించగలిగే మరియు వారు అవకాశం సున్నితమైన సమాచారాన్ని కలిగి (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . నేను చాప్టర్ 6 లో ఈ నైతిక ప్రశ్నకు తిరిగి పొందుతారు.
Blumenstock సంపద మరియు శ్రేయస్సు కొలిచే ఆసక్తి అని గుర్తు. కానీ, ఈ లక్షణాలు కాల్ రికార్డులు నేరుగా కాదు. ఇతర మాటలలో, ఈ కాల్ రికార్డులు ఈ పరిశోధన చాప్టర్ 2 లో సవివరంగా వివరించడం జరిగింది డిజిటల్ జాడలు సాధారణ లక్షణం కోసం అసంపూర్తిగా ఉన్నాయి కానీ, అది కాల్ రికార్డులు బహుశా సంపద మరియు శ్రేయస్సు గురించి కొంత సమాచారాన్ని కలిగి అని అవకాశం ఉంది. కాబట్టి, Blumenstock ప్రశ్న కావచ్చు అడుగుతూ ఒక మార్గం: వారి డిజిటల్ ట్రేస్ డేటా ఆధారంగా ఒక సర్వే ఎవరైనా స్పందించడం ఎలా అంచనా సాధ్యమేనా? అలా అయితే, అప్పుడు కొన్ని అడగడం ద్వారా మేము ప్రతి ఒక్కరూ సమాధానాలు అంచనా చేయవచ్చు.
ఆమోద ఈ అంచనా వేయడానికి, సైన్స్ కిగాలీ ఇన్స్టిట్యూట్ అండ్ టెక్నాలజీ నుండి Blumenstock మరియు పరిశోధన సహాయకులు దాదాపు వెయ్యి మొబైల్ ఫోన్ వినియోగదారులు నమూనా అనే. పరిశోధకులు పాల్గొనే ప్రాజెక్టు లక్ష్యాలను వివరించారు కాల్ రికార్డులు సర్వే స్పందనలు లింక్ వారి అనుమతి అడిగారు, ఆపై వాటిని అటువంటి "మీరు ఒక స్వంతమా, వారి సంపద మరియు శ్రేయస్సు కొలిచేందుకు ప్రశ్నల పరంపరను కోరారు రేడియో? "" మీరు ఒక సైకిల్ స్వంతం (పాక్షిక జాబితా కోసం Figure 3.11 చూడండి) డు? ". సర్వేలో అన్ని పాల్గొనే ఆర్థికంగా నష్టపరిహారం కోరుతారు చేశారు.
ఫీచర్ ఇంజనీరింగ్ పర్యవేక్షక అభ్యాసంలో తరువాత: తదుపరి, Blumenstock ఒక రెండు దశల ప్రక్రియ డేటా శాస్త్రంలో సాధారణంగా ఉపయోగిస్తారు. మొదటి, ఫీచర్ ఇంజనీరింగ్ దశలో, ఇంటర్వ్యూ చేసిన ప్రతి ఒక్కరికీ, Blumenstock కాల్ రికార్డులు ప్రతి వ్యక్తి గురించి లక్షణాల ఒక సెట్ను మార్చబడ్డాయి; డేటా శాస్త్రవేత్తలు ప్రతి వ్యక్తి కోసం, "లక్షణాలు" ఈ లక్షణాలు కాల్ మరియు సామాజిక శాస్త్రవేత్తలు వాటిని అంటారని ఉండవచ్చు "వేరియబుల్స్." ఉదాహరణకు, Blumenstock సూచించే తో దినాలు మొత్తం లెక్కిస్తే ప్రత్యేకమైన ప్రజల సంఖ్య ఒక వ్యక్తి తో సంబంధం ఉంది, మొత్తం డబ్బు అందువలన న ప్రసారం ఖర్చు, మరియు. దూషిస్తూ మంచి లక్షణం ఇంజనీరింగ్ పరిశోధనా సెట్టింగ్ జ్ఞానం అవసరమవుతుంది. ఉదాహరణకు, అది (మేము అంతర్జాతీయంగా పిలుపునిచ్చిన ప్రజలు సంపద ఉంటుందని ఆశించవచ్చు) దేశీయ మరియు అంతర్జాతీయ కాల్స్ మధ్య తేడాను ముఖ్యమైన ఉంటే, అప్పుడు ఈ ఫీచర్ ఇంజనీరింగ్ అడుగు వద్ద జరగాలి. రువాండా యొక్క అవగాహన తో ఒక పరిశోధకుడు ఈ ఫీచర్ను జోడించారు, మరియు అప్పుడు మోడల్ ఊహా పనితీరు నష్టపోవచ్చు.
తరువాత, పర్యవేక్షక అభ్యాసంలో దశలో, Blumenstock ఒక గణాంక నమూనా వారి లక్షణాలు ఆధారంగా ప్రతి వ్యక్తి కోసం సర్వే స్పందన అంచనా నిర్మించారు. ఈ సందర్భంలో, Blumenstock 10 రెట్లు క్రాస్ ధ్రువీకరణ లాజిస్టిక్ రిగ్రెషన్ ఉపయోగిస్తారు, అయితే ఇతర గణాంక లేదా యంత్ర అభ్యాస విధానాలు వివిధ ఉపయోగించారు కాలేదు.
కనుక ఇది ఎంతవరకు పని చేశారు? కాల్ రికార్డులు నుండి ఉద్భవించింది లక్షణాలు ఉపయోగించి "మీరు ఒక రేడియో సొంతం?" వంటి ప్రశ్నలకు సర్వే సమాధానాలు అంచనా చేయవచ్చు Blumenstock "మీరు ఒక సైకిల్ సొంతం?"? వంటి. అంచనాల ఖచ్చితత్వంపై కొన్ని లక్షణాలు (మూర్తి 3.11) కోసం ఎక్కువగా ఉన్నాయి. కానీ, అది ఒక సాధారణ ప్రత్యామ్నాయ వ్యతిరేకంగా క్లిష్టమైన ప్రిడిక్షన్ పద్ధతి సరిపోల్చండి ఎప్పుడూ ముఖ్యం. ఈ సందర్భంలో, ఒక సాధారణ ప్రత్యామ్నాయ ఒక్కరూ అత్యంత సాధారణ సమాధానం ఇస్తుంది అంచనా ఉంది. ఉదాహరణకు, 97,3% Blumenstock ఒక్కరూ అతను అతని మరింత క్లిష్టమైన ప్రక్రియ (97.6% ఖచ్చితత్వం) ప్రదర్శన ఆశ్చర్యకరంగా పోలి ఉంది 97,3%, కచ్చితత్వంతో వచ్చేది ఒక రేడియో సొంతం రిపోర్ట్ అని ఊహించినట్టుగా కనుక ఒక రేడియో సొంతం నివేదించారు. ఇతర మాటలలో, అన్ని ఫాన్సీ డేటా మరియు మోడలింగ్ 97.6% కు 97,3% నుండి ప్రిడిక్షన్ యొక్క ఖచ్చితత్వం పెరిగింది. అయితే, ఇటువంటి ఇతర ప్రశ్నలు, "మీరు ఒక సైకిల్ సొంతం?", అంచనాలు 54.4% నుండి 67.6% కు మెరుగుపర్చబడింది. మరింత సాధారణంగా, మూర్తి 3.12 ప్రదర్శనలు కొన్ని లక్షణాలు కోసం Blumenstock కేవలం సాధారణ ఆధార సూచన ద్వారా మించి ఎక్కువ మార్పు లేదు, కానీ ఇతర విశిష్ట లక్షణాలకు కొంత మెరుగుదల ఉందని.
ఈ సమయంలో మీరు ఈ ఫలితాలు ఒక బిట్ నిరాశపరిచింది ఉంటాయి, కానీ కేవలం ఒక సంవత్సరం తరువాత, Blumenstock మరియు రెండు సహచరులు-గాబ్రియేల్ Cadamuro మరియు రాబర్ట్ ఆన్ ప్రచురితమైన గణనీయంగా మెరుగైన ఫలితాలు సైన్సులో కాగితం ఆలోచిస్తూ ఉండవచ్చు (Blumenstock, Cadamuro, and On 2015) . అభివృద్ధి కోసం రెండు ప్రధాన సాంకేతిక కారణాలు ఉన్నాయి: 2) బదులుగా (వ్యక్తిగత సర్వే ప్రశ్నలకు ప్రతిస్పందనలు ప్రతిపాదించే ప్రయత్నం ఉదా ఎక్కువ 1) వారు మరింత అధునాతన పద్ధతులను ఉపయోగిస్తారు (ఉదా, ఇంజనీరింగ్ మరియు మరింత ఆధునిక యంత్ర అభ్యాస మోడల్ చూపించిన ఒక కొత్త విధానం) మరియు, "మీరు ఒక రేడియో సొంతం?"), వారు ఒక మిశ్రమ సంపదను ఇండెక్స్ ప్రతిపాదించే ప్రయత్నం.
Blumenstock మరియు సహచరులు రెండు విధాలుగా వారి విధానం యొక్క పనితీరు ప్రదర్శించింది. మొదటి, వారు తమ నమూనాలో ప్రజల కొరకు, వారు కాల్ రికార్డులు (మూర్తి 3.14) నుండి వారి సంపద అంచనా యొక్క ఒక అందమైన మంచి ఉద్యోగం చేయగల దొరకలేదు. రెండవది, మరియు మరింత ముఖ్యంగా, Blumenstock మరియు సహచరులు వారి విధానం ర్వాండా సంపద యొక్క భౌగోళిక పంపిణీ అధిక నాణ్యత అంచనాలు ఉత్పత్తి చూపింది. మరింత ప్రత్యేకంగా, వారు కాల్ రికార్డులు అన్ని 1.5 మిలియన్ల మంది సంపద అంచనా 1,000 మంది తమ నమూనాలో గురిపెట్టిన ఇది వారి యంత్ర అభ్యాస మోడల్, ఉపయోగించారు. ఇంకా, కాల్ డేటా ఎంబెడ్ భౌగోళిక డేటా (కాల్ డేటా ప్రతి కాల్ కోసం సమీప సెల్ టవర్ స్థానాన్ని కలిగి రీకాల్), పరిశోధకులు ప్రతి వ్యక్తి యొక్క నివాసం యొక్క ఉజ్జాయింపు స్థానం అంచనా పోయారు. కలిసి ఈ రెండు అంచనాలు పుటింగ్, పరిశోధన చాలా జరిమానా ప్రాదేశిక ఆకృతి వద్ద చందాదారుల సంపద యొక్క భౌగోళిక పంపిణీ యొక్క అంచనాలో అందిస్తే. ఉదాహరణకు, వారు ర్వాండా యొక్క 2148 కణాలు (దేశంలో చిన్న పరిపాలనా భాగం) లోని సగటు సంపదతో అంచనా కాలేదు. ఈ అంచనా సంపద విలువలు అవి తనిఖీ కష్టం కాబట్టి అణువు ఉన్నాయి. కాబట్టి, పరిశోధకులు ర్వాండా యొక్క 30 జిల్లాలలో సగటు సంపద అంచనాలు ఉత్పత్తి వారి ఫలితాలు సమగ్రం. ఈ జిల్లా స్థాయి అంచనాలు బలంగా ఒక బంగారు ప్రమాణం సంప్రదాయ సర్వే అంచనాల సంబంధించినవి, రువాండా జనాభా వివరాలు మరియు ఆరోగ్య సర్వే (మూర్తి 3.14). రెండు మూలాల నుండి అంచనాల పోలి ఉన్నప్పటికీ, Blumenstock మరియు సహచరులు నుండి అంచనాల సార్లు 50 చౌకగా మరియు 10 సార్లు వేగంగా (ఖర్చు వేరియబుల్ ఖర్చులు పరంగా కొలిచినప్పుడు) ఉన్నాయి. ధర ఈ నాటకీయ క్షీణత కాకుండా ప్రతి కొన్ని సంవత్సరాల వంటి నడుస్తున్నాయి ఆ సర్వేలు పెద్ద డిజిటల్ ట్రేస్ డేటా కలిపి చిన్న సర్వేను యొక్క హైబ్రిడ్ ప్రతి నెల అమలు కాలేదు జనాభా మరియు ఆరోగ్యం కోసం ప్రమాణం అర్థం.
ముగింపు లో, Blumenstock బంగారం ప్రామాణిక సర్వే అంచనాలు పోల్చదగిన అంచనాలు ఉత్పత్తి విధానం కలిపి డిజిటల్ గుర్తింపు డేటాను సర్వే డేటా అడుగుతూ విస్తరించడం కూడా జరిగింది. ఈ ప్రత్యేక ఉదాహరణే విస్తరిస్తారు అడుగుతూ మరియు సాంప్రదాయ సర్వే పద్ధతుల మధ్య విక్రయాల్లో కొన్ని స్పష్టం చేసింది. మొదటి, విస్తరిస్తారు అడుగుతూ అంచనాలు మరింత సకాలంలో గణనీయంగా తక్కువ ధర, మరియు మరింత పొడి ఉన్నాయి. కానీ, మరోవైపు, ఈ సమయంలో అక్కడ కాదు, విస్తరిస్తారు అడుగుతున్నప్పుడు ఈ రకమైన కోసం ఒక బలమైన సైద్ధాంతిక ఆధారం. ఇది పని మరియు అది లేదు ఉన్నప్పుడు ఉన్నప్పుడు అంటే, ఈ ఒక ఉదాహరణ చూపించడానికి లేదు. ఇంకా, విస్తరిస్తారు అడుగుతూ విధానం ఇంకా దాని అంచనాలు చుట్టూ అనిశ్చితి పరిగణించడం మంచి మార్గాలు ఉన్నాయి లేదు. అయితే, విస్తరిస్తారు అడుగుతూ గణాంకాలు మోడల్ ఆధారిత పోస్ట్ స్తరీకరణ మూడు పెద్ద ప్రాంతాలకు సత్సంభందాలు కలిగి (Little 1993) , imputation (Rubin 2004) , మరియు చిన్న-ఎరియా అంచనాలో (Rao and Molina 2015) -మరియు నేను పురోగతి అని ఆశించే వేగవంతమైన ఉంటుంది.
Amplified అడుగుతూ మీ నిర్దిష్ట పరిస్థితికి అనుగుణంగా ఒక ప్రాథమిక వంటకం అనుసరిస్తుంది. రెండు పదార్థాలు మరియు రెండు దశలు ఉన్నాయి. రెండు పదార్థాలు 1) విస్తృత కానీ సన్నని (అంటే ఒక డిజిటల్ ట్రేస్ డేటాసెట్ ఉన్నాయి, మీరు ప్రతి వ్యక్తులు గురించి అవసరమైన అనేక మంది కానీ సమాచారం) మరియు 2) ఇరుకైన కానీ మందపాటి (అంటే ఒక సర్వే ఉంది, ఇది ఉంది కొద్ది మంది మాత్రమే, కానీ మీరు ఆ ప్రజలు గురించి అవసరమైన సమాచారం) ఉంది. అప్పుడు, రెండు దశలు ఉన్నాయి. మొదటి, రెండు డేటా మూలాల ప్రజల కొరకు, సర్వే సమాధానాలు అంచనా డిజిటల్ ట్రేస్ డేటా ఉపయోగించే ఒక యంత్ర అభ్యాస మోడల్ నిర్మించడానికి. తదుపరి, డిజిటల్ ట్రేస్ డేటా ప్రతిఒక్కరూ సర్వే సమాధానాలు నేరారోపణ ఆ యంత్ర అభ్యాస నమూనాను ఉపయోగిస్తాయి. అందువలన, మీరు, మంది అడగాలని వారి సమాధానం అంచనా వేసేందుకు ఉపయోగిస్తారు ఉండవచ్చని ఆ ప్రజలు నుండి డిజిటల్ ట్రేస్ డేటా కోసం చూడటానికి కావలసిన కొన్ని ప్రశ్న ఉంది.
సమస్య Blumenstock యొక్క మొదటి మరియు రెండవ ప్రయత్నం పోల్చడం పరిశోధన అధ్యయనానికి మూడో యుగంలో విధానాలతో రెండవ కాలం పరివర్తనం గురించి ఒక ముఖ్యమైన పాఠం వివరిస్తుంది: ప్రారంభంలో ముగింపు కాదు. అంటే, అనేక సార్లు, మొదటి పద్ధతి ఉత్తమ వుండదు, కానీ పరిశోధకులు పని నిరంతర ఉంటే, ఉత్తమంగా పొందవచ్చు. సర్వసాధారణంగా, డిజిటల్ యుగంలో సామాజిక పరిశోధన కొత్త విధానాలను మూల్యాంకనం ఉన్నప్పుడు, అది ముఖ్యం రెండు విభిన్న అంచనాలు చేయడమే: 1) ఇప్పుడు ఈ పని ఎలా బాగా మరియు 2) ఎంతవరకు మీరు ఈ డేటాను ప్రకృతి దృశ్యం వంటి భవిష్యత్తులో పని అనుకుంటాను మార్పులు మరియు పరిశోధకులు సమస్య మరింత దృష్టిని అంకితం. పరిశోధకులు పరిశోధనలో మొదటి రకం (ఎంత మంచి పరిశోధన యొక్క ఈ ప్రత్యేక భాగం) చేయడానికి శిక్షణ చెబుతున్నప్పటికీ, రెండవ ఎక్కువ ముఖ్యం.