సుసంపన్నంగా అడుగుతూ, సర్వే డేటా కొన్ని పెద్ద కొలతలు కలిగి కానీ ఒక పెద్ద డేటా మూలం చుట్టూ సందర్భం నిర్మించటానికి ఇతరులు.
సర్వే డేటా మరియు పెద్ద డేటా మూలాలను మిళితం చేయడానికి ఒక మార్గం నేను ప్రోత్సహించే అభ్యర్థనను పిలిచే ఒక ప్రక్రియ. సుసంపన్నమైన అడగడం లో, ఒక పెద్ద డేటా సోర్స్లో కొన్ని ముఖ్యమైన కొలతలు ఉన్నాయి కానీ ఇతర కొలతలు ఉండవు, కాబట్టి పరిశోధకుడు ఈ సర్వేలో లేని కొలతలను ఒక సర్వేలో సేకరిస్తాడు మరియు ఆ తర్వాత రెండు డేటా సోర్సులను కలుపుతాడు. సరళమైన అడగడం యొక్క ఒక ఉదాహరణ, Burke and Kraut (2014) ద్వారా ఫేస్బుక్లో ఇంటరాక్ట్ Burke and Kraut (2014) సెక్షన్ 3.2 లో వివరించిన స్నేహం బలం పెరుగుతుందా అనే దానిపై అధ్యయనం. ఆ సందర్భంలో, బుర్కే మరియు క్రాట్ ఫేస్బుక్ లాగ్ డేటాతో సర్వే డేటాను కలుపుతారు.
బుర్కే మరియు క్రాట్ పనిచేసే పని, అయితే, ఇద్దరు పెద్ద సమస్యలను ఎదుర్కోవలసి రాలేదు. మొదటిది, వ్యక్తిగత స్థాయి డేటా సమితులను కలిపి వాస్తవానికి రికార్డింగ్ అనుసంధానం అని పిలవబడే ప్రక్రియ, ఒక డేటాసెట్లో సరైన రికార్డు సరైన రికార్డుతో సరిపోలని నిర్ధారించడానికి డేటా రంగాల్లో ఏకైక గుర్తింపుదారుడు లేకుంటే అది కష్టమవుతుంది ఇతర డేటాసెట్లో. సుసంపన్నమైన అడగడంతో రెండవ ప్రధాన సమస్య ఏమిటంటే, పరిశోధకులు అంచనా వేయడానికి పెద్ద డేటా మూలం యొక్క నాణ్యత చాలా కష్టమవుతుంది, ఎందుకంటే డేటా రూపొందించబడిన ప్రక్రియ యాజమాన్యంగా ఉంటుంది మరియు అధ్యాయం 2 లో వివరించిన అనేక సమస్యలకు అనుమానాస్పదంగా ఉంటుంది. మరో మాటలో చెప్పాలంటే, సమగ్రమైన అడ్రస్ యొక్క బ్లాక్-బాక్స్ డేటా మూలాలకు సర్వేలను తప్పుగా ఎదుర్కోవడంలో తరచుగా అడగడం జరుగుతుంది. అయినప్పటికీ, ఈ సమస్యలు ఉన్నప్పటికీ, అమెరికా సంయుక్త రాష్ట్రాల్లోని ఓటింగ్ విధానాలపై వారి పరిశోధనలో స్టెఫెన్ అన్సోలబెహేర్ మరియు ఎటాన్ హెర్ష్ (2012) చేత నిరూపించబడింది, ముఖ్యమైన పరిశోధనను నిర్వహించడం కోసం సమృద్ధమైన అభ్యర్థనను ఉపయోగించవచ్చు.
రాజకీయ విజ్ఞానంలో విస్తృతమైన పరిశోధన కోసం ఓటరు ఓటు వేశారు, మరియు గతంలో, ఎవరు పరిశోధకులు అడిగారు, ఎవరు ఓట్లు మరియు సాధారణంగా సర్వే డేటా విశ్లేషణపై ఆధారపడి ఉన్నారు. ఏది ఏమైనప్పటికీ, యునైటెడ్ స్టేట్స్ లో ఓటింగ్, ప్రతి పౌరుడు ఓటు వేసాడా అనే విషయాన్ని రికార్డు చేస్తూ అసాధారణమైన ప్రవర్తన. (ప్రతి పౌరుడు ఓటు చేసినవారిని ప్రభుత్వం రికార్డు చేయలేదు). అనేక సంవత్సరాలుగా, ఈ ప్రభుత్వ ఓటింగ్ రికార్డులు దేశవ్యాప్తంగా వివిధ స్థానిక ప్రభుత్వ కార్యాలయాల్లో చెల్లాచెదురుగా కాగితపు రూపాల్లో అందుబాటులో ఉన్నాయి. ఇది రాజకీయ శాస్త్రవేత్తలకు ఓటర్లు పూర్తి చిత్రాన్ని కలిగి ఉండటం మరియు వారి అసలు ఓటింగ్ ప్రవర్తన (Ansolabehere and Hersh 2012) తో ఓటింగ్ గురించి ప్రజలు ఏమి చెబుతున్నారో పోల్చడానికి ఇది చాలా కష్టమైంది కానీ అసాధ్యం కాదు.
కానీ ఈ ఓటింగ్ రికార్డులు ఇప్పుడు డిజిటైజ్ చెయ్యబడ్డాయి, మరియు అన్ని అమెరికన్లు ఓటింగ్ ప్రవర్తనను కలిగి ఉన్న విస్తృతమైన మాస్టర్ ఓటింగ్ ఫైళ్లను ఉత్పత్తి చేయడానికి అనేక ప్రైవేటు కంపెనీలు క్రమపద్ధతిలో సేకరించారు మరియు విలీనం చేశారు. అన్సోలాబేర్ మరియు హెర్షీ ఈ సంస్థలలో ఒకదానితో-కాటలిస్ట్ LCC- వారి ఓటర్ ఫైల్ ను ఓటర్లు మెరుగుపరచడానికి సహాయం చేయడానికి వారి మాస్టర్ ఓటింగ్ ఫైల్ను ఉపయోగించుకోవటానికి పాలుపంచుకున్నారు. డేటా సేకరణ మరియు సంయోగీకరణలో గణనీయమైన వనరులను పెట్టుబడులు పెట్టే ఒక కంపెనీచే సేకరించబడిన మరియు నిర్వహించబడుతున్న డిజిటల్ రికార్డులపై వారి అధ్యయనం ఆధారపడటం వలన, కంపెనీల సహాయం లేకుండా మరియు అనలాగ్ రికార్డులను ఉపయోగించకుండా మునుపటి ప్రయత్నాలకు ఇది అనేక ప్రయోజనాలను అందించింది.
చాప్టర్ 2 లోని పెద్ద డేటా మూలాల మాదిరిగా, కాటలిస్ట్ మాస్టర్ ఫైల్ చాలా జనాభా, ప్రవర్తన మరియు ప్రవర్తనా సమాచారాన్ని అన్సోల్బెహెర్ మరియు హెర్ష్ అవసరాలను కలిగి లేదు. వాస్తవానికి, వారు సర్వేల్లో చెల్లుబాటు అయ్యే ఓటింగ్ ప్రవర్తనతో (అంటే, కాటలిస్ట్ డేటాబేస్లో ఉన్న సమాచారంతో) నివేదించిన ఓటింగ్ ప్రవర్తనను పోల్చడంలో ప్రత్యేకంగా ఆసక్తి చూపించారు. కాబట్టి అన్సోలాబేర్ మరియు హెర్ష్ ఈ అధ్యాయంలో పేర్కొన్న ఒక పెద్ద సాంఘిక సర్వే, CCES, అని వారు కోరుకున్న సమాచారం సేకరించారు. అప్పుడు వారు వారి డేటాను కాటలిస్ట్కు అందించారు, మరియు కాటలిస్ట్ వాటిని విలీనం చేయబడిన డేటాను తిరిగి ఇచ్చాడు, ఇందులో చెల్లుబాటు అయ్యే ఓటింగ్ ప్రవర్తన (కాటలిస్ట్ నుండి), స్వయంగా నివేదించిన ఓటింగ్ ప్రవర్తన (CCES నుండి) మరియు ప్రతినిధుల యొక్క జనాభా మరియు వైఖరులు (CCES నుండి) 3.13). వేరొక మాటలో చెప్పాలంటే, అన్సోలాబేర్ మరియు హెర్ష్ ఓటింగ్ రికార్డు డేటాను సర్వే డేటాతో కలపడం ద్వారా, డేటా సోర్స్తో వ్యక్తిగతంగా సాధ్యం కాని పరిశోధన చేయలేరు.
వారి మిళిత డేటా ఫైల్తో, అన్సోలాబేర్ మరియు హెర్ష్ మూడు ముఖ్యమైన నిర్ణయాలు తీసుకున్నారు. మొదట, ఓటింగ్ ఓవర్-రిపోర్టింగ్ ప్రబలంగా ఉంది: నోవోటార్లలో దాదాపు సగం ఓటు వేసింది, మరియు ఎవరైనా ఓటు వేసినట్లు ఉంటే, వారు నిజానికి ఓటు వేసిన 80% అవకాశం మాత్రమే ఉంది. రెండవది, ఓవర్ రిపోర్టింగ్ యాదృచ్ఛికం కాదు: అధిక-ఆదాయం, బాగా విద్యావంతులైన, ప్రజా వ్యవహారాలలో నిమగ్నమై ఉన్న పక్షపాతాలు మధ్య సర్వసాధారణమైనది. మరో మాటలో చెప్పాలంటే, ఓట్ చేయడానికి ఎక్కువగా అవకాశం ఉన్న వ్యక్తులు కూడా ఓటింగ్ గురించి పడుతున్నారు. మూడవది, మరియు అత్యంత విమర్శాత్మకంగా, ఓవర్-రిపోర్టింగ్ యొక్క క్రమబద్ధమైన స్వభావం కారణంగా, ఓటర్లు మరియు నావోటర్లు మధ్య అసమానతలు కేవలం సర్వేల నుండి మాత్రమే కనిపిస్తాయి. ఉదాహరణకు, బ్యాచులర్ డిగ్రీ కలిగిన వారు 22 శాతం పాయింట్లను ఎక్కువగా ఓటింగ్ చేయడాన్ని సూచిస్తారు, కానీ వాస్తవానికి ఓటు వేయడానికి మాత్రమే 10 శాతం పాయింట్లు ఎక్కువ. ఓటు వేయడానికి ముందు ఉన్న వనరు ఆధారిత సిద్ధాంతాలను ఓటు వేయడానికి ముందుగా ఎవరు అంచనా వేస్తారో అంచనా వేయడం (ఇది గతంలో ఉపయోగించిన డేటా ఇది) గతంలో ఆశ్చర్యకరంగా ఉండవచ్చు. అందువల్ల, Ansolabehere and Hersh (2012) యొక్క అనుభావిక అన్వేషణ కొత్త సిద్ధాంతాల కోసం ఓటును అర్థం చేసుకోవడానికి మరియు అంచనా వేయడానికి పిలుపునిచ్చింది.
కానీ ఈ ఫలితాలను మేము ఎంతవరకు నమ్మాలి? గుర్తుంచుకోండి, ఈ ఫలితాలు దోష-అపాయాన్ని నల్ల-బాక్స్ డేటాకు తెలియని లోపంతో సంబంధం కలిగి ఉంటాయి. మరింత ప్రత్యేకంగా, ఫలితాలు రెండు కీ దశల్లో కీలకం: (1) ఖచ్చితమైన మాస్టర్ డేటాఫైల్ మరియు (2) దాని మాస్టర్ డేటాఫైల్కు సర్వే డేటా లింక్ Catalyst యొక్క సామర్థ్యాన్ని ఉత్పత్తి చేయడానికి అనేక వేర్వేరు డేటా మూలాల మిళితం Catalist సామర్థ్యం. ఈ దశల్లో ప్రతి ఒక్కటి కష్టం, మరియు ఏ దశలో అయినా లోపాలు తప్పు పరిశోధకులను పరిశోధకులు దారితీస్తుంది. ఏదేమైనా, డేటా ప్రాసెసింగ్ మరియు అనుసంధానం రెండూ కూడా కాటలిస్ట్ను ఒక కంపెనీగా కొనసాగించటానికి కీలకమైనవి, అందువల్ల ఈ సమస్యలను పరిష్కరించడంలో వనరులను పెట్టుబడి పెట్టవచ్చు, తరచూ ఎటువంటి విద్యా పరిశోధకుడు సరిపోలలేరు. వారి కాగితం లో, Ansolabehere మరియు Hersh వాటిలో కొన్ని యాజమాన్య మరియు ఈ తనిఖీలను బ్లాక్ బాక్స్ పెద్ద డేటా సర్వే డేటా లింక్ ఇతర పరిశోధకులు ఉపయోగకరంగా ఉండవచ్చు ఈ రెండు దశల ఫలితాలు తనిఖీ అనేక దశలను వెళ్ళి మూలాలు.
సాధారణ పాఠాలు పరిశోధకులు ఈ అధ్యయనం నుండి ఏమి డ్రా చేయవచ్చు? మొదట, పెద్ద సమాచార వనరులను సర్వే డేటాతో మరియు పెద్ద సమాచార వనరులతో సర్వే డేటాను మెరుగుపరచడం నుండి రెండు అద్భుతమైన విలువ ఉంది (మీరు ఈ అధ్యయనం ఏ విధంగానైనా చూడవచ్చు). ఈ రెండు డేటా మూలాల కలపడం ద్వారా, పరిశోధకులు వ్యక్తిగతంగా గాని అసాధ్యం అని ఏదో చేయగలిగారు. రెండవ సాధారణ పాఠం కాటలిస్ట్ నుండి డేటా వంటి సమగ్ర, వాణిజ్య సమాచార మూలాలు "గ్రౌండ్ సత్యంగా" పరిగణించబడకపోయినా, కొన్ని సందర్భాల్లో అవి ఉపయోగకరంగా ఉంటాయి. స్కెప్టిక్స్ కొన్నిసార్లు ఈ సంకలిత, వాణిజ్య సమాచార మూలాన్ని సంపూర్ణ నిజంతో సరిపోల్చింది మరియు ఈ సమాచార మూలాలు చిన్నవిగా ఉంటాయి. అయితే, ఈ సందర్భంలో, సంశయవాదులు తప్పు పోలిక చేస్తున్నారు: పరిశోధకులు సంపూర్ణ సత్యాన్ని తక్కువగా ఉపయోగించిన మొత్తం సమాచారం. బదులుగా, ఇతర అందుబాటులో ఉన్న సమాచార వనరులతో (ఉదా, స్వీయ నివేదిత ఓటింగ్ ప్రవర్తన) సమీకృత, వాణిజ్య సమాచార వనరులను సరిపోల్చడం మంచిది, ఇది తప్పనిసరిగా లోపాలను కలిగి ఉంటుంది. చివరగా, అన్సోలాబేర్ మరియు హెర్ష్ యొక్క అధ్యయనం యొక్క మూడవ సాధారణ పాఠం కొన్ని సందర్భాల్లో, పరిశోధకులు అనేక ప్రైవేటు కంపెనీలు సంక్లిష్టమైన సాంఘిక సమాచార సమితులను సేకరించి, ఏకీకృతం చేస్తున్న భారీ పెట్టుబడులు నుండి ప్రయోజనం పొందవచ్చు.