మీ పెద్ద డేటా ఎంత పెద్దది అయినా, అది మీకు కావలసిన సమాచారాన్ని కలిగి ఉండదు.
చాలా పెద్ద సమాచార వనరులు అసంపూర్తిగా ఉంటాయి , మీ పరిశోధన కోసం మీరు కావాల్సిన సమాచారాన్ని వారు కలిగి లేరు. ఇది పరిశోధన కంటే ఇతర ప్రయోజనాల కోసం సృష్టించబడిన డేటా యొక్క ఒక సాధారణ లక్షణం. చాలామంది సాంఘిక శాస్త్రవేత్తలు అప్పటికే ఉన్న సర్వే వంటివి అసంపూర్తిగా వ్యవహరించే అనుభవాన్ని కలిగి ఉన్నారు, అవసరమైన ప్రశ్నలను అడగలేదు. దురదృష్టవశాత్తు, అసమానత సమస్య పెద్ద డేటాలో మరింత తీవ్రంగా ఉంటాయి. నా అనుభవం లో, పెద్ద డేటా సాంఘిక పరిశోధనకు ఉపయోగపడే మూడు రకాలైన సమాచారం లేదు: పాల్గొనేవారి గురించి జనాభా సమాచారం, ఇతర ప్లాట్ఫారమ్లపై ప్రవర్తన మరియు సిద్ధాంత నిర్మాణాలను అమలు చేయడానికి డేటా.
అసంపూర్తిగా మూడు రకాలలో, సిద్ధాంత నిర్మాణాలను అమలుచేయడానికి అసంపూర్తిగా ఉన్న సమాచారం యొక్క సమస్య పరిష్కరించడానికి కష్టతరమైనది. మరియు నా అనుభవం లో, ఇది తరచుగా అనుకోకుండా పట్టించుకోలేదు. సాంఘిక శాస్త్రవేత్తలు సైద్ధాంతిక నిర్మాణానికి సంబంధించిన అధ్యయనం మరియు అమలు చేయడం అంటే, పరిశీలించదగిన డేటాతో నిర్మించటానికి కొంత మార్గాన్ని ప్రతిపాదించటం అంటే, సిద్ధాంతపరమైన నిర్మాణాలు అనేవి నిగూఢ ఆలోచనలు. దురదృష్టవశాత్తు, ఈ సాధారణ శబ్ద ప్రక్రియ చాలా కష్టం అవుతుంది. ఉదాహరణకు, మరింత మేధో వ్యక్తులు మరింత డబ్బు సంపాదించవచ్చని స్పష్టంగా సాధారణ వాదనను పరీక్షించడానికి ప్రయత్నించమని ఊహించుకోండి. ఈ దావాను పరీక్షించడానికి, మీరు "మేధస్సు" ను కొలిచాలి. కానీ గూఢచారమేమిటి? Gardner (2011) ఎనిమిది వేర్వేరు విజ్ఞాన రూపాలు ఉన్నాయని వాదించారు. ఈ విధమైన ఏ మేధస్సును సరిగ్గా కొలవగల విధానాలు ఉన్నాయా? మనస్తత్వవేత్తల చేత అపారమైన పని చేసినప్పటికీ, ఈ ప్రశ్నలకు ఇప్పటికీ స్పష్టమైన సమాధానం లేదు.
అందువల్ల, సాపేక్షికంగా సరళమైన దావా-మరింత తెలివైనవారికి ఎక్కువ డబ్బు సంపాదిస్తారు-ఇది సైద్ధాంతికంగా అంచనా వేయడం కష్టమవుతుంది ఎందుకంటే డేటాలో సిద్ధాంతపరమైన నిర్మాణాలను అమలు చేయడం కష్టం. సిద్ధాంతపరమైన నిర్మాణాల యొక్క ఇతర ఉదాహరణలు ముఖ్యమైనవి కాని అమలు చేయటం కష్టంగా ఉంటాయి, "నియమాలు," "సామాజిక రాజధాని," మరియు "ప్రజాస్వామ్యం". సాంఘిక శాస్త్రవేత్తలు సైద్ధాంతిక నిర్మాణాలు మరియు డేటా నిర్మాణాత్మక విలువలు (Cronbach and Meehl 1955) మధ్య పోటీని పిలుస్తారు. నిర్మాణానికి సంబంధించిన ఈ చిన్న జాబితా సూచించిన ప్రకారం, నిర్మాణానికి చెల్లుబాటు అనేది చాలా కాలం పాటు సామాజిక శాస్త్రవేత్తలు ఇబ్బందులు ఎదుర్కొంటున్న సమస్య. కానీ నా అనుభవంలో, పరిశోధనా ప్రయోజనాల కోసం సృష్టించబడని డేటాతో పనిచేసేటప్పుడు నిర్మాణాత్మక ధృవీకరణ సమస్యలు ఎక్కువగా ఉంటాయి (Lazer 2015) .
మీరు ఒక పరిశోధన ఫలితాన్ని అంచనా వేసినప్పుడు, నిర్మాణాత్మక ధృవీకరణను అంచనా వేయడానికి ఒక త్వరిత మరియు ఉపయోగకరమైన మార్గం ఫలితంగా తీసుకోవడం, సాధారణంగా నిర్మాణాల పరంగా వ్యక్తీకరించబడింది మరియు ఉపయోగించిన డేటా పరంగా ఇది మళ్లీ వ్యక్తపరచడం. ఉదాహరణకు, ఇద్దరు ఊహాజనిత అధ్యయనాలు మరింత మేధో వ్యక్తులు మరింత డబ్బు సంపాదించవచ్చని చూపించడానికి వాదిస్తారు. మొదటి అధ్యయనంలో, రావెన్ ప్రోగ్రెసివ్ మాట్రిస్ టెస్ట్లో బాగా స్కోర్ చేసిన వ్యక్తులు విశ్లేషణాత్మక మేధస్సు (Carpenter, Just, and Shell 1990) యొక్క బాగా అధ్యయనం చేసిన పరీక్ష-వారి పన్ను రాబడిపై అధిక ఆదాయం కలిగిన ఆదాయాలు కలిగి ఉంటారు. రెండవ అధ్యయనంలో, పరిశోధకులు మాట్లాడుతూ ట్విట్టర్లో ఎక్కువ మంది పదాలను ఉపయోగించినవారు లగ్జరీ బ్రాండ్లను పేర్కొనడానికి ఎక్కువ అవకాశం ఉంది. రెండు సందర్భాల్లో, ఈ పరిశోధకులు మరింత తెలివిగల వ్యక్తులు మరింత డబ్బు సంపాదించవచ్చని వారు చూపించినట్లు పేర్కొన్నారు. అయినప్పటికీ, మొదటి అధ్యయనంలో, సైద్ధాంతిక నిర్మాణాలు డేటా ద్వారా బాగా అమలు చేయబడతాయి, రెండవది కాదు. ఇంకా, ఈ ఉదాహరణ వివరిస్తుంది, మరింత సమాచారం ఆటోమేటిక్గా నిర్మించడంలో సమస్యలను పరిష్కరించదు. మీరు ఒక మిలియన్ ట్వీట్లు, ఒక బిలియన్ ట్వీట్లు లేదా ఒక ట్రిలియన్ ట్వీట్లను కలిగి ఉన్నారో లేదో రెండవ అధ్యయనం యొక్క ఫలితాలను మీరు అనుమానించాలి. నిర్ధారణ చెల్లుబాటు అయ్యే ఆలోచన గురించి తెలిసిన పరిశోధకులకు, డిజిటల్ ట్రేస్ డేటాను ఉపయోగించి సిద్ధాంతపరమైన నిర్మాణాలను అమలుచేసిన కొన్ని ఉదాహరణల పట్టికను పట్టిక 2.2 అందిస్తుంది.
సమాచార మూలం | సిద్ధాంత నిర్మాణము | ప్రస్తావనలు |
---|---|---|
ఒక విశ్వవిద్యాలయం నుండి మెయిల్ లాగ్లు (మెటా డేటా మాత్రమే) | సామాజిక సంబంధాలు | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo లో సోషల్ మీడియా పోస్ట్లు | పౌర ఒడంబడిక | Zhang (2016) |
ఒక సంస్థ (మెటా డేటా మరియు పూర్తి టెక్స్ట్) నుండి ఇమెయిల్ లాగ్లు | సంస్థలో సాంస్కృతిక సరిపోత | Srivastava et al. (2017) |
సిద్ధాంత నిర్మాణాలను సంగ్రహించడానికి అసంపూర్ణమైన డేటా సమస్య చాలా కష్టంగా ఉన్నప్పటికీ, ఇతర సాధారణ రకాలైన అసంపూర్ణతకు సాధారణ పరిష్కారాలు ఉన్నాయి: అసంపూర్తిగా ఉన్న జనాభా సమాచారం మరియు ఇతర వేదికలపై ప్రవర్తనపై అసంపూర్ణ సమాచారం. మొదటి పరిష్కారం వాస్తవానికి మీకు అవసరమైన డేటాను సేకరించడం; నేను సర్వేలు గురించి మీకు చెప్పినప్పుడు 3 వ అధ్యాయంలో నేను మీకు చెప్తాను. రెండవ ప్రధాన పరిష్కారం డేటా శాస్త్రవేత్తలు యూజర్ గుణం అనుమితి మరియు సామాజిక శాస్త్రవేత్తలు imputation కాల్ కాల్ ఏమి ఉంది. ఈ పద్ధతిలో, పరిశోధకులు ఇతర వ్యక్తుల లక్షణాలను ఊహించడానికి కొంతమందికి ఉన్న సమాచారాన్ని ఉపయోగిస్తారు. మూడో సాధ్యం పరిష్కారం బహుళ సమాచార వనరులను కలపడం. ఈ ప్రక్రియ కొన్నిసార్లు రికార్డు లింకేజ్ అంటారు. ఈ ప్రక్రియకు నా ఇష్టమైన రూపకం Dunn (1946) రాసిన మొదటి పేపర్ లో రికార్డు బంధంలో రాసిన మొట్టమొదటి పేరాలో వ్రాయబడింది:
"ప్రపంచంలో ప్రతి వ్యక్తి జీవిత గ్రంథాన్ని సృష్టిస్తాడు. ఈ పుస్తకం పుట్టుకతో మొదలై మరణంతో ముగుస్తుంది. దాని పుటలు జీవితం యొక్క ప్రధాన సంఘటనల రికార్డులను తయారు చేస్తాయి. ఈ పుస్తకం యొక్క పుటలను వాల్యూమ్గా తయారుచేసే విధానానికి రికార్డ్ లింక్ పేరు.
డన్ రచన వ్రాసినప్పుడు, బుక్ ఆఫ్ లైఫ్ జనన, వివాహం, విడాకులు మరియు మరణం వంటి ప్రధాన జీవిత సంఘటనలను ఊహించగలనని ఊహించాడు. అయినప్పటికీ, ఇప్పుడు ప్రజల గురించి చాలా సమాచారం నమోదు చేయబడితే, బుక్ ఆఫ్ లైఫ్ చాలా వివరణాత్మక చిత్తరువు కావచ్చు, ఆ వేర్వేరు పేజీల (అంటే, మా డిజిటల్ జాడలు) కలిసి కట్టుబడి ఉండవచ్చు. ఈ బుక్ ఆఫ్ లైఫ్ పరిశోధకులకు గొప్ప వనరు కావచ్చు. కానీ, అది కూడా పోటును ఒక డేటాబేస్ చెప్పబడతాయి (Ohm 2010) అనైతిక ప్రయోజనాల అన్ని రకాల కోసం వాడేవారు ఇది, నేను అధ్యాయం 6 (ఎథిక్స్) లో వివరించడానికి చేస్తాము.