ఉన్నా "పెద్ద" మీ "పెద్ద డేటా" ఇది బహుశా మీకు కావలసిన సమాచారాన్ని కలిగి లేదు ఎలా.
అత్యంత భారీ డేటా మూలాల అర్ధంలో వారు మీ పరిశోధన కోసం కావలసిన సమాచారం కలిగి లేని, అసంపూర్తిగా ఉన్నాయి. ఈ పరిశోధన కంటే ఇతర ప్రయోజనాల కోసం సృష్టించబడిన డేటా సాధారణ లక్షణం. ఎన్నో సోషల్ శాస్త్రవేత్తలు ఇప్పటికే మీరు కోరుకున్నారు ప్రశ్న అడగండి లేదు ఒక ఇప్పటికే సర్వే వంటి అసంపూర్ణ వ్యవహరించే అనుభవం కలిగి ఉన్నాయి. దురదృష్టవశాత్తు, అసంపూర్ణ సమస్యలను పెద్ద డేటా మరింత తీవ్రమైన ఉంటాయి. సైద్ధాంతిక నిర్మాణాలు అమలులోకి వరకు జనాభా, ఇతర వేదికలపై ప్రవర్తన, మరియు డేటా: నా అనుభవం లో, పెద్ద డేటా సమాచారం యొక్క మూడు రకాల సామాజిక పరిశోధన ఉపయోగకరంగా లేనట్లుగా గాని ఉంటుంది.
అసంపూర్ణ రూపాలు అన్నీ త్రీ Gueorgi Kossinets మరియు డంకన్ వాట్స్ చేపట్టిన ఒక అధ్యయనంలో ఉదహరించారు (2006) ఒక యూనివర్సిటీలో సామాజిక నెట్వర్క్ యొక్క పరిణామం గురించి. Kossinets మరియు వాట్స్ ఏ సమయంలో ఎవరికి ఇమెయిల్స్ పంపిన (పరిశోధకులు ఇమెయిల్స్ కంటెంట్ యాక్సెస్ లేదు) గురించి ఖచ్చితమైన సమాచారం కలిగి విశ్వవిద్యాలయం నుండి ఇమెయిల్ దుంగలు ప్రారంభమైంది. ఈ ఇమెయిల్ రికార్డులు అద్భుతమైన డేటాసెట్ పోలికే, కానీ, అవి-ఉన్నప్పటికీ వారి పరిమాణం మరియు ఆకృతి-మౌలికంగా అసంపూర్తిగా. ఉదాహరణకు, ఇమెయిల్ లాగ్లను వంటి లింగం మరియు వయస్సు విద్యార్థులు జనసంఖ్య లక్షణాలు, గురించి డేటా చేర్చవద్దు. ఇంకా, ఇమెయిల్ లాగ్లను వంటి ఫోన్ కాల్స్, టెక్స్ట్ సందేశం, లేదా ముఖం- to- ముఖం సంభాషణలు ఇతర మీడియా ద్వారా సంభాషణ గురించి సమాచారాన్ని కలిగి లేదు. చివరగా, ఇమెయిల్ లాగ్లను నేరుగా సంబంధాలు, ఉన్న అనేక సిద్ధాంతాలు సైద్ధాంతిక నిర్మాణాలు గురించి సమాచారాన్ని కలిగి లేదు. తరువాత అధ్యాయంలో, నేను పరిశోధన వ్యూహాలు గురించి మాట్లాడండి మీరు Kossinets మరియు వాట్స్ ఈ సమస్యలు పరిష్కరించవచ్చు ఎలా చూస్తారు.
అసంపూర్ణ మూడు రకాల, సైద్ధాంతిక నిర్మాణాలు అమలులోకి వరకు అసంపూర్ణ డేటా యొక్క సమస్యను పరిష్కరించడానికి కష్టతరమైన ఉంది, మరియు నా అనుభవం లో, అది తరచుగా అనుకోకుండా డేటా శాస్త్రవేత్తలు పరిగణలోకి తీసుకోరు. సుమారు, సైద్ధాంతిక నిర్మాణాలు సామాజిక శాస్త్రవేత్తలు అధ్యయనం వియుక్త ఆలోచనలు దురదృష్టవశాత్తు, ఈ నిర్మాణాలను ఎల్లప్పుడూ వెల్లడించేది ఖచ్చితంగా నిర్వచించవచ్చు కాదు మరియు కొలిచిన ఉన్నాయి, కానీ. ఉదాహరణకు, యొక్క ఆమోద మరింత తెలివైన వ్యక్తులు మరింత డబ్బు సంపాదించడానికి స్పష్టంగా సాధారణ వాదన పరీక్షించడానికి ప్రయత్నిస్తున్నారు ఊహించుకోండి తెలియజేయండి. ఈ దావా పరీక్ష చేయడానికి మీరు మేధస్సు ఏమి ఉంది కొలత అవసరం ఉంది "మేధస్సు." కానీ,? ఉదాహరణకు, Gardner (2011) నిఘా ఎనిమిది విభిన్న రకాల నిజానికి ఉన్నాయి వాదించారు. మరియు, ఖచ్చితంగా నిఘా రూపాలు ఏ కొలిచే అక్కడ విధానాలు ఉన్నాయి? సైకాలజిస్టులు పని అపారమైన ఉన్నప్పటికీ, ఈ ప్రశ్నలకు ఇప్పటికీ నిర్ద్వంద్వంగా సమాధానాలు లేదు. అందువలన, కూడా మరింత తెలివైన ఎవరు చాలా సులభమైన దావా-ప్రజలు సంపాదిస్తారు ఎక్కువ డబ్బు చేయవచ్చు అది డేటా సైద్ధాంతిక నిర్మాణాలు అమలులోకి కష్టం కావచ్చు ఆమోద అంచనా వేసేందుకు కష్టం. "నియమములు," "సామాజిక పెట్టుబడి," మరియు "ప్రజాస్వామ్యం ఉన్నాయి అమలులోకి ముఖ్యం కానీ హార్డ్ అని సైద్ధాంతిక నిర్మాణాలు ఇతర ఉదాహరణలు." సాంఘిక శాస్త్రవేత్తలు సైద్ధాంతిక నిర్మాణాలు మరియు డేటా నిర్మాణం చెల్లుబాటును మధ్య మ్యాచ్ కాల్ (Cronbach and Meehl 1955) . మరియు, నిర్మాణాలు ఈ జాబితాలో సూచించినట్లు, నిర్మాణమని వారు పరిశోధన యొక్క ప్రయోజనం కోసం సేకరించిన సమాచారంతో పనిచేసే ఉన్నప్పుడు కూడా చెల్లుబాటును సామాజిక శాస్త్రవేత్తలు చాలా కాలం కోసం పోరాడిన ఒక సమస్య. పరిశోధన కంటే ఇతర ప్రయోజనాల కోసం సేకరించిన డేటా పనిచేసేటప్పుడు, నిర్మాణం చెల్లే సమస్యలు మరింత సవాలు (Lazer 2015) .
మీరు ఒక పరిశోధన కాగితం చదివిన చేసినప్పుడు, అంచనా ఒక త్వరిత మరియు ఉపయోగకరమైన మార్గం నిర్మాణం విలువ పట్ల ఆందోళనలు సాధారణంగా నిర్మాణాలు పరంగా వ్యక్తం ఇది కాగితంపై లో ప్రధాన వాదన తీసుకోవాలని, నిరుపయోగంగా డేటా పరంగా తిరిగి వ్యక్తం. ఉదాహరణకు, మరింత తెలివైన ప్రజలు మరింత డబ్బు సంపాదించడానికి అయితే చెప్పుకునే రెండు ఊహాత్మక అధ్యయనాలు పరిగణలోకి:
రెండు సందర్భాలలో, పరిశోధకులు వారు మరింత తెలివైన ప్రజలు మరింత డబ్బు సంపాదించడానికి నిరూపించాయి పేర్కొంటున్నాయి కాలేదు. కానీ, మొదటి అధ్యయనంలో సైద్ధాంతిక నిర్మాణాలు బాగా డేటా ద్వారా అమలులోకి ఉంటాయి, మరియు రెండవ అవి కావు. ఇంకా, ఈ ఉదాహరణ వివరిస్తుంది, మరింత డేటా స్వయంచాలకంగా నిర్మాణం చెల్లుబాటును తో సమస్యలను పరిష్కరించటానికి లేదు. అది ఒక మిలియన్ ట్వీట్లు, ఒక బిలియన్ ట్వీట్లు లేదా ఒక ట్రిలియన్ ట్వీట్లు చేరి లేదో స్టడీ 2 ఫలితాలు సందేహమే ఉండాలి. నిర్మాణం చెల్లే ఆలోచన తెలిసిన కాదు పరిశోధకులకు, టేబుల్ 2.2 డిజిటల్ గుర్తింపు డేటాను ఉపయోగించి సైద్ధాంతిక నిర్మాణాలు ఆపరేషనలైజెడ్ అధ్యయనాలు కొన్ని ఉదాహరణలు అందిస్తుంది.
డిజిటల్ ట్రేస్ | సిద్ధాంత నిర్మాణమని | citation |
---|---|---|
ఒక విశ్వవిద్యాలయం నుండి ఇమెయిల్ లాగ్లను (మెటా డేటా మాత్రమే) | సామాజిక సంబంధాలు | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo న సామాజిక మీడియా పోస్ట్లు | పౌర ఒడంబడిక | Zhang (2016) |
ఒక సంస్థ నుండి ఇమెయిల్ లాగ్లను (మెటా డేటా మరియు పూర్తి టెక్స్ట్) | సంస్థలో కల్చరల్ సరిపోయే | Goldberg et al. (2015) |
operationalizing సైద్ధాంతిక నిర్మాణాలు కోసం అసంపూర్ణ డేటా యొక్క సమస్యను పరిష్కరించడానికి చాలా కష్టం అయినప్పటికీ, అసంపూర్తిగా జనాభా సమాచారం మరియు ఇతర వేదికలపై ప్రవర్తనపై పూర్తి సమాచారాన్ని సమస్యకు మూడు సాధారణ పరిష్కారాలను ఉన్నాయి. మొదటి వాస్తవానికి మీరు అవసరం డేటా సేకరించడానికి ఉంటుంది; నేను సర్వేలు గురించి మీరు చెప్పండి నేను చాప్టర్ 3 యొక్క ఉదాహరణ గురించి మీరు చెప్పండి చేస్తాము. దురదృష్టవశాత్తు, డేటా సేకరణ ఈ రకమైన ఎల్లప్పుడూ సాధ్యం కాదు. రెండవ ప్రధాన పరిష్కారం డేటా శాస్త్రవేత్తలు యూజర్ గుణం అనుమితి మరియు సామాజిక శాస్త్రవేత్తలు imputation కాల్ కాల్ ఏమి ఉంది. ఈ విధానంలో, పరిశోధకులు ఇతర వ్యక్తులు గుణ ప్రతిపాదించే వారు కొన్ని ప్రజలపై ఆ సమాచారాన్ని ఉపయోగిస్తాము. బహుళ సమాచార మూలాలు మిళితం మూడో పరిష్కారం-Kossinets మరియు ఉపయోగించబడినది వాట్స్-ఉంది. ఈ ప్రక్రియ కొన్ని సార్లు విలీనం లేదా రికార్డు బంధంగా పిలుస్తారు. ఈ ప్రక్రియ కోసం నా ఇష్టమైన రూపకం రికార్డు సృష్టించింది లింకేజ్ రాయబడిన మొట్టమొదటి కాగితం చాలా మొదటి పేరా లో ప్రతిపాదించబడింది (Dunn 1946) :
"ప్రపంచంలో ప్రతి వ్యక్తి లైఫ్ ఒక బుక్ సృష్టిస్తుంది. ఈ బుక్ పుట్టిన మొదలవుతుంది మరియు మరణంతో ముగుస్తుంది. దీని పేజీలు జీవితంలో సూత్రం ఈవెంట్స్ రికార్డులు తయారు చేస్తారు. రికార్డ్ లింకేజ్ వాల్యూమ్ ఈ పుస్తకంలోని పేజీల చేరడం ప్రక్రియ ఇచ్చిన పేరు. "
ఈ ప్రకరణము 1946 లో వ్రాయబడింది, మరియు ఆ సమయంలో, ప్రజలు లైఫ్ బుక్ పుట్టిన, వివాహం, విడాకులు, మరియు మరణం వంటి ప్రధాన సంఘటనల కలిగి ఉంటుంది అని ఆలోచిస్తుంటారు. అయితే, ఇప్పుడు ప్రజల గురించి చాలా సమాచారం రికార్డు అని, లైఫ్ బుక్ చాలా వివరంగా చిత్రం, ఆ వివిధ పేజీలు (అంటే, మా డిజిటల్ జాడలు), కలిసి కట్టుబడి ఉంటే కావచ్చు. లైఫ్ ఈ పుస్తక పరిశోధకులకు ఒక గొప్ప వనరు కావచ్చు. కానీ, లైఫ్ బుక్ కూడా పోటును ఒక డేటాబేస్ చెప్పబడతాయి (Ohm 2010) అనైతిక ప్రయోజనాల అన్ని రకాల వాడేవారు, నేను క్రింద పెద్ద డేటా వనరుల ద్వారా సేకరించిన మొత్తం సమాచారాన్ని సున్నితమైన స్వభావం గురించి మాట్లాడినప్పుడు క్రింద మరింత వివరించినట్లు మరియు చాప్టర్ 6 (ఎథిక్స్).