2.3.2.1 అసంపూర్ణ

ఉన్నా "పెద్ద" మీ "పెద్ద డేటా" ఇది బహుశా మీకు కావలసిన సమాచారాన్ని కలిగి లేదు ఎలా.

అత్యంత భారీ డేటా మూలాల అర్ధంలో వారు మీ పరిశోధన కోసం కావలసిన సమాచారం కలిగి లేని, అసంపూర్తిగా ఉన్నాయి. ఈ పరిశోధన కంటే ఇతర ప్రయోజనాల కోసం సృష్టించబడిన డేటా సాధారణ లక్షణం. ఎన్నో సోషల్ శాస్త్రవేత్తలు ఇప్పటికే మీరు కోరుకున్నారు ప్రశ్న అడగండి లేదు ఒక ఇప్పటికే సర్వే వంటి అసంపూర్ణ వ్యవహరించే అనుభవం కలిగి ఉన్నాయి. దురదృష్టవశాత్తు, అసంపూర్ణ సమస్యలను పెద్ద డేటా మరింత తీవ్రమైన ఉంటాయి. సైద్ధాంతిక నిర్మాణాలు అమలులోకి వరకు జనాభా, ఇతర వేదికలపై ప్రవర్తన, మరియు డేటా: నా అనుభవం లో, పెద్ద డేటా సమాచారం యొక్క మూడు రకాల సామాజిక పరిశోధన ఉపయోగకరంగా లేనట్లుగా గాని ఉంటుంది.

అసంపూర్ణ రూపాలు అన్నీ త్రీ Gueorgi Kossinets మరియు డంకన్ వాట్స్ చేపట్టిన ఒక అధ్యయనంలో ఉదహరించారు (2006) ఒక యూనివర్సిటీలో సామాజిక నెట్వర్క్ యొక్క పరిణామం గురించి. Kossinets మరియు వాట్స్ ఏ సమయంలో ఎవరికి ఇమెయిల్స్ పంపిన (పరిశోధకులు ఇమెయిల్స్ కంటెంట్ యాక్సెస్ లేదు) గురించి ఖచ్చితమైన సమాచారం కలిగి విశ్వవిద్యాలయం నుండి ఇమెయిల్ దుంగలు ప్రారంభమైంది. ఈ ఇమెయిల్ రికార్డులు అద్భుతమైన డేటాసెట్ పోలికే, కానీ, అవి-ఉన్నప్పటికీ వారి పరిమాణం మరియు ఆకృతి-మౌలికంగా అసంపూర్తిగా. ఉదాహరణకు, ఇమెయిల్ లాగ్లను వంటి లింగం మరియు వయస్సు విద్యార్థులు జనసంఖ్య లక్షణాలు, గురించి డేటా చేర్చవద్దు. ఇంకా, ఇమెయిల్ లాగ్లను వంటి ఫోన్ కాల్స్, టెక్స్ట్ సందేశం, లేదా ముఖం- to- ముఖం సంభాషణలు ఇతర మీడియా ద్వారా సంభాషణ గురించి సమాచారాన్ని కలిగి లేదు. చివరగా, ఇమెయిల్ లాగ్లను నేరుగా సంబంధాలు, ఉన్న అనేక సిద్ధాంతాలు సైద్ధాంతిక నిర్మాణాలు గురించి సమాచారాన్ని కలిగి లేదు. తరువాత అధ్యాయంలో, నేను పరిశోధన వ్యూహాలు గురించి మాట్లాడండి మీరు Kossinets మరియు వాట్స్ ఈ సమస్యలు పరిష్కరించవచ్చు ఎలా చూస్తారు.

అసంపూర్ణ మూడు రకాల, సైద్ధాంతిక నిర్మాణాలు అమలులోకి వరకు అసంపూర్ణ డేటా యొక్క సమస్యను పరిష్కరించడానికి కష్టతరమైన ఉంది, మరియు నా అనుభవం లో, అది తరచుగా అనుకోకుండా డేటా శాస్త్రవేత్తలు పరిగణలోకి తీసుకోరు. సుమారు, సైద్ధాంతిక నిర్మాణాలు సామాజిక శాస్త్రవేత్తలు అధ్యయనం వియుక్త ఆలోచనలు దురదృష్టవశాత్తు, ఈ నిర్మాణాలను ఎల్లప్పుడూ వెల్లడించేది ఖచ్చితంగా నిర్వచించవచ్చు కాదు మరియు కొలిచిన ఉన్నాయి, కానీ. ఉదాహరణకు, యొక్క ఆమోద మరింత తెలివైన వ్యక్తులు మరింత డబ్బు సంపాదించడానికి స్పష్టంగా సాధారణ వాదన పరీక్షించడానికి ప్రయత్నిస్తున్నారు ఊహించుకోండి తెలియజేయండి. ఈ దావా పరీక్ష చేయడానికి మీరు మేధస్సు ఏమి ఉంది కొలత అవసరం ఉంది "మేధస్సు." కానీ,? ఉదాహరణకు, Gardner (2011) నిఘా ఎనిమిది విభిన్న రకాల నిజానికి ఉన్నాయి వాదించారు. మరియు, ఖచ్చితంగా నిఘా రూపాలు ఏ కొలిచే అక్కడ విధానాలు ఉన్నాయి? సైకాలజిస్టులు పని అపారమైన ఉన్నప్పటికీ, ఈ ప్రశ్నలకు ఇప్పటికీ నిర్ద్వంద్వంగా సమాధానాలు లేదు. అందువలన, కూడా మరింత తెలివైన ఎవరు చాలా సులభమైన దావా-ప్రజలు సంపాదిస్తారు ఎక్కువ డబ్బు చేయవచ్చు అది డేటా సైద్ధాంతిక నిర్మాణాలు అమలులోకి కష్టం కావచ్చు ఆమోద అంచనా వేసేందుకు కష్టం. "నియమములు," "సామాజిక పెట్టుబడి," మరియు "ప్రజాస్వామ్యం ఉన్నాయి అమలులోకి ముఖ్యం కానీ హార్డ్ అని సైద్ధాంతిక నిర్మాణాలు ఇతర ఉదాహరణలు." సాంఘిక శాస్త్రవేత్తలు సైద్ధాంతిక నిర్మాణాలు మరియు డేటా నిర్మాణం చెల్లుబాటును మధ్య మ్యాచ్ కాల్ (Cronbach and Meehl 1955) . మరియు, నిర్మాణాలు ఈ జాబితాలో సూచించినట్లు, నిర్మాణమని వారు పరిశోధన యొక్క ప్రయోజనం కోసం సేకరించిన సమాచారంతో పనిచేసే ఉన్నప్పుడు కూడా చెల్లుబాటును సామాజిక శాస్త్రవేత్తలు చాలా కాలం కోసం పోరాడిన ఒక సమస్య. పరిశోధన కంటే ఇతర ప్రయోజనాల కోసం సేకరించిన డేటా పనిచేసేటప్పుడు, నిర్మాణం చెల్లే సమస్యలు మరింత సవాలు (Lazer 2015) .

మీరు ఒక పరిశోధన కాగితం చదివిన చేసినప్పుడు, అంచనా ఒక త్వరిత మరియు ఉపయోగకరమైన మార్గం నిర్మాణం విలువ పట్ల ఆందోళనలు సాధారణంగా నిర్మాణాలు పరంగా వ్యక్తం ఇది కాగితంపై లో ప్రధాన వాదన తీసుకోవాలని, నిరుపయోగంగా డేటా పరంగా తిరిగి వ్యక్తం. ఉదాహరణకు, మరింత తెలివైన ప్రజలు మరింత డబ్బు సంపాదించడానికి అయితే చెప్పుకునే రెండు ఊహాత్మక అధ్యయనాలు పరిగణలోకి:

  • స్టడీ 1: రావెన్ ప్రోగ్రెసివ్ మాట్రిసెస్ టెస్ట్ ఒక మంచి స్కోరు చేసిన విశ్లేషణాత్మక మేధస్సు చక్కగా అధ్యయనం పరీక్ష మంది (Carpenter, Just, and Shell 1990) అధిక నివేదించారు ఆదాయం వారి పన్ను రిటర్న్స్-కలిగి
  • స్టడీ 2: చేసేవారు పెద్ద పదాలు లగ్జరీ బ్రాండ్లు చెప్పలేదు ఎక్కువగా ఉన్నాయి ట్విట్టర్ లో వ్యక్తులతో

రెండు సందర్భాలలో, పరిశోధకులు వారు మరింత తెలివైన ప్రజలు మరింత డబ్బు సంపాదించడానికి నిరూపించాయి పేర్కొంటున్నాయి కాలేదు. కానీ, మొదటి అధ్యయనంలో సైద్ధాంతిక నిర్మాణాలు బాగా డేటా ద్వారా అమలులోకి ఉంటాయి, మరియు రెండవ అవి కావు. ఇంకా, ఈ ఉదాహరణ వివరిస్తుంది, మరింత డేటా స్వయంచాలకంగా నిర్మాణం చెల్లుబాటును తో సమస్యలను పరిష్కరించటానికి లేదు. అది ఒక మిలియన్ ట్వీట్లు, ఒక బిలియన్ ట్వీట్లు లేదా ఒక ట్రిలియన్ ట్వీట్లు చేరి లేదో స్టడీ 2 ఫలితాలు సందేహమే ఉండాలి. నిర్మాణం చెల్లే ఆలోచన తెలిసిన కాదు పరిశోధకులకు, టేబుల్ 2.2 డిజిటల్ గుర్తింపు డేటాను ఉపయోగించి సైద్ధాంతిక నిర్మాణాలు ఆపరేషనలైజెడ్ అధ్యయనాలు కొన్ని ఉదాహరణలు అందిస్తుంది.

టేబుల్ 2.2: మరింత వియుక్త సైద్ధాంతిక భావనలు చర్యలు ఉపయోగిస్తారు ఆ డిజిటల్ జాడలు ఉదాహరణలు. సామాజిక శాస్త్రవేత్తలు ఈ మ్యాచ్లో నిర్మాణం చెల్లుబాటును కాల్ మరియు ఇది సామాజిక పరిశోధన కోసం పెద్ద డేటా మూలాల ఉపయోగించి ఒక పెద్ద సవాలుగా ఉంది (Lazer 2015) .
డిజిటల్ ట్రేస్ సిద్ధాంత నిర్మాణమని citation
ఒక విశ్వవిద్యాలయం నుండి ఇమెయిల్ లాగ్లను (మెటా డేటా మాత్రమే) సామాజిక సంబంధాలు Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Weibo న సామాజిక మీడియా పోస్ట్లు పౌర ఒడంబడిక Zhang (2016)
ఒక సంస్థ నుండి ఇమెయిల్ లాగ్లను (మెటా డేటా మరియు పూర్తి టెక్స్ట్) సంస్థలో కల్చరల్ సరిపోయే Goldberg et al. (2015)

operationalizing సైద్ధాంతిక నిర్మాణాలు కోసం అసంపూర్ణ డేటా యొక్క సమస్యను పరిష్కరించడానికి చాలా కష్టం అయినప్పటికీ, అసంపూర్తిగా జనాభా సమాచారం మరియు ఇతర వేదికలపై ప్రవర్తనపై పూర్తి సమాచారాన్ని సమస్యకు మూడు సాధారణ పరిష్కారాలను ఉన్నాయి. మొదటి వాస్తవానికి మీరు అవసరం డేటా సేకరించడానికి ఉంటుంది; నేను సర్వేలు గురించి మీరు చెప్పండి నేను చాప్టర్ 3 యొక్క ఉదాహరణ గురించి మీరు చెప్పండి చేస్తాము. దురదృష్టవశాత్తు, డేటా సేకరణ ఈ రకమైన ఎల్లప్పుడూ సాధ్యం కాదు. రెండవ ప్రధాన పరిష్కారం డేటా శాస్త్రవేత్తలు యూజర్ గుణం అనుమితి మరియు సామాజిక శాస్త్రవేత్తలు imputation కాల్ కాల్ ఏమి ఉంది. ఈ విధానంలో, పరిశోధకులు ఇతర వ్యక్తులు గుణ ప్రతిపాదించే వారు కొన్ని ప్రజలపై ఆ సమాచారాన్ని ఉపయోగిస్తాము. బహుళ సమాచార మూలాలు మిళితం మూడో పరిష్కారం-Kossinets మరియు ఉపయోగించబడినది వాట్స్-ఉంది. ఈ ప్రక్రియ కొన్ని సార్లు విలీనం లేదా రికార్డు బంధంగా పిలుస్తారు. ఈ ప్రక్రియ కోసం నా ఇష్టమైన రూపకం రికార్డు సృష్టించింది లింకేజ్ రాయబడిన మొట్టమొదటి కాగితం చాలా మొదటి పేరా లో ప్రతిపాదించబడింది (Dunn 1946) :

"ప్రపంచంలో ప్రతి వ్యక్తి లైఫ్ ఒక బుక్ సృష్టిస్తుంది. ఈ బుక్ పుట్టిన మొదలవుతుంది మరియు మరణంతో ముగుస్తుంది. దీని పేజీలు జీవితంలో సూత్రం ఈవెంట్స్ రికార్డులు తయారు చేస్తారు. రికార్డ్ లింకేజ్ వాల్యూమ్ ఈ పుస్తకంలోని పేజీల చేరడం ప్రక్రియ ఇచ్చిన పేరు. "

ఈ ప్రకరణము 1946 లో వ్రాయబడింది, మరియు ఆ సమయంలో, ప్రజలు లైఫ్ బుక్ పుట్టిన, వివాహం, విడాకులు, మరియు మరణం వంటి ప్రధాన సంఘటనల కలిగి ఉంటుంది అని ఆలోచిస్తుంటారు. అయితే, ఇప్పుడు ప్రజల గురించి చాలా సమాచారం రికార్డు అని, లైఫ్ బుక్ చాలా వివరంగా చిత్రం, ఆ వివిధ పేజీలు (అంటే, మా డిజిటల్ జాడలు), కలిసి కట్టుబడి ఉంటే కావచ్చు. లైఫ్ ఈ పుస్తక పరిశోధకులకు ఒక గొప్ప వనరు కావచ్చు. కానీ, లైఫ్ బుక్ కూడా పోటును ఒక డేటాబేస్ చెప్పబడతాయి (Ohm 2010) అనైతిక ప్రయోజనాల అన్ని రకాల వాడేవారు, నేను క్రింద పెద్ద డేటా వనరుల ద్వారా సేకరించిన మొత్తం సమాచారాన్ని సున్నితమైన స్వభావం గురించి మాట్లాడినప్పుడు క్రింద మరింత వివరించినట్లు మరియు చాప్టర్ 6 (ఎథిక్స్).