నమూనా వివరాలను వెలికి తీసివేయుటకు డేటా చెడ్డది కాని, లోపల-పోలిక పోలికలకు చాలా ఉపయోగకరంగా ఉంటుంది.
కొంతమంది సాంఘిక శాస్త్రవేత్తలు ఒక నిర్దిష్ట దేశంలోని పెద్దవాళ్ళు వంటి బాగా నిర్వచించిన జనాభా నుండి సంభావ్య యాదృచ్ఛిక నమూనా నుండి వచ్చిన డేటాతో పని చేయడానికి అలవాటుపడ్డారు. ఈ రకమైన డేటా ప్రతినిధి డేటా అంటారు, ఎందుకంటే నమూనా పెద్ద జనాభాను "సూచిస్తుంది". చాలామంది పరిశోధకులు బహుమతి ప్రతినిధి డేటా, మరియు కొన్ని, ప్రతినిధి డేటా కఠినమైన శాస్త్రం పర్యాయపదంగా అయితే nonrepresentative డేటా sloppiness పర్యాయపదంగా ఉంది. అత్యంత తీవ్రంగా, కొందరు సంశయవాదులు ఏదీ సూచించబడని డేటా నుండి నేర్చుకోవచ్చు అని నమ్ముతారు. నిజమైతే, పెద్ద డేటా మూలాల నుండి నేర్చుకోగలిగిన పరిమితులను ఇది తీవ్రంగా పరిమితం చేస్తుంది, ఎందుకంటే వాటిలో చాలామంది ప్రస్తావించలేరు. అదృష్టవశాత్తూ, ఈ సంశయవాదులు పాక్షికంగా మాత్రమే సరైనవి. నిర్దిష్టమైన పరిశోధన లక్ష్యాలు ఏవైనా స్పష్టంగా వివరించబడని డేటా స్పష్టంగా సరిగ్గా సరిపోకపోవచ్చు, కానీ ఇది చాలా ఉపయోగకరంగా ఉండటానికి ఇతరులే ఉన్నాయి.
ఈ విలక్షణాన్ని అర్ధం చేసుకోవడానికి, ఒక శాస్త్రీయ సంప్రదాయంగా పరిగణించండి: లండన్లోని 1853-54 కలరా వ్యాప్తి గురించి జాన్ స్నో యొక్క అధ్యయనం. ఆ సమయంలో, అనేక మంది వైద్యులు కలరా "చెడు గాలి" వలన సంభవించిందని నమ్మాడు, కానీ మురుగునీటిని త్రాగునీటి ద్వారా వ్యాప్తి చెందిందని మంచు నమ్మింది. ఈ ఆలోచనను పరీక్షి 0 చడానికి, మన 0 ఇప్పుడు సహజ ప్రయోగాన్ని పిలిచే ప్రయోజనాన్ని పొ 0 ది 0 చడ 0 ప్రయోజనకరమైనది. లాంబెత్ మరియు సౌత్వార్క్ & వాక్స్హాల్ రెండు వేర్వేరు వాటర్ కంపెనీలచే ఇంటి కుటుంబాల కొలరా రేట్లు పోల్చాడు. ఈ కంపెనీలు ఇదే తరహా గృహాలకు సేవలు అందించాయి, కానీ అవి ఒక ముఖ్యమైన మార్గంలో భిన్నంగా ఉన్నాయి: 1849 లో - అంటువ్యాధి ప్రారంభమయ్యే కొద్ది సంవత్సరాలకు ముందు-లాంబెత్ లండన్లోని ప్రధాన మురుగుల విడుదల నుండి ఎగువ స్థాయిని పెంచింది, అయితే సౌత్వార్క్ & వాక్స్హాల్ వారి ప్రవాహాన్ని పైకి దిగువ నుండి మురుగుల విడుదల. రెండు సంస్థలచే ఇంటిలో కలరా మరణాల రేట్లు పోల్చినప్పుడు, సౌత్వార్క్ & వాక్స్హాల్ వినియోగదారుల మురుగునీరు-కట్టకపు నీటిని అందించే సంస్థ-కలరా నుండి చనిపోయే అవకాశం 10 రెట్లు ఎక్కువగా ఉందని కనుగొన్నారు. ఈ ఫలితంగా లండన్లోని ప్రజల ప్రతినిధి నమూనాపై ఆధారపడినప్పటికీ, కలరా కారణం గురించి మంచు యొక్క వాదనకు బలమైన శాస్త్రీయ ఆధారాలు లభిస్తాయి.
అయితే, ఈ రెండు కంపెనీల సమాచారం వేరొక ప్రశ్నకు సమాధానంగా ఆదర్శంగా ఉండదు: వ్యాప్తి సమయంలో లండన్లో కలరా యొక్క ప్రాబల్యం ఏమిటి? రెండవ ప్రశ్నకు కూడా ఇది చాలా ముఖ్యం, ఇది లండన్ నుండి ప్రజల ప్రతినిధి నమూనాను కలిగి ఉంటుంది.
మంచు యొక్క రచన వివరిస్తుంది, కొన్ని శాస్త్రీయ ప్రశ్నలకు ఇది ఏవైనా వివరణాత్మకమైన డేటా చాలా ప్రభావవంతంగా ఉండగలదు మరియు ఇది సరిగ్గా సరిపోని ఇతరమైనవి ఉన్నాయి. ఈ రెండు రకాల ప్రశ్నలను వేరు చేయడానికి ఒక క్రూర మార్గం ఏమిటంటే, కొన్ని ప్రశ్నలు లోపల-నమూనా పోలికలు మరియు కొన్ని వెలుపల నమూనా సాధారణీకరణలు. ఈ వ్యత్యాసాన్ని సాంక్రమిక రోగ విజ్ఞానంలో మరొక క్లాసిక్ అధ్యయనం ద్వారా మరింత స్పష్టంగా వివరించవచ్చు: బ్రిటీష్ డాక్టర్స్ స్టడీ, ఇది ధూమపానం క్యాన్సర్కు కారణం కావడంలో ప్రముఖ పాత్ర పోషించింది. ఈ అధ్యయనంలో, రిచర్డ్ డాల్ మరియు ఎ. బ్రాడ్ఫోర్డ్ హిల్ సుమారుగా 25,000 మగ వైద్యులను అనేక సంవత్సరాలుగా అనుసరించారు మరియు అధ్యయనం ప్రారంభమైనప్పుడు వారు ధూమపానం చేసిన మొత్తాల ఆధారంగా వారి మరణాల రేటును పోల్చి చూశారు. డాల్ అండ్ హిల్ (1954) ఒక బలమైన బహిర్గత-ప్రతిస్పందన సంబంధాన్ని కనుగొన్నారు: మరింత ఎక్కువగా ప్రజలు ధూమపానం చేసి, ఊపిరితిత్తుల క్యాన్సర్ నుండి చనిపోయే అవకాశం ఎక్కువగా ఉంది. వాస్తవానికి, పురుషులు వైద్యులు ఈ గుంపు ఆధారంగా అన్ని బ్రిటీష్ ప్రజలలో ఊపిరితిత్తుల కాన్సర్ ప్రాబల్యాన్ని అంచనా వేయడం వివేకవంతురాలి, కానీ లోపల-నమూనా పోలిక ఇప్పటికీ ఊపిరితిత్తుల క్యాన్సర్కు కారణమవుతుందని రుజువు చేస్తుంది.
ఇప్పుడు లోపల-నమూనా పోలికలు మరియు వెలుపల నమూనా సాధారణీకరణల మధ్య వ్యత్యాసాన్ని నేను ఉదహరించాను, రెండు షరతులు క్రమంలో ఉన్నాయి. మొదట, మగ బ్రిటీష్ వైద్యుల యొక్క మాదిరిలో ఉన్న సంబంధం, స్త్రీ, బ్రిటీష్ వైద్యులు లేదా మగ బ్రిటీష్ ఫ్యాక్టరీ కార్మికులు లేదా జర్మన్ జర్మన్ ఫ్యాక్టరీ కార్మికులు లేదా ఇతర సమూహాల నమూనాలో కూడా కలిగి ఉంటుంది. ఈ ప్రశ్నలు ఆసక్తికరంగా మరియు ముఖ్యమైనవి, కానీ ఒక మాదిరి నుండి ఒక జనాభాకు సాధారణంగా మేము ఏ విధంగా వ్యాఖ్యానించాలో అనే ప్రశ్నలకు భిన్నంగా ఉంటాయి. ఉదాహరణకు, ధూమపానం మరియు క్యాన్సర్ మధ్య ఉన్న మగ బ్రిటీష్ వైద్యుల మధ్య ఉన్న సంబంధం బహుశా ఈ ఇతర సమూహాలలో సమానంగా ఉంటుందని అనుమానించే అవకాశం ఉంది. మగ బ్రిటీషు వైద్యులు ఏవైనా జనాభా నుండి సంభవనీయ యాదృచ్చిక మాదిరి అని వాస్తవం నుండి ఈ ఎక్స్ట్రాపోలేషన్ చేయడానికి మీ సామర్ధ్యం లేదు. బదులుగా, ఇది ధూమపానం మరియు క్యాన్సర్ను కలిపే యంత్రాంగం యొక్క అవగాహన నుండి వస్తుంది. అందువల్ల, ఒక మాదిరి నుండి ప్రజలకు ఒక మాదిరి నుండి సాధారణీకరణ ఒక ఎక్కువగా గణాంక సమస్యగా ఉంది, కానీ ఒక గుంపులో మరొక గుంపులో కనిపించే నమూనా యొక్క రవాణా గురించి ప్రశ్నలు చాలా ఎక్కువగా nonstatistical సమస్య (Pearl and Bareinboim 2014; Pearl 2015) .
ఈ సమయంలో, ధూమపానం మరియు క్యాన్సర్ మధ్య సంబంధాల కంటే సమూహాలలో చాలా సాంఘిక నమూనాలు తక్కువ రవాణా చేయగలవని ఒక సంశయవాది సూచించవచ్చు. మరియు నేను అంగీకరిస్తున్నాను. నమూనాలు రవాణా చేయదగినవిగా భావించాల్సినంత వరకు సిద్ధాంతపరంగా మరియు సాక్ష్యం ఆధారంగా నిర్ణయించవలసిన శాస్త్రీయ ప్రశ్న. ఇది నమూనాలు రవాణా చేయబడుతుందని స్వయంచాలకంగా ఊహించరాదు, కానీ వారు రవాణా చేయలేరని భావించరాదు. అండర్గ్రాడ్యుయేట్ విద్యార్థులను (Sears 1986, [@henrich_most_2010] ) అధ్యయనం చేయడం ద్వారా పరిశోధకులను మానవ ప్రవర్తన గురించి ఎంత మంది పరిశోధకులు నేర్చుకోవాలో చర్చలు (Sears 1986, [@henrich_most_2010] ) రవాణా రవాణా గురించి ఈ కొంతవరకు వియుక్త ప్రశ్నలు మీకు తెలిసి ఉంటాయి. అయితే ఈ చర్చలు ఉన్నప్పటికీ, అండర్గ్రాడ్యుయేట్ విద్యార్థులను అధ్యయనం చేయకుండా పరిశోధకులు నేర్చుకోలేరని చెప్పడానికి ఇది అసమంజసమైనది.
రెండవ మినహాయింపు ఏమిటంటే, nonrepresentative డేటా చాలా పరిశోధకులు మంచు లేదా డాల్ మరియు హిల్ వంటి జాగ్రత్తగా కాదు. సో, పరిశోధకులు నాన్ప్రెస్ప్రెసియేటివ్ డేటా నుండి వెలుపల నమూనా సాధారణీకరణను ప్రయత్నించినప్పుడు ఏమి తప్పుదోవని వివరించడానికి, ఆండ్రానిక్ తుమాసాజన్ మరియు సహచరులు (2010) చేత 2009 జర్మన్ పార్లమెంటరీ ఎన్నికల అధ్యయనం గురించి నేను మీకు చెప్పాలనుకుంటున్నాను. 100,000 కన్నా ఎక్కువ ట్వీట్లను విశ్లేషించడం ద్వారా, ఒక రాజకీయ పార్టీని పేర్కొన్న ట్వీట్లు యొక్క నిష్పత్తి పార్లమెంటరీ ఎన్నికలలో పార్టీ అందుకున్న ఓట్ల నిష్పత్తితో సరిపోయిందని వారు కనుగొన్నారు (ఫిక్స్ 2.3). మరో మాటలో చెప్పాలంటే, ట్విట్టర్ డేటా తప్పనిసరిగా స్వేచ్ఛగా ఉండేది, సంప్రదాయ ప్రజల అభిప్రాయ సర్వేలను భర్తీ చేయగలదు, ఎందుకంటే ఇది ప్రతినిధి డేటాపై దృష్టి కేంద్రీకరించడం వలన ఖరీదైనవి.
మీరు బహుశా ఇప్పటికే Twitter గురించి తెలిసిన ఏమి, మీరు వెంటనే ఈ ఫలితంగా సందేహాస్పదంగా ఉండాలి. 2009 లో ట్విట్టర్లో జర్మన్లు జర్మన్ వోటర్స్ యొక్క ఒక సంభావనీయ యాదృచ్చిక నమూనా కాదు, మరియు కొన్ని పార్టీల మద్దతుదారులు ఇతర పార్టీల మద్దతుదారుల కంటే ఎక్కువగా రాజకీయాల్లో ట్వీట్ చేస్తారు. ఈ విధంగా, ఈ డేటాను నేరుగా జర్మన్ ఓటర్లు ప్రతిబింబించే విధంగా మీరు ఊహించే అవకాశం ఉన్న పక్షవాతాన్ని ఏదో రద్దు చేస్తారని ఆశ్చర్యపోతోంది. వాస్తవానికి, Tumasjan et al. (2010) ఫలితాలు Tumasjan et al. (2010) నిజమని చాలా మంచిది. ఆండ్రియాస్ జంగ్హెర్, పాస్కల్ జుర్గెన్స్ మరియు హరాల్డ్ స్కోన్ (2012) చేత అనుసరించిన కాగితం, అసలు విశ్లేషణ నిజానికి ట్విట్టర్లో ఎక్కువగా ప్రస్తావించిన రాజకీయ పార్టీని మినహాయించిందని సూచించింది: ప్రభుత్వ నియంత్రణలో పోరాడే చిన్న పార్టీ, పైరేట్ పార్టీ ఇంటర్నెట్. విశ్లేషణలో పైరేట్ పార్టీ చేర్చబడినప్పుడు, ట్విటర్ ప్రస్తావనలు ఎన్నికల ఫలితాల భయంకరమైన ప్రిడిక్టర్గా మారాయి (ఫిగర్ 2.3). ఈ ఉదాహరణ ఉదహరించినప్పుడు, వెలుపల నమూనా సాధారణీకరణలను చేయటానికి nonrepresentative పెద్ద డాటా వనరులను ఉపయోగించడం చాలా తప్పు కావచ్చు. కూడా, మీరు 100,000 ట్వీట్లు ఉన్నాయి వాస్తవం ప్రధానంగా అసంబద్ధం అని గమనించాలి: nonrepresentative డేటా మా ఇప్పటికీ సర్వేలు చర్చించేటప్పుడు నేను కాని అధ్యాయం 3 తిరిగి చేస్తాము ఒక కాని ప్రతినిధి, ఒక థీమ్.
అంతిమంగా, అనేక పెద్ద డేటా మూలాలు కొన్ని బాగా నిర్వచించిన జనాభా నుండి ప్రతినిధి నమూనాలను కాదు. మాదిరి నుండి ప్రజలకు నమూనా నుండి సాధారణ ఫలితాలు అవసరమయ్యే ప్రశ్నలకు, ఇది తీవ్రమైన సమస్య. కానీ నమూనా-పోలికల గురించి ప్రశ్నలకు, సూత్రప్రాయంగా లేదా అనుభావిక సాక్ష్యాలతో రవాణా నమూనా గురించి వారి మాదిరి లక్షణాలు మరియు మద్దతు వాదనలు గురించి స్పష్టంగా ఉన్నంత కాలం పరిశోధనలు స్పష్టంగా ఉంటాయి. నిజానికి, నా ఆశ, పెద్ద సంఖ్యలో పరిశోధకులు చాలామంది nonrepresentative సమూహాలలో నమూనా-పోలికలతో మరింత పరిశోధిస్తారు, మరియు నా అభిప్రాయం అనేక సమూహాల నుండి అంచనాలు సాంఘిక పరిశోధనను మరింత ప్రోబబిలిస్టిక్ యాదృచ్ఛిక నమూనా.