2.3.1.1 బిగ్

పెద్ద డేటాసెట్ ముగింపు ఒక సాధనంగా ఉన్నారు; వారు తమని తాము ముగింపుగా కాదు.

మొదటి పెద్ద డేటా మూడు మంచి లక్షణాలను చాలా చర్చించారు: ఈ పెద్ద డేటా ఉన్నాయి. అనేక మంది, తలకు సమాచారాన్ని మా, లేదా కాలక్రమేణా అనేక పరిశీలనలు: ఈ డేటా మూలాల మూడు రకాలుగా పెద్దదిగా ఉంటుంది. ఒక పెద్ద డేటాసెట్ కలిగి, అరుదైన సంఘటనల అధ్యయనం చిన్న తేడాలు గుర్తించగలరు, మరియు పరిశీలన డేటా నుండి కారణ అంచనాలు తయారు, పరిశోధన-కొలిచే భిన్నత్వం యొక్క కొన్ని నిర్దిష్ట రకాల అనుమతిస్తుంది. ఇది కూడా sloppiness యొక్క ఒక నిర్దిష్ట రకం దారి తెలుస్తోంది.

పరిమాణం ముఖ్యంగా ఉపయోగకరంగా ఉంది మొదటి విషయం నిర్దిష్ట ఉపవిభాగాలు అంచనాలు తయారు సగటులు దాటి కదులుతాడు. ఉదాహరణకు, గారీ కింగ్, జెన్నిఫర్ పాన్ మరియు మోలే రాబర్ట్స్ (2013) సంభావ్యత కొలుస్తారు చైనా సామాజిక మీడియా పోస్ట్లు ప్రభుత్వం సెన్సార్ అని. స్వయంగా తొలగింపు ఈ సగటు సంభావ్యత ప్రభుత్వం కొన్ని పోస్ట్లు కానీ ఇతరులు సెన్సార్ ఎందుకు అర్థం చాలా సహాయకారిగా కాదు. కానీ, వారి డేటాసెట్ 11 మిలియన్ పోస్ట్ ఉండడం వలన, కింగ్ మరియు సహచరులు కూడా 85 వేర్వేరు విభాగాలుగా (ఉదా, అశ్లీల, టిబెట్, మరియు బీజింగ్ లో ట్రాఫిక్) పోస్టులు కోసం సెన్సార్షిప్ యొక్క సంభావ్యత అంచనాలు ఉత్పత్తి. వివిధ కేతగిరీలు లో పోస్ట్స్ సెన్సార్షిప్ సంభావ్యత పోల్చగా, వారు ప్రభుత్వం పోస్ట్లు కొన్ని రకాల సెన్సార్ ఎలా మరియు ఎందుకు గురించి మరింత అర్థం పోయారు. 11 వేల పోస్ట్లు (బదులుగా 11 మిలియన్ పోస్ట్) తో, వారు ఈ వర్గం నిర్దిష్ట అంచనాలు ఉత్పత్తి చేయగలిగారు కాదు.

రెండవది, పరిమాణం అరుదైన సంఘటనల చదువుతున్నారు ఉపయోగపడుతుంది. ఉదాహరణకు, గోయల్, సహచరులు (2015) ట్వీట్లు వైరల్ వెళ్ళే రకాలుగా అధ్యయనం అనుకున్నారు. తిరిగి ట్వీట్లు పెద్ద సెలయేళ్ళు ఒక అతి అరుదుగా గురించి ఒక ఎందుకంటే 3,000-వారు వారి విశ్లేషణ కోసం తగినంత పెద్ద సెలయేళ్ళు కనుగొనేందుకు చేయడానికి ఒక బిలియన్ కంటే ఎక్కువ ట్వీట్లు అధ్యయనం అవసరమైన.

మూడవది, పెద్ద డేటాసెట్ చిన్న తేడాలు గుర్తించడం పరిశోధకులు ఎనేబుల్. నిజానికి, పరిశ్రమలో పెద్ద డేటా దృష్టి చాలా ఈ చిన్న తేడాలు గురించి: విశ్వసనీయంగా ఒక ప్రకటన మీద 1% మరియు 1.1% క్లిక్-త్రూ రేట్లు మధ్య తేడా గుర్తించే అదనపు ఆదాయం మిలియన్ల డాలర్లను అనువదిస్తుంది. కొన్ని శాస్త్రీయ నేపధ్యాలలో, ఇటువంటి చిన్న తేడాలు (వారు సంఖ్యాపరంగా గణనీయమైన కానప్పటికీ) ప్రత్యేక ముఖ్యమైన ఉండకపోవచ్చని. కానీ, కొన్ని విధాన వీటి ఇటువంటి చిన్న తేడాలు ముఖ్యమైన కంకర లో చూసినప్పుడు తయారవుతుంది. ఉదాహరణకు, రెండు ప్రజా ఆరోగ్య చికిత్సలు మరియు ఒక, అప్పుడు జోక్యం అదనపు జీవితాలను వేల సేవ్ ముగించవచ్చు మారడం ఇతర కంటే కొద్దిగా మరింత సమర్థవంతంగా.

చివరగా, భారీ సమాచార సమితుల్లో గొప్పగా పరిశీలన డేటా నుండి కారణ అంచనాలు చేయడానికి మా సామర్థ్యాన్ని పెంచడానికి. పెద్ద డేటాసెట్ ప్రాథమికంగా, పరిశీలించబడిన దత్తాంశాన్ని నుండి కారణ ఆకళింపు మేకింగ్ సరిపోలే మరియు సహజ ప్రయోగాలు రెండు పద్ధతులు పరిశోధకులు పరిశీలనాత్మక నుండి కారణ ప్రచారం చేస్తోందని అభివృద్ధి చేసిన డేటా రెండు గొప్పగా పెద్ద డేటాసెట్ నుండి ప్రయోజనం సమస్యలు మార్చడానికి లేదు. నేను వివరించడానికి నేను పరిశోధన వ్యూహాలు వివరించినప్పుడు ఈ అధ్యాయంలో తర్వాత ఎక్కువ వివరాలు ఈ దావా వర్ణించేందుకు చేస్తాము.

లావు సాధారణంగా సరిగ్గా ఉపయోగించినప్పుడు మంచి ఆస్తి ఉంది ఉన్నప్పటికీ, నేను లావు సాధారణంగా ఒక సంభావిత లోపం దారితీస్తుంది గమనించాము. కొన్ని కారణంగా, లావు వారి డేటా ఉత్పత్తి ఎలా విస్మరించడానికి పరిశోధకులు దారి తెలుస్తోంది. లావు యాదృచ్ఛిక లోపం గురించి ఆందోళన అవసరం తగ్గించేందుకు ఉన్నప్పటికీ, అది నిజానికి డేటా, రూపొందించినవారు మరియు సేకరిస్తున్నారు పక్షపాతాలకు నుండి ఉత్పన్నమయ్యే నేను క్రింద మరింత వివరించడానికి చేస్తాము లోపాలు రకాల క్రమబద్ధమైన లోపాల గురించి ఆందోళన అవసరం పెరుగుతుంది. ఒక చిన్న డేటాసెట్, యాదృచ్ఛిక లోపం మరియు క్రమ దోషాలకు రెండు ముఖ్యమైన ఉంటుంది, కానీ ఒక పెద్ద డేటాసెట్ యాదృచ్ఛిక లోపం దూరంగా సగటును మరియు చేయవచ్చు క్రమ దోషాలకు ప్రబలంగా. క్రమ దోషాలకు తప్పు విషయం యొక్క ఒక ఖచ్చితమైన అంచనా పొందడానికి వారి పెద్ద డేటాసెట్ ఉపయోగించి ముగుస్తుంది గురించి ఆలోచించడం లేదు చేసే పరిశోధకులు; అవి సరియైన సరికాని ఉంటుంది (McFarland and McFarland 2015) .