2.3.1.1 Big

لوی بنسټيز دي پای ته د يوې وسيلې په؛ دوی په خپل ځان د پای نه دي.

د لومړي ځل لپاره د د لوی معلوماتو د درې ښه ځانګړتياوو ده تر ټولو بحث: دا ستر مالومات دي. د دغو معلوماتو د سرچينو په کیدای شي چې په دریو مختلفو لارو ستره: زيات شمېر خلک، هر شخص لپاره د معلوماتو د ډېر، يا د وخت په تېرېدو ډېر مشاهدات. يوه ستره و ارز درلودل د څیړنې د اندازه heterogeneity ځينو مشخصو ډولونو توانوي، زده نادره پیښو، لږ توپيرونه په تشخیص او کتنيزو معلومات له اتفاقی اټکل کوي. دا هم داسې ښکاري چې د sloppiness د يوه ځانګړي ډول لامل شي.

لومړنی کار د کوم لپاره چې اندازه په ځانګړې توګه ګټور روان دی اوسط څخه بهر ته د ځانګړو فرعي اټکل وکړي. د مثال په توګه، Gary پاچا، Jennifer پان، او Molly رابرتز د (2013) د احتمال په اندازه چې په چین کې د ټولنیزو رسنیو ليکنې به د حکومت له خوا سانسور شي. په خپله دې د ړنګېدنې په اوسط ډول احتمال لپاره د درک چې ولې د حکومت يو شمير ليکنې خو نور نه سانسور ډېر ګټور نه دی. خو، ځکه چې د هغوی و ارز 11 ميليونه ليکنې شامل دي، د پاچا او همکارانو لپاره هم د 85 جلا کتګوریو کې (د بيلګې په، غير اخلاقي، تبت، او په بېجينګ کې د ترافیکو) ليکنې د سانسور د احتمال اټکل توليديږي. له خوا د په مختلفو کتګوریو کې ليکنې د سانسور د احتمال په پرتله، دوی کولای شول چې په اړه چې څنګه او ولې حکومت د نوم ليکنې د ځينو ډولونو سانسور زیات پوه شي. سره د 11 زره ليکنې (11 ميليونه پرځای ليکنې)، دوی به نه دي توانيدلي چې دا وېشنيزه کې مشخص اټکل توليدوي.

دوهم، اندازه په ځانګړې توګه د نادرو پیښو ده زده ګټور دي. د مثال په توګه، Goel او همکارانو (2015) غوښتل چې د مختلفو لارو چې د تویتس کولای ويروسي ځي زده کړه وکړي. ځکه چې د بيا تویتس لوی cascades دي خورا نادره نژدې يو په يو 3،000-دوی ته اړتيا لري ترڅو د خپل تحليل په کافي اندازه زيات cascades پیدا زیات بیلیونه Tweets زده کړه وکړي.

دریم، د لويو بنسټيز څېړونکو وتوانوي چې لږ توپيرونه کشف کړي. په حقیقت کې، د په صنعت کې ستر معلوماتو د تمرکز په دې لږ توپيرونه په اړه ده: په کره توګه د یوې مهمې د 1٪ او 1.1٪ کلیک-له لارې په نرخ تر منځ توپير په تشخیص کولای شي په اضافي عواید د میلیونونو ډالرو ترجمه. په ځينو علمي امستنې، لکه لږ توپيرونه نه ځانګړې توګه مهم وي (که څه هم هغوی د پام وړ). خو، په ځينو پالیسۍ امستنې، لکه لږ توپيرونه کولای شي مهم وخت کې په ټولیز کتل شي. د بیلګې په توګه، که دوه د عامې روغتيا د مداخلو او یوه شته دی د نورو په پرتله لږ ډېر اغېزمن دي، نو د ډېر اغېزمن مداخله کیدای شي پورې د اضافي ژوند په زرګونو د سپما اعیاروی.

په پای کې، لوی ارقامو سټونه ډېر زموږ د توان کتنيزو معلومات له اتفاقی اټکل وکړي لوړه شي. که څه هم لویه بنسټيز معلومات نه په اساسي ډول د ستونزو سره د نوموړو کتنيزو د معلوماتو څخه د سببونو د پرتلي کولو، سارو او طبیعي تجربو دوه تخنیکونو چې څېړونکو لپاره د کتنيزو څخه اتفاقی ادعا جوړ شوي دي د معلوماتو د دواړو ډېر په لويو بنسټيز ګټه بدل کړي. زه تشريح او بيا وروسته په دې فصل کې کله چې زه د څیړنې ستراتیژیو تشریح دغه ادعا کې په تفصیل سره تشریح.

که څه هم bigness په عمومي توګه ښه ملکیت کله چې په سمه توګه کارول، زه متوجه ته ورسیدم چې د bigness عموما د یو مفهومی ګمراهۍ سبب کیږي. د ځینو عواملو، bigness داسې ښکاري چې څېړونکو سبب له پامه څنګه خپل معلومات دي. په داسې حال کې bigness کوي اړتيا تصادفي تېروتنه په اړه اندېښمن دي کم کړي، دا په حقيقت کې د اړتیا په سیستماتیک ډول تېروتنې په اړه اندېښنه زیاتوي، د غلطيو چې زه به په لاندې چې ډیر روښانه کړئ چې د ډول په مالومات څنګه جوړ او راټول څخه مهرداد را منځته کیږي. په يو کوچني جز، د دواړو تصادفي خطا او په سیستماتیک ډول تېروتنه کولای شي مهم، خو په يو زيات ارز تصادفي تېروتنه ده لرې په منځني ډول کیدای شي او په سیستماتیک ډول تېروتنه پراته دی. څېړونکي چې په سیستماتیک ډول تېروتنه د خپلو لويو بنسټيز په کارولو سره د یو غلط کار دقیق اټکل ترلاسه به د پای په اړه فکر نه کوي؛ دوی به په دقیق ډول ناسم (McFarland and McFarland 2015) .