2.3.1.1 بزرگ

مجموعه داده های بزرگ یک وسیله ای برای پایان؛ آنها به خودی خود هدف نیست.

اولین از سه ویژگی های خوب از داده های بزرگ است که بیشتر مورد بحث: این داده ها بزرگ هستند. این منابع داده ها می تواند بزرگ در سه روش مختلف: بسیاری از مردم، مقدار زیادی از اطلاعات در هر فرد، و یا مشاهدات بسیاری دارد. داشتن یک مجموعه داده بزرگ را قادر می سازد برخی از انواع خاص از عدم تجانس تحقیقات اندازه گیری، مطالعه وقایع نادر، تشخیص تفاوت های کوچک، و تخمین علی از داده های مشاهده ای. همچنین به نظر می رسد منجر به یک نوع خاص از sloppiness.

اولین چیزی که برای آن اندازه بسیار مفید است فراتر از میانگین متحرک به تخمین می زند برای زیر گروه خاص. به عنوان مثال، گری کینگ، جنیفر پان، و مالی رابرتز (2013) اندازه گیری احتمال این که پست های رسانه های اجتماعی در چین خواهد بود که توسط دولت سانسور می شوند. به خودی خود این احتمال متوسط ​​حذف است برای درک اینکه چرا دولت سانسور برخی از پست، اما نه دیگران بسیار مفید است. اما، به دلیل مجموعه داده خود را شامل 11 میلیون پست، پادشاه و همکارانش همچنین تخمین برای احتمال سانسور برای پست در 85 دسته بندی جداگانه (به عنوان مثال، پورنوگرافی، تبت، و ترافیک در پکن) تولید شده است. با مقایسه احتمال سانسور برای پست در دسته بندی های مختلف، آنها قادر به درک بیشتر در مورد چگونه و چرا دولت سانسور انواع خاصی از پست بود. با 11 هزار پست (به جای 11 میلیون ارسال ها)، آنها را نداشته اند قادر به تولید این تخمین گروه خاص بوده است.

دوم، به ویژه برای اندازه در حال مطالعه اتفاقات نادر مفید است. به عنوان مثال، Goel و همکاران (2015) خواست برای تحصیل راه های مختلف که می توانید توییت های ویروسی است. از آنجا که آبشار بزرگ دوباره توییت بسیار نادر است در حدود یک در یک 3000-آنها مورد نیاز برای مطالعه بیش از یک میلیارد توییت در جهت پیدا کردن آبشار به اندازه کافی بزرگ برای تجزیه و تحلیل کنند.

سوم، مجموعه داده های بزرگ محققان را قادر به تشخیص تفاوت کوچک است. در واقع، بسیاری از تمرکز بر داده های بزرگ در صنعت است که در مورد این تفاوت های کوچک: قابل اعتماد تشخیص تفاوت بین نرخ 1٪ و 1.1٪ از طریق کلیک بر روی تبلیغات می تواند به میلیون ها دلار درآمد اضافی را ترجمه کنید. در برخی از تنظیمات علمی، مانند تفاوت های کوچک ممکن است به طور خاص مهم (حتی اگر آنها از نظر آماری معنیدار هستند). اما در برخی تنظیمات خط مشی، از جمله تفاوت های کوچک می توانید مهم است که در مجموع مشاهده می شود. برای مثال، اگر وجود دارد دو مداخله بهداشت عمومی و یک کمی موثرتر از دیگر، و سپس تعویض به مداخله موثر تر می تواند در نهایت صرفه جویی در جان هزاران نفر اضافی.

در نهایت، مجموعه داده های بزرگ تا حد زیادی توانایی ما را به تخمین علی از داده های مشاهده ای را افزایش دهد. اگر چه مجموعه داده های بزرگ اساسا مشکلات با ساخت استنتاج علی از داده های مشاهده ای، تطبیق و آزمایش دو طبیعی تکنیک های که محققان برای ساخت ادعاهای علی از مشاهده را توسعه داده اند داده هر دو به شدت از مجموعه داده های بزرگ بهره مند شوند را تغییر دهید. من توضیح و نشان دادن این ادعا را با جزئیات بیشتر بعدا در این فصل زمانی که من استراتژی های پژوهش توصیف می کنند.

اگر چه بزرگی است به طور کلی یک ویژگی خوب درست استفاده شود، من متوجه شده ام که بزرگی معمولا به خطا مفهومی منجر می شود. به چند دلیل، بزرگی به نظر می رسد منجر به چشم پوشی از محققان چگونه اطلاعات خود را ایجاد شد. در حالی که بزرگی می کند کاهش نیاز به نگرانی در مورد خطای تصادفی، در واقع افزایش می دهد نیاز به نگرانی در مورد خطاهای سیستماتیک، انواع خطاهایی که من در زیر است که توصیف از تعصبات بوجود می آیند در چگونه اطلاعات را ایجاد می کند و جمع آوری شده. در یک مجموعه داده کوچک، هر دو خطای تصادفی و خطای سیستماتیک میتواند مهم باشد، اما در یک خطای تصادفی مجموعه داده های بزرگ است می تواند به دور متوسط ​​و خطای سیستماتیک غالب است. محققان که در مورد خطای سیستماتیک به پایان خواهد رسید با استفاده از مجموعه داده های بزرگ خود را برای دریافت برآورد دقیقی از چیزی اشتباه فکر نمی کنم؛ آنها خواهد بود دقیقا نادرست (McFarland and McFarland 2015) .