مجموعه داده های بزرگ یک وسیله ای برای پایان؛ آنها به خودی خود هدف نیست.
یکی از مهمترین ویژگی های مهم منابع داده بزرگ این است که آنها بزرگ هستند. برای مثال، بسیاری از مقالات، با بحث و گفتوگو و گاهی اوقات، درباره میزان اطلاعات تجزیه و تحلیل شده، شروع می شوند. به عنوان مثال، یک مقاله منتشر شده در علم در مورد روند استفاده از واژه ها در قسمت کتاب های گوگل شامل موارد زیر است (Michel et al. 2011) :
"[corp] ما شامل بیش از 500 میلیارد کلمه در انگلیسی (361 میلیارد)، فرانسوی (45 میلیارد)، اسپانیایی (45 میلیارد)، آلمانی (37 میلیارد)، چینی (13 میلیارد)، روسی (35 میلیارد دلار) و عبری (2 میلیارد). قدیمی ترین آثار در 1500 سالگی منتشر شد. دهه های اولیه تنها چند کتاب در هر سال ارائه می شود که شامل چند صد هزار کلمه می شود. تا سال 1800، بدن به 98 میلیون کلمه در سال رشد می کند؛ تا سال 1900، 1.8 میلیارد دلار؛ و تا سال 2000، 11 میلیارد. بدن نمی تواند توسط یک انسان خوانده شود. اگر شما سعی کردید فقط از سال 2000 فقط به زبان انگلیسی بخوانید، با سرعت معقولی 200 کلمه در دقیقه، بدون وقفه برای غذا یا خواب، 80 سال طول خواهد کشید. دنباله ای از نامه ها 1000 بار طولانی تر از ژنوم انسان است: اگر شما آن را در یک خط مستقیم نوشتید، آن را به 10 بار بیش از ماه و بازگشت. "
مقیاس این داده ها بدون شک بسیار چشمگیر است و همه ما خوش شانس هستیم که تیم Google Books این اطلاعات را برای عموم منتشر کرده است (در واقع بعضی از فعالیت ها در انتهای این فصل از این اطلاعات استفاده می کنند). اما هر زمان که شما چیزی شبیه این را می بینید، باید بپرسید: آیا این همه اطلاعات واقعا کاری انجام می دهند؟ آیا می توانستند همین تحقیق را انجام دهند اگر داده ها بتوانند فقط به یک ماه به ماه برسند؟ اگر داده ها فقط می توانند به بالای کوه اورست یا بالای برج ایفل برسند؟
در این مورد، تحقیقات آنها، در واقع، دارای برخی یافته هایی است که نیاز به یک عظیم از کلمات در طول یک دوره طولانی دارد. به عنوان مثال، یکی از چیزهایی که آنها کشف می کنند، تکامل دستور زبان است، به ویژه تغییرات در میزان همبستگی فعل نامنظم. از آنجایی که برخی از افعال نامنظم بسیار نادر هستند، مقدار زیادی از داده ها نیاز به شناسایی تغییرات در طول زمان دارند. با این حال، اغلب، محققان به نظر میرسد که اندازه منبع داده بزرگ را به عنوان یک نهایت "نگاه کنید که چقدر اطلاعات من میتوانم خراب شود" را در معرض خطر قرار میدهم، نه به معنای اهمیت علمی مهمتر.
در تجربه من، مطالعه حوادث نادر یکی از سه علت خاص علمی است که مجموعه داده های بزرگ تمایل به فعال کردن دارند. دومین مطالعه ناهمگونی است، همانطور که می توان از طریق مطالعه Raj Chetty و همکارانش (2014) در مورد تحرک اجتماعی در ایالات متحده نشان داده شده است. در گذشته، بسیاری از محققان، با مقایسه نتایج زنده والدین و کودکان، تحرک اجتماعی را مورد بررسی قرار داده اند. یافته های سازگار از این ادبیات این است که والدین (Hout and DiPrete 2006) تمایل به داشتن فرزندان (Hout and DiPrete 2006) دارند، اما قدرت این رابطه در طول زمان و در کشورهای مختلف متفاوت است (Hout and DiPrete 2006) . با این حال اخیرا Chetty و همکاران توانستند سوابق مالیاتی را از 40 میلیون نفر برای برآورد ناهمگونی در تحرک بین نسلی در ایالات متحده استفاده کنند (شکل 2.1). به عنوان مثال، آنها دریافتند که احتمال اینکه کودک یک توزیع درآمد ملی را از خانواده خود در انتهای کوینتیل پایین بیاورد، در سن خوزه کالیفرنیا حدود 13٪ است، اما در شارلوت، کارولینای شمالی تنها 4٪ است. اگر به لحظه نگاه کنید به شکل 2.1، ممکن است شروع به تعجب کنید که چرا در بعضی از نقاط حریم خصوصی بین نسل ها بالاتر از دیگران است. چیتی و همکارانش دقیقا همین سوال را مطرح کردند و دریافته اند که این مناطق دارای محدوده های پر جنب و جوش، تقسیم مسکونی کمتر، نابرابری درآمد کمتر، مدارس ابتدایی بهتر، سرمایه اجتماعی بیشتری و ثبات خانواده بیشتر است. البته این همبستگی ها تنها نشان نمی دهد که این عوامل باعث تحرک بیشتر می شوند، اما آنها مکانیسم های احتمالی را پیشنهاد می کنند که می تواند در کارهای بعدی مورد بررسی قرار گیرد، دقیقا همان چیزی است که چتی و همکاران در کارهای بعدی انجام داده اند. توجه کنید که اندازه داده ها در این پروژه بسیار مهم است. اگر چتی و همکارانش سوابق مالیاتی 40 هزار نفر را به جای 40 میلیون نفر استفاده کرده بودند، نمیتوانستند برآورد ناهمگونی منطقهای را انجام دهند و هرگز نمیتوانستند تحقیقات بعدی را انجام دهند تا سازوکارهایی را ایجاد کنند که این تغییر را ایجاد کنند.
در نهایت، علاوه بر مطالعه حوادث نادر و مطالعه ناهمگونی، مجموعه داده های بزرگ نیز محققان را قادر می سازد تا تفاوت های کوچک را شناسایی کنند. در حقیقت، تمرکز اصلی بر روی داده های بزرگ در صنعت مربوط به این تفاوت های کوچک است: به طور قابل اعتماد تشخیص تفاوت بین نرخ های کلیک 1 تا 1.1٪ در یک آگهی می تواند به میلیون ها دلار در درآمد اضافی ترجمه شود. با این وجود، در بعضی از تنظیمات علمی، چنین تفاوت های کوچکی ممکن است مهم نیست، حتی اگر از لحاظ آماری معنی دار باشند (Prentice and Miller 1992) . اما، در بعضی از تنظیمات خطمشی، هنگام مشاهده در مجموع، می توانند مهم باشند. به عنوان مثال، اگر دو مداخله بهداشت عمومی وجود داشته باشد و یکی از آن ها کمی مؤثرتر از دیگران است، پس انتخاب مداخله مؤثرتر می تواند هزاران نفر دیگر را از بین ببرد.
اگر چه بنیاد به طور کلی یک دارایی خوب است که به درستی مورد استفاده قرار می گیرد، متوجه شدم که گاهی اوقات می تواند به یک خطای مفهومی منجر شود. به هر دلیلی، به نظر می رسد بزرگی، محققان را نادیده می گیرد که چگونه اطلاعات آنها تولید شده است. در حالی که بزرگی می کند کاهش نیاز به نگرانی در مورد خطای تصادفی، در واقع افزایش می دهد نیاز به نگرانی در مورد خطاهای سیستماتیک، انواع خطاهایی که من زیر که توصیف از تعصبات بوجود می آیند در چگونه اطلاعات را ایجاد می کند. برای مثال، در یک پروژه که بعدا در این فصل توضیح خواهم داد، محققان از پیامهای تولید شده در 11 سپتامبر 2001 برای تولید یک جدول زمانی عاطفی با وضوح بالا واکنش به حمله تروریستی (Back, Küfner, and Egloff 2010) . از آنجاییکه محققان پیامهای زیادی داشتند، واقعا نباید نگران نباشید که آیا الگوهایی که مشاهده کردند، خشمگین شدن در طول روز را می توان با تغییرات تصادفی توضیح داد. داده های زیادی وجود داشت و الگوی آن چنان واضح بود که تمام آزمون های آماری آماری نشان می داد که این یک الگوی واقعی است. اما، این آزمون های آماری نادیده گرفته شد که چگونه داده ها ایجاد شد. در حقیقت، معلوم شد که بسیاری از الگوهای مربوط به یک ربات تک است که پیام های بیشتر و بی معنی را در طول روز تولید می کند. از بین بردن این یک ربات، برخی از یافته های کلیدی مقاله (Pury 2011; Back, Küfner, and Egloff 2011) طور کامل از بین برد. به سادگی، محققانی که در مورد خطای سیستماتیک فکر نمی کنند، خطر استفاده از مجموعه داده های بزرگ خود را برای برآورد دقیق از مقدار بی اهمیت، مانند محتوای احساسی پیام های بی معنی تولید شده توسط یک ربات خودکار، روبرو می کنند.
در نتیجه، مجموعه داده های بزرگ در خود هدف نیستند، اما آنها می توانند انواع خاصی از تحقیقات را شامل مطالعه رخدادهای نادر، برآورد ناهمگونی و تشخیص تفاوت های کوچک انجام دهند. به نظر می رسد مجموعه داده های بزرگ بعضی از محققان را نادیده می گیرد که چگونه اطلاعات آنها ایجاد شده است، که می تواند آنها را به برآورد دقیق از مقدار بی اهمیت ارزیابی کند.