منابع داده بزرگ در همه جا هستند، اما استفاده از آنها برای تحقیقات اجتماعی می تواند روی حیله و تزویر باشد. در تجربه من چیزی شبیه یک قانون "بدون ناهار آزاد" برای داده ها وجود دارد: اگر شما کارهای زیادی را انجام ندهید، احتمالا می خواهید کار زیادی انجام دهید و در مورد آن فکر کنید و تجزیه و تحلیل آن
منابع داده بزرگ امروز و احتمالا فردا تمایل به داشتن 10 ویژگی دارند. سه مورد از اینها به طور کلی (اما نه همیشه) برای تحقیق مفید است: بزرگ، همیشه در و غیر فعال. هفت (معمولا) (اما نه همیشه) برای تحقیقات مشکل ساز است: ناقص، غیرقابل دسترس، غیرپرداختنی، روانگردان، الگوریتمی غلط، کثیف و حساس است. بسیاری از این خصوصیات در نهایت بوجود می آیند زیرا منابع داده های بزرگ برای تحقیقات اجتماعی ایجاد نشده اند.
بر اساس ایده های این فصل، من فکر می کنم که سه راه اصلی وجود دارد که منبع داده های بزرگ برای تحقیقات اجتماعی ارزشمند خواهد بود. اولا، آنها می توانند محققان را قادر به تصمیم گیری بین پیش بینی های رقابتی نظریه کنند. نمونه هایی از این نوع کار عبارتند از: Farber (2015) (رانندگان تاکسی نیویورک) و King, Pan, and Roberts (2013) (سانسور در چین). دوم، منابع داده بزرگ می توانند اندازه گیری های بهبود یافته برای سیاست را از طریق nowcasting آسان تر کنند. یک مثال از این نوع کار، Ginsberg et al. (2009) (گوگل آنفولانزای مرغی). در نهایت، منابع اطلاعاتی بزرگ می توانند به محققان برآوردهای علمی بدون آزمایش های انجام شده کمک کنند. نمونه هایی از این نوع کارها عبارتند از Mas and Moretti (2009) (اثرات یکپارچه بر بهره وری) و Einav et al. (2015) (اثر شروع قیمت در مزایده در eBay). با این حال، هر کدام از این روشها مستلزم مطالعاتی است که محققان به داده ها نیاز دارند، مانند تعریف کمیتی که برای برآوردن اهمیت دارد یا دو نظریه که پیش بینی های رقابتی را ایجاد می کنند. بنابراین، من فکر می کنم بهترین راه برای فکر کردن در مورد اینکه منابع بزرگ داده چه می توانند انجام دهند، این است که آنها می توانند به محققانی که می توانند سوالات جالب و مهم را مطرح کنند، کمک کنند.
قبل از نتیجه گیری، من فکر می کنم ارزش توجه داشته باشید که منابع داده بزرگ ممکن است بر ارتباط بین داده ها و نظریه تاثیر بگذارد. تا کنون، این فصل رویکرد تحقیق تجربی مبتنی بر تئوری را دنبال کرده است. اما منابع اطلاعاتی بزرگ نیز محققان را قادر می سازد تا تئوری سازی های تجربی را انجام دهند. به این ترتیب، از طریق انباشت دقیق حقایق تجربی، الگوها و پازل ها، محققان می توانند نظریه های جدید را بسازند. این جایگزین، رویکرد داده به اولین نظریه، جدید نیست و توسط بارنی گلاسر و آنسلم استراس (1967) با خواست خود برای نظریه پایه، قویترین نوشته است . با این حال، این رویکرد اولین داده، به معنای «پایان تئوری» نیست، همانطور که در برخی از روزنامه نگاران در مورد تحقیقات در عصر دیجیتال ادعا شده است (Anderson 2008) . بلکه همانطور که محیط داده تغییر می کند، ما باید از تعادل دوباره در رابطه بین داده ها و نظریه ها انتظار داشته باشیم. در یک جهان که جمع آوری داده ها گران بود، منطقی بود که فقط اطلاعاتی را که نظریه ها پیشنهاد می کردند، مفیدتر جمع آوری کنند. اما، در یک جهان که حجم زیادی از اطلاعات در حال حاضر به صورت رایگان در دسترس است، منطقی است که یک رویکرد داده اول را امتحان کنید (Goldberg 2015) .
همانطور که در این فصل نشان داده شده است، محققان می توانند با تماشای افراد زیادی یاد بگیرند. در سه فصل بعدی، من توضیح خواهم داد که چگونه می توانیم چیزهای بیشتری و چیزهای مختلف را یاد بگیریم، اگر مجموعه داده های ما را جمع آوری کرده و به طور مستقیم با افراد ارتباط برقرار کنیم، با پرسیدن سوالات (فصل 3)، آزمایش های انجام شده (فصل 4) در فرایند تحقیق به طور مستقیم (فصل 5).