מקורות נתונים גדולים נמצאים בכל מקום, אבל השימוש בהם למחקר חברתי יכול להיות מסובך. מניסיוני, יש משהו כמו "ללא ארוחת צהריים חינם" הכלל עבור הנתונים: אם אתה לא לשים הרבה עבודה איסוף זה, אז אתה כנראה הולך צריך לשים הרבה עבודה לחשוב על זה לנתח את זה.
מקורות הנתונים הגדולים של היום - ואולי מחר - יהיו נוטים להיות בעלי 10 מאפיינים. שלושה מהם הם בדרך כלל (אך לא תמיד) מועיל למחקר: גדול, תמיד על, ולא nonreactive. שבעה הם בדרך כלל (אך לא תמיד) בעייתי למחקר: לא שלם, בלתי נגיש, לא מייצג, נסחף, מבולבל אלגוריתמי, מלוכלך, רגיש. רבים מן המאפיינים הללו נובעים בסופו של דבר משום שמקורות נתונים גדולים לא נוצרו לצורך מחקר חברתי.
בהתבסס על הרעיונות בפרק זה, אני חושב שיש שלוש דרכים עיקריות כי מקורות נתונים גדולים יהיה יקר ביותר עבור מחקר חברתי. ראשית, הם יכולים לאפשר לחוקרים להחליט בין תחזיות תיאורטיות מתחרות. דוגמאות לסוג זה של עבודה כוללות את Farber (2015) (נהגי מוניות בניו יורק) ואת King, Pan, and Roberts (2013) (צנזורה בסין). שנית, מקורות נתונים גדולים יכולים לאפשר מדידה משופרת למדיניות באמצעות שידור עצמי. דוגמה לסוג זה של עבודה היא Ginsberg et al. (2009) (Google Flu Trends). לבסוף, מקורות נתונים גדולים יכולים לסייע לחוקרים לבצע הערכות סיבתיות ללא הפעלת ניסויים. דוגמאות לסוג זה של עבודה הן Mas and Moretti (2009) (השפעות על פריון) ועל Einav et al. (2015) (השפעה של מחיר התחלתי על מכירות פומביות ב- eBay). עם זאת, כל אחת מגישות אלה דורשת מחוקרים להביא הרבה לנתונים, כגון הגדרת כמות החשובה לאומדן או שתי תיאוריות המניבות תחזיות מתחרות. לכן, אני חושב שהדרך הטובה ביותר לחשוב על מה שמקורות נתונים גדולים יכולה לעשות היא שהם יכולים לעזור לחוקרים שיכולים לשאול שאלות מעניינות וחשובות.
לפני שאני מסכם, אני חושב שזה שווה בהתחשב כי מקורות נתונים גדולים עשויה להיות השפעה חשובה על הקשר בין נתונים ותיאוריה. עד כה, פרק זה קיבל את הגישה של מחקר אמפירי מונחה תיאוריה. אבל מקורות נתונים גדולים גם מאפשרים לחוקרים לעשות תיאוריה מונעת אמפירית . כלומר, באמצעות הצטברות זהירה של עובדות אמפיריות, תבניות וחידות, החוקרים יכולים לבנות תיאוריות חדשות. גישה אלטרנטיבית זו, הראשונה-תיאורטית, אינה חדשה, והיא באה לידי ביטוי רב יותר בבארני גלזר ואנסלם שטראוס (1967) עם הקריאה שלהם לתיאוריה מקורקעת . גישת נתונים זו, לעומת זאת, אינה מרמזת על "סוף התיאוריה", כפי שטוענים בחלק מהעיתונות העוסקת במחקר בעידן הדיגיטלי (Anderson 2008) . במקום זאת, כאשר סביבת הנתונים משתנה, עלינו לצפות לאיזון מחדש ביחסים בין נתונים לתיאוריה. בעולם שבו איסוף הנתונים היה יקר, זה היה הגיוני לאסוף רק את הנתונים כי תיאוריות מציע יהיה שימושי ביותר. אבל, בעולם שבו כמויות עצומות של נתונים כבר זמין בחינם, זה הגיוני גם לנסות גישה נתונים הראשון (Goldberg 2015) .
כפי שהראיתי בפרק זה, החוקרים יכולים ללמוד הרבה על ידי צפייה באנשים. בשלושת הפרקים הבאים, אתאר כיצד נוכל ללמוד יותר דברים שונים, אם אנו מתאימים את איסוף הנתונים שלנו ומביאים עימם אינטראקציה עם אנשים באופן ישיר יותר על-ידי שאלתם שאלות (פרק 3), ניסויים פעילים (פרק 4) ואפילו מעורבים בהם בתהליך המחקר ישירות (פרק 5).