המדידה של מקורות נתונים גדולים נוטה פחות לשנות את ההתנהגות.
אחד האתגרים של המחקר החברתי הוא שאנשים יכולים לשנות את התנהגותם כאשר הם יודעים כי הם נבדקים על ידי חוקרים. מדעני החברה קוראים בדרך כלל תגובה זו (Webb et al. 1966) . לדוגמה, אנשים יכולים להיות נדיבים יותר במחקרי מעבדה מאשר במחקרי שדה, כי בראשון הם מודעים מאוד לכך שהם נצפים (Levitt and List 2007a) . היבט אחד של נתונים גדולים, כי חוקרים רבים מוצאים מבטיח כי המשתתפים בדרך כלל לא מודעים לכך הנתונים שלהם הם שנתפסו או שהם התרגלו כל כך אוסף נתונים זה כי זה כבר לא משנה את ההתנהגות שלהם. בגלל המשתתפים הם nonreactive , ולכן, מקורות רבים של נתונים גדולים ניתן להשתמש כדי ללמוד התנהגות כי לא היה מקובל למדידה מדויקת בעבר. לדוגמה, Stephens-Davidowitz (2014) השתמש בשכיחות של מונחים גזעניים בשאילתות של מנועי חיפוש כדי למדוד את האנימציה הגזעית באזורים שונים של ארצות הברית. האופי הלא-ריאקטיבי והגדול (ראה סעיף 2.3.1) של נתוני החיפוש הפעיל מדידות שיהיו קשות בשיטות אחרות, כגון סקרים.
Nonreactivity, עם זאת, אינה מבטיחה כי נתונים אלה הם איכשהו השתקפות ישירה של התנהגות של אנשים או עמדות. לדוגמה, כפי שציין אחד המרואיינים במחקר מבוסס ראיון, "זה לא שאין לי בעיות, אני פשוט לא מעמיד אותם בפייסבוק" (Newman et al. 2011) . במילים אחרות, למרות שמספר מקורות נתונים גדולים הם בלתי-פעילים, הם לא תמיד חופשיים מהטייה חברתית רצויה, הנטייה של אנשים לרצות להציג את עצמם בצורה הטובה ביותר. יתר על כן, כפי שאספר בהמשך הפרק, ההתנהגות שנתפסו במקורות נתונים גדולים מושפעת לפעמים ממטרות בעלי הפלטפורמה, בעיה שאקרא לה בידול אלגוריתמי . לבסוף, למרות חוסר היעילות הוא יתרון עבור מחקר, מעקב אחר ההתנהגות של אנשים ללא הסכמתם ומודעות מעלה חששות אתיים כי אני מתאר בפירוט בפרק 6.
שלושת המאפיינים שתיארתי זה עתה - גדולים, תמיד, ולא-פעילים - הם בדרך כלל, אך לא תמיד, מועילים למחקר חברתי. לאחר מכן, אני פונה אל שבעת המאפיינים של מקורות נתונים גדולים - לא שלם, לא נגיש, לא מייצג, נסחף, מבולבל אלגוריתמית, מלוכלך, רגיש - כי בדרך כלל, אבל לא תמיד, ליצור בעיות למחקר.