נתונים לא מייצגים הם גרועים עבור הכללות מחוץ למדגם, אבל יכול להיות שימושי למדי עבור השוואות בתוך המדגם.
כמה מדענים חברתיים רגילים לעבוד עם נתונים שמגיעים מדגם אקראי הסתברותי מאוכלוסייה מוגדרת היטב, כמו כל המבוגרים במדינה מסוימת. נתונים מסוג זה נקראים נתונים מייצגים משום שהמדגם "מייצג" את האוכלוסייה הגדולה. חוקרים רבים מפרסמים נתונים מייצגים, ולכמה מהם, נתונים מייצגים הם שם נרדף למדע קפדני ואילו נתונים לא מייצגים הם שם נרדף לרשלנות. במקרה הקיצוני ביותר, נראה כי ספקנים מסוימים סבורים כי לא ניתן ללמוד דבר מהנתונים שאינם מייצגים. אם זה נכון, זה נראה להגביל באופן חמור מה ניתן ללמוד ממקורות נתונים גדולים, כי רבים מהם אינם מייצגים. למרבה המזל, הספקנים האלה צודקים חלקית בלבד. ישנן מטרות מחקר מסוימות אשר נתונים שאינם ייצוגיים הוא בבירור לא מתאים, אבל יש אחרים שעבורם זה עשוי להיות ממש שימושי.
כדי להבין את ההבחנה הזאת, הבה נבחן את הקלאסיקה המדעית: המחקר של ג'ון סנו על התפרצות הכולרה של 1853 - 1854 בלונדון. באותו זמן, רופאים רבים האמינו כי כולירה נגרמת על ידי "אוויר רע", אבל סנו האמין כי מדובר במחלה מידבקת, אולי מופרזת על ידי מי שתייה שפכים. כדי לבחון את הרעיון הזה, סנו ניצל את מה שאנו יכולים לכנות עכשיו ניסוי טבעי. הוא השווה את שיעורי הכולרה של משקי הבית שמשרתים שתי חברות מים שונות: למבת וסאות'וורק ווקסהול. חברות אלו שימשו משקי בית דומים, אך הן נבדלו בצורה חשובה אחת: בשנת 1849 - מספר שנים לפני תחילת המגיפה - העביר לאמבת את נקודת הכניסה שלו מהזרם הראשי של השפכים בלונדון, ואילו סאות'וורק ווקסהול השאירו את צינור הכניסה שלהם במורד הזרם שפכי שפכים. כאשר סנו השווה את שיעורי התמותה מכולרה במשקי בית ששירתו את שתי החברות, הוא מצא שלקוחות סאות'וורק אנד ווקסהול - החברה שמספקת ללקוחות מים מלוכלכים - היו בסיכון גבוה פי 10 למות מכולרה. תוצאה זו מספקת ראיות מדעיות חזקות לטענתו של סנו לגבי הגורם לכולירה, למרות שהיא אינה מבוססת על מדגם מייצג של אנשים בלונדון.
אולם, הנתונים משתי החברות הללו לא יהיו אידיאליים להשיב על שאלה אחרת: מהי השכיחות של כולרה בלונדון בזמן ההתפרצות? לשאלה השנייה, שהיא גם חשובה, יהיה הרבה יותר טוב שיהיה מדגם מייצג של אנשים מלונדון.
כפי שמראה עבודה של שלג, יש כמה שאלות מדעיות אשר נתונים לא מייצגים יכול להיות יעיל למדי ויש אחרים עבורם הוא אינו מתאים היטב. דרך גסה אחת להבדיל בין שני סוגי השאלות הללו היא כי כמה שאלות הן על השוואות בתוך המדגם וחלקן על הכללות מחוץ למדגם. הבחנה זו יכולה להיות מודגשת עוד יותר על ידי מחקר קלאסי אחר באפידמיולוגיה: מחקר הרופאים הבריטי, אשר מילא תפקיד חשוב בהוכחת כי עישון גורם לסרטן. במחקר זה, ריצ'רד דול וא 'ברדפורד היל עקבו אחר כ -25,000 רופאים גברים במשך מספר שנים והשוו את שיעורי התמותה שלהם על פי הסכום שהם עישנו עם תחילת המחקר. דול וגבעה (1954) מצאו קשר חזק של תגובה וחשיפה: ככל שאנשים עישנו יותר, כך סביר יותר שהם ימותו מסרטן הריאות. כמובן, לא יהיה זה נבון להעריך את שכיחות סרטן הריאות בקרב כל האנשים הבריטים בהתבסס על קבוצה זו של רופאים גברים, אך ההשוואה בין המדגם נותנת עדויות לכך שעישון גורם לסרטן ריאה.
עכשיו, כשמדגים את ההבדל בין השוואות בתוך המדגם לבין הכללות שאינן מדגמיות, יש צורך בשני הסתייגויות. ראשית, יש כמובן שאלות לגבי מידת ההשלכות של מערכת יחסים שמכילה במדגם של רופאים בריטים זכרים בתוך מדגם של רופאות נשיות, בריטיות או של עובדי מפעלים בריטיים גברים או של עובדות מפעלים גרמניות או של קבוצות רבות אחרות. שאלות אלה הן מעניינות וחשובות, אך הן שונות משאלות לגבי מידת ההכללה של המדגם לאוכלוסייה. שימו לב, למשל, שאתם בוודאי חושדים שהיחסים בין עישון לסרטן שנמצאו אצל רופאים בריטיים זכרים יהיו דומים זה לזה בקבוצות אחרות. היכולת שלך לעשות את זה אקסטרפולציה אינה נובעת מן העובדה כי גברים בריטים גברים הם מדגם אקראי הסתברותי מכל האוכלוסייה; אלא נובע מהבנה של המנגנון המקשר בין עישון לסרטן. לפיכך, ההכללה ממדגם לאוכלוסייה שממנה מצויר היא נושא סטטיסטי במידה רבה, אך שאלות לגבי יכולת ההובלה של דפוס הנמצא בקבוצה אחת לקבוצה אחרת, היא במידה רבה סוגיה לא סטטיסטית (Pearl and Bareinboim 2014; Pearl 2015) .
בנקודה זו, ספקן יכול להצביע על כך שרוב הדפוסים החברתיים הם כנראה פחות ניתנים להעברה בין קבוצות מאשר הקשר בין עישון לסרטן. ואני מסכים. המידה שבה עלינו לצפות שדפוסים יהיו ניתנים להעברה היא בסופו של דבר שאלה מדעית שיש להכריע על בסיס תיאוריה וראיות. אין להניח באופן אוטומטי שדפוסים יהיו ניתנים להעברה, אך אין להניח כי הם לא יהיו ניתנים להעברה. שאלות מופשטות במקצת לגבי יכולת ההובלה יהיו מוכרות לך אם (Sears 1986, [@henrich_most_2010] ) אחרי הדיונים על כמה חוקרים יכולים ללמוד על התנהגות אנושית על ידי לימוד סטודנטים לתואר ראשון (Sears 1986, [@henrich_most_2010] ) . למרות הוויכוחים האלה, עם זאת, יהיה זה בלתי סביר לומר כי החוקרים לא יכולים ללמוד דבר מלומד סטודנטים לתואר ראשון.
האזהרה השנייה היא כי רוב החוקרים עם נתונים nonrepresentative אינם זהירים כמו שלג או דול וגבעה. לכן, כדי להמחיש מה יכול להשתבש כאשר החוקרים מנסים לעשות הכללה של מדגם מתוך נתונים לא מייצגים, אני רוצה לספר לך על מחקר של 2009 הבחירות לפרלמנט הגרמני על ידי Andranik Tumasjan ועמיתיו (2010) . על ידי ניתוח של יותר מ -100,000 טוויטים, הם גילו כי חלקם של טוויטים המזכירים מפלגה פוליטית תאם את שיעור הקולות שקיבלה המפלגה בבחירות לפרלמנט (איור 2.3). במילים אחרות, נראה כי נתוני טוויטר, שהיו חופשיים במהותם, עשויים להחליף סקרי דעת קהל מסורתיים, שהם יקרים בגלל הדגשתם בנתונים מייצגים.
בהתחשב במה שאתה בוודאי כבר יודע על טוויטר, אתה צריך מיד להיות ספקני של תוצאה זו. הגרמנים על טוויטר בשנת 2009 לא היו מדגם אקראי הסתברותי של הבוחרים הגרמנים, ותומכים של כמה מפלגות אולי ציוץ על פוליטיקה הרבה יותר קרובות מאשר תומכים של מפלגות אחרות. לכן, נראה מפתיע כי כל ההטיות האפשריות שאתה יכול לדמיין יבטל באופן כלשהו, כך נתונים אלה יהיה משקף ישירות של הבוחרים הגרמנים. למעשה, התוצאות Tumasjan et al. (2010) התברר להיות טוב מכדי להיות אמיתי. מאמר מעקב שנערך על ידי אנדריאס יונגר, פסקל יורגנס והראלד שון (2012) הצביע על כך שהניתוח המקורי לא כלל את המפלגה הפוליטית שקיבלה את המלים המפורסמות ביותר בטוויטר: מפלגת הפיראטים, מפלגה קטנה הנאבקת בתקנות ממשלתיות של האינטרנט. כאשר המפלגה פיראט נכלל בניתוח, טוויטר מזכיר הופך מנבא נורא של תוצאות הבחירות (איור 2.3). כפי שהדוגמה הזו ממחישה, שימוש במקורות נתונים גדולים שאינם מייצגים לבצע הכללות מחוץ למדגם יכול להשתבש מאוד. כמו כן, אתה צריך לשים לב כי העובדה כי היו 100,000 טוויטים היה בעצם לא רלוונטי: הרבה נתונים שאינם מייצגים עדיין לא נציג, נושא אני אחזור בפרק 3 כאשר אני דן סקרים.
לסיכום, מקורות נתונים רבים אינם מדגם מייצג של אוכלוסייה מוגדרת היטב. עבור שאלות הדורשות הכללה של תוצאות המדגם לאוכלוסייה ממנה הוא נמשך, זו בעיה רצינית. אבל לשאלות על השוואות בתוך המדגם, נתונים לא מייצגים יכולים להיות חזקים, כל עוד חוקרים ברורים לגבי המאפיינים של המדגם שלהם ותביעות תמיכה על הובלות עם ראיות תיאורטיות או אמפיריות. למעשה, תקוותי היא שמקורות נתונים גדולים יאפשרו לחוקרים לערוך השוואות רבות יותר בתוך קבוצות רבות שאינן מייצגות, וניחוש שלי הוא שאומדנים מקבוצות רבות ושונות יעשו יותר לקידום המחקר החברתי מאשר הערכה בודדת מתוך הסתברות אקראית לִטעוֹם.