מערכי נתונים גדולים הם אמצעי להשגת מטרה; הם אינם מטרה בפני עצמם.
התכונה הנרחבת ביותר של מקורות נתונים גדולים היא שהם גדולים. ניירות רבים, למשל, מתחילים לדון - ולפעמים להתרברב - על כמה נתונים הם ניתחו. לדוגמה, מאמר שפורסם ב- Science למד מגמות השימוש במילה ב- Google Books כולל את הדברים הבאים (Michel et al. 2011) :
"הקורפוס שלנו מכיל למעלה מ -500 מיליארד מילים, באנגלית (361 מיליארד), צרפתית (45 מיליארד), ספרדית (45 מיליארד), גרמנית (37 מיליארד), סינית (13 מיליארד), רוסית (35 מיליארד) ועברית (2 מיליארד דולר). היצירות העתיקות ביותר פורסמו ב -1500. העשורים המוקדמים מיוצגים רק על ידי כמה ספרים בשנה, הכוללים כמה מאות אלפי מילים. בשנת 1800, הקורפוס גדל ל 98 מיליון מילים בשנה; ב- 1900, 1.8 מיליארד; ועל ידי 2000, 11 מיליארד דולר. לא ניתן לקרוא את הקורפוס על ידי אדם. אם ניסית לקרוא רק ערכים באנגלית משנת 2000 בלבד, בקצב סביר של 200 מילים / min, ללא הפרעות לאוכל או לישון, זה ייקח 80 שנים. רצף האותיות גדול פי 1000 מהגנום האנושי: אם כתבת אותו בקו ישר, הוא יגיע לירח ובחזרה 10 פעמים ".
קנה המידה של נתונים אלה הוא ללא ספק מרשים, ומזלנו שהצוות של Google ספרים הפיץ נתונים אלה לציבור (למעשה, חלק מהפעילויות בסוף פרק זה משתמשות בנתונים אלה). אבל, בכל פעם שאתה רואה משהו כזה אתה צריך לשאול: האם כל הנתונים באמת עושה משהו? האם יכלו לעשות את אותו מחקר אם הנתונים יכלו להגיע לירח ובחזרה רק פעם אחת? מה אם הנתונים יכולים להגיע רק לראש ההר אוורסט או בחלק העליון של מגדל אייפל?
במקרה זה, המחקר שלהם, למעשה, יש כמה ממצאים הדורשים קורפוס ענק של מילים על פני תקופה ארוכה. לדוגמה, דבר אחד הם לחקור את האבולוציה של הדקדוק, במיוחד שינויים בשיעור של הצמדה פועל סדיר. מאז כמה פעלים חריגים הם נדירים למדי, כמות גדולה של נתונים הוא צריך לזהות שינויים לאורך זמן. לעתים קרובות מדי, עם זאת, נראה כי החוקרים מתייחסים לגודל של מקור נתונים גדול כאל קץ - "תראו כמה נתונים אני יכול לקרוס" - אלא יותר מאשר אמצעי מטרה מדעית חשובה יותר.
מניסיוני, חקר האירועים הנדירים הוא אחד משלושת הקצוות המדעיים הספציפיים שמערכות נתונים גדולות נוטות לאפשר. השני הוא מחקר ההטרוגניות, כפי שניתן להדגים באמצעות מחקר של ראג 'צ'טי ועמיתיו (2014) על ניידות חברתית בארצות הברית. בעבר, חוקרים רבים למדו ניידות חברתית על ידי השוואת תוצאות החיים של ההורים והילדים. ממצא עקבי של ספרות זו הוא כי הורים בעלי יתרון נוטים להיות ילדים יתרון, אבל כוח של מערכת יחסים זו משתנה לאורך זמן על פני מדינות (Hout and DiPrete 2006) . לאחרונה, עם זאת, צ'טי ועמיתיו הצליחו להשתמש ברשומות המס מ -40 מיליון אנשים כדי להעריך את ההטרוגניות בניידות בין-דורית על פני אזורים בארה"ב (איור 2.1). הם מצאו, למשל, כי ההסתברות שילד מגיע לחמישון העליון של חלוקת ההכנסה הלאומית החל ממשפחה בחמישון התחתון היא כ - 13% בסן חוזה, קליפורניה, אך רק כ 4% - בשארלוט, צפון קרוליינה. אם אתה מסתכל על דמות 2.1 לרגע, אתה יכול להתחיל לתהות מדוע ניידות בין דורית גבוה במקומות מסוימים יותר מאחרים. צ'טי ועמיתיו טענו בדיוק את אותה שאלה, ומצאו כי אזורי הניידות הגבוהים מפגינים פחות הפרדה למגורים, פחות אי-שוויון בהכנסות, בתי ספר יסודיים טובים יותר, הון חברתי גדול יותר ויציבות משפחתית גדולה יותר. כמובן, המתאמים האלה לבדם אינם מראים כי גורמים אלה גורמים לניידות גבוהה יותר, אך הם כן מציעים מנגנונים אפשריים שניתן לחקור בעבודות נוספות, וזה בדיוק מה שצ'טי ועמיתיו עשו בעבודה הבאה. שימו לב איך גודל הנתונים היה חשוב באמת בפרויקט זה. אם צ'טי ועמיתיו היו משתמשים ברשומות המס של 40 אלף בני אדם ולא ב- 40 מיליון, הם לא היו מסוגלים להעריך את ההטרוגניות האזורית, והם מעולם לא היו יכולים לעשות מחקרים עתידיים כדי לנסות לזהות את המנגנונים שיוצרים את השינוי הזה.
לבסוף, בנוסף ללימוד אירועים נדירים ולטיפול בהטרוגניות, מערכי נתונים גדולים מאפשרים לחוקרים לזהות הבדלים קטנים. למעשה, רוב ההתמקדות בנתונים גדולים בתעשייה נוגעת להבדלים קטנים אלה: זיהוי מהימן של ההבדל בין שיעורי קליקים 1% ל -1.1% על מודעה יכול לתרגם למיליוני דולרים בהכנסות נוספות. אולם, בחלק מהמדעים המדעיים, הבדלים קטנים אלה עשויים להיות לא חשובים במיוחד, גם אם הם בעלי מובהקות סטטיסטית (Prentice and Miller 1992) . עם זאת, בחלק מהגדרות המדיניות, הם יכולים להיות חשובים כאשר הם מוצגים במצטבר. לדוגמה, אם יש שתי התערבויות בריאות הציבור ואחת יעילה מעט יותר מאשר השנייה, ולאחר מכן בחירת התערבות יעילה יותר יכול בסופו של דבר להציל אלפי חיים נוספים.
למרות שגודל הוא בדרך כלל נכס טוב כאשר נעשה שימוש נכון, שמתי לב שהוא יכול לפעמים להוביל לשגיאה רעיונית. מסיבה כלשהי, נראה שהגדול מוביל את החוקרים להתעלמות מהנתונים שלהם. בעוד שגודל מקטין את הצורך לדאוג לשגיאות אקראיות, הוא מגדיל את הצורך לדאוג לשגיאות שיטתיות, סוגי השגיאות שאני מתאר להלן, הנובעות מהטיות לגבי אופן יצירת הנתונים. לדוגמה, בפרויקט שאספר בהמשך פרק זה, החוקרים השתמשו בהודעות שנוצרו ב -11 בספטמבר 2001 כדי ליצור ציר זמן רגשי ברזולוציה גבוהה של התגובה להתקפת הטרור (Back, Küfner, and Egloff 2010) . מכיוון שלחקרים היו מספר רב של מסרים, הם לא היו צריכים לדאוג אם הדפוסים שהם רואים - הגברת הכעס במהלך היום - יכולים להיות מוסברים על ידי שינוי אקראי. היה כל כך הרבה נתונים, והדפוס היה כל כך ברור שכל המבחנים הסטטיסטיים הסטטיסטיים הציעו שזה דפוס אמיתי. אבל, אלה בדיקות סטטיסטיות היו בורים של איך הנתונים נוצרו. למעשה, התברר כי רבים מהדפוסים מיוחסים לבוט בודד שיצר יותר ויותר מסרים חסרי משמעות לאורך כל היום. הסרת הרובוט הזה הרסה לחלוטין חלק מממצאי המפתח בעיתון (Pury 2011; Back, Küfner, and Egloff 2011) . בפשטות, חוקרים שאינם חושבים על טעות שיטתית עומדים בפני הסיכון להשתמש במערכי הנתונים הגדולים שלהם כדי לקבל הערכה מדויקת של כמות לא חשובה, כגון התוכן הרגשי של מסרים חסרי משמעות המיוצרים על ידי בוט אוטומטי.
לסיכום, מערכי נתונים גדולים אינם מטרה בפני עצמם, אך הם יכולים לאפשר סוגים מסוימים של מחקר, כולל חקר אירועים נדירים, הערכת ההטרוגניות ואיתור הבדלים קטנים. נראה שגם מערכי נתונים גדולים גורמים למספר חוקרים להתעלם מהנתונים שלהם, אשר יכולים להוביל אותם לקבל הערכה מדויקת של כמות לא חשובה.