נתונים גדולים נוצרים נאספים על ידי ממשלות למטרות אחרות מאשר מחקר. משימוש בנתונים למחקר, ולכן, דורש repurposing.
על תמונה אידיאלית של מחקר חברתי מדמיין מדען שיש מושג ולאחר מכן איסוף נתונים כדי לבחון את הרעיון הזה. סגנון של מחקר זה מוביל צפוף בין שאלת מחקר ונתונים, אבל היא מוגבלת בגלל חוקר בודד לעתים קרובות אין להם את המשאבים הדרושים כדי לאסוף את הנתונים דרושים להם, כגון גדולים, עשירים, ונתונים ארצי נציג. לכן, הרבה מחקר החברתי בעבר השתמשו סקרים חברתיים בקנה מידה גדולה, כגון הסקר החברתי הכללי (שב"כ), לחקר הבחירות הלאומי האמריקאי (Anes), ופנל לחקר Dynamics ההכנסה (PSID). סקר בקנה מידה גדול אלה מנוהלים בדרך כלל על ידי צוות חוקרים והם נועדו ליצור נתונים שיכולים להיות בשימוש על ידי חוקרים רבים. בגלל המטרות של סקרים בקנה מידה גדולה אלה, בזהירות רבה מוכנסת לתוך בעיצוב איסוף הנתונים והכנת הנתונים המתקבלים לשימוש על ידי חוקרים. נתונים אלו הם על ידי חוקרים לחוקרים.
רוב המחקרים החברתיים באמצעות מקורות בעידן דיגיטליים, לעומת זאת, הוא שונה במהותו. במקום להשתמש בנתונים שנאספו על ידי חוקרים לחוקרים, הוא משתמש במקורות נתונים שנוצרו ואספו על ידי לעסקים ולממשלות למטרותיהם כגון עשיית רווח, מתן שירות, או מתן חוק. מקורות נתוני עסקים וממשל אלה הגיעו להיקרא נתונים גדולים. עושה מחקר עם נתונים גדולים שונה מאשר לעשות מחקר עם נתונים אשר נוצרו במקור עבור מחקר. השווה, למשל, אתר מדיה חברתי, כגון טוויטר, עם סקר דעת קהל מסורתי כגון הסקר החברתי הכללי (השב"כ). המטרות העיקריות של טוויטר הן לספק שירות למשתמשים שלה כדי להרוויח. בתהליך של השגת היעדים הללו, טוויטר יוצר נתונים העשויים להיות שימושי לחקר היבטים מסוימים של דעת הקהל. אבל, בניגוד הסקר החברתי הכללי (שב"כ), טוויטר הוא לא ממוקד בעיקר על מחקר חברתי.
הנתונים הגדולים המונחים הוא מתסכל מעורפל, וזה קבוצות יחד דברים רבים ושונים. למטרות מחקר חברתי, אני חושב שזה מועיל להבחין בין שני סוגים של מקורות נתונים גדולים:. רשומות שלטון ומנהל ורשומים המנהליים עסק רשום מנהלי ממשלה הם נתונים שנוצרים על ידי ממשלות כחלק מהפעילות השוטפת שלו. אלו סוגים של רשומות כבר בשימוש על ידי חוקרים בעבר-כגון לה יא לידה, נישואים, ומוות רשום-אבל ממשלות אוספות יותר ויותר ושחרור תיעוד מפורט בצורות analyzable. לדוגמא, ממשלת ניו יורק מותקנת מטרים דיגיטלי פנימי של כל מונית בעיר. מטרים אלו להקליט כל מיני נתונים על כל נסיעה במונית כולל הנהג, את שעת ההתחלה ואת המיקום, הזמן להפסיק ומיקום, ואת הנסיעה. במחקר שאני אגיד בהמשך פרק זה, הנרי פרבר (2015) לשנות את ייעודו נתונים אלה לכתובת ויכוח מהותי כלכלת עבודה על הקשר בין שכר לשעת עבודה ואת מספר שעות העבודה.
הסוג העיקרי השני של נתונים גדולים למחקר חברתי הוא רשום מנהלי עסק. אלה הם נתונים שעסק ליצור ולאסוף במסגרת הפעילות השגרתית שלהם. רשומי מנהלי עסקים אלה נקראים לעתים קרובות עקבות דיגיטליות, ולכלול דברים כמו יומנים בשאילתא במנוע חיפוש, הודעות מדיה חברתיות, ולקרוא רשומות מטלפונים ניידים. האנושות, רשומים מנהלי עסקים אלה הם לא רק על התנהגות מקוונת. לדוגמה, חנויות המשתמשות סורקים צ'ק-אאוט יוצרים צעדים בזמן אמת של פריון העבודה. במחקר שאני אספר לך על בהמשך פרק זה, אלכסנדר Mas ואנריקו מורטי (2009) לשנות את ייעודו זה נתונים בסופרמרקט אין וצ'ק-אאוט ללמוד כיצד הפרודוקטיביות של העובדים מושפע הפרודוקטיביות של עמיתיהם.
כפי שניהם דוגמאות אלה ממחישים, הרעיון של repurposing הוא יסוד למידה מנתונים גדולים. מניסיוני, מדעני חברה ומדעני נתונים בגישה זו repurposing שונה מאוד. מדעני חברה, אשר רגילים לעבוד עם נתונים נועדו למחקר, ממהרים להצביע על בעיות עם נתונים לשנות את ייעודו תוך התעלמות החוזק שלה. מצד השני, מדעני נתונים ממהרים להצביע על היתרונות של נתונים לשנות את ייעודו תוך התעלמות חולשותיה. מטבע הדברים, הגישה הטובה ביותר תהיה היברידית. כלומר, חוקרים צריכים להבין את המאפיינים של המקורות החדשים אלה של הנתונים גם טובים וגם רעים, ואז להבין איך ללמוד מהם. וגם, כי יש להוסיף את התוכנית בהמשך פרק זה. הבא אתאר עשרה מאפיינים משותפים של נתונים מנהליים עסקים וממשל. לאחר מכן, אתאר שלוש גישות מחקר שניתן להשתמש בם עם נתונים אלה, גישות כי הם גם מתאימים למאפיינים של נתונים אלה.