נתונים גדולים נוצרים ונאספים על ידי חברות וממשלות למטרות אחרות מאשר מחקר. שימוש בנתונים אלה למחקר, ולכן, דורש repurposing.
הדרך הראשונה שאנשים רבים נתקלים במחקר חברתי בעידן הדיגיטלי היא דרך מה שנקרא לעתים קרובות נתונים גדולים . למרות השימוש הנרחב במונח זה, אין הסכמה לגבי הנתונים הגדולים אפילו. עם זאת, אחת ההגדרות הנפוצות ביותר של נתונים גדולים מתמקדת "3 Vs": נפח, וראייטי, מהירות. בערך, יש הרבה נתונים, במגוון פורמטים, וזה נוצר כל הזמן. כמה אוהדים של נתונים גדולים גם להוסיף "VS" אחרים כגון אמת ערך, בעוד כמה מבקרים להוסיף Vs כגון מעורפל ו ואקווי. במקום 3 "Vs" (או 5 "Vs" או 7 "Vs"), למטרות מחקר חברתי, אני חושב מקום טוב יותר להתחיל הוא 5 "WS": מי, מה, איפה, מתי , ולמה. למעשה, אני חושב שרבים מהאתגרים וההזדמנויות שנוצרו על-ידי מקורות נתונים גדולים באים מתוך "W" אחד בלבד: מדוע.
בעידן האנלוגי, רוב הנתונים ששימשו למחקר חברתי נוצרו לצורך מחקר. בעידן הדיגיטלי, עם זאת, כמות עצומה של נתונים נוצרת על ידי חברות וממשלות למטרות אחרות מאשר מחקר, כגון מתן שירותים, יצירת רווח, וניהול חוקים. אנשים יצירתיים, לעומת זאת, הבינו כי אתה יכול repurpose זה נתונים ארגוניים וממשלתיים למחקר. החשיבה לאחור על האנלוגיה האמנותית בפרק 1, בדיוק כמו דושאן repurposed אובייקט נמצא ליצור אמנות, מדענים יכולים כעת repurpose למצוא נתונים כדי ליצור מחקר.
אמנם יש בהחלט הזדמנויות ענק עבור repurposing, שימוש בנתונים שלא נוצרו למטרות המחקר גם מציג אתגרים חדשים. השווה, למשל, שירות מדיה חברתית, כגון Twitter, עם סקר דעת קהל מסורתי, כגון הסקר החברתי הכללי. המטרות העיקריות של טוויטר הן לספק שירות למשתמשים ולהרוויח. הסקר החברתי הכללי, לעומת זאת, מתמקד ביצירת נתונים כלליים למחקר חברתי, במיוחד למחקרי דעת קהל. הבדל זה במטרות פירושו שלנתונים שנוצרו על ידי טוויטר ואשר נוצרו על ידי הסקר החברתי הכללי יש מאפיינים שונים, למרות ששניהם יכולים לשמש לחקר דעת הקהל. טוויטר פועל בקנה מידה ובמהירות שהסקר החברתי הכללי אינו יכול להתאים, אך בניגוד לסקר החברתי הכללי, טוויטר אינו מדגם בקפידה את המשתמשים ואינו עובד קשה כדי לשמור על יכולת השוואה לאורך זמן. מכיוון ששני מקורות הנתונים הללו שונים כל כך, אין זה הגיוני לומר שהסקר החברתי הכללי טוב יותר מ- Twitter או להיפך. אם אתה רוצה מדידות שעה של מצב רוח גלובלי (למשל, Golder and Macy (2011) ), טוויטר הוא הטוב ביותר. מצד שני, אם אתה רוצה להבין שינויים ארוכי טווח בקיטוב עמדות בארה"ב (למשל, DiMaggio, Evans, and Bryson (1996) ), אזי הסקר החברתי הכללי הוא הבחירה הטובה ביותר. באופן כללי יותר, במקום לנסות לטעון כי מקורות נתונים גדולים טובים יותר או גרועים יותר מסוגי נתונים אחרים, פרק זה ינסה להבהיר אילו סוגי שאלות במחקר יש למקורות נתונים גדולים תכונות אטרקטיביות, ואילו סוגים של שאלות הם לא יהיו. אִידֵאָלִי.
כאשר חושבים על מקורות נתונים גדולים, חוקרים רבים מתמקדים מיד בנתונים מקוונים שנוצרו ואוספים על ידי חברות, כגון יומני מנוע חיפוש ופוסטים של מדיה חברתית. עם זאת, מוקד זה צר משאיר שני מקורות חשובים אחרים של נתונים גדולים. ראשית, יותר ויותר נתונים ארגוניים גדולים יותר מקורם ממכשירים דיגיטליים בעולם הפיזי. לדוגמה, בפרק זה, אספר לכם על מחקר שערך מחדש את נתוני הסקר של הסופרמרקט כדי ללמוד כיצד הפרודוקטיביות של העובד מושפעת מהיעילות של עמיתיה (Mas and Moretti 2009) . לאחר מכן, בפרקים מאוחרים יותר, אספר לכם על חוקרים שהשתמשו ברשומות שיחות מטלפונים ניידים (Blumenstock, Cadamuro, and On 2015) ונתוני חיוב שנוצרו על-ידי שירותי חשמל (Allcott 2015) . כפי שממחישים דוגמאות אלה, מקורות נתונים גדולים של חברות הם יותר מאשר התנהגות מקוונת בלבד.
המקור החשוב השני של נתונים גדולים שהוחמצו על ידי מיקוד צר על התנהגות מקוונת הוא נתונים שנוצרו על ידי ממשלות. נתונים ממשלתיים אלה, שהחוקרים מכנים " רשומות מנהליות ממשלתיות" , כוללים דברים כגון רשומות מס, רשומות בית ספר ורשומות סטטיסטיות חיוניות (לדוגמה, רישומים של לידות ומוות). ממשלות יוצרות נתונים מסוג זה, במקרים מסוימים, מאות שנים, ומדעני החברה מנצלים אותם כמעט כל עוד היו מדענים חברתיים. מה שהשתנה, לעומת זאת, הוא דיגיטציה, מה שהקל על הממשלות לאסוף, להעביר, לאחסן ולנתח נתונים. לדוגמה, בפרק זה אספר לכם על מחקר שערך מחדש נתונים ממדי המוניות הדיגיטליות של ממשלת ניו יורק כדי לטפל בדיון יסודי בכלכלת העבודה (Farber 2015) . לאחר מכן, בפרקים מאוחרים יותר, אספר לכם על האופן שבו נעשה שימוש ברשומות ההצבעה שנאספו על ידי הממשלה בסקר (Ansolabehere and Hersh 2012) וניסוי (Bond et al. 2012) .
אני חושב שהרעיון של הכנה מחדש הוא יסוד ללמידה ממקורות נתונים גדולים, ולכן לפני שנדבר ביתר פירוט על המאפיינים של מקורות נתונים גדולים (סעיף 2.3) וכיצד ניתן להשתמש בהם במחקר (סעיף 2.4), אני רוצה להציע שתי חתיכות של ייעוץ כללי על repurposing. ראשית, זה יכול להיות מפתה לחשוב על הניגוד כי אני מוגדר להיות בין הנתונים "נמצא" ונתונים "מעוצב". זה קרוב, אבל זה לא לגמרי בסדר. למרות, מנקודת המבט של החוקרים, מקורות נתונים גדולים הם "נמצא", הם לא רק נופלים מן השמים. במקום זאת, מקורות הנתונים "נמצא" על ידי חוקרים מתוכננים על ידי מישהו למטרה כלשהי. מכיוון ש"מצאת "נתונים מתוכננים על ידי מישהו, אני תמיד ממליץ שתנסה להבין כמה שיותר על האנשים והתהליכים שיצרו את הנתונים שלך. שנית, כאשר אתה repurposing נתונים, זה לעתים קרובות מאוד מועיל לדמיין את הנתונים האידיאליים עבור הבעיה שלך ולאחר מכן להשוות את זה עם מערך הנתונים האידיאלי שאתה משתמש. אם לא אספת את הנתונים בעצמך, יש סיכוי שיהיו הבדלים חשובים בין מה שאתה רוצה לבין מה שיש לך. הבחנת ההבדלים האלה תעזור לך להבהיר את מה שאתה יכול ולא תוכל ללמוד מהנתונים שיש לך, והוא עשוי להציע נתונים חדשים שאמורים לאסוף.
מניסיוני, מדעני החברה ומדעני הנתונים נוטים להתקרב בצורה שונה לחלוטין. מדענים חברתיים, אשר רגילים לעבוד עם נתונים המיועדים למחקר, הם בדרך כלל מהירים כדי להצביע על בעיות עם נתונים repurposed תוך התעלמות עוצמותיה. מצד שני, נתונים מדענים הם בדרך כלל מהיר להצביע על היתרונות של נתונים repurposed תוך התעלמות חולשותיה. באופן טבעי, הגישה הטובה ביותר היא היברידית. כלומר, החוקרים צריכים להבין את המאפיינים של מקורות נתונים גדולים - גם טובים וגם רעים - ואז להבין איך ללמוד מהם. וזו התוכנית לשאר פרק זה. בחלק הבא, אתאר 10 מאפיינים משותפים של מקורות נתונים גדולים. לאחר מכן, בחלק הבא, אתאר שלוש גישות מחקר שיכולות לעבוד היטב עם נתונים כאלה.