2.3.2.1 Incomplete

לא משנה כמה "גדולים" "הנתונים הגדולים" שלך זה כנראה אין לו את המידע שאתה רוצה.

רוב מקורות נתונים גדולים אינם שלמים, במובן זה אין להם את המידע שאתה רוצה למחקר שלך. זוהי תכונה משותפת של נתונים שנוצרו למטרות אחרות מאשר מחקר. כבר היו מדעני חברה רבים את החוויה של התמודדות עם חוסר השלמות, כגון סקר קיים כי לא שאל את השאלה שרצית. למרבה הצער, הבעיות של אי-שלמויות נוטות להיות יותר קיצוני נתונים גדולים. מניסיוני, נתונים גדולים נוטים להיות חסרי שלושה סוגים של מידע שימושיים למחקר חברתי: נתונים דמוגרפיים, התנהגות בפלטפורמות אחרות, ונתונים לתפעל את כל תבניות תיאורטיות.

כל שלושת צורות אלה של אי-שלמות מומחשים מחקר שנערך על ידי Gueorgi Kossinets ודאנקן ווטס (2006) על האבולוציה של הרשת החברתית באוניברסיטה. Kossinets ו ווטס התחיל עם יומני דוא"ל מהאוניברסיטה, אשר היה מידע מדויק על ששלח דוא"ל למי ובאיזה זמן (לא היה החוקרים גישה לתוכן של מיילים). רשומות הדוא"ל האלה נשמעות כמו במערך מדהים, אבל, הם-למרות גודלם הגרעיני-מיסודו שלם. לדוגמא, יומני הדוא"ל אינם כוללים נתונים על המאפיינים הדמוגרפיים של התלמידים, כגון מין וגיל. יתר על כן, יומני הדוא"ל אינם כוללים מידע על תקשורת באמצעות מדיה אחרת, כגון שיחות טלפון, הודעות טקסט, או פנים אל פן שיחות. לבסוף, יומני הדוא"ל אינם כוללים מידע ישירות על מערכות יחסים, המבנים התיאורטיים ב תאוריות קיימות רבות. בהמשך הפרק, כשאני מדבר על אסטרטגיות מחקר, תראה איך Kossinets ו ווטס לפתור את הבעיות הללו.

של שלושה סוגים של אי-שלמות, את הבעיה של נתונים חלקיים לתפעל את כל תבניות תיאורטיות היא הכי הקשה לפתור, מניסיוני, זה הוא לעתים קרובות התעלם בטעות על ידי מדעני נתונים. פחות או יותר, מבנים התיאורטיים הם רעיונות מופשטים כי מדעני חברה ללמוד, אבל, למרבה הצער, שני המושגים הללו לא תמיד יכולים להיות מוגדרים באופן חד משמעי ומדוד. לדוגמא, הבה נדמיין מנסה לבדוק את הטענה פשוטה כנראה באופן אמפירי כי אנשים אינטליגנטיים יותר להרוויח יותר כסף. על מנת לבחון את הטענה הזו היית צריך למדוד "אינטליגנציה". אבל, מהי אינטליגנציה? לדוגמא, Gardner (2011) טען כי קיימות למעשה שמונה צורות שונות של אינטליגנציה. וגם, הם הליכים שם שיכול למדוד במדויק כל צורות אלה של אינטליגנציה? למרות כמויות עצומות של עבודה על ידי פסיכולוגים, שאלות אלה עדיין אין תשובות חד משמעיות. לפיכך, אפילו פשוט יחסית תביעה אנשים יותר חכמים להרוויח יותר כסף-יכול להיות קשה להעריך באופן אמפירי, כי זה יכול להיות קשה לתפעל את כל תבניות תיאורטיות בנתונים. דוגמאות נוספות של מבנים התיאורטיים שחשובים אבל קשה לפעיל כולל "נורמות", "הון חברתי", "דמוקרטיה". מדעני חברה להתקשר ההתאמה בין מבנים התיאורטיים תוקף מבנה נתונים (Cronbach and Meehl 1955) . וגם, כמו רשימה זו של בונה מרמזת, לבנות התקפות הן בעיה כי מדעני חברה נאבקו עם במשך זמן רב מאוד, גם כאשר הם עובדים עם נתונים שנאספו לצורך המחקר. כשעובדים עם הנתונים שנאספו למטרות אחרות מאשר מחקר, הבעיות של תוקף המבנה הם אפילו יותר מאתגר (Lazer 2015) .

כאשר אתם קוראים מאמר מחקרי, דרך מהירה ושימושית אחד להעריך חששות לגבי תוקף מבנה הוא לקחת את הטענה העיקרית בעיתון, אשר מתבטא בדרך כלל במונחים של מבנים, מחדש לבטא את זה במונחים של השימוש בנתונים. לדוגמה, שקול שני מחקרים היפותטי המתיימרים להראות כי אנשים חכמים יותר להרוויח יותר כסף:

  • מחקר 1: אנשים מקבלים ציונים טובים במבחני המבחן-מטריצות רייבן מתקדמות בדיקה למדה היטב של מודיעין אנליטית (Carpenter, Just, and Shell 1990) הורכנו הכנסה דיווחה יותר על החזרי המס שלהם
  • מחקר 2: אנשים בטוויטר שהשתמשו במילים יותר נוטים יותר לדבר מותגי יוקרה

בשני המקרים, החוקרים יכלו לקבוע, כי הם הראו כי אנשים חכמים יותר להרוויח יותר כסף. אבל, במסגרת המחקר הראשון המבנים התיאורטיים operationalized היטב על ידי נתונים, ובמקרה השני הם לא. יתר על כן, כפי שמראה דוגמא זו, יותר נתונים אינם פותרים בעיות באופן אוטומטי עם תוקף מבנה. אתה צריך להטיל ספק בתוצאות מחקר 2 אם זה כרוך מיליון טוויטים, מיליארד ציוצים, או טריליון טוויטים. לחוקרים לא מכירים את הרעיון של תוקף מבנה, לוח 2.2 מספק כמה דוגמאות של המחקרים operationalized מבנים התיאורטיים באמצעות נתוני עקבות דיגיטליים.

טבלה 2.2: דוגמאות של עקבות דיגיטליות המשמשות כמדד מושגי תיאורטיים מופשטים יותר. מדעני חברה להתקשר תוקף מבנה המשחק הזה וזה אתגר גדול עם שימוש במקורות נתונים גדולים למחקר חברתי (Lazer 2015) .
עקבות דיגיטליות מבנה תיאורטי צִיטָטָה
יומני דוא"ל מאוניברסיטה (נתוני מטא בלבד) יחסים חברתיים Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
הודעות מדיה חברתית על Weibo מעורבות אזרחית Zhang (2016)
יומני דוא"ל מחברה (נתוני מטא טקסט מלא) התאמה תרבותית בארגון Goldberg et al. (2015)

למרות הבעיה של נתונים חלקיים עבור מבנים התיאורטיים operationalizing די קשה לפתור, ישנם שלושה פתרונות משותפים לבעיית מידע דמוגרפי שלם ומידע הלא שלם על התנהגות בפלטפורמות אחרות. הראשונה היא בעצם לאסוף את הנתונים הדרושים לך; אני אגיד לך על דוגמא לכך בפרק 3 כשאני אומר לך על סקרים. למרבה הצער, זה סוג של איסוף נתונים לא תמיד אפשרי. הפתרון העיקרי השני הוא לעשות את מה שהמדענים מכנים נתונים היקש ידידותי תכונה ומה מדעני החברה להתקשר זקיפה. לפי גישה זו, החוקר להשתמש במידע שיש להם על אנשים מסוימים להסיק תכונות של אנשים אחרים. הפתרון-האפשרי השליש שמוצג Kossinets ו ווטס-היה לשלב מקורות נתונים מרובים. תהליך זה נקרא לפעמים המתמזגות או הצמדת שיא. מטאפורה האהובה עליי לתהליך הזה הוצעה בפסקה הראשון של המאמר הראשון שנכתב אי פעם על קישור (Dunn 1946) :

"כל אדם בעולם יוצר בספר החיים. ספר זה מתחיל עם הלידה ומסתיים עם המוות. דפיו מורכבים הרשומים של אירועי עיקרון בחיים. הצמדת שיא היא השם שניתן לתהליך של רכבת מעל דפי הספר הזה לתוך נפח. "

קטע זה נכתב ב -1946, וכן, באותה עת, אנשים היו חושבים כי בספר החיים יכול לכלול אירועי חיים מרכזיים כמו לידה, נישואין, גירושין, ומוות. עם זאת, עכשיו כל כך הרבה מידע על אנשים נרשם, בספר החיים יכול להיות דיוקן מפורט להפליא, אם דפים השונים אלה (כלומר, העקבות הדיגיטליות שלנו), ניתן כרוכים יחד. ספר זה של חיים יכול להיות משאב נהדר עבור חוקרים. אבל, בספר החיים יכול גם להיקרא מסד נתונים של חורבה (Ohm 2010) , אשר יכול לשמש לכל סוגים למטרות מוסריות, כמתואר יותר למטה כשאני מדבר על האופי הרגיש של המידע שנאסף על ידי מקורות נתונים גדולים מתחת ובפרק 6 (אתיקה).