נתונים שמחזיקים חברות וממשלות קשים לחוקרים.
בחודש מאי 2014, סוכנות הביטחון הלאומי של ארה"ב פתחה מרכז נתונים ביוטה הכפרית עם שם מביך, קהילת המודיעין מקיפה לאומי מקיפה Cybersecurity מרכז הנתונים. עם זאת, מרכז נתונים זה, שהפך להיות ידוע כמרכז הנתונים של יוטה, מדווח כי הוא בעל יכולות מדהימות. דו"ח אחד טוען כי הוא מסוגל לאחסן ולעבד את כל סוגי התקשורת כולל "התוכן המלא של הודעות דוא"ל פרטיות, שיחות טלפון סלולרי, וחיפושי גוגל, כמו גם כל מיני נתונים אישיים שבילים, קבלות חניה, נסיעות מסלולים, רכישות ספרים , ו אחרים דיגיטלית "כיס כיס" (Bamford 2012) . בנוסף להעלאת החששות בנוגע לאופי הרגיש של חלק גדול מהמידע שנלכד בנתונים גדולים, המתוארים בהמשך, מרכז הנתונים של יוטה הוא דוגמה קיצונית למקור נתונים עשיר שאינו נגיש לחוקרים. באופן כללי יותר, מקורות רבים של נתונים גדולים שיהיו שימושיים מבוקרים ומוגבלים על ידי ממשלות (לדוגמה, נתוני מס ונתונים חינוכיים) או חברות (למשל, שאילתות למנועי חיפוש ומטא-נתונים של שיחות טלפון). לכן, למרות מקורות נתונים אלה קיימים, הם חסרי תועלת למטרות מחקר חברתי כי הם נגישים.
מניסיוני, חוקרים רבים הממוקמים באוניברסיטאות אינם מבינים את מקור הנגישות הזו. נתונים אלה אינם נגישים לא משום שאנשים בחברות וממשלות הם טיפשים, עצלנים או לא נוחים. במקום זאת, קיימים מחסומים משפטיים, עסקיים ואתיים חמורים המונעים גישה לנתונים. לדוגמה, הסכמי תנאי שירות מסוימים עבור אתרי אינטרנט מאפשרים רק שימוש בנתונים על ידי עובדים או לשיפור השירות. לכן צורות מסוימות של שיתוף נתונים יכולות לחשוף חברות לתביעות לגיטימיות של לקוחות. קיימים גם סיכונים עסקיים משמעותיים לחברות המעורבות בשיתוף נתונים. נסה לדמיין כיצד הציבור יגיב אם נתוני החיפוש האישיים ידלפו בטעות מ- Google כחלק מפרויקט מחקר באוניברסיטה. הפרת נתונים כזו, אם קיצונית, עלולה להוות סיכון קיומי לחברה. לכן גוגל - והחברות הגדולות ביותר - נמנעות מסיכון נתונים עם חוקרים.
למעשה, כמעט כל מי נמצא בעמדה לספק גישה כמויות גדולות של נתונים מכיר את הסיפור של עבד Chowdhury. ב -2006, כשהיה ראש מחלקת המחקר ב- AOL, הוא שוחרר במתכוון לקהילת המחקר, מה שחשב שהוא שאילתות חיפוש אנונימיות מ -650,000 משתמשי AOL. למיטב ידיעתי, צ'ודורי והחוקרים ב- AOL היו בעלי כוונות טובות, והם חשבו שהם מסרו את הנתונים. אבל הם טעו. עד מהרה התברר שהנתונים לא היו אנונימיים כפי שחשבו החוקרים, וכתבים מניו יורק טיימס הצליחו לזהות מישהו במערך בקלות (Barbaro and Zeller 2006) . לאחר שהתגלו בעיות אלה, צ'אודורי הסיר את הנתונים מאתר האינטרנט של AOL, אבל זה היה מאוחר מדי. הנתונים היו reposted באתרים אחרים, וזה יהיה עדיין עדיין יהיה זמין כאשר אתה קורא את הספר הזה. צ'אודורי פוטר, וקצין הטכנולוגיה הראשי של AOL התפטר (Hafner 2006) . כפי שמוצג בדוגמה זו, היתרונות עבור אנשים ספציפיים בתוך חברות כדי להקל על גישה לנתונים הם די קטנים התסריט הגרוע ביותר הוא נורא.
עם זאת, חוקרים יכולים לקבל גישה לנתונים שאינם נגישים לציבור הרחב. יש ממשלות יש נהלים כי החוקרים יכולים לעקוב אחר הגישה, וכמו הדוגמאות מאוחר יותר בפרק זה להראות, החוקרים יכולים לעתים לקבל גישה לנתונים ארגוניים. לדוגמה, Einav et al. (2015) שותפה עם חוקר ב eBay ללמוד מכירות פומביות באינטרנט. אני אדבר יותר על המחקר שהגיע משיתוף הפעולה הזה בהמשך הפרק, אבל אני מזכיר את זה עכשיו כי היו לו את כל ארבעת המרכיבים שאני רואה בשותפויות מוצלחות: עניין החוקרים, יכולת החוקרים, העניין בחברה ויכולת החברה . ראיתי שיתופי פעולה פוטנציאליים רבים נכשלים כי גם החוקר או השותף - בין אם זה חברה או ממשלה - חסרים את אחד המרכיבים האלה.
גם אם אתה מסוגל לפתח שותפות עם עסק או לקבל גישה לנתונים ממשלתיים מוגבל, עם זאת, יש כמה חסרונות בשבילך. ראשית, סביר להניח שלא תוכל לשתף את הנתונים שלך עם חוקרים אחרים, כלומר, חוקרים אחרים לא יוכלו לאמת ולהרחיב את התוצאות שלך. שנית, השאלות שאתה יכול לשאול עשויות להיות מוגבלות; חברות לא סביר לאפשר מחקר שיכול לגרום להם להיראות רע. לבסוף, שותפויות אלה יכולות ליצור לפחות את המראה של ניגוד אינטרסים, שבו אנשים עשויים לחשוב שהתוצאות שלך הושפעו מהשותפויות שלך. כל החסרונות האלה ניתן לטפל, אבל חשוב להיות ברור כי עבודה עם נתונים שאינם נגישים לכל אחד יש גם עליות ו downsideides.
לסיכום, הרבה נתונים גדולים אינם נגישים לחוקרים. יש מחסומים משפטיים, עסקיים ומוסריים חמורים המונעים גישה לנתונים, וחסמים אלה לא יסתלקו ככל שהטכנולוגיה תשתפר משום שהם אינם חסמים טכניים. כמה ממשלות לאומיות נקבעו נהלים המאפשרים גישה לנתונים עבור כמה מערכי נתונים, אך התהליך הוא מיוחד במיוחד ברמת המדינה וברמה המקומית. כמו כן, במקרים מסוימים, חוקרים יכולים לשתף פעולה עם חברות כדי לקבל גישה לנתונים, אבל זה יכול ליצור מגוון רחב של בעיות עבור חוקרים וחברות.