2.3.2.2 לא נגיש

נתונים שבידי לעסקים ולממשלות קשים לחוקרים לגשת.

בחודש מאי 2014, אג'נדה לביטחון הלאומית של ארה"ב פתח מרכז נתונים ביוטה כפרית, שיש לו שם מביך, מרכז הנתונים היוזם Cybersecurity הלאומית כולל קהילת המודיעין. עם זאת, מרכז הנתונים הזה, אשר הגיע כדי להיות מוכר בשם מרכז הנתונים יוטה, דווח כי יכולות מדהימות. אחד הדיווחים נטען כי מרכז נתונים יוטה הוא מסוגל לאחסן ולעבד את כל סוגי התקשורת כולל "את כל התוכן של הודעות דוא"ל פרטיות, שיחות הטלפון הנייד, ואת החיפושים של גוגל, כמו גם כל מיני קבלות שבילים-חניה נתונים אישיים, מסלולי נסיעות , רכישות בחנות ספרים, ו `כיס המלטה דיגיטלית אחרת '" (Bamford 2012) . בנוסף לדאגות הגיוס על האופי הרגיש של חלק גדול מהמידע שנתפס נתונים גדולים, שיתואר להלן יותר, מרכז הנתונים יוטה הוא דוגמא קיצונית של מקור נתונים עשיר כי אינו נגישה לחוקרים. באופן כללי יותר, מקורות רבים של נתונים גדולים זה יהיה שימושי חוקרים מבוקרים ומוגבלים על ידי ממשלות (כגון נתוני מס ונתונים חינוכיים) וחברות (למשל, שאילתות למנועי חיפוש meta-data שיחת טלפון). לכן, נתונים אלה לא יהיו זמינים מיד לחוקרים באוניברסיטאות, ורוב אפילו לא יהיה זמין לחוקרים בממשלות או חברות.

מניסיוני, רבים ביססו באוניברסיטאות מבינים את מקור הנגישות הזאת. נתונים אלה אינם נגישים בגלל אנשים בחברות וממשלות הם טיפשים, עצלנים, או אדישים. במקום זאת, יש עסק חוקי, טכני, רציני, ומחסומים אתיים שמונעים גישה לנתונים. לדוגמא, במונחים של שירות כמה הסכמי אתרים רק לאפשר נתונים שישמשו עובדים או לשפר את השירות. אז צורות מסוימות של שיתוף נתונים עלולות לחשוף חברות לתביעות לגיטימיות מלקוחות. ישנם גם סיכונים עסקיים משמעותיים לחברות מעורבות נתוני שיתוף. נסו לדמיין איך הציבור יגיב אם נתוני החיפוש האישיים דלפו בטעות מ- Google כחלק מפרויקט מחקר באוניברסיטה. כזה הפרה נתונים גם אם קיצוניות עשוי להוות סיכון קיומי עבור החברה. אז גוגל-וגדולות רוב החברות מאוד שונאי סיכון על שיתוף נתונים עם חוקרים.

למעשה, כמעט כל מי שנמצא בעמדה לספק גישה לכמויות גדולות של נתונים יודעים את הסיפור של עבדור Chowdhury. בשנת 2006, כשהיה ראש חטיבת מחקר AOL, הוא שוחרר בכוונה מה חשב היו אנונימי שאילתות חיפוש שמ- 650,000 משתמשי AOL לקהילת המחקר. ככל שאני יכול להגיד, Chowdhury והחוקרים ב- AOL היו כוונות טובות והם חשבו שהם אנונימי הנתונים. אבל הם טעו. הוא התגלה עד מהרה כי הנתונים לא היו אלמונים כמו החוקרים חשבו, והכתבים מן ה"ניו יורק הצליחו לזהות אנשי הנתונים בקלות (Barbaro and Zeller Jr 2006) . לאחר בעיות אלה התגלו, Chowdhury הסיר את הנתונים מהאתר של AOL, אבל זה היה מאוחר מדי. הנתונים היו יפורסמו באתרים אחרים, וזה כנראה עדיין יהיה זמין כאשר אתה קורא את הספר הזה. בגלל ניסיונו לשתף נתונים עם קהילת המחקר, Chowdhury פוטר, וה- CTO של AOL התפטר (Hafner 2006) . כפי שמראה דוגמא זו, את היתרונות עבור אנשים מסוימים בתוך חברות כדי להקל את גישת נתונים הם די קטנים התרחיש הגרוע ביותר הוא נורא.

מחקר עם זאת, ניתן לקבל גישה לנתונים כי אינו נגיש לציבור הרחב. יש ממשלות נהלים שחוקרים יכולים לבצע כדי להגיש בקשה לגישה, וכפי הדוגמות בהמשך מופע בפרק זה, חוקרים יכולים לזכות במספר הזדמנויות את גישה לנתונים ארגוניים. לדוגמה, Einav et al. (2015) שותפות עם חוקר ב- eBay ללמוד את העקבות הדיגיטליות מ במכירות פומביות באינטרנט. אני אדבר יותר על המחקר שהגיע משיתוף פעולה זה בהמשך הפרק (סעיף 2.4.3.2), אבל אני מזכיר את זה עכשיו כי זה היה כל ארבעת המרכיבים שאני רואה שותפויות מוצלחות: העניין חוקר, היכולת חוקרת, עניין בחברה, ויכולת החברה. במילים אחרות, עינב ועמיתיו היו מעוניינים ומסוגלים ללמוד מכירות פומביות מקוונות. וגם, eBay היה גם. עם זאת, ראיתי הרבה שיתוף פעולה אפשרי להיכשל כי גם החוקר או החברה חסרת אחד המרכיבים האלה.

גם אם אתה מסוגל לפתח שותפות עם עסקים, עם זאת, יש כמה חסרונות בשבילך. ראשית, שאלות שאתה יכול לשאול את הנתונים עם יוגבל סביר; חברות צפויות לאפשר מחקר שיכול לגרום להם להיראות רעים. שנית, אתה כנראה לא יהיה מסוגל לשתף את הנתונים שלך עם חוקרים אחרים, כלומר חוקרים אחרים לא יוכלו לאמת ולהרחיב את התוצאות. יתר על כן, השותפויות הללו יכול ליצור לפחות מראית עין של ניגוד עניינים, שבו אנשים עלולים לחשוב כי התוצאות הושפעו שותפויות שלך. כל חסרונות אלה ניתן לטפל, אך חשוב שיהיה ברור כי עבודה עם נתונים שאינו נגיש לכולם היו שני יתרונות והן חסרונות.

לסיכום, המון נתונים גדולים אינו נגיש לחוקרים. ישנם עסקים משפטיים, טכניים, רציניים, ומחסומים אתיים שמונעים גישה לנתונים, ומחסומים אלה לא ייעלמו. ממשלות לאומיות בדרך כלל הקימו נהלים המאפשר גישה לנתונים, אך התהליך יכול להיות יותר אד הוק על המדינתית והמקומית. כמו כן, במקרים מסוימים, חוקרים יכולים להיכנס לשותפות עם חברות כדי לקבל גישה לנתונים, אבל זה יכול ליצור מגוון רחב של בעיות לחוקרים.