פעילויות

מַפְתֵחַ:

  • דרגת הקושי: קל קַל , בינוני בינוני , קשה קָשֶׁה , קשה מאוד קשה מאוד
  • דורש מתמטיקה ( דורש מתמטיקה )
  • דורש קידוד ( דורש קידוד )
  • איסוף נתונים ( איסוף נתונים )
  • המועדפים שלי ( המועדף עליי )
  1. [ בינוני , המועדף עליי ] מבלבל אלגוריתמי הייתה בעיה עם Google Flu Trends,. קרא בעיתון על ידי Lazer et al. (2014) , ולכתוב דוא"ל קצר, ברור מהנדס בגוגל המסביר את הבעיה ומציע מושג איך לפתור את הבעיה.

  2. [ בינוני ] Bollen, Mao, and Zeng (2011) טוען כי נתוני טוויטר יכול לשמש כדי לחזות את שוק המניות. ממצא זה הוביל את הקמת קרן-Derwent גידור שוקי הון-להשקיע בשוק המניות מבוסס על נתונים שנאספו מ- Twitter (Jordan 2010) . אילו ראיות היית רוצה לראות לפני לשים את הכסף שלך בקרן כי?

  3. [ קַל ] בעוד כמה שוחרי בריאות ציבור ברד דואר סיגריות כעזר יעיל להפסקת עישון, אחרים להתריע על הסיכונים הפוטנציאליים, כמו-הרמות הגבוהות של ניקוטין. תארו לעצמכם כי חוקר מחליט לחקור את דעת הקהל לקראת בדואר סיגריות איסוף הודעות הטוויטר הקשורות דואר סיגריות וניצוח ניתוח הסנטימנט.

    1. מהם שלושת ההטיות האפשריות כי אתם מודאגים ביותר לגבי במחקר זה?
    2. Clark et al. (2016) רצו רק מחקר כזה. ראשית, הם אספו 850,000 ציוצים שהשתמשו מילות מפתח אלקטרוני הקשורות סיגריה מינואר 2012 עד דצמבר 2014. לאחר בדיקה מקרוב, הם הבינו כי רבים טוויטים אלה היו אוטומטיות (כלומר, לא מיוצרים על ידי בני אדם) ורבים טוויטים אוטומטיים אלה היו בעצם פרסומות. הם פתחו אלגוריתם זיהוי אדם להפריד טוויטים אוטומטיים טוויטים אורגני. שימוש האדם הזה זיהוי אלגוריתם הם גילו כי 80% של טוויטים היו אוטומטיים. האם ממצא זה משנה את תשובתך חלק (א)?
    3. כשהשווה את הסנטימנט טוויטים אורגניים אוטומטיים הם מצאו כי טוויטים האוטומטיים הנם חיוביים יותר מאשר טוויטים אורגני (6.17 לעומת 5.84). האם ממצא זה משנה את תשובתך (ב)?
  4. [ קַל ] בחודש נובמבר 2009, טוויטר שינה את השאלה בתיבת הציוץ מ "מה אתה עושה?" ל "מה קורה?" (Https://blog.twitter.com/2009/whats-happening).

    1. איך לדעתך השינוי של הנחיות ישפיע מי ציוץ ו / או מה שהם ציוץ?
    2. שם פרויקט מחקר אחד שעבורו אתה מעדיף בשורה "מה אתה עושה?" הסברת מדוע.
    3. שם פרויקט מחקר אחד שעבורו אתה מעדיף בשורה "מה קורה?" הסביר מדוע.
  5. [ בינוני ] Kwak et al. (2010) נתחו 41.7 מיליון פרופילים של משתמשים, 1.47 מיליארדים יחסים חברתיים, נושאים במגמה 4262, ו -106 מיליון טוויטים בין 6th ביוני ו -31 ביוני 2009. בהתבסס על ניתוח זה הם הגיעו למסקנה כי טוויטר משרתת יותר כמדיום חדש של שיתוף מידע מאשר רשת חברתית.

    1. בהתחשב ממצא של קוואק ואח ', איזה סוג של מחקר היית עושה עם נתוני טוויטר? איזה סוג של מחקר לא היית עושה עם נתוני טוויטר? למה?
    2. בשנת 2010, טוויטר הוסיף מי כדאי לעקוב שירות לרמוז מחויט למשתמשים. שלוש המלצות מוצגות בכל פעם בדף הראשי. המלצות לעתים קרובות שאובים של אחד "חברים-של-חברים", ואנשי קשר הדדי גם מוצגים ההמלצה. משתמשים יכולים לרענן לראות קבוצה חדשה של המלצות או לבקר בדף האינטרנט המכיל רשימה ארוכה של המלצות. האם אתה חושב תכונה חדשה זו תשתנה תשובתך חלק)? למה או למה לא?
    3. Su, Sharma, and Goel (2016) העריכו את ההשפעה של מי כדאי לעקוב שירות ומצא כי בעוד משתמשים מכל רחבי הקשת הפופולרית נהנו מההמלצות, המשתמשים הפופולריים ביותר מרוויחים משמעותי מעל הממוצע. האם ממצא זה משנה את תשובתך חלק ב)? למה או למה לא?
  6. [ קַל ] "Retweets" משמש לעתים קרובות כדי למדוד את ההשפעה ואת התפשטות ההשפעה בטוויטר. בתחילה, משתמשים היו צריכים להעתיק ולהדביק את הציוץ שהם אהבו, לתייג המחבר המקורי עם הידית שלו / שלה, באופן ידני להקליד "RT" לפני הציוץ כדי לציין שזה צייץ מחדש. לאחר מכן, בשנת 2009 טוויטר הוסיף כפתור "retweet". בחודש יוני 2016, טוויטר איפשר למשתמשים retweet טוויטים שלהם (https://twitter.com/twitter/status/742749353689780224). האם אתה חושב השינויים האלה צריכים להשפיע על אופן השימוש "retweets" במחקר שלך? למה או למה לא?

  7. [ בינוני , איסוף נתונים , דורש קידוד ] Michel et al. (2011) נבנה קורפוס העולה מתוך מאמץ של גוגל כדי להפוך ספרים לדיגיטליים. באמצעות הגרסה הראשונה של קורפוס, אשר פורסם בשנת 2009 והכיל מעל 5 מיליון ספרים דיגיטליים, נתח מילה תדירה שימוש לחקור שינויים לשוניים ומגמות תרבותיות. בקרוב קורפוס Google הספרים הפך למקור נתון פופולרי עבור חוקרים, וגרסה 2 של מסד הנתונים שוחררה בשנת 2012.

    עם זאת, Pechenick, Danforth, and Dodds (2015) הזהיר כי חוקרים צריכים לאפיין את תהליך הדגימה מלא של הקורפוס לפני השימוש בו להפקת לקחים רחבים. הבעיה העיקרית היא כי קורפוס הוא ספרייה דמוית, המכיל אחד של כל ספר. כתוצאה מכך, אדם, מחבר פורה הוא מסוגל להכניס ביטויים חדשים ניכרת לתוך הלקסיקון Google ספרים. יתר על כן, טקסטים מדעיים מהווים חלק מהותי יותר ויותר של הקורפוס ברחבי 1900s. בנוסף, על ידי השוואה בין שתי גרסאות של מערכי נתונים סיפורת באנגלית, Pechenick et al. ראיות מצאו כי סינון מספיק שימש בייצור הגרסה הראשונה. כל הנתונים הדרושים לפעילות זמין כאן: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. בשנת מישל ואח '. המאמר המקורי של (2011) , הם השתמשו בגרסה 1 של ערכת נתונים אנגלית, להתוות את תדירות השימוש של השנים "1880", "1912" ו- "1973", והגיע למסקנה כי "אנחנו שוכח את העבר שלנו מהר יותר עם כל שנה חולפת "(איור. 3A, מישל et al.). לשכפל את אותה חלקה באמצעות 1) גרסת ה -1 של קורפוס, במערך אנגלית (זהה איור. 3A, מישל ואח ').
    2. עכשיו לשכפל את אותה חלקה עם הגרסה -1, במערך ספרות אנגלית.
    3. עכשיו לשכפל את אותה חלקה עם גירסת 2 של קורפוס, במערך אנגלית.
    4. לבסוף, לשכפל אותה החלקה עם גרסת 2nd, במערך ספרות אנגלית.
    5. תאר את הדומה והשונה בין ארבע חלקות אלה. האם אתה מסכים עם מישל ואח '. הפירוש המקורי של המגמה שנצפתה? (רמז: ג) ו- ד) צריך להיות זהה איור 16 ב Pechenick ואח ').
    6. עכשיו שיש לך משוכפל ממצא אחד זה באמצעות corpora שונים Google Books, לבחור אחר שינוי לשוני או תופעות תרבותיות המוצגים מישל ואח '. המאמר המקורי של. האם אתה מסכים עם הפרשנות שלהם לאור המגבלות המוצגות ב Pechenick et al.? כדי להפוך את הטיעון שלך חזק, לנסות לשכפל את אותו הגרף באמצעות גרסאות שונות של נתונים כפי שנקבע לעיל.
  8. [ קשה מאוד , איסוף נתונים , דורש קידוד , המועדף עליי ] Penney (2016) בוחן אם הפרסום הנרחב על מעקב NSA / PRISM (כלומר, גילויי Snowden) ביוני 2013 קשור לירידה חדה ופתאומית בתעבורה למאמרי ויקיפדיה בנושאים שמעלים חששות בנושאי פרטיות. אם כן, שינוי זה בהתנהגות יהיה עקבי עם אפקט מצנן נובע המעקב המוני. הגישה של Penney (2016) נקראת לפעמים עיצוב סדרת נתונים חל הפרעה קשורה הגישות בפרק על קירוב ניסויים מנתונים תצפיתיים (סעיף 2.4.3).

    כדי לבחור את מילות המפתח בנושא, Penney התייחס לרשימת שמוצג ארה"ב המחלקה לביטחון המולדת למעקב וניטור במדיה החברתית. רשימת DHS מסווגת מונחי חיפוש מסוימים לתוך מגוון של נושאים, כלומר "דאגה לבריאות", "אבטחת תשתיות," ו "טרור". עבור קבוצת המחקר, Penney השתמש ארבעים ושמונה מילות המפתח הקשורות "טרור" (ראו לוח 8 נִספָּח). לאחר מכן הוא מצטבר ויקיפדיה מאמר צופה ספירות על בסיס חודשי עבור הערכים בוויקיפדיה הארבעים ושמונה המקבילים פני תקופה בת שלושים ושניים חודש, מתחילת ינואר 2012 ועד סוף 2014. באוגוסט על מנת לחזק את הטיעון שלו, הוא גם יצר כמה השוואה קבוצות על ידי מעקב אחר צפיות מאמר על נושאים אחרים.

    עכשיו, אתה הולך לשחזר ולהרחיב Penney (2016) . כל הנתונים הגולמיים כי תצטרכו לפעילות זו זמין מוויקיפדיה (https://dumps.wikimedia.org/other/pagecounts-raw/). או שאתה יכול לקבל את זה מן wikipediatrend חבילת R (Meissner and Team 2016) . כשאתה כותב-אפ תשובותיך, שים לב איזה מקור נתונים השתמשת. (הערה: פעילות זו אותה גם מופיעה בפרק 6)

    1. קרא Penney (2016) ולשכפל איור 2 אשר מציג את כמות הדפים הנצפים עבור "טרור" דפי -related לפני ואחרי ההתגלות Snowden. ולפרש את הממצאים.
    2. הבא, לשכפל איור 4 א, אשר משווה את קבוצת המחקר ( "טרור" מאמרי -related) עם קבוצת השוואה באמצעות מילות מפתח המסווגים תחת "סוכנויות DHS & אחרים" מרשימת DHS (ראה טבלה 10). ולפרש את הממצאים.
    3. ב חלק ב) אתה לעומת קבוצת המחקר לקבוצת השוואה אחד. גם Penney בהשוואה לשתי קבוצות קומפרטור אחרות: "אבטחת תשתיות" מאמרי -related (לוח נספח 11) ודפי ויקיפדיה הפופולריים (לוח נספח 12). לבוא עם קבוצת קומפרטור חלופית, ולבדוק אם ממצאי חלק ב) הם רגישים בחירתך של קבוצת השוואה. איזו אפשרות של קבוצת השוואה ההגיונית ביותר? למה?
    4. הכותב ציין כי מילות מפתח הקשורות "טרור" שימשו כדי לבחור את הערכים בוויקיפדיה כי הממשל האמריקני ציטט הטרור כהצדקה מפתח שיטות מעקב המקוון שלה. כבדיקה של 48 אלה "טרור" מילות מפתח -related, Penney (2016) גם סקר על MTurk לשאול המשיבים לדרג כל אחת ממילות המפתח מבחינת צרות הממשלה, פרטיות-רגיש, והימנעות (לוח נ'-7 ו -8). לשכפל את הסקר על MTurk ולהשוות את התוצאות שלך.
    5. בהתבסס על תוצאות חלק ד) והקריאה שלך של המאמר, האם אתה מסכים עם הבחירה של מחבר מילות מפתח נושא בקבוצת המחקר? למה או למה לא? אם לא, מה היית מציע במקום זאת?
  9. [ קַל ] Efrati (2016) דיווחים, בהתבסס על מידע סודי, כי "שיתוף הכולל" בפייסבוק ירד בכ -5.5% לעומת הרבעון המקביל אשתקד בעוד "שיתוף השידור המקורי" נחלש 21% לעומת הרבעון המקביל אשתקד. ירידה זו הייתה חריפה במיוחד עם משתמשי פייסבוק מתחת לגיל 30 שנים של גיל. הדו"ח ייחס את הירידה לשני גורמים. האחד הוא הגידול במספר של "חברים" אנשים יש בפייסבוק. השני הוא שחלק פעילות השיתוף השתנתה להודעות ו למתחרים כגון SnapChat. הדו"ח חשף גם את הטקטיקה כמה פייסבוק ניסה להגביר שיתוף, כולל tweaks אלגוריתם עדכוני חדשות שהופכים הודעות מקוריות בולטות יותר, כמו גם תזכורות תקופתיות של משתמשים בפוסטים המקוריים "ביום הזה" לפני כמה שנים. מה ההשלכות, אם בכלל, אין ממצאים אלו יש לחוקרים שרוצים להשתמש בפייסבוק כמקור נתונים?

  10. [ בינוני ] Tumasjan et al. (2010) דיווחו כי חלקם של טוויטים להזכיר מפלגה תאם את שיעור הקולות כי קיבלה המפלגה בבחירות לפרלמנט הגרמני בשנת 2009 (איור 2.9). במילים אחרות, נראה כי אתה יכול להשתמש בטוויטר כדי לחזות את הבחירות. בזמנו מחקר זה פורסם זה נחשב מרגש מאוד כי זה נראה להציע שימוש רב ערך עבור ממקור משותף של נתונים גדולים.

    בהתחשב בתכונות הרעות של נתונים גדולים, לעומת זאת, אתה צריך מייד להיות סקפטי של תוצאה זו. הגרמנים בטוויטר בשנת 2009 היו די קבוצה לא מייצג, ותומכי צד אחד יכול ציוץ על פוליטיקה לעתים קרובות יותר. לפיכך, נראה מפתיע כי כל ההטיות האפשריות שאתה יכול לדמיין היו איכשהו לבטל. למעשה, התוצאות Tumasjan et al. (2010) התברר להיות טוב מכדי להיות אמיתי. במאמרם, Tumasjan et al. (2010) נחשבים שש מפלגות: נוצרי דמוקרטים (CDU), דמוקרטים נוצריים-סוציאליים (CSU), SPD, ליברלים (FDP), השמאל (Die Linke), ואת המפלגת הירוקה (גרון). עם זאת, המפלגה הפוליטית הגרמניה המוזכרת ביותר בטוויטר באותה התקופה הייתה מפלגת הפירטים (Piraten), מפלגה שנלחמת רגולציה ממשלתית של האינטרנט. כאשר מפלגת הפיראטים נכללה בניתוח, טוויטר מזכיר הופך מנבא הנורא של תוצאות הבחירות (איור 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    איור 2.9: טוויטר מזכיר להופיע לחזות את תוצאות הבחירות הגרמניות (2009 Tumasjan ואח 2010.), אך תוצאה זו מתגלה תלוי כמה בחירות שרירותיות ובלתי מוצדקות (Jungherr, יורגן, ו שיין 2012).

    איור 2.9: טוויטר מזכיר להופיע לחזות את תוצאות הבחירות הגרמניות 2009 (Tumasjan et al. 2010) , אך תוצאה זו מתגלה תלוי כמה בחירות שרירותיות ובלתי מוצדקות (Jungherr, Jürgens, and Schoen 2012) .

    בהמשך לכך, חוקרים אחרים ברחבי העולם השתמשו בשיטות-כגון להשתכלל כמו באמצעות ניתוח הסנטימנט להבחין בין חיובי ושלילי האזכורים של המפלגות על מנת לשפר את היכולת של נתונים טוויטר לחזות במגוון של סוגים שונים של בחירות (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . הנה כמה Huberty (2015) סיכם את התוצאות של ניסיונות אלה לחזות הבחירות:

    "כל שיטות החיזוי הידועות מבוססות על מדיה חברתית נכשלו כאשר נתון הדרישות של חיזוי בחירות צופה פני עתיד אמיתי. כשלים אלה להיראות בשל תכונות בסיסיות של מדיה חברתית, ולא קשיים מתודולוגיים או אלגוריתמיים. בקיצור, מדיה חברתית לא, וכנראה לעולם לא, להציע תמונה יציבה, משוחדת, מייצג של ציבור הבוחרים; דגימות הנוחות של מדיה חברתית חסרים נתונים מספיקים כדי לתקן את הבעיות הללו פוסט הוק. "

    קראו חלק מהמחקר שיוביל Huberty (2015) למסקנה הזאת, וכותב תזכיר מדף אחד מועמד פוליטי המתאר אם וכיצד טוויטר אמור לשמש כדי לחזות בבחירות.

  11. [ בינוני ] מה ההבדל בין סוציולוג והיסטוריון? לדברי Goldthorpe (1991) , ההבדל העיקרי בין סוציולוג והיסטוריון הוא שליטה על איסוף נתונים. היסטוריונים נאלצים להשתמש שרידים ואילו סוציולוגים יכולים להתאים איסוף הנתונים שלהם למטרות ספציפיות. קרא Goldthorpe (1991) . איך הוא ההבדל בין סוציולוגיה והיסטוריה קשור לרעיון של Custommades ו readymades?

  12. [ קָשֶׁה ] הבניין על השאלה הקודמת, Goldthorpe (1991) צייר מספר התגובות ביקורתיות, כולל אחד מן ניקי הארט (1994) , אשר עמדו מול המסירות של Goldthorpe להתאים נתונים עשו. כדי להבהיר את המגבלות הפוטנציאל של נתונים תפורים, הארט תיאר את הפרויקט עובד אמידים, סקר גדול כדי למדוד את הקשר בין מעמד חברתי ובהצבעה שנערכה על ידי Goldthorpe ועמיתים באמצע שנות ה -1960. כפי שניתן לצפות מחוקר שהעדיף תוכנן נתונים על נתונים נמצאים, פרויקט העבודה לאמיד אסף נתונים כי נתפרו להתייחס תאוריה הציעה לאחרונה על העתיד של מעמד חברתי בעידן של הגדלת רמת חיים. אבל, Goldthorpe ועמיתיו איכשהו "שכחו" לאסוף מידע על התנהגות ההצבעה של נשים. הנה איך ניקי הארט (1994) סיכומי הפרשה כולה:

    ". . . זה [הוא] קשה שלא להגיע למסקנה כי נשים הושמטו כי זה 'תפור' בסיס נתונים הוגבלו על ידי היגיון פרדיגמטי אשר נשלל חוויה נשית. מונע על ידי חזון תיאורטי של תודעה מעמדית ופעולה כמו עיסוקי זכר. . . , Goldthorpe ועמיתיו נבנו סט של הוכחות אמפיריות אשר תיזונה וטפחו נחות תאורטיות משלהם במקום לחשוף אותם בפני מבחן של הלימות תקפה. "

    הארט המשיך:

    "הממצאים האמפיריים של פרויקט עובד לאמידים לספר לנו עוד על הערכים הזכריים לסוציולוגי אמצע המאה ממה שהם ליידע את תהליכי ריבוד, פוליטיקת החיים חומריים."

    האם אתה יכול לחשוב על דוגמאות אחרות בהן איסוף נתונים תפורים יש ההטיות של אספן נתונים מובנה בתוך זה? איך זה משתווה מבלבל אלגוריתמי? מה השלכות אפשריות על כהונה כאשר חוקרים צריכים להשתמש readymades וכאשר הם צריכים להשתמש Custommades?

  13. [ בינוני ] בפרק זה, העמדתי נתונים שנאספו על ידי חוקרים לחוקרים עם רשומות מנהליות נוצרו על ידי ממשלות וחברות. יש אנשים שקוראים רשומים המנהליים אלה "מצאו נתונים," אשר שהוא אינם "נתונים מעוצבים." זה נכון רשום מנהלי נמצאים על ידי חוקרים, אך הם נועדו גם מאוד. לדוגמא, חברות טק מודרניות לבלות כמויות עצומות של זמן ומשאבים כדי לאסוף לאצור את הנתונים שלהם. לכן, רשומים המנהליים אלה נמצאים הם ומעוצבים, זה פשוט תלוי בהשקפה שלך (איור 2.10).

    איור 2.10: התמונה היא גם ברווז ארנבת; מה שאתה רואה תלוי בהשקפה שלך. רשומים המנהלי ממשלתי ועסקי נמצאים הן ועוצבו; מה שאתה רואה תלוי בהשקפה שלך. לדוגמא, רשומים נתוני שיחות שנאספו על ידי חברת הסלולר נמצאים נתונים מנקודת המבט של חוקר. אבל, רשומים בדיוק אלה נועדו פרספקטיבת נתונים של מישהו עבד במחלקת החיוב של חברת הטלפון. מקור: ויקיפדיה

    איור 2.10: התמונה היא גם ברווז ארנבת; מה שאתה רואה תלוי בהשקפה שלך. רשומים המנהלי ממשלתי ועסקי נמצאים הן ועוצבו; מה שאתה רואה תלוי בהשקפה שלך. לדוגמא, רשומים נתוני שיחות שנאספו על ידי חברת הסלולר נמצאים נתונים מנקודת המבט של חוקר. אבל, רשומים בדיוק אלה נועדו פרספקטיבת נתונים של מישהו עבד במחלקת החיוב של חברת הטלפון. מקור: ויקיפדיה

    לספק דוגמא מקור נתונים שבו רואה את זה בשני כפי שנמצא ועוצב שימושי בעת השימוש כי מקור נתונים למחקר.

  14. [ קַל ] במסה מתחשבת, כריסטיאן סנדויג ואת אסתר הרגיטאי (2015) לתאר שני סוגים של מחקר דיגיטלי, שבו המערכת הדיגיטלית היא "מכשיר" או "מושא המחקר." דוגמא מן הסוג של המחקר הראשון הם שם Bengtsson ועמיתיו (2011) השתמשו בנתוני טלפון ניידים כדי לעקוב אחר נדידה לאחר רעידת האדמה בהאיטי בשנת 2010. דוגמא מן הסוג השני היא שם Jensen (2007) מחקרים כיצד כניסתה של טלפונים ניידים ברחבי קראלה, הודו השפיעה על תפקודו של שוק דגים. אני מוצא את זה מועיל, כי זה מבהיר כי מחקרים תוך שימוש במקורות מידע דיגיטליים יכולים להיות די מטרות שונות גם אם הם משתמשים באותו סוג של מקור נתונים. על מנת להבהיר את ההבחנה הזאת, לתאר ארבעה מחקרים אשר שראו: שתי משתמשות מערכת דיגיטלית כמכשיר ושתי המשתמשות מערכת דיגיטלית כאובייקט של מחקר. אתה יכול להשתמש בדוגמאות מן הפרק הזה אם אתה רוצה.