[ , ] בלבול אלגוריתמי היה בעיה עם Google Flu Trends. קרא את המאמר על ידי Lazer et al. (2014) , ולכתוב דוא"ל קצר וברור למהנדס ב- Google המסביר את הבעיה ומציע רעיון כיצד לתקן אותה.
[ ] Bollen, Mao, and Zeng (2011) טוען כי נתונים מ- Twitter ניתן להשתמש כדי לחזות את שוק המניות. ממצא זה הוביל להקמת קרן גידור - דרונט שוקי הון - להשקיע בשוק המניות בהתבסס על נתונים שנאספו מצפצף (Jordan 2010) . איזה ראיות היית רוצה לראות לפני לשים את הכסף שלך בקרן?
[ ] בעוד כמה תומכי בריאות הציבור לשקול דואר סיגריות סיוע יעיל להפסקת עישון, אחרים מזהירים מפני סיכונים פוטנציאליים, כגון רמות גבוהות של ניקוטין. תארו לעצמכם כי חוקר מחליט ללמוד את דעת הקהל כלפי דואר סיגריות על ידי איסוף דואר אלקטרוני הקשורים סיגריות הודעות וניהול ניתוח סנטימנט.
[ ] בנובמבר 2009, טוויטר שינה את השאלה בתיבה ציוץ מתוך "מה אתה עושה?" ל "מה קורה?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" משמשים לעתים קרובות למדידת ההשפעה והתפשטות ההשפעה על טוויטר. בתחילה, המשתמשים נאלצו להעתיק ולהדביק את הציוץ שאהבו, לתייג את המחבר המקורי עם הידית שלו, ולכתוב באופן ידני "RT" לפני הציוץ כדי לציין שזה היה retweet. לאחר מכן, בשנת 2009, הוסיף טוויטר "retweet" כפתור. בחודש יוני 2016, טוויטר איפשר למשתמשים לערוך מחדש את הטוויטים שלהם (https://twitter.com/twitter/status/742749353689780224). האם אתה חושב ששינויים אלה ישפיעו על האופן שבו אתה משתמש ב- "חוזרים" במחקר שלך? למה או למה לא?
[ , , , ] בניסוח נרחב, מישל ועמיתיו (2011) ניתחו את התוכן של יותר מחמישה מיליון ספרים דיגיטליים בניסיון לזהות מגמות תרבותיות ארוכות טווח. הנתונים שהשתמשו בהם שוחררו כעת כמערך הנתונים של Google NGrams, וכך אנו יכולים להשתמש בנתונים כדי לשכפל ולהרחיב חלק מעבודתם.
באחת התוצאות הרבות בעיתון טענו מישל ועמיתיו כי אנו שוכחים מהר יותר ויותר. במשך שנה מסוימת, אומרים "1883", הם חישבו את חלקם של 1 גרם שפורסם בכל שנה בין 1875 ו 1975 שהיו "1883". הם הניחו ששיעור זה הוא מדד לאינטרסים שהתרחשו באותה שנה. בדמותם 3 א, הם זממו את מסלולי השימוש במשך שלוש שנים: 1883, 1910 ו -1950. שלוש השנים האלה חולקות דפוס משותף: שימוש מועט לפני אותה שנה, אחר כך ספייק, ואחר כך ריקבון. לאחר מכן, כדי לכמת את שיעור ריקבון עבור כל שנה, מישל ועמיתיו חישבו את "חצי החיים" של כל שנה עבור כל השנים בין 1875 ו 1975. בדמות 3a שלהם (inset), הם הראו כי מחצית החיים של כל השנה יורדת, והם טענו כי זה אומר שאנחנו שוכחים את העבר מהר יותר ויותר. הם השתמשו בגרסה 1 של קורפוס השפה האנגלית, אבל לאחר מכן גוגל פרסמה גרסה שנייה של הקורפוס. אנא קרא את כל החלקים של השאלה לפני שתתחיל קידוד.
פעילות זו תיתן לך תרגול בכתיבת קוד לשימוש חוזר, תוצאות פרשנויות, והתנצחויות נתונים (כגון עבודה עם קבצים מביכים וטיפול בנתונים חסרים). פעילות זו גם תעזור לך להתחיל לעבוד עם מערך נתונים עשיר ומעניין.
קבל את הנתונים הגולמיים מהאתר של Google Books NGram Viewer. בפרט, אתה צריך להשתמש בגירסה 2 של קורפוס השפה האנגלית, אשר שוחרר ב 1 יולי 2012. לא דחוס, קובץ זה הוא 1.4GB.
לשחזר את החלק העיקרי של דמות 3a של Michel et al. (2011) . כדי ליצור מחדש את הדמות הזו, תזדקק לשני קבצים: הקובץ שהורדת בחלקו (א) וקובץ "counts" הכולל, שבו תוכל להשתמש כדי להמיר את הספירות הגולמיות לפרופורציות. שים לב שלקובץ הספירות הכולל יש מבנה שעשוי להקשות על קריאה. האם גרסה 2 של נתוני NGRAM מפיקה תוצאות דומות לאלו שהוצגו Michel et al. (2011) , המבוססים על נתוני גרסה 1?
עכשיו לבדוק את הגרף שלך נגד התרשים שנוצר על ידי הצופה NGRAM.
לשחזר דמות 3a (הדמות הראשית), אבל לשנות את \(y\) -axis להיות ספירה אזכור גלם (לא שיעור של אזכורים).
האם ההבדל בין (b) ו- (d) מוביל אותך להעריך מחדש את התוצאות של Michel et al. (2011). למה או למה לא?
עכשיו, תוך שימוש בשיעור של אזכורים, לשכפל את הבלעה של דמות 3a. כלומר, עבור כל שנה בין 1875 ו 1975, לחשב את מחצית החיים של אותה שנה. מחצית החיים מוגדרת כמספר השנים שעוברות לפני ששיעור ההחזרות מגיע למחצית משווי השיא שלו. שים לב כי Michel et al. (2011) לעשות משהו יותר מסובך להעריך את מחצית החיים לראות סעיף III.6 של מידע מקוון תומך - אבל הם טוענים כי שתי הגישות לייצר תוצאות דומות. האם גירסה 2 של נתוני NGRAM מניבה תוצאות דומות לאלו שהוצגו Michel et al. (2011) , המבוססים על נתוני גרסה 1? (רמז: אל תתפלא אם לא.)
האם היו שנים שהיו חריגים כמו שנים שנשכחו מהר במיוחד או לאט במיוחד? בקצרה השערות לגבי הסיבות האפשריות עבור דפוס זה ולהסביר כיצד זיהית את חריגים.
עכשיו לשכפל את התוצאה עבור גירסה 2 של נתוני NGrams בסינית, צרפתית, גרמנית, עברית, איטלקית, רוסית וספרדית.
השוואה בין כל השפות, האם היו שנים שהיו חריגים, כגון שנים שנשכחו מהר במיוחד או לאט במיוחד? בקצרה השערות לגבי הסיבות האפשריות עבור דפוס זה.
[ , , , ] Penney (2016) בחנה האם הפרסום הרחב על מעקב NSA / PRISM (כלומר, הגילויים של Snowden) ביוני 2013 היה קשור לירידה חדה ופתאומית בתנועה למאמרים בויקיפדיה בנושאים שמעלים את חששות הפרטיות. אם כן, שינוי זה בהתנהגות יהיה עקבי עם אפקט מצמרר הנובע ממעקב המוני. הגישה של Penney (2016) נקראת לפעמים עיצוב סדרת זמן מופרעת , והיא קשורה לגישות המתוארות בסעיף 2.4.3.
כדי לבחור את מילות המפתח נושא, פני התייחס לרשימת בשימוש על ידי מחלקת המולדת של ארה"ב עבור מעקב וניטור מדיה חברתית. רשימת ה- DHS מסווגת מונחי חיפוש מסוימים למגוון נושאים, כגון "דאגה בריאותית", "ביטחון התשתיות" ו"טרור ". בקבוצת המחקר השתמשה פני ב- 48 מילות המפתח הקשורות ל"טרור" (ראה נספח 8 ). לאחר מכן הוא צבר ספירת צפיות בוויקיפדיה על בסיס חודשי ל -48 כתבות ויקיפדיה המקבילות על פני 32 חודשים, מתחילת ינואר 2012 ועד סוף אוגוסט 2014. כדי לחזק את הטיעון שלו, הוא גם יצר מספר קבוצות השוואה על ידי מעקב מאמר על נושאים אחרים.
עכשיו, אתה הולך לשכפל ולהרחיב Penney (2016) . כל הנתונים הגולמיים שתצטרך עבור פעילות זו זמינים מתוך ויקיפדיה. או שאתה יכול לקבל את זה מתוך חבילת R-wikipediatrend (Meissner and R Core Team 2016) . כאשר אתה כותב את התשובות שלך, שים לב איזה מקור נתונים השתמשת. (שים לב שפעילות זו מופיעה גם בפרק 6). פעילות זו תעניק לך תרגול בנתונים המתנצחים וחושבים על ניסויים טבעיים במקורות נתונים גדולים. זה יהיה גם להביא לך ולהפעלת עם מקור נתונים פוטנציאלי מעניין עבור פרויקטים עתידיים.
[ ] Efrati (2016) דיווחה, בהתבסס על מידע סודי, כי "סך שיתוף" בפייסבוק ירד בכ -5.5% משנה לשנה, בעוד "שיתוף השידור המקורי" ירד 21% בשנה על פני שנה. ירידה זו היתה חריפה במיוחד עם משתמשי פייסבוק מתחת לגיל 30. הדו"ח ייחס את הירידה לשני גורמים. האחת היא הצמיחה במספר "חברים" אנשים יש בפייסבוק. השני הוא כי חלק שיתוף פעולה יש העברת הודעות ו למתחרים כגון Snapchat. הדו"ח גם חשף את הטקטיקות כמה פייסבוק ניסה לשפר את שיתוף, כולל חדשות אלגוריתם הזנות כי להפוך את ההודעות המקוריות בולט יותר, כמו גם תזכורות תקופתיות של ההודעות המקוריות עם "ביום זה" תכונה. אילו השלכות, אם בכלל, עשו את הממצאים האלה עבור חוקרים שרוצים להשתמש בפייסבוק כמקור נתונים?
[ ] מה ההבדל בין סוציולוג להיסטוריון? לדברי Goldthorpe (1991) , ההבדל העיקרי הוא שליטה על איסוף נתונים. היסטוריונים נאלצים להשתמש שרידים, ואילו סוציולוגים יכולים להתאים את איסוף הנתונים שלהם למטרות ספציפיות. קרא Goldthorpe (1991) . איך ההבדל בין סוציולוגיה להיסטוריה קשור לרעיון של מנהגים ותוכניות רדיואקטיביות?
[ ] זה בונה על quesiton הקודם. Goldthorpe (1991) צייר מספר תגובות קריטיות, כולל אחת מניקי הארט (1994) , שקראה תיגר על מסירותו של גולדתורפ לנתונים מותאמים. כדי להבהיר את המגבלות הפוטנציאליות של נתונים מותאמים אישית, תיאר הארט את פרויקט Workwent Worker, סקר גדול למדידת הקשר בין מעמד חברתי להצבעה שנערך על ידי Goldthorpe ועמיתיו באמצע שנות השישים. כפי שניתן לצפות מחוקר שהעדיף נתונים מתוכננים על נתונים שנמצאו, פרויקט Workwent Worker אסף נתונים שהותאמו לתיאוריה שהוצעה לאחרונה על עתיד המעמד החברתי בעידן של רמת חיים הולכת וגדלה. אבל, Goldthorpe ועמיתיו איכשהו "שכח" לאסוף מידע על התנהגות ההצבעה של נשים. כך ניקי הארט (1994) סיכם את כל הפרשה:
"... קשה להימנע מהמסקנה כי נשים הושמטו משום שמכלול הנתונים" חייטים "זה הוגבל על ידי היגיון פרדיגמטי, אשר כלל את החוויה הנשית. בהסתמך על ראייה תיאורטית של התודעה המעמדית והפעולה כמעסיקים גבריים ... גולדפורפ ועמיתיו בנו מערכת של הוכחות אמפיריות שהזינו וטיפחו את הנחותיהם התיאורטיות במקום לחשוף אותן למבחן תקף של הלימות ".
הארט המשיך:
"הממצאים האמפיריים של פרויקט העובדים האמידים מראים לנו יותר על הערכים הגבריים של הסוציולוגיה של אמצע המאה מאשר שהם מודיעים על תהליכי הריבוד, הפוליטיקה והחיים החומריים".
האם אתה יכול לחשוב על דוגמאות אחרות שבהן אוסף נתונים בהתאמה אישית יש את ההטיות של אספן הנתונים המובנה בו? איך זה להשוות אלגוריתם אלגוריתמי? מה ההשלכות עשויות להיות כאשר החוקרים צריכים להשתמש readymades וכאשר הם צריכים להשתמש custommades?
[ ] בפרק זה, יש לי ניגוד נתונים שנאספו על ידי חוקרים עבור חוקרים עם רשומות ניהוליות שנוצרו על ידי חברות וממשלות. יש אנשים שקוראים לרשומות המנהליות הללו "נתונים שנמצאו", שהם בניגוד ל"נתונים מתוכננים ". נכון שרשומות ניהוליות נמצאות על-ידי חוקרים, אך הן מעוצבות היטב. לדוגמה, חברות טכנולוגיה מודרניות עובדות קשה מאוד לאסוף ולאסוף את הנתונים שלהן. לכן, אלה הרשומות מינהלי הן נמצאו ועוצבו, זה פשוט תלוי בפרספקטיבה שלך (איור 2.12).
ספק דוגמה למקור נתונים, שבו לראות את שניהם, כפי שנמצאו ועוצבו, מועיל בעת שימוש במקור נתונים זה למחקר.
[ ] במאמר מסובך, כריסטיאן סנדוויג ואסטר הארגיטאי (2015) חילקו את המחקר הדיגיטלי לשתי קטגוריות רחבות, תלוי אם המערכת הדיגיטלית היא "מכשיר" או "אובייקט לימוד". דוגמה לסוג הראשון - שבו המערכת היא מכשיר - הוא המחקר על ידי Bengtsson ועמיתיו (2011) על השימוש בנתוני הטלפון הנייד כדי לעקוב אחר הגירה לאחר רעידת האדמה בהאיטי בשנת 2010. דוגמה של הסוג השני, שבו המערכת היא אובייקט של המחקר, הוא מחקר של Jensen (2007) על אופן כניסתה של טלפונים ניידים ברחבי קראלה, הודו השפיעו על תפקוד השוק לדגים. אני מוצא את הבחנה זו מועילה כי זה מבהיר כי מחקרים באמצעות מקורות נתונים דיגיטליים יכול להיות מטרות שונות לגמרי, גם אם הם משתמשים באותו סוג של מקור נתונים. כדי להבהיר עוד יותר את ההבחנה הזאת, תאר ארבעה מחקרים שראית: שניים המשתמשים במערכת דיגיטלית כמכשיר ושניים שמשתמשים במערכת דיגיטלית כמטרה של מחקר. ניתן להשתמש בדוגמאות בפרק זה אם תרצה.