סעיף זה נועד לשמש כהפניה, ולא להיקרא כסיפור.
סוג אחד של התבוננות שאינו נכלל בפרק זה הוא אתנוגרפיה. למידע נוסף על אתנוגרפיה בחללים דיגיטליים לראות Boellstorff et al. (2012) , ובמשך יותר על אתנוגרפיה בחללים דיגיטליים ופיסיים מעורבים לראות Lane (2016) .
כאשר אתה repurposing נתונים, ישנם שני טריקים מנטלית שיכולה לעזור לך להבין את הבעיות האפשריות שאתה עשוי להיתקל בהן. ראשית, אתה יכול לנסות לדמיין את הנתונים מעולים לבעיה שלך ואת להשוות כי מערך הנתונים שבו אתה משתמש. במה הם דומים ובמה הם שונים? אם אתה לא לאסוף הנתונים שלך עצמך, יש סיכוי להיות הבדל בין מה שאתה רוצה לבין מה שיש לך. אבל, אתה צריך להחליט אם ההבדלים הללו הם מינוריות או מרכזיים.
שנית, יש לזכור כי מישהו יצר ואסף הנתונים שלך מסיבה כלשהי. אתה צריך לנסות להבין החשיבה שלהם. סוג זה של הנדסה לאחור יכול לעזור לך לזהות בעיות הטיות אפשריות בנתונים לשנות את ייעודו שלך.
אין הגדרת קונסנסוס יחידה של "נתונים גדולים", אבל רבי הגדרות נראו להתמקד Vs 3: (לדוגמא, נפח, מגוון, ומהירות Japec et al. (2015) ). במקום להתמקד על המאפיינים של הנתונים, ההגדרה שלי מתמקדת יותר מדוע נוצרו הנתונים.
ההכללה שלי של נתונים מנהליים ממשלה בתוך קטגוריית הנתונים גדולים היא קצת יוצאת דופן. אחרים שעשו במקרה זה, כוללים Legewie (2015) , Connelly et al. (2016) , ואת Einav and Levin (2014) . למידע נוסף אודות ערכם של נתוני שלטון ומנהל למחקר, ראה Card et al. (2010) , Taskforce (2012) , ו Grusky, Smeeding, and Snipp (2015) .
לקבלת תצוגה של מחקר מינהלי מתוך המערכת הסטטיסטית של הממשלה, במיוחד מפקד האוכלוסין של ארה"ב, ראה Jarmin and O'Hara (2016) . במשך טיפול אורך ספר של המחקר הרשום המנהליים שבדיה לסטטיסטיקה, ראה Wallgren and Wallgren (2007) .
בפרק, השוויתי בקצרה סקר מסורתי כגון הסקר החברתי הכללי (השב"כ) למקור נתוני מדיה חברתי כמו טוויטר. לשם השוואה יסודית וזהירה בין סקרים מסורתיים ונתוני מדיה חברתית, ראה Schober et al. (2016) .
מאפיינים אלה 10 של נתונים גדולים תוארו במגוון דרכים שונות על ידי מגוון של מחברים שונים. כתיבה שהשפיעו החשיבה שלי על הנושאים האלה כוללים: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ו Goldstone and Lupyan (2016) .
לאורך הפרק, השתמשתי עקבות דיגיטליות הטווח, שלדעתי היא ניטראלי באופן יחסי. עוד מונח פופולרי עבור עקבות דיגיטליות הוא עקבות דיגיטליים (Golder and Macy 2014) , אבל כמו האל אבלסון, קן Ledeen, והארי לואיס (2008) מציינים, מונח מתאים יותר הוא כנראה טביעות אצבעות דיגיטליות. כאשר אתה יוצר עקבות, אתה מודע למה שקורה והעקבות שלך לא ניתן לייחס באופן כללי אליך באופן אישי. הדבר לא נכון לגבי העקבות הדיגיטליות שלך. למעשה, אתה משאיר עקבות כל הזמן על אשר יש לך ידע מעט מאוד. ואף על פי העקבות האלה אין השם שלך עליהם, הם יכולים לעתים קרובות להיות מקושרים בחזרה אליך. במילים אחרות, הם יותר כמו טביעות אצבעות: בלתי נראית אישיים מזהים.
גָדוֹל
למידע נוסף על מדוע מערכי נתונים גדולים, לדקלם מבחנים סטטיסטיים בעייתי, ראה Lin, Lucas, and Shmueli (2013) ו McFarland and McFarland (2015) . נושאים אלה צריכים להוביל החוקרים להתמקד משמעות מעשית ולא מובהק סטטיסטי.
תמיד פועל
כאשר בוחנים תמיד-על נתונים, חשוב לשקול אם אתה משווה את האנשים בדיוק לאורך זמן או אם אתה משווה כמה קבוצה משתנית של אנשים; ראה למשל, Diaz et al. (2016) .
לא מגיב
ספר קלאסי על צעדים שאינם תגובתי היא Webb et al. (1966) . הדוגמאות מראש תאריך הספר בעידן הדיגיטלי, אבל הם עדיין הם מאירים. לדוגמות של אנשים לשנות את התנהגותם בגלל הנוכחות של מעקב המוני, ראה Penney (2016) ו Brayne (2014) .
לא שלם
למידע נוסף על קישור, ראה Dunn (1946) ו Fellegi and Sunter (1969) (ההיסטורי) ו Larsen and Winkler (2014) (המודרני). דומה פנה גם פותחו במדעי מחשב תחת השמות כגון נתוני מניעת כפילויות, זיהוי למשל, שם התאמה, לשכפל זיהוי, ולשכפל זיהוי שיא (Elmagarmid, Ipeirotis, and Verykios 2007) . ישנם גם הפרטיות שמירה גישות להקליט הצמדה אשר אינם דורשים את העברת פרטים אישיים מזהים (Schnell 2013) . פייסבוק גם פתח להמשיך לקשר הרשום שלהם להתנהגות הצבעה; זה נעשה כדי להעריך ניסוי שאני אספר לך על בפרק 4 (Bond et al. 2012; Jones et al. 2013) .
למידע נוסף על תוקף המבנה, לראות Shadish, Cook, and Campbell (2001) , פרק 3.
לא נגיש
למידע נוסף על כישלון יומן חיפוש AOL, לראות Ohm (2010) . אני מציע ייעוץ על שיתוף פעולה עם חברות וממשלות בפרק 4 כשאני מתאר את הניסויים. מספר מחברים הביעו חששות לגבי המחקר מסתמך על נתונים נגישים, לראות Huberman (2012) ו boyd and Crawford (2012) .
דרך אחת טובה עבור חוקרים אקדמאים לרכוש גישה לנתונים היא לעבוד בחברה כמתמחה או חוקרת אורחת. בנוסף להפעלת גישה לנתונים, תהליך זה גם יעזור החוקר ללמוד עוד על איך נוצרו הנתונים, וזה חשוב לניתוח.
ללא נציג
ייצוגיות ללא בעיה קשה לחוקרים וממשלות שרוצים לצאת בהכרזות על אוכלוסייה שלמה. זהו פחות דאגת חברות כי הם התמקדו בדרך כלל על המשתמשים שלהם. למידע נוסף על איך הולנד הסטטיסטיקות יאמר את הדברה של ייצוגיות אי נתונים גדולים עסק, לראות Buelens et al. (2014) .
בפרק 3, אתאר דגימה ואמידה בפירוט רב יותר. גם אם נתונים הם לא מייצגים, בתנאים מסוימים, הם יכולים להיות משוקללים לייצר הערכה טובה.
נסחף
מערכת להיסחף קשה מאוד לראות מבחוץ. עם זאת, הפרויקט MovieLens (דנו יותר בפרק 4) הופעל במשך יותר מ -15 שנה על ידי קבוצת מחקר מהאקדמיה. לכן, הם תעדו וחולקים מידע על האופן שבו המערכת התפתחה במשך זמן ואיך זה עלול להשפיע ניתוח (Harper and Konstan 2015) .
מספר חוקרים התמקדו להיסחף בטוויטר: Liu, Kliman-Silver, and Mislove (2014) ו Tufekci (2014) .
אלגוריתמי מבולבל
שמעתי לראשונה את המונח "מבולבל אלגוריתמי" שמוצג ג'ון קליינברג בשיחה. הרעיון המרכזי מאחורי ביצועי הוא שכמה תאוריות במדעי חברה הם "מנועים לא מצלמות" (Mackenzie 2008) . כלומר, הוא למעשה לעצב את העולם ולא רק ללכוד אותו.
מְלוּכלָך
בלשכות סטטיסטיות ממשלתיות קוראות טיוב נתונים, עריכת נתונים סטטיסטית. De Waal, Puts, and Daas (2014) מתאר טכניקות עריכת נתונים סטטיסטיות שפותחו עבור נתוני סקר ולבחון באיזו מידה הם החלימו על מקורות נתונים גדולים, Puts, Daas, and Waal (2015) מציג חלק מאותם הרעיונות המיועדת לקהל רחב יותר.
לקבלת דוגמאות של מחקרים התמקדו ספאם בטוויטר, Clark et al. (2016) ו Chu et al. (2012) . לבסוף, Subrahmanian et al. (2016) מתאר את התוצאות של אתגר Bot Twitter DARPA.
רָגִישׁ
Ohm (2015) סוקר מחקרים קודמים על הרעיון של מידע רגיש ומציע מבחן מרובה גורמים. ארבעת הגורמים שהוא מציע הם: ההסתברות לפגיעה; ההסתברות לפגיעה; נוכחות של מערכת יחסים חסויים; והאם הסיכון לשקף דאגות רוב.
המחקר של מוניות של הפרבר בניו יורק התבסס על מחקר קודם לכן על ידי Camerer et al. (1997) כי השתמש בשלוש דגימות נוחות שונות של צורות גיליונות נייר טיול נייר בו נעשו שימוש על ידי נהגה להקליט שעת התחלת נסיעה, שעת סיום, ואת נסיעה. מחקר מוקדם זה נמצא כי נהגה מתפרץ מפרנסי יעד: הם עבדו פחות בימים בם שכרם היו גבוהים.
Kossinets and Watts (2009) התמקדו מקורותיה של homophily ברשתות חברתיות. ראה Wimmer and Lewis (2010) עבור גישה שונה לבעיה הזהה אשר משתמשת בנתוני מפייסבוק.
בעבודה עוקבת מלך ועמיתיו בחנו צנזורה באינטרנט נוסף בסין (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . לקבלת גישה קשורה למדידת צנזורה באינטרנט בסין, ראה Bamman, O'Connor, and Smith (2012) . למידע נוסף על שיטות סטטיסטיות כמו זה המשמש King, Pan, and Roberts (2013) כדי להעריך את הסנטימנט של 11 מיליון הודעות, לראות Hopkins and King (2010) . למידע נוסף על למידה בפיקוח, ראה James et al. (2013) (פחות טכנית) ו Hastie, Tibshirani, and Friedman (2009) (יותר טכני).
חיזוי הוא חלק גדול של המדע נתון ייצור (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . סוג של חיזוי אחת אשר נעשים בדרך כלל על ידי חוקרים חברתיים הוא חיזוי דמוגרפי, למשל Raftery et al. (2012) .
Google Flu Trends לא היה הפרויקט הראשון לשימוש בנתוני החיפוש כדי nowcast שכיחות שפעת. למעשה, חוקרים בארצות הברית (Polgreen et al. 2008; Ginsberg et al. 2009) ושבדיה (Hulth, Rydevik, and Linde 2009) מצאו כי מונחי חיפוש מסוימים (למשל, "שפעת") ניבא מעקב בריאות הציבור הלאומי נתונים לפני שהוא שוחרר. בהמשך לכך רבים, רבי פרויקטים אחרים ניסו להשתמש בנתוני עקבות דיגיטליים לגילוי מעקב אחר מחלה, ראה Althouse et al. (2015) לבדיקה.
בנוסף לשימוש נתוני עקבות דיגיטליים לנבא בריאות, חלה גם כמות עצומה של עבודה באמצעות נתונים בטוויטר כדי לחזות תוצאות בחירות; עבור ביקורות לראות Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ו Huberty (2015) .
באמצעות נתוני החיפוש לניבוי שכיחות שפעת ושימוש נתוני Twitter לחזות הבחירות הן דוגמאות של שימוש איזשהו שמץ דיגיטלי לנבא איזה אירוע בעולם. יש מספר עצום של מחקרים שיש מבנה הכללי הזה. לוח 2.5 כולל כמה דוגמאות אחרות.
עקבות דיגיטליות | תוֹצָאָה | צִיטָטָה |
---|---|---|
טוויטר | ההכנסות בקופות של הסרטים בארה"ב | Asur and Huberman (2010) |
יומני חיפוש | מכירות של סרטים, מוסיקה, ספרים, ומשחקי וידאו בארה"ב | Goel et al. (2010) |
טוויטר | מדד הדאו ג'ונס (שוק המניות בארה"ב) | Bollen, Mao, and Zeng (2011) |
כתב העת למדע מדינת PS היה סימפוזיון על נתונים גדולים, היקש הסיבתי תאוריה הפורמלית, ו Clark and Golder (2015) מסכם את תרומתו. בסיכום דיוני העת של האקדמיה הלאומית למדעים של ארצות הברית של אמריקה היה סימפוזיון על היסק סיבתי ונתונים גדולים, Shiffrin (2016) מסכם את תרומתו.
במונחים של ניסויים טבעיים, Dunning (2012) מספקת טיפול אורך ספר מצוין. למידע נוסף על שימוש בלוטו טיוטת וייטנאם כניסוי טבעי ראו Berinsky and Chatfield (2015) . עבור גישות למידת מכונה המנסות לגלות ניסויים טבעיים אוטומטית פנימי של מקורות נתונים גדולים, לראות Jensen et al. (2008) ו Sharma, Hofman, and Watts (2015) .
במונחים של התאמה, לבחינה אופטימית, לראות Stuart (2010) , ובמשך סקירה פסימית לראות Sekhon (2009) . למידע נוסף על התאמה כסוג של גיזום, ראה Ho et al. (2007) . עבור ספרים המספקים טיפולים מצויינים של התאמה, לראות Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ו Imbens and Rubin (2015) .