סוג אחד של תצפית שאינו נכלל בפרק זה הוא אתנוגרפיה. למידע נוסף על אתנוגרפיה בחללים דיגיטליים, ראה Boellstorff et al. (2012) , וכן על אתנוגרפיה במרחבים דיגיטליים ופיזיים מעורבים, ראה Lane (2016) .
אין הגדרה קונצנזוסית אחת של "נתונים גדולים", אך נראה כי הגדרות רבות מתמקדות ב "3 Vs": נפח, מגוון, מהירות (למשל, Japec et al. (2015) ). ראו De Mauro et al. (2015) לבחינת ההגדרות.
ההכללה שלי של נתונים ממשלתיים ממשלתיים בקטגוריה של נתונים גדולים היא קצת חריגה, אם כי אחרים עשו גם את המקרה הזה, כולל Legewie (2015) , Connelly et al. (2016) Einav and Levin (2014) . למידע נוסף על הערך של נתונים מינהליים ממשלתיים למחקר, ראה Card et al. (2010) , Adminstrative Data Taskforce (2012) Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) , ו- Grusky, Smeeding, and Snipp (2015) .
לצפייה במחקרים מינהליים מתוך המערכת הסטטיסטית הממשלתית, ובמיוחד בלשכה לסטטיסטיקה של ארצות הברית, ראו Jarmin and O'Hara (2016) . עבור טיפול אורך הספר של רשומות מנהליות מחקר בסטטיסטיקה שבדיה, ראה Wallgren and Wallgren (2007) .
בפרק זה השוותי בקצרה סקר מסורתי כגון הסקר החברתי הכללי (GSS) עם מקור נתונים של מדיה חברתית כגון Twitter. לשם השוואה מעמיקה וזהירה בין סקרים מסורתיים לנתוני מדיה חברתית, ראו Schober et al. (2016) .
אלה 10 מאפיינים של נתונים גדולים תוארו במגוון דרכים שונות על ידי מגוון של מחברים שונים. כתיבה שהשפיעה על החשיבה שלי בנושאים אלה כוללת את Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) Goldstone and Lupyan (2016) .
לאורך כל פרק זה, השתמשתי במונח " עקבות דיגיטליים" , שלדעתי הוא נייטרלי יחסית. מונח פופולרי נוסף לעקבות דיגיטליים הוא טביעות רגל דיגיטליות (Golder and Macy 2014) , אך כפי שהאל אבלסון, קן לדן והארי לואיס (2008) מציינים, מונח מתאים יותר הוא טביעות אצבעות דיגיטליות . כאשר אתה יוצר טביעות רגליים, אתה מודע למה שקורה ואת עקבות שלך בדרך כלל לא ניתן לייחס לך באופן אישי. אותו הדבר לא נכון עבור עקבות הדיגיטלית שלך. למעשה, אתה משאיר עקבות כל הזמן שבו יש לך ידע מועט מאוד. וגם, למרות עקבות אלה אין שם שלך עליהם, הם יכולים להיות מקושרים אליך בחזרה. במילים אחרות, הם דומים יותר לטביעות אצבעות: בלתי נראות וזיהוי אישי.
על מנת להבין מדוע נתונים גדולים מעלים בדיקות סטטיסטיות בעייתיות, ראו M. Lin, Lucas, and Shmueli (2013) McFarland and McFarland (2015) . נושאים אלה צריכים להוביל את החוקרים להתמקד במשמעות מעשית ולא במשמעות סטטיסטית.
לקבלת מידע נוסף על איך ראג 'צטי ועמיתיו לקבל גישה הרשומות מס, ראה Mervis (2014) .
מערכי נתונים גדולים יכולים גם ליצור בעיות חישוביות שהן בדרך כלל מעבר ליכולות של מחשב יחיד. לכן, החוקרים עושים חישובים על מערכי נתונים גדולים לעתים קרובות להפיץ את העבודה על מחשבים רבים, תהליך המכונה לעתים תכנות מקבילי . להקדמה לתכנות מקביל, במיוחד שפה בשם Hadoop, ראה Vo and Silvia (2016) .
כאשר בוחנים נתונים תמיד, חשוב לשקול אם אתם משווים את אותם אנשים עם הזמן או אם אתם משווים כמה אנשים משתנים של אנשים; ראה לדוגמה, Diaz et al. (2016) .
ספר קלאסי על צעדים nonreactive הוא Webb et al. (1966) . הדוגמאות בספר זה קדמו לעידן הדיגיטלי, אך הן עדיין מאירות. לקבלת דוגמאות של אנשים לשנות את התנהגותם בשל נוכחות של מעקב המוני, ראה Penney (2016) ו Brayne (2014) .
ריאקטיביות קשורה קשר הדוק למה שהחוקרים מכנים 'ביקוש' (Orne 1962; Zizzo 2010) ואפקט הות'ורן (Adair 1984; Levitt and List 2011) .
לקבלת מידע נוסף על הצמדה, ראה Dunn (1946) ו- Fellegi and Sunter (1969) (היסטורית) Larsen and Winkler (2014) (מודרני). גישות דומות פותחו גם במדעי המחשב תחת שמות כגון מניעת כפילויות נתונים, זיהוי מקרה, התאמת שמות, זיהוי כפילויות וזיהוי רשומות כפולות (Elmagarmid, Ipeirotis, and Verykios 2007) . יש גם גישות לשמירת הפרטיות כדי להקליט הצמדה שאינן דורשות העברת מידע מזהה אישי (Schnell 2013) . פייסבוק גם פיתחה תהליך לקשר את הרשומות שלהם להתנהגות הצבעה; זה נעשה כדי להעריך ניסוי כי אני אגיד לך על פרק 4 (Bond et al. 2012; Jones et al. 2013) .
למידע נוסף על תקפות המבנה, ראה פרק 3 של Shadish, Cook, and Campbell (2001) .
למידע נוסף על כישלון יומן החיפוש של AOL, ראה Ohm (2010) . אני מציע עצה על שותפות עם חברות וממשלות בפרק 4 כאשר אני מתאר ניסויים. מספר מחברים הביעו חששות לגבי מחקר המבוסס על נתונים בלתי נגישים, ראה Huberman (2012) ו boyd and Crawford (2012) .
דרך אחת טובה עבור חוקרים אקדמאים לרכוש גישה לנתונים היא לעבוד בחברה כמתמחה או חוקרת אורחת. בנוסף להפעלת גישה לנתונים, תהליך זה גם יעזור החוקר ללמוד עוד על איך נוצרו הנתונים, וזה חשוב לניתוח.
במונחים של קבלת גישה לנתונים ממשלתיים, Mervis (2014) דן כיצד ראג 'צטי ועמיתיו השיגו גישה לרשומות המס המשמשים במחקר שלהם על ניידות חברתית.
למידע נוסף על ההיסטוריה של "ייצוגיות" כמושג, ראו Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) .
הסיכומים שלי על עבודת השלג ועל עבודתם של דול והיל היו קצרים. למידע נוסף על עבודתו של סולר על כולרה, ראו Freedman (1991) . למידע נוסף על מחקר הרופאים הבריטי ראה Doll et al. (2004) Keating (2014) .
חוקרים רבים יופתעו לגלות שלמרות שדול וגבעה אספו נתונים מרופאות ומרופאים מתחת לגיל 35, הם לא השתמשו במידע זה בניתוח הראשון. כפי שטוענים: "מאז סרטן הריאות הוא נדיר יחסית אצל נשים וגברים מתחת לגיל 35, מספרים שימושיים לא צפויים להתקבל קבוצות אלה במשך כמה שנים. בדו"ח ראשוני זה הגבלנו אפוא את תשומת לבנו לגברים בני 35 ומעלה ". Rothman, Gallacher, and Hatch (2013) , שכותרתו" מדוע יש לייצג את הייצוגיות ", מעלה טיעון כללי יותר לערכו של בכוונה ליצור נתונים שאינם מייצגים.
אי-ייצוגיות היא בעיה מרכזית עבור חוקרים וממשלות המעוניינים להביע הצהרות על אוכלוסייה שלמה. זה פחות דאגה עבור חברות, אשר מתמקדים בדרך כלל על המשתמשים שלהם. למידע נוסף על האופן שבו הולנד לסטטיסטיקה מתייחסת לנושא של אי-ייצוג של נתונים עסקיים גדולים, ראה Buelens et al. (2014) .
לדוגמאות של חוקרים המביעים דאגה בנוגע לאופי שאינו מייצג של מקורות נתונים גדולים, ראו boyd and Crawford (2012) , K. Lewis (2015b) , Hargittai (2015) .
להשוואה מפורטת יותר של מטרות הסקרים החברתיים והמחקר האפידמיולוגי, ראו Keiding and Louis (2016) .
למידע נוסף על ניסיונות להשתמש בטוויטר כדי לבצע הכללות מחוץ למדגם על הבוחרים, במיוחד במקרה של הבחירות הגרמניות 2009, ראו Jungherr (2013) ו- Jungherr (2015) . בעקבות עבודתם של Tumasjan et al. (2010) חוקרים ברחבי העולם השתמשו בשיטות מהודרות יותר, כגון שימוש בניתוח סנטימנט כדי להבדיל בין אזכורים חיוביים ושליליים של הצדדים - על מנת לשפר את היכולת של נתונים לצפצף לחזות מגוון רחב של סוגים שונים של בחירות (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . הנה איך Huberty (2015) סיכם את התוצאות של ניסיונות אלה לחזות בחירות:
"כל שיטות החיזוי הידועות, המבוססות על מדיה חברתית, נכשלו כאשר הן נתונות לדרישות של חיזוי אלקטורלי צופה פני עתיד. כשלים אלה נובעים כנראה מתכונות בסיסיות של מדיה חברתית, ולא לקשיים מתודולוגיים או אלגוריתמיים. בקיצור, התקשורת החברתית אינה, וכנראה לעולם לא תציע, תמונה יציבה, לא משוחדת, מייצגת של הבוחרים; ודוגמאות נוחות של מדיה חברתית חסרים נתונים מספיקים כדי לתקן בעיות אלו פוסט ".
בפרק 3, אתאר דגימה והערכה בפירוט רב יותר. גם אם הנתונים אינם מייצגים, בתנאים מסוימים, הם יכולים להיות משוקלל כדי לייצר אומדנים טובים.
סחיפת מערכת קשה מאוד לראות מבחוץ. עם זאת, הפרויקט MovieLens (דנו יותר בפרק 4) כבר לרוץ יותר מ -15 שנים על ידי קבוצת מחקר אקדמי. לפיכך, הם הצליחו לתעד ולשתף מידע על האופן שבו המערכת התפתחה לאורך זמן וכיצד זה עשוי להשפיע על ניתוח (Harper and Konstan 2015) .
מספר חוקרים התמקדו להיסחף בטוויטר: Liu, Kliman-Silver, and Mislove (2014) ו- Tufekci (2014) .
גישה אחת להתמודדות עם התנפחות האוכלוסייה היא ליצור פאנל של משתמשים, המאפשר לחוקרים ללמוד את אותם אנשים לאורך זמן, ראה Diaz et al. (2016) .
שמעתי לראשונה את המונח "מבולבל אלגוריתמי" ששימש את ג'ון קליינברג בשיחה, אבל לצערי אני לא זוכר מתי ולאן ניתנה השיחה. בפעם הראשונה שראיתי את המונח בדפוס היה Anderson et al. (2015) , שהוא דיון מעניין על האופן שבו האלגוריתמים המשמשים אתרי היכרויות עלולים לסבך את יכולתם של החוקרים להשתמש בנתונים מאתרים אלה כדי ללמוד העדפות חברתיות. חשש זה הועלה על ידי K. Lewis (2015a) בתגובה Anderson et al. (2014) .
בנוסף לפייסבוק, טוויטר ממליץ גם למשתמשים לעקוב אחר המשתמשים בהתבסס על הרעיון של סגירה טריאדית; ראה Su, Sharma, and Goel (2016) . לכן רמת הסגר הטריאדי בטוויטר היא שילוב של נטייה אנושית כלשהי לסגירה טריאדית וכמה נטייה אלגוריתמית לקדם סגירה שלישית.
לקבלת מידע נוסף על ביצועים - במיוחד הרעיון שמספר תיאוריות של מדעי החברה הן "מנועים לא מצלמות" (כלומר, הם מעצבים את העולם ולא רק מתארים אותו) - ראו את Mackenzie (2008) .
סוכנויות ממשלתיות סטטיסטיות להתקשר נתונים ניקוי נתונים סטטיסטיים עריכה . De Waal, Puts, and Daas (2014) מתארים טכניקות סטטיסטיות לעריכת נתונים שפותחו עבור נתוני הסקר ובוחנים את מידת החלתם על מקורות נתונים גדולים, ו- Puts, Daas, and Waal (2015) מציגים חלק מאותן רעיונות עבור קהל רחב יותר.
לסקירה כללית של הרובוטים החברתיים, ראו Ferrara et al. (2016) . עבור כמה דוגמאות למחקרים שהתמקדו במציאת דואר זבל בטוויטר, ראה Clark et al. (2016) ו Chu et al. (2012) . לבסוף, Subrahmanian et al. (2016) לתאר את התוצאות של DARPA טוויטר Bot האתגר, שיתוף פעולה המוני שנועד להשוות גישות לאיתור בוטים בטוויטר.
Ohm (2015) ביקורות קודמות על הרעיון של מידע רגיש ומציע בדיקה רב גורמים. ארבעת הגורמים שהוא מציע הם גודל הפגיעה, ההסתברות לפגיעה, נוכחות של מערכת יחסים סודית, והאם הסיכון משקף את הדאגות הרודניות.
המחקר של פרבר על מוניות בניו יורק התבסס על מחקר מוקדם יותר שנערך על ידי Camerer et al. (1997) שהשתמשו בשלוש דוגמאות נוחות שונות של גיליונות נייר. מחקר מוקדם זה מצא כי הנהגים נראו כמפרנסים: הם עבדו פחות בימים שבהם השכר שלהם גבוה יותר.
בעבודה מאוחרת יותר, קינג ועמיתיו חקרו עוד צנזורה מקוונת בסין (King, Pan, and Roberts 2014, [@king_how_2016] ) . לגישה קשורה למדידת הצנזורה המקוונת בסין, ראו Bamman, O'Connor, and Smith (2012) . למידע נוסף על שיטות סטטיסטיות כמו זו ששימשה את King, Pan, and Roberts (2013) כדי להעריך את הרגש של 11 מיליון ההודעות, ראה Hopkins and King (2010) . למידע נוסף על למידה מבוקרת, ראו James et al. (2013) (פחות טכני) Hastie, Tibshirani, and Friedman (2009) (טכני יותר).
חיזוי הוא חלק גדול של המדע נתונים תעשייתיים (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . סוג אחד של חיזוי שנעשה בדרך כלל על ידי חוקרים חברתיים הוא חיזוי דמוגרפי; ראה, לדוגמה, Raftery et al. (2012) .
Google Flu Trends לא היה הפרויקט הראשון שהשתמש בנתוני חיפוש לשכיחות שפעת כעת. למעשה, חוקרים בארצות הברית (Polgreen et al. 2008; Ginsberg et al. 2009) ושבדיה (Hulth, Rydevik, and Linde 2009) מצאו כי מונחי חיפוש מסוימים (למשל, שפעת) ניבאו את מעקב הבריאות הלאומי נתונים לפני שפורסמו. לאחר מכן, רבים, פרויקטים רבים אחרים ניסו להשתמש בנתונים דיגיטליים מעקב עבור מעקב אחר מחלות; ראה Althouse et al. (2015) לבדיקה.
בנוסף לשימוש בנתוני מעקב דיגיטליים כדי לחזות תוצאות בריאותיות, יש גם כמות עצומה של עבודה באמצעות נתוני טוויטר לחזות תוצאות הבחירות; עבור Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (פרק 7), ו Huberty (2015) . ניבוי של אינדיקטורים כלכליים, כגון התוצר המקומי הגולמי (GDP), נפוץ גם בבנקים מרכזיים, ראה Bańbura et al. (2013) . טבלה 2.8 כוללת כמה דוגמאות למחקרים המשתמשים בסוג כלשהו של עקבות דיגיטליים כדי לחזות איזשהו אירוע בעולם.
עקבות דיגיטליים | תוֹצָאָה | צִיטָטָה |
---|---|---|
טוויטר | הכנסות משרד הקופות של סרטים בארה"ב | Asur and Huberman (2010) |
חיפוש יומנים | מכירות של סרטים, מוסיקה, ספרים ומשחקי וידאו בארה"ב | Goel et al. (2010) |
טוויטר | דאו ג 'ונס תעשייתי ממוצע (שוק המניות בארה"ב) | Bollen, Mao, and Zeng (2011) |
מדיה חברתית ויומני חיפוש | סקרים של סנטימנט המשקיעים ושוקי המניות בארצות הברית, בריטניה, קנדה וסין | Mao et al. (2015) |
חיפוש יומנים | השכיחות של קדחת דנגה בסינגפור ובנגקוק | Althouse, Ng, and Cummings (2011) |
לבסוף, ג 'ון קליינברג ועמיתיו (2015) ציינו כי בעיות חיזוי נופל לשתי קטגוריות, שונה במקצת, וכי מדעני החברה נטו להתמקד אחד ולהתעלם השני. תארו לעצמכם עושה אחד המדיניות, אני אקרא לה אנה, שעומדת מול הבצורת ואת חייבת להחליט אם לשכור שאמאן לעשות ריקוד גשם כדי להגדיל את הסיכוי לגשם. עוד מעצבת מדיניות, אני אקרא לה בטי, צריכה להחליט אם לקחת מטריה לעבודה כדי לא להירטב בדרך הביתה. גם אנה וגם בטי יכולות לקבל החלטה טובה יותר אם הן מבינות את מזג האוויר, אבל הן צריכות לדעת דברים שונים. אנה צריכה להבין אם ריקוד הגשם גורם לגשם. בטי, לעומת זאת, לא צריכה להבין שום דבר על סיבתיות; היא רק צריכה תחזית מדויקת. חוקרים חברתיים מתמקדים לעתים קרובות בבעיות כמו זו שעומדת בפני אנה - אשר קליינברג ועמיתיה מכנים "בעיות גשם כמו" בעיות מדיניות - כי הם כרוכים בשאלות של סיבתיות. שאלות כמו זו שעומדת בפני בטי - שקליינברג ועמיתיה מכנים "בעיות דמויי מטריות" - יכולות להיות חשובות למדי, אך הן זכו לתשומת לב פחותה בהרבה מחוקרים חברתיים.
ביומן מדעי המדינה היה סימפוזיון על נתונים גדולים, היקש סיבתי, תיאוריה פורמלית, Clark and Golder (2015) מסכמים כל תרומה. ביומן של האקדמיה הלאומית למדעים של ארצות הברית של אמריקה היה סימפוזיון על היקש סיבתי נתונים גדולים, Shiffrin (2016) מסכם כל תרומה. עבור גישות למידה של מכונות המנסות לגלות באופן אוטומטי ניסויים טבעיים בתוך מקורות נתונים גדולים, ראו Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) .
במונחים של ניסויים טבעיים, Dunning (2012) מספק מבוא, אורך הספר טיפול עם דוגמאות רבות. לקבלת מבט ספקני על ניסויים טבעיים, ראו Rosenzweig and Wolpin (2000) (כלכלה) או Sekhon and Titiunik (2012) (מדע המדינה). Deaton (2010) Heckman and Urzúa (2010) טוענים כי התמקדות בניסויים טבעיים יכולה להוביל את החוקרים להתמקד בהערכת השפעות סיבתיות חשובות; Imbens (2010) מונה את הטיעונים הללו עם מבט אופטימי יותר על ערך הניסויים הטבעיים.
כאשר תיארתי כיצד יכול חוקר לעבור מאמידת השפעת הגיוס לתוקף המשרת, תיארתי טכניקה הנקראת משתנים אינסטרומנטליים . Imbens and Rubin (2015) , בפרקים 23 ו -24, מספקים מבוא ומשתמשים בהגרלת הגרלה כדוגמה. ההשפעה של שירות צבאי על המתלוננים נקראת לעתים אפקט סיבתי ממוצע מתמשך (CAcE) ולפעמים אפקט הטיפול הממוצע המקומי (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , ו Bollen (2012) מציעים סקירות על השימוש במשתנים אינסטרומנטליים במדע המדינה, כלכלה וסוציולוגיה, ו- Sovey and Green (2011) מספק "רשימת תיוג של הקוראים" עבור הערכת מחקרים באמצעות משתנים אינסטרומנטליים.
מתברר כי טיוטת הלוטו 1970 לא היה, למעשה, אקראי; היו חריגות קטנות אקראיות טהורה (Fienberg 1971) . Berinsky and Chatfield (2015) טוען כי סטייה קטנה זו אינה מהותית חשוב לדון בחשיבות של אקראיות מנוהל כראוי.
במונחים של התאמה, ראה Stuart (2010) לבדיקה אופטימית, ו Sekhon (2009) לבדיקה פסימית. לקבלת מידע נוסף על התאמה כסוג של גיזום, ראה Ho et al. (2007) . מציאת התאמה מושלמת אחת עבור כל אדם הוא לעתים קרובות קשה, וזה מציג מספר המורכבויות. ראשית, כאשר התאמות מדויקות אינן זמינות, החוקרים צריכים להחליט כיצד למדוד את המרחק בין שתי יחידות ואם מרחק נתון קרוב מספיק. המורכבות השנייה מתעוררת אם החוקרים רוצים להשתמש במשחקים מרובים עבור כל מקרה בקבוצת הטיפול, שכן זה יכול להוביל לאומדנים מדויקים יותר. שני הנושאים הללו, כמו גם אחרים, מתוארים בפירוט בפרק 18 של Imbens and Rubin (2015) . ראה גם חלק ב 'של ( ??? ) .
ראה Dehejia and Wahba (1999) , לדוגמה, כאשר שיטות ההתאמה היו מסוגלות לייצר אומדנים דומים לאלה של ניסוי מבוקר אקראי. עם זאת, ראה Arceneaux, Gerber, and Green (2006) ו- Arceneaux, Gerber, and Green (2010) לדוגמאות שבהן שיטות ההתאמה נכשלו Arceneaux, Gerber, and Green (2010) מדד ניסיוני.
Rosenbaum (2015) ו- Hernán and Robins (2016) מציעים עצות אחרות לגילוי השוואות שימושיות בתוך מקורות נתונים גדולים.