רבים מהנושאים שבפרק זה הדהדו גם בכתובות הנשיאות האחרונות של האגודה האמריקאית לחקר דעת קהל (AAPOR), כגון אלה של Dillman (2002) , Newport (2011) , Santos (2014) ו- Link (2015) .
למידע נוסף על ההבדלים בין מחקרי הסקר וראיונות מעמיקים, ראה Small (2009) . הקשורה בראיונות עומק היא משפחה של גישות הנקראות אתנוגרפיה. במחקר אתנוגרפי, חוקרים בדרך כלל מבלים הרבה יותר זמן עם המשתתפים בסביבתם הטבעית. למידע נוסף על ההבדלים בין אתנוגרפיה לבין ראיונות עומק, ראה Jerolmack and Khan (2014) . למידע נוסף על אתנוגרפיה דיגיטלית, ראו Pink et al. (2015) .
התיאור שלי על ההיסטוריה של מחקר הסקר הוא קצר מדי כדי לכלול רבים של ההתפתחויות מרגש שהתרחשו. לרקע היסטורי נוסף, ראו Smith (1976) , Converse (1987) Igo (2008) . עוד על הרעיון של שלוש תקופות של מחקר הסקר, ראה Groves (2011) ו Dillman, Smyth, and Christian (2008) (אשר שובר את שלוש התקופות מעט אחרת).
Groves and Kahn (1979) מציעים הצצה לתוך המעבר מן הראשון עד השני בעידן מחקר הסקר על ידי ביצוע מפורט ראש אל ראש השוואה בין פנים אל פנים וסקר טלפוני. ( ??? ) להביט לאחור על ההתפתחות ההיסטורית של אקראי ספרות ספרות חיוג שיטות.
כדי ללמוד כיצד השתנה מחקר הסקר בעבר בתגובה לשינויים בחברה, ראו Tourangeau (2004) , ( ??? ) Couper (2011) .
נקודות החוזק והחולשה של התבוננות והתבוננות נדונו על ידי פסיכולוגים (למשל, Baumeister, Vohs, and Funder (2007) ) וסוציולוגים (למשל, Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) בין הצפייה וההתבוננות עולה גם בכלכלה, כאשר החוקרים מדברים על העדפות Jerolmack and Khan (2014) למשל, חוקר יכול לשאול את הנשאלים אם הם מעדיפים לאכול גלידה או ללכת לחדר הכושר (העדפות מועדפות), או שהם יכולים לבחון את התדירות שבה אנשים אוכלים גלידה וללכת לחדר הכושר (העדפות חשופות) .הנה יש ספקנות עמוקה לגבי סוגים מסוימים של נתוני ההעדפות המוצהרות בכלכלה, כפי שמתואר ב- Hausman (2012) .
נושא מרכזי בדיונים אלה הוא דיווח על התנהגות לא תמיד מדויק. אולם, כפי שתואר בפרק 2, מקורות נתונים גדולים עשויים שלא להיות מדויקים, הם עשויים שלא להיות נאספים על מדגם של עניין, והם עשויים להיות לא נגישים לחוקרים. לכן, אני חושב כי, במצבים מסוימים, דיווחו התנהגות יכולה להיות שימושית. יתר על כן, נושא מרכזי השני בדיונים אלה הוא כי דיווחים על רגשות, ידע, ציפיות, דעות לא תמיד מדויק. אבל, אם מידע על מצבים פנימיים אלה נחוץ על ידי החוקרים - או כדי לסייע בהסבר להתנהגות מסוימת או כדבר שיוסבר - אזי ייתכן שהשאלה מתאימה. כמובן, למידה על מצבים פנימיים על ידי הצגת שאלות יכולה להיות בעייתית, כי לפעמים המשיבים עצמם אינם מודעים למצבים הפנימיים שלהם (Nisbett and Wilson 1977) .
פרק 1 של Groves (2004) עושה עבודה מצוינת ליישב את המינוח לא עקבי מדי פעם בשימוש על ידי חוקרי הסקר לתאר את סך השגיאה הסקר במסגרת. לקבלת טיפול אורך הספר של מסגרת השגיאה הסקר הכולל, ראה Groves et al. (2009) , וכן סקירה היסטורית, ראה Groves and Lyberg (2010) .
הרעיון של פירוק שגיאות לתוך הטיה ושונות עולה גם למידה מכונה; ראו, למשל, סעיף 7.3 של Hastie, Tibshirani, and Friedman (2009) . זה מוביל לעתים קרובות חוקרים לדבר על "משוא פנים הטיה" סחר off-off.
במונחים של ייצוג, מבוא גדול לנושאים של היענות תגובה ולא תגובה הוא דו"ח המועצה הלאומית למחקר Nonresponse בסקרים של מדעי החברה: אג'נדה מחקרית (2013) . סקירה שימושית נוספת מסופקת על ידי Groves (2006) . כמו כן, כל הנושאים המיוחדים של כתב העת הרשמי של סטטיסטיקה , דעת קהל רבעוני , ואת תולדות האקדמיה האמריקאית למדעי המדינה והחברה פורסמו בנושא של אי תגובה. לבסוף, יש למעשה דרכים רבות לחישוב שיעור התגובה; גישות אלה מתוארים בפירוט בדו"ח של האגודה האמריקנית לחקר דעת קהל (AAPOR) ( ??? ) .
לקבלת מידע נוסף על הסקר של 1936 ספרותית , ראה Bryson (1976) , Squire (1988) , Cahalan (1989) , ו Lusinchi (2012) . לדיון נוסף בסקר זה כמשל אזהרה על איסוף נתונים אקראי, ראו Gayo-Avello (2011) . בשנת 1936, ג 'ורג' Gallup השתמשו בצורה מתוחכמת יותר של דגימה היה מסוגל לייצר הערכות מדויקות יותר עם מדגם קטן בהרבה. ההצלחה של Gallup על הספרות Digest היה ציון דרך בפיתוח מחקר הסקר כפי שמתואר בפרק 3 של @ converse_survey_1987; פרק ד 'של Ohmer (2006) ; ואת פרק 3 של @ igo_averaged_2008.
במונחים של מדידה, משאב ראשון גדול לעיצוב שאלונים הוא Bradburn, Sudman, and Wansink (2004) . לטיפולים מתקדמים יותר, ראו Schuman and Presser (1996) , אשר מתמקדת במיוחד בשאלות יחס, ואת Saris and Gallhofer (2014) , שהוא כללי יותר. גישה שונה במקצת למדידה נעשית בפסיכומטריה, כמתואר ב ( ??? ) . עוד על קדם-מבחנה זמין אצל Presser and Blair (1994) , Presser et al. (2004) , וכן פרק 8 של Groves et al. (2009) . למידע נוסף על ניסויים בסקר, ראו Mutz (2011) .
במונחים של עלות, הטיפול הקלאסי, אורך הספר, של הסחר בין עלויות הסקר לבין שגיאות הסקר הוא Groves (2004) .
שני טיפולים קלאסיים באורך הספר של הדגימה וההסתברות הסטנדרטית הם Lohr (2009) (מבוא נוסף) ו- Särndal, Swensson, and Wretman (2003) (מתקדמים יותר). טיפול באורך הספר הקלאסי לשיטות פוסט-ריבוד ושיטות קשורות הוא Särndal and Lundström (2005) . בחלק מהגדרות העידן הדיגיטלי, חוקרים יודעים לא מעט על המרואיינים, מה שלא היה נכון לעתים קרובות בעבר. צורות שונות של הסתגלות ללא תגובה אפשריות כאשר יש לחוקרים מידע על אי-ידיעות, כפי שתואר על ידי Kalton and Flores-Cervantes (2003) ו- Smith (2011) .
מחקר Xbox על ידי W. Wang et al. (2015) משתמשת בטכניקה הנקראת רגרסיה מדורגת ופוסט-ריבוד ("מר פ"), המאפשרת לחוקרים להעריך את האמצעים הקבוצתיים גם כאשר יש הרבה קבוצות רבות. אמנם יש כמה ויכוח על איכות האומדנים של טכניקה זו, זה נראה כמו אזור מבטיח לחקור. טכניקה זו שימשה לראשונה Park, Gelman, and Bafumi (2004) , Park, Gelman, and Bafumi (2004) לאחר מכן דיון ודיון (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . למידע נוסף על הקשר בין משקולות אינדיבידואליות לבין משקולות קבוצתיות, ראה Gelman (2007) .
עבור גישות אחרות לשקלול סקרים באינטרנט, ראה Schonlau et al. (2009) , Bethlehem (2010) , ו Valliant and Dever (2011) . לוחות מקוונים יכולים להשתמש בדגימת הסתברות או בדגימה לא סבירה. לקבלת מידע נוסף על לוחות מקוונים, ראה Callegaro et al. (2014) .
לפעמים, חוקרים מצאו כי דגימות ההסתברות ודגימות של דגימות לא-סבירות של איכות דומה (Ansolabehere and Schaffner 2014) , אך השוואות אחרות מצאו כי דגימות של אי-הסתברות הן גרועות יותר (Malhotra and Krosnick 2007; Yeager et al. 2011) . סיבה אפשרית אחת להבדלים אלה היא כי דגימות לא הסתברותי השתפרו עם הזמן. לקבלת ראייה פסימית יותר של שיטות דגימה שאינן הסתברותיות ראו את כוח המשימה של AAPOR על דגימות אי-סבירות (Baker et al. 2013) , ואני ממליץ גם לקרוא את הפרשנות הבאה לדוח הסיכום.
Conrad and Schober (2008) הוא כרך העריכה שכותרתו חזה ראיון הסקר של העתיד , והוא מציע מגוון של נקודות מבט על העתיד של לשאול שאלות. Couper (2011) מטפל בנושאים דומים, ו Schober et al. (2015) מציעים דוגמה יפה כיצד שיטות איסוף נתונים המותאמות להגדרה חדשה יכולות לגרום לנתונים באיכות גבוהה יותר. Schober and Conrad (2015) מציעים טיעון כללי יותר על המשך להתאים את תהליך המחקר הסקר כדי להתאים את השינויים בחברה.
Tourangeau and Yan (2007) בוחנים סוגיות של הטיה חברתית רצויה בשאלות רגישות, ו- Lind et al. (2013) מציעים כמה סיבות אפשריות לכך שאנשים עשויים לחשוף מידע רגיש יותר בראיון ממוחשב. למידע נוסף על תפקידם של מראיינים אנושיים בהגדלת שיעורי ההשתתפות בסקרים, ראו Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , ו Schaeffer et al. (2013) . למידע נוסף על סקרי מצב מעורב, ראה Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) מציעים טיפול אורך הספר של הערכה אקולוגית אקולוגית ושיטות נלוות.
לקבלת ייעוץ נוסף על ביצוע סקרים חוויה מהנה ובעלת ערך עבור המשתתפים, לראות עבודה על שיטת עיצוב מותאם (Dillman, Smyth, and Christian 2014) . דוגמה מעניינת נוספת לשימוש ביישומי פייסבוק עבור סקרים במדעי החברה, ראה Bail (2015) .
Judson (2007) מתאר את תהליך השילוב של סקרים ונתונים מינהליים כ"אינטגרציית מידע "ודן בכמה יתרונות של גישה זו, כמו גם בכמה דוגמאות.
באשר לשאלה מעשירה, נעשו ניסיונות קודמים רבים לאמת את ההצבעה. לסקירה כללית של ספרות זו, ראו Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , Berent, Krosnick, and Lupia (2016) . ראה Berent, Krosnick, and Lupia (2016) לקבלת מבט סקפטי יותר על התוצאות המוצגות ב Ansolabehere and Hersh (2012) .
חשוב לציין כי למרות Ansolabehere ואת הרש עודדו על ידי איכות הנתונים של קטליסטי, הערכות אחרות של ספקים מסחריים היו פחות נלהבים. Pasek et al. (2014) מצאו איכות ירודה כאשר הנתונים מסקר הושוו עם קובץ הצרכן של קבוצת מערכות שיווק (אשר עצמו התמזגה יחד נתונים של שלושה ספקי: Acxiom, Experian, ו InfoUSA). כלומר, קובץ הנתונים לא תאם את תגובות הסקר שהחוקרים ציפו שיהיה נכון, לקובץ הצרכן היו נתונים חסרים עבור מספר גדול של שאלות, ודפוס הנתונים החסר היה מתואם עם ערך הסקר שדווח (כלומר, הנתונים היו שיטתיים, לא אקראיים).
לקבלת מידע נוסף על הצמדה בין סקרים ונתונים מנהליים, ראה Sakshaug and Kreuter (2012) ו- Schnell (2013) . לקבלת מידע נוסף על הצמדה זו, ראה Dunn (1946) Fellegi and Sunter (1969) (היסטוריים) Larsen and Winkler (2014) (מודרני). גישות דומות פותחו גם במדעי המחשב תחת שמות כגון מניעת כפילויות נתונים, זיהוי מקרה, התאמת שמות, זיהוי כפילויות וזיהוי רשומות כפולות (Elmagarmid, Ipeirotis, and Verykios 2007) . יש גם גישות לשמירת הפרטיות כדי להקליט הצמדה שאינן דורשות העברת מידע מזהה אישי (Schnell 2013) . חוקרים בפייסבוק פיתחו פרוצדורה כדי לקשר בין רשומות ההצבעה שלהם לבין התנהגות ההצבעה (Jones et al. 2013) קישור זה נעשה כדי להעריך ניסוי כי אני אגיד לך על פרק 4 (Bond et al. 2012) . לקבלת מידע נוסף על קבלת הסכמה להצמדת רשומות, ראה Sakshaug et al. (2012) .
דוגמה נוספת לקישור הסקר החברתי בקנה מידה גדול לרשומות מנהליות ממשלתיות מגיע מסקר הבריאות והפרישה ומנהל הביטוח הלאומי. למידע נוסף על מחקר זה, כולל מידע על הליך ההסכמה, ראה Olson (1996, 1999) .
תהליך שילובם של מקורות רבים של רשומות מינהליות ב- datafile מאסטר - התהליך שקטליסטי מעסיק - נפוץ במשרדים הסטטיסטיים של כמה ממשלות לאומיות. שני חוקרים משוודיה שכתבו ספר מפורט על הנושא (Wallgren and Wallgren 2007) . לדוגמה של גישה זו במחוז אחד בארצות הברית (אולמסטד קאונטי, מינסוטה, ביתו של Mayo Clinic), ראה Sauver et al. (2011) . למידע נוסף על שגיאות שיכולות להופיע ברשומות מנהליות, ראה Groen (2012) .
דרך אחרת שבה חוקרים יכולים להשתמש במקורות נתונים גדולים במחקר הסקר היא מסגרת הדגימה לאנשים בעלי מאפיינים ספציפיים. למרבה הצער, גישה זו יכולה להעלות שאלות הקשורות לפרטיות (Beskow, Sandler, and Weinberger 2006) .
באשר לשאלה מוגברת, גישה זו אינה חדשה כפי שהיא עשויה להופיע כפי שתיארתי אותה. יש לו קשרים עמוקים לשלושה תחומים גדולים בסטטיסטיקה: מודל פוסט-ריבוד מבוסס מודל (Little 1993) , זקיפה (Rubin 2004) והערכת שטח קטנה (Rao and Molina 2015) . זה קשור גם לשימוש משתנים פונדקאים במחקר רפואי (Pepe 1992) .
אומדני העלות והזמן ב- Blumenstock, Cadamuro, and On (2015) מתייחסים יותר לעלויות משתנות - עלות סקר נוסף אחד - ואינם כוללים עלויות קבועות כגון עלות ניקוי ועיבוד נתוני השיחות. באופן כללי, ביקוש מוגבר יהיה כנראה עלויות קבועות גבוהות ועלויות משתנות נמוכות הדומות לאלה של ניסויים דיגיטליים (ראה פרק 4). למידע נוסף על סקרים מבוססי טלפון סלולרי במדינות מתפתחות, ראה Dabalen et al. (2016) .
לקבלת רעיונות על איך לעשות מוגבר לשאול טוב יותר, אני ממליץ ללמוד יותר על זקיפה מרובה (Rubin 2004) . כמו כן, אם חוקרים עושים מוגבר מבקש טיפול ספירות מצטבר, ולא תכונות ברמה האישית, אז גישות King and Lu (2008) ו Hopkins and King (2010) עשוי להיות שימושי. לבסוף, ליותר על גישות הלמידה של מכונה Blumenstock, Cadamuro, and On (2015) , ראו James et al. (2013) (או יותר) או Hastie, Tibshirani, and Friedman (2009) (מתקדמים יותר).
סוגיה אתית אחת ביחס לשאלה מוגברת היא שניתן להשתמש בה כדי להסיק תכונות רגישות שאנשים עשויים שלא לגלות בסקר כפי שתואר Kosinski, Stillwell, and Graepel (2013) .