התאמתי ליצור השוואות הוגנות על ידי גיזום משם מקרים.
השוואות יריד יכול לבוא מתוך ניסויים מבוקרים או אקראי או ניסויים טבעיים. אבל, ישנם מצבים רבים שבהם לא ניתן להפעיל את הניסוי אידיאלי והטבע לא סיפק ניסוי טבעי. בהגדרות אלה, הדרך הטובה ביותר ליצור השוואה הוגנת הוא התאמה. בשנת ההתאמה, החוקר נראה דרך נתונים שאינם ניסיוני ליצור זוגות של אנשים הדומים חוץ מזה שאחד קיבל את הטיפול ואחד לא. בתהליך של התאמה, חוקרים הם למעשה גם גיזום; כלומר, משליך במקרים בם אין השוואה מתבקשת. לכן, שיטה זו תיקרא באופן מדויק יותר התאמה-ו-גיזום, אבל אני אשאר עם במונח המסורתי: התאמה.
דוגמא יפה של הכח של התאמת אסטרטגיות עם מקורות נתונים שאינם הניסיונות מסיבית באה מן המחקר על התנהגות צרכנים על ידי לירן עינב ועמיתיו (2015) . עינב ועמיתיו התעניינו במכרזים מתרחש ב- eBay, ובשעה שתיאר את עבודתם, אני אתמקד בהיבט מסוים: השפעת המחיר ההתחלתי במכירה פומבית על תוצאות המכרז כגון מחיר המכירה או את ההסתברות של מכירה.
הדרך הנאיבית ביותר כדי לענות על השאלה לגבי השפעת המחיר ההתחלתי על מחיר המכירה תהיה פשוט לחשב את המחיר הסופי עבור מכירות פומביות עם מחירי התחלה שונים. גישה זו תהיה בסדר אם אתה פשוט רוצה לחזות את מחיר המכירה של פריט נתון שהונח על eBay עם מחיר התחיל נתון. אבל, אם השאלה שלך היא מה היא ההשפעה של המחיר החל על תוצאות שוק גישה זו לא יעבוד כי היא אינה מבוססת על השוואות הוגנות; המכרזים עם מחירים החל מ נמוכים עשויים להיות שונים לגמרי מן המכרזים עם מחירים החל גבוהים (למשל, הם עלולים להיות עבור סוגים שונים של מוצרים או כוללים סוגים שונים של מוכרים).
אם אתה כבר מודאג מביצוע השוואות הוגנות, ייתכן לדלג הגישה הנאיבית לשקול הפעלת ניסוי שדה שבו היית למכור ספציפי פריט-לומר, במועדון עם גולף סט קבוע של מכירה פומבית פרמטרים לומר, משלוח חינם, מכירה פומבית פתוח במשך שבועיים, וכו ', אבל עם אקראי לקבוע מחירים החל. על ידי השוואת תוצאות שוק הנובעת, ניסוי שדה זה יציע מדידה מאוד ברורה של השפעת המחיר החל על מחיר המכירה. אבל, מדידה זו תחול רק על מוצר אחד מסוים ולהגדיר פרמטרי מכירות. התוצאות עשויות להיות שונות, למשל, עבור סוגים שונים של מוצרים. ללא תאוריה חזקה, קשה להסיק מניסוי היחיד זאת המגוון הרחב של ניסויים אפשריים שניתן היה להפעיל. יתר על כן, ניסוי שדה יקר מספיק שזה יהיה מעשי לרוץ מספיק מהם עד כדי לכסות את מרחב פרמטרים השלם של מוצרים וסוגי מכירות.
בניגוד לגישה הנאיבית ואת הגישה הניסויית, עינב ועמיתיו לנקוט בגישה שלישית: התאמה. הטריק העיקרי של האסטרטגיה שלהם הוא לגלות דברים דומים ניסוי שדה שכבר קרה ב- eBay. לדוגמה, איור 2.6 מציג חלק 31 הרישומים של המועדון-גולף בדיוק Driver-להיות 09 taylormade מבער נמכר על ידי אותו בדיוק seller- "budgetgolfer". עם זאת, רישומים אלה יש מאפיינים שונים במקצת. אחד-עשר מהם להציע לנהג תמורת מחיר קבוע של 124.99 $, ואילו 20 אחרים הם מכירות פומביות עם תאריכי סיום שונים. כמו כן, יש הרישומים דמי משלוח שונים, בין אם $ 7.99 או 9.99 $. במילים אחרות, זה כאילו "budgetgolfer" פועל ניסויים עבור החוקרים.
הרישומים של נהג 09 מבער taylormade הנמכרים על-ידי "budgetgolfer" הם דוגמא אחת של קבוצת הרישומים מתאימה, בם הפריט בדיוק נמכר על ידי המוכר בדיוק אבל בכל פעם עם מאפיינים שונים במקצת. בתוך יומני מסיבית של eBay יש ממש מאות אלפי סטים מתאימים מעורבים מיליוני רישומים. כך, במקום להשוות את המחיר הסופי על כל המכירות הפומביות בתוך מחיר התחלתי נתון, עינב ועמיתיו לערוך השוואות בתוך סטים. על מנת לשלב תוצאות ההשוואות בתוך אותם מאות אלפי סטים תואמים, עינב ועמיתיו מחדש לבטא את המחיר ההתחלתי והמחיר הסופי במונחים של ערך הייחוס של כל פריט (למשל, מחיר המכירה הממוצע שלו). לדוגמה, אם הנהג 09 מבער taylormade יש ערך הייחוס של 100 $ (מבוסס על מכירותיה), ולאחר מכן במחיר התחלתי של 10 $ יהיה מבוטא 0.1 ו המחיר הסופי של 120 $ יהיה מבוטא 1.2.
נזכיר כי עינב ועמיתיו היו מעוניינים השפעת המחיר התחלה על תוצאות המכרז. ראשית, באמצעות רגרסיה ליניארית הם מעריכים כי מחירי הפתיחה גבוהים ולהפחית את הסבירות של מכירה, וכי מחירי הפתיחה גבוהים להגדיל את מחיר המכירה הסופי, מותנית מכירת התרחשות. על ידי עצמם, הערכות אלה, שאותם הוא ממוצעים על כל המוצרים להניח קשר לינארי בין המחיר ההתחלתי וסופיות תוצאות-לא כל כך מעניינים. אבל, עינב ועמיתיו גם להשתמש בגודל העצום של הנתונים שלהם להעריך מגוון של ממצאים עדינים יותר. ראשית, עינב ועמיתיו העלו אומדנים אלה בנפרד עבור פריטים של מחירים שונים, ללא כל שימוש רגרסיה ליניארית. הם גילו כי בעוד היחסים בין מחיר התחלת הסתברות של מכירה הוא ליניארי, היחסים בין המחיר ההתחלתי ואת מחיר המכירה הוא שאינו ליניארי ברור (איור 2.7). בפרט, עבור מתחיל מחירים בין 0.05 לבין 0.85, המחיר ההתחלתי יש השפעה מועטה מאוד על מחיר המכירה, ממצא הושלמה החמיץ בניתוח אשר גרם לי להניח קשר ליניארי.
שנית, במקום הממוצע של מעל כל הפריטים, עינב ועמיתיו גם להשתמש בקנה המידה העצומה של הנתונים שלהם להעריך את ההשפעה של מחיר ההתחלתי עבור 23 קטגוריות שונות של פריטים (למשל, ציוד לחיות מחמד, אלקטרוניקה, מזכרות ספורט) (איור 2.8). אומדנים אלו מראים כי עבור מיוחד יותר פריטים-כגון מחיר המזכרות-אפ יש השפעה קטנה יותר על ההסתברות של מכירה ו השפעה גדולה יותר על מחיר המכירה הסופי. יתר על כן, עבור פריטים-כגון ממוסחרים יותר כמו תקליטורי DVD ווידאו-המחיר התחלה כמעט אין לו השפעה על המחיר הסופי. במילים אחרות, בממוצע המשלב תוצאות מ -23 קטגוריות שונות של פריטים מסתיר מידע חשוב על ההבדלים בין הפריטים הללו.
גם אם אתם לא מעוניינים במיוחד במכרזים ב- eBay, אתה חייב להעריץ את האופן שבו איור 2.7 ואיור 2.8 הצעה להבנה מורחבת של eBay מהערכות רגרסיה ליניארית פשוטות להניח יחסים ליניארי ולשלב קטגוריות שונות של פריטים. הערכות עדינות יותר אלה להמחיש את העצמה של התאמה בנתונים מסיביים; הערכות אלה לא היו אפשריות בלי מספר עצום של ניסויי שדה, אשר היה יקר מדי.
כמובן, אנחנו צריכים ביטחון פחות בתוצאות של כל מחקר התאמה מסוים מאשר היינו בתוצאות ניסוי דומה. כאשר הערכת תוצאות מכל מחקר תואם, ישנם שני חששות חשובים. ראשית, עלינו לזכור כי אנחנו יכולים רק להבטיח השוואות הוגנות על דברים ששמשו לצורך ההתאמה. בשנת התוצאות העיקריות שלהם, עינב ועמיתיו לא מדויק התאמתו על ארבעה מאפיינים: מספר תעודת זהות מוכרת, בקטגורית פריט, כותרת פריט, ו כתובית. אם הפריטים היו שונים בדרכים שלא היו בשימוש עבור התאמה, שעלולה ליצור השוואה הוגנת. לדוגמה, אם "budgetgolfer" הורידו מחירים עבור taylormade מבער 09 Driver בחורף (כאשר מועדוני גולף הם פחות פופולריים), אז זה יכול להיראות כאילו המחירים מתחילים נמוך להוביל להוריד את המחירים הסופיים, כאשר למעשה זה יהיה פועל יוצא של עונתית וריאציה בביקוש. באופן כללי, הגישה הטובה ביותר לבעיה זו כנראה מנסה סוגים שונים של התאמה. לדוגמא, עינב ועמיתיו לחזור וניתוחן שם סטים כוללים פריטים למכירה בתוך שנה אחת, תוך חודש, ואת ההתרחשויות. הפיכת חלון הזמן הדוק מקטינה את מספר סטים תואמים, אך מפחית חששות לגבי התנודתיות עונתית. למרבה המזל, הם מוצאים התוצאות הן ללא שינוי על ידי שינויים אלה לקריטריונים. בספרות ההתאמה, זה סוג של דאגה מתבטא בדרך כלל במונחים של observables ו בלתי נצפה, אבל הרעיון המרכזי הוא באמת שחוקר רק יוצרים השוואות הוגנות על התכונות משמשות עבור התאמה.
החשש העיקרי השני כאשר לפרש תוצאות תואמות הוא שהם חלים רק על נתונים מתאימים; הם אינם חלים על מקרים שלא ניתן להתאים. לדוגמא, על ידי הגבלת מחקריהם לפריטים היו מספר רישומי עינב ועמיתיו מתמקדים מוכרים מקצועיים חצי מקצועיים. לפיכך, כאשר מפרשים את ההשוואות האלה עלינו לזכור כי הם חלים רק על משנה זו של eBay.
התאמה היא אסטרטגיה חשובה למציאת השוואות הוגנות מערכי נתונים גדולים. כדי מדעני חברה רבים, התאמה מרגישה כמו השני בטיבו לניסויים, אבל זה אמונה כי צריך להיות מתוקנת, מעט. התאמת בנתונים מסיביים יכול להיות טוב יותר מאשר מספר קטן של ניסויי שדה כאשר: 1) ההטרוגניות השפעות חשובות ו -2) יש observables טוב תואם. טבלה 2.4 מספקת כמה דוגמאות אחרות לכך התאמה ניתן להשתמש עם מקורות נתונים גדולים.
מוקד מהותי | מקור נתונים גדול | צִיטָטָה |
---|---|---|
השפעת הירי על אלימות המשטרה | עצור-מקפץ רשום | Legewie (2016) |
אפקט ה -11 בספטמבר 2001 על משפחות ושכנים | רשומות הצבעה ורשומות תרומה | Hersh (2013) |
הדבקה חברתית | נתוני תקשורת אימוץ המוצר | Aral, Muchnik, and Sundararajan (2009) |
לסיכום, גישות נאיביות הערכת השפעות סיבתי מנתונים שאינם ניסיוני מסוכנות. עם זאת, אסטרטגיות להכנת אומדנים סיבתי השוכבים לאורך רצף שבין חזק ביותר החלש, וחוקרים יכולים לגלות השוואות הוגנות נתונים שאינם ניסוי. הצמיחה של מערכות נתונים תמיד-על, גדולות מגבירה את היכולת שלנו להשתמש ביעילות שתי שיטות קיימות: ניסויים טבעיים והתאמה.