סיבתיות | דעת מיעוט

Posts Tagged ‘סיבתיות’

מה מדעני נתונים וכלכלנים יכולים ללמוד האחד מהשני?

Posted in כללי, tagged overfitting, אקונומטריקה, למידת מכונה, מדע נתונים, סיבתיות on נובמבר 17, 2019| 5 Comments »

אמל"ק / השורה התחתונה

מדעני נתונים וכלכלנים שואלים שאלות מחקר אחרות, ולכן הם משתמשים בכלים אחרים ומוטרדים מבעיות אחרות, אבל מדעני נתונים יכולים להרוויח מהיכרות עמוקה יותר של נושא ההסקה הסיבתית, וכלכלנים יכולים להרוויח מהרחבת אופקים אל מעבר לרגרסיות.

הקדמה

בשנים האחרונות מתרחשת התפוצצות של ממש בתחום חדש-ישן המכונה "מדע נתונים" (data science), וספציפית בתת התחום "למידת מכונה" (machine learning). הסטטיסטיקה היא כמובן בת מאות שנים, ובתואר הראשון שלי בהנדסת תעשייה, לפני למעלה מעשור, כבר היו קורסים במה שנקרא אז data mining, אבל בעקבות הגידול בכוח המחשוב והזמינות הגבוהה של מסדי נתונים גדולים העסק נוסק בשנים האחרונות לגבהים חדשים.

מי הם מדעני הנתונים? על הצד הציני, יש שיאמרו שמדובר במיתוג מחדש לסטטיסטיקאים שמאפשר להם להרוויח משכורות של מתכנתים, או באפשרות להסבת מקצוע לדוקטורים מכל המינים והתחומים שלא מצאו את מקומם באקדמיה. על הצד היותר רציני, מדובר במקצוע מאתגר המחייב ידע בתכנות, לעיתים גם במתמטיקה, הבנה סטטיסטית עמוקה ויצירתיות, לשם טיפול במאגרי ענק של נתונים והפיכתם לתובנות ששוות הרבה מאוד כסף. במובנים רבים זהו מקצוע חדש, שעלה מהשטח, עקב הביקוש במגזר ההיי-טק.

מניסיוני ברשתות החברתיות ישנו מחסום קונספטואלי בין כלכלנים ובין מדעני נתונים, שבולט בכל פעם כשמגיעים לדיון טכני על רגרסיות ליניאריות ונושאים דומים. מכיוון שאני יודע שאחרי הבלוג עוקבים גם כלכלנים וגם מדעני נתונים, החלטתי להקדיש רשומה לניסיון לגשר על הפערים האלו. חלק מהמחסום נובע פשוט משמרנות דיסציפלינרית – רבים התרגלו לכלים שאותם למדו באוניברסיטה, והזלזול בתחומים אחרים הוא תירוץ נוח לבורות והישארות באזור הנוחות – אבל חלק מהמחסום נובע ממספר הבדלים חשובים אחרים.

אפשר לראות בפוסט הזה סוג של "מבוא למדע נתונים עבור כלכלנים", "מבוא לאקונומטריקה עבור מדעני נתונים" או פשוט שורה של מחשבות שעולות אצלי כמי שנע לראשונה מתחום אחד לשני.

שאלות מחקר שונות

כלכלנים באקדמיה, ובאופן כללי יותר חוקרים במדעי החברה, בד"כ רוצים להבין מה ההשפעה של משתנה מסביר מסויים (X) על משתנה מוסבר מסויים (Y). למשל, ההשפעה של רמת ההשכלה על השכר, ההשפעה של הגירה על שוק העבודה, או ההשפעה של בניית כביש חדש על אורך הפקקים. מדעני נתונים, לעומת זאת, בד"כ רוצים לחזות דברים. למשל, להבין מהו הסיכוי שאדם עם מאפיינים מסויימים שנכנס לאתר אינטרנט ירצה לקנות מוצר מסויים, או מהו הסיכוי שתמונה עם פיקסלים בצבעים מסויימים מתארת את הפנים של אדם מסויים. השוני בשאלות המחקר מוביל לשוני בכלים הנפוצים בכל תחום, ולמיקוד של חוקרים במדעי החברה ברגרסיות מסוגים שונים (ליניאריות, לוגיסטיות ועוד).

נראה דוגמה להבדל זה, המבוססת על נתונים שאני עובד עליהם כרגע במסגרת מחקר בפורום קהלת לכלכלה, שיפורסם בחודש הקרוב. שאלת המחקר הספציפית שבה נעסוק: מהי השפעת המעמד הסוציואקונומי על רמת הבריאות בישראל?

הנתונים מבוססים על הסקר ארוך הטווח של הלמ"ס, שבמסגרתו התבקשו המשיבים לדרג את רמת הבריאות שלהם לפי חמש קטגוריות. לצערי הנתונים אינם פומביים, ולכן איני יכול לחלוק כאן אותם ואת הקוד. אני מחלק את המשיבים לשתי קבוצות, אלו שטענו שרמת הבריאות שלהם "טובה מאוד" (כ-67% מהמשיבים שיש לגביהם נתונים מלאים) ולעומתם כל השאר. זהו משתנה התוצאה – שתי קטגוריות המתארות את רמת הבריאות. המשתנים המסבירים הם הגיל, המגדר, ההכנסה, ההשכלה, מקצוע פיזי (כגון בינוי או הפעלת מכונות כבדות), והשתייכות ללאום ערבי או לקבוצת החרדים.

אם נתעלם לרגע מנושא הסיבתיות, רגרסיה לוגיסטית (בלי רגולריזציה) מספקת תשובה פשוטה לשאלת המחקר: בהינתן גיל ומגדר, הכפלת ההכנסה תגדיל פי כ-1.22 את יחס ההסתברויות, שהוא ההסתברות להיות בעל רמת בריאות טובה מאוד חלקי ההסתברות ההופכית, והתוצאה מובהקת סטטיסטית ברמת מובהקות של 1%. כמובן, אם מעולם לא עסקתם ברגרסיות לוגיסטיות יתכן שהתשובה הזו נשמעת לכם כמו סינית, אבל תאמינו לי – זו תשובה פשוטה. ניתן גם להשוות את השפעת ההכנסה להשפעות של משתנים אחרים בקלות, ולראות מי מהם משפיע יותר. מסתבר שהשכלה משפיעה יותר מהכנסה, והחרדים הם בריאים במיוחד, או לפחות נוטים לענות באופן מאוד אופטימי על שאלות סובייקטיביות בנוגע לרמת הבריאות שלהם.

אחד הכלים הנפוצים בקרב מדעני הנתונים, שבו השתמש עמרי גולדשיין כדי לנתח שאלה דומה בבלוג שלו, הוא עצי החלטה. זוהי התוצאה של אלגוריתם עץ החלטה עבור אותם הנתונים, כשהוא מוגבל ל-3 רמות (לחצו על התמונה כדי להגדילה):

המשמעות של העץ יותר אינטואיטיבית מהרגרסיה הלוגיסטית. על מנת לקרוא את העץ עלינו להתחיל בריבוע העליון. בשורה הראשונה בכל ריבוע מצויין קריטריון ההחלטה, וישנם שני חצים – אמת (שמאלה) או שקר (ימינה). אם גילו של הפרט גדול מ-50 שנים נלך ימינה, ואם גילו קטן מ-50 שנים נלך שמאלה. אם הלכנו שמאלה, עלינו לבחון האם גילו גדול או קטן מ-41.5. אם הגיל הוא גבוה מ-41.5, אך נמוך מ-50.5, אנחנו מגיעים לריבוע שבו הקריטריון מבוסס על מקצוע פיזי. מקצוע פיזי הוא משתנה בינארי כאמור, השווה ל-1 עבור בעלי מקצועות פיזיים ו-0 אחרת. על פי העץ, התחזית לבעלי מקצועות פיזיים בגילאי 42 – 50 היא לבריאות שאיננה טובה מאוד, בעוד שהתחזית לאלו שאין להם מקצועות פיזיים בגילאים אלו היא לבריאות טובה מאוד.

מלבד הקריטריון, בכל ריבוע מצוין שיעור התצפיות הנמצאות בענף זה של העץ (samples), וכן חלוקתן בין פרטים עם בריאות שאיננה טובה מאוד (הערך הראשון ב-value) ובריאות טובה מאוד (הערך השני ב-value). ככל שצבעו של הריבוע כחול יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות טובה מאוד, וככל שהוא כתום יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות שאיננה טובה מאוד.

העץ מעניין מאוד (כשנפרסם את המחקר אני אפרסם בבלוג מספר עצים נוספים בנידון), אבל הוא לא מספק לנו תשובה חד משמעית לשאלת המחקר – השפעת ההכנסה על בריאות. על הצד החיובי, הוא מאפשר לנו לראות דפוסים שלא ראינו ברגרסיה. למשל, אנחנו יכולים לראות שישנה בעיה עם בעלי מקצועות פיזיים שגילם עולה על 41, ושהשפעת ההכנסה על הבריאות היא חשובה בעיקר עבור מבוגרים. יכולנו לראות את הדפוסים האלו גם ברגרסיה, אך לשם כך היינו צריכים להכניס "אינטראקציות" בין המשתנים מראש. העץ מגלה את הדפוסים האלו באופן אוטומטי, מבלי שנצטרך לחשוב עליהם בעצמנו ולעצב את משוואת הרגרסיה בהתאם. כלים אחרים הנפוצים בקרב מדעני נתונים, כגון random forest (שילוב של עצים רבים) או רשתות נוירונים, לא יוכלו להועיל כלל עבור שאלת המחקר שלנו. בניגוד לעץ, הכלים האלו מייצרים "קופסה שחורה" אשר קשה לפענח אותה ולהבין ממנה את השפעתם של משתנים שונים (אם כי random forest ועצים מספקים מדד לחשיבות המשתנים הנקרא feature importance).

אז מצד אחד, ברור שכלכלנים וחוקרים ממדעי החברה הנתקלים בשאלת המחקר שלנו, השפעת ההכנסה על רמת הבריאות, ישתמשו בעיקר ברגרסיות – פחות בגלל שהם מעולם לא שמעו על כלי אחר, ויותר מכיוון שהן מתאימות יותר ונוחות יותר עבור שאלות מחקר מעין אלו. העץ מספר לנו על אילו משתנים כדאי להסתכל על מנת להחליט אם אדם בריא או לא, אבל הוא לא יכול לספק לנו מספר יחיד העונה לשאלה ששאלנו, ואלגוריתמים אחרים המקובלים בקרב מדעני נתונים עוד פחות שקופים ממנו. רגרסיה כן מסוגלת. אך מצד שני, שימוש בעצי החלטה יכול לעיתים לעזור לחוקרים למצוא דפוסים מעניינים נוספים בנתונים, וכך להוות כלי עזר משלים לרגרסיה.

לעומת זאת, נניח שהנתונים הם אותם הנתונים, אבל שאלת המחקר היא אחרת. נניח שאתם רופאים, המעוניינים לחזות את הבריאות של מטופל חדש שנכנס למרפאה שלכם. אתם יודעים מהי הרמה של המשתנים המסבירים עבור המטופל החדש, אבל לא מהי רמת הבריאות שלו. איזה מודל יהיה מוצלח יותר בחיזוי?

על מנת לבדוק את שאלת החיזוי, נחלק את בסיס הנתונים לשני חלקים. החלק הראשון, 75% מהתצפיות שיבחרו באקראי, ישמש אותנו לאימון המודל. האלגוריתמים ינסו לבנות את מודל הרגרסיה או את העצים שיהיו מסוגלים להסביר באופן הטוב ביותר את רמת הבריאות עבור חלק זה. החלק השני ישמש אותנו לבחינת המודל על נתונים "חדשים", שלא שימשו לבניית המודל עצמו, וכך נראה באיזו מידה ניתן להכליל את המודלים ולהשתמש בהם לחיזוי.

התוצאות? מודל הרגרסיה הלוגיסטית הצליח לחזות נכונה את רמת הבריאות עבור כ-72% מהפרטים בחלקו השני של בסיס הנתונים, מודל העץ הצליח לחזות נכונה את רמת הבריאות של כ-70% מהם, ומודלים אחרים שניסיתי, כגון random forest ו-support vector machines הובילו לרמת דיוק נמוכה יותר. ניתן כמובן לבצע תהליך מסודר יותר של כיול הפרמטרים של המודלים השונים כדי לשפר את דיוק התחזיות.

הנקודה היא שלמרות שקיבלנו כאן שרגרסיה לוגיסטית קצת טובה יותר מהמודלים האחרים, בנוגע לתחזיות לרגרסיות אין יתרון עקרוני על מודלים אחרים. הכל תלוי במבנה הנתונים. אבל בנוגע לשאלת המחקר הנפוצה במדעי החברה – ההשפעה של X כלשהו על Y כלשהו – לרגרסיות יש יתרון עקרוני. מגניבים ומרשימים ככל שיהיו, האלגוריתמים האחרים פשוט לא נותנים לנו מספר יחיד המתאר את ההשפעה המותנית של המשתנה המסביר על משתנה התוצאה, בהנחה ששאר הגורמים שווים.

כתוצאה מההבדל בשאלות המחקר, התחושה של חוקרים במדעי החברה היא שמדעני נתונים לא ממש מבינים רגרסיות. בספר על למידת מכונה שקניתי רגרסיות מתוארות באופן שטחי למדי, אין עיסוק בכלל בשאלת המובהקות של האומדים, במולטיקוליניאריות, במשפט גאוס-מרקוב ובכל הנושאים האחרים שספרי לימוד באקונומטריקה מקדישים להם זמן רב. נראה שהחוקרים פשוט שופכים את כל המשתנים לרגרסיה בלי לחשוב יותר מדי, לעיתים גם עם כל האינטרקציות האפשריות ביניהם, ולא מסתכלים על המקדמים של המשתנים אלא רק על שיעור הדיוק בתחזית. לעומת זאת, התחושה של מדעני נתונים רבים היא שכלכלנים נעולים יותר מדי על רגרסיות ולא מתעניינים במודלים אחרים. שני הצדדים צודקים במובן מסויים – אלו פשוט שאלות מחקר אחרות.

ההבדל בשאלות המחקר מוביל אותנו לשני הפערים הבאים.

כלכלנים מאוד מוטרדים מסיבתיות, מדעני נתונים לא כל כך

בגלל המיקוד שלהם במדיניות, כלכלנים מעוניינים לאמוד השפעה סיבתית של גורמים שונים. בסמינרים מודרניים בכלכלה אמפירית רוב הדיון נע סביב סיבתיות: האם האפקט שהחוקר מצא מתאר השפעה סיבתית של ממש של המשתנה המסביר על משתנה התוצאה, או שמדובר רק בקורלציה שיכולה לנבוע מסיבתיות הפוכה, או מגורמים אחרים.

כתבתי על סיבתיות בהרחבה בעבר בבלוג (למשל כאן וכאן) ובשנתיים האחרונות לימדתי קורס שלם בנושא באוניברסיטת בראון. במדעים המדוייקים ניתן בדרך כלל למצוא השפעה סיבתית באמצעות ניסויי מעבדה, שבמסגרתם משנים רק פרמטר יחיד ושולטים על כל השאר, אך במדעי החברה ניסויים כאלו בלתי אפשריים. לצערנו, הטכנולוגיות הנוכחיות עדיין לא מאפשרות לנו להכניס מדינות שלמות למעבדה, או לחזור אחורה בזמן. בעשורים האחרונים כלכלנים פיתחו דרכים רבות להתגבר הבעיות האלו (אחת, שתיים, שלוש, ארבע), שרובן מתבססות על "ניסויים טבעיים" אשר מאפשרים לנו לדמות ניסויי מעבדה. כל אחת מהשיטות לאמידת השפעה סיבתית בנויה על הנחות מסויימות, ובדרך כלל עיקר המאמץ של כלכלנים אמפיריים מוקדש להצדקת ההנחות האלו, ולהראות שההשפעה עמידה להנחות שונות ומודלים שונים ואיננה נובעת מגורמים אחרים.

מדעני נתונים, לעומת זאת, מתעניינים פחות בסיבתיות, בגלל שאלת המחקר השונה שלהם.

נחזור לדוגמה שלנו, אודות השפעת ההכנסה על הבריאות. יתכן שרמת ההכנסה משפיעה על הבריאות דרך מנגנונים שונים, אבל יתכן גם שישנה סיבתיות הפוכה, כלומר רמת הבריאות משפיעה על רמת ההכנסה, מכיוון שהיא מגבילה את יכולתו של הפרט לעבוד – עניין רלוונטי בייחוד עבור גילאים מבוגרים יחסית. עבור הכלכלן הרוצה לאמוד את ההשפעה הסיבתית של הכנסה על בריאות זוהי בעיה חמורה; ההשפעה האמיתית של הכנסה על בריאות ככל הנראה נמוכה יותר מתוצאות הרגרסיות שתיארתי קודם לכן בגלל שהסיבתיות ההפוכה, ההשפעה של בריאות על הכנסה, עובדת באותו הכיוון. זו שאלה קריטית עבור מדיניות: אם ההשפעה ההפוכה היא המסלול העיקרי שבו עוברת הסיבתיות, כלומר הבריאות משפיעה על ההכנסה ולא להפך, קצבאות גבוהות יותר לעניים לא ישפרו את רמת הבריאות שלהם.

לעומת זאת, עבור מדען הנתונים, הרוצה לחזות את רמת הבריאות של אדם שאיננו נמצא במסד הנתונים, סיבתיות הפוכה איננה בעיה כלל. גם אם הסיבתיות עוברת מרמת הבריאות להכנסה ולא ההפך, המשתנה של הכנסה הוא עדיין מאוד שימושי על מנת לחזות את רמת הבריאות של אדם חדש כלשהו. כל מה שחשוב, זה האם המודל מאפשר לחזות את משתנה התוצאה באופן מדוייק עבור תצפיות חדשות.

מדעני נתונים מאוד מוטרדים מ-overfitting, חוקרים במדעי החברה לא כל כך

עצים, רגרסיות ומודלים אחרים לניתוח נתונים נבנים על בסיס נתונים מסויים. המשמעות של overfitting היא שהמודל הוא "יותר מדי מתאים" לבסיס הנתונים ששימש לבנייתו, ויהיה פחות נכון להכליל אותו לנתונים חדשים. ראו למשל את שני התרשימים הבאים:

הציר האופקי בתרשימים הוא רמת ההכנסה, ההפכי הוא מדד כלשהו לרמת בריאות, והעיגולים הכחולים הם תצפיות (זו דוגמה, ולא נתוני אמת). הקווים המקווקווים הם המודלים שלנו. בשני התרשימים אנחנו מעוניינים לחזות את רמת הבריאות באמצעות רמת ההכנסה, אך בתרשים הימני אנחנו בונים לשם כך מודל "מסובך" (למשל, פולינום מדרגה גבוהה), הקו המקווקו המתפתל בהתאם לנקודות, בעוד שבתרשים השמאלי אנחנו בונים לשם כך מודל "פשוט", קו ישר. המודל המסובך מתאים יותר לתצפיות שיש לנו, כלומר המרחק הממוצע בין הנקודות הכחולות אל הקו הוא נמוך יותר. אבל יתכן שהמודל המסובך מושפע יותר מדי מכל מני רעשים אקראיים ותצפיות קיצון, לא מבחין בינם ובין המגמה, ולכן יהיה גרוע יותר בחיזוי מיקומה של נקודה חדשה, בהשוואה למודל הפשוט.

בעיה זו נקראת overfitting. זוכרים את התחרות שתיארתי קודם לכן בין מודלים שניסו לחזות את רמת הבריאות, כאשר חילקנו את בסיס הנתונים לשני חלקים? אחד המודלים שהזכרתי היה support vector machine. שיעור החיזוי של מודל זה עבור החלק השני של הנתונים, החלק שלא השתמשנו בו לבניית המודל, היה הנמוך מבין הארבעה שבדקתי. אבל כשבחנתי את יכולת המודלים לחזות את רמת הבריאות בחלק הראשון של הנתונים, אשר שימש לבניית המודל, הוא היה במקום הראשון עם חיזוי של 93%. כלומר, המודל הותאם מאוד – ומסתבר שיותר מדי – למבנה הנתונים בחלק הראשון. הסיבה לכישלון שלו לחזות את החלק "החדש" של בסיס הנתונים הייתה overfitting לחלק "הישן" שלהם.

מכיוון שמדעני נתונים מעוניינים בחיזוי טוב עבור נקודות חדשות, הם מנסים להגביל את המודלים שלהם בדרכים שונות כדי שיהיו פשוטים יחסית (אבל לא יותר מדי), וכן משחקים עם הפרמטרים ובוחנים את עוצמת החיזוי של כל מודל על תצפיות "חדשות", שלא שימשו לבניית המודל, כדי להימנע מבעיית ה-overfitting. חוקרים במדעי החברה, לעומת זאת, מכירים את הנושא באופן כללי, אבל לפחות בתחום הנפוץ ביותר כיום בכלכלה, אמידת מודלים מסוג reduced form, אין יותר מדי עיסוק ב-overfitting, פשוט מכיוון שהוא לא חשוב כל כך לשאלת המחקר. לעיתים ישנו עיסוק בשאלת "התוקף החיצוני" – האם מסקנות המחקר תקפות למדינות אחרות / תקופות אחרות / סיטואציות אחרות – אבל בדרך כלל אין מדידה שיטתית של overfitting באמצעות הנתונים שיש ברשות החוקר, מכיוון שמדידה שכזו לא תלמד אותנו הרבה על שאלת התוקף החיצוני.

מדוע בכל זאת צריך לשבור את החומות שבין הדיסציפלינות?

למרות ההבדלים שציינתי, ישנן סיבות טובות לערבב את הדיסציפלינות השונות, כך ששני הצדדים ילמדו את כל הכלים.

מדעני נתונים יכולים להרוויח מהבנה עמוקה יותר של רגרסיות ושל הכלים שהזכרתי לאמידת קשר סיבתי, מכיוון שבחלק מהמקרים גם החברות שבהן הם עובדים נדרשות לקבל החלטת מדיניות הקשורה להשפעה הסיבתית של איזה שהוא X על איזה שהוא Y, או להתמודד עם מקרה שבו אי אפשר לעשות ניסוי של ממש. למשל, אולי חברת אמאזון הייתה רוצה לאמוד את השפעתם של מאפיינים של מדינות על רווחיה באותן מדינות, במטרה להחליט האם להיכנס למדינה חדשה כלשהי; זוהי שאלה המחייבת חיפוש אחר ניסויים טבעיים והסקה סיבתית. אני יודע על לפחות אדם אחד, עמית לשעבר לעבודה, אשר עובד באחת מחברות ההיי-טק הגדולות בישראל ומייצר דרך קבע "ניסויים חצי-טבעיים" כדי לאמוד השפעות סיבתיות באמצעות הכלים שהזכרתי. אני מניח שיש עוד כמוהו, ואין סיבה שרק כלכלנים יבצעו את המשימה הזו.

כלכלנים יכולים להרוויח גם הם מהכרה רחבה יותר של הכלים שבהם משתמשים מדעני נתונים, כפי שהראיתי בדוגמה של העצים. האקונומטריקאית סוזן את'יי פרסמה סדרה של מאמרים (אחת, שתיים, שלוש, ארבע), חלקם בשיתוף עם גוידו אימבנס, אשר דנים באופן עמוק בקשרים שבין אקונומטריקה ומדע הנתונים, ובאפשרויות להשתמש בכלי לימוד מכונה במצבים שונים, למשל לאמידת השלב הראשון (first stage) בעת שימוש במשתני עזר. כלכלנים רבים אחרים מפרסמים מאמרים דומים בשנים האחרונות, ולמידת מכונה יכולה גם לתרום לניתוח סדרות עיתיות הנפוץ במאקרו כלכלה, ולפעילות המחקרית השוטפת של בנקים מרכזיים המעוניינים למנוע משברים פיננסים. לאחרונה נפתח קורס בפקולטה לכלכלה של האוניברסיטה העברית שמוקדש לשילוב בין למידת מכונה ובין אקונומטריקה, ומכסה חלק מהנושאים האלו.

בעולם טוב יותר, חלק ניכר מהתארים באוניברסיטה היו מתחילים במספר קורסי בסיס של סטטיסטיקה, אקונומטריקה ולמידת מכונה עם שימוש בפיית'ון וב-R, מכיוון שהתחומים האלו רלוונטיים כיום לכל המדעים המדוייקים, להנדסה, למדעי המחשב ולמדעי החברה. יתכן שאני מוטה, אבל ממה שאני רואה סביבי יותר ויותר אנשים מתחומים שונים ומקצועות לימוד שונים מוצאים את עצמם עובדים בבנייה וניתוח של מאגרי נתונים ענקיים. אם פעם ביולוגים, סטטיסטיקאים, מהנדסי אלקטרוניקה, פיזיקאים, גיאוגרפים, מתכנתים וכלכלנים היו מגיעים בבוקר לעבודה, מתיישבים מול המחשב ופותחים כל אחד תוכנה אחרת, היום חלק ניכר מהם פותחים פלטפורמה כלשהי של פיית'ון, בוהים בטבלת נתונים ענקית ואז מתחילים לכתוב קוד. העיסוק בנתונים הפך להיות נפוץ ובסיסי כמו השימוש במחשב. מכיוון שזה כל כך כללי ונפוץ, אולי אף רצוי ללמוד חלק מהנושאים האלו כבר בתיכון. לצערנו, מערכת החינוך היא מאוד שמרנית בכל שלביה, השינוי לוקח זמן רב, וסביר שגם בעתיד יהיו חומות מתודולוגיות בין הדיסציפלינות, אם כי אני מעריך שהן ילכו וישחקו עם הזמן.

בפוסט הבא, שאפרסם בימים הקרובים, אני אתאר דוגמה לשימוש בכלים של מדעני נתונים על מנת לבחון שאלה ספציפית הקשורה להיסטוריה הכלכלית של מדינת ישראל: מתי הפכה ישראל למדינה מערבית?

Read Full Post »

מדעי החברה הופכים ליותר מדעיים

Posted in הרשומות האהובות עלי, כלכלה, tagged כלכלה, מדעי החברה, ניסויים טבעיים, סיבתיות, קורלציה on ינואר 29, 2018| 6 Comments »

מדעי החברה תמיד ניצבו בפני שני אתגרים משמעותיים. הראשון הוא הסיבוכיות הגבוהה של החברה האנושית והפסיכולוגיה האנושית, אשר לא מאפשרת לפתח סימולציות מתמטיות מדויקות של תהליכים חשובים, כפי שנעשה למשל בפיזיקה ובכימיה. אולי רק הביולוגים והרופאים מתמודדים עם מערכות ברמת סיבוכיות כזו, אך להם יש יתרון על מרבית מדעני החברה: הם מסוגלים לבצע ניסויי מעבדה. על כן, האתגר השני העומד בפני מדעי החברה הוא חוסר היכולת לבצע ניסויי מעבדה תקפים עבור שאלות מחקריות רבות בפסיכולוגיה, כלכלה, סוציולוגיה ומדעי המדינה. שני אתגרים אלו הם הסיבה המרכזית להתפתחותם המאוחרת של מדעי החברה ביחס לתחומים אחרים ולכך שהם נתפסים בתור "פחות מדעיים" (נושא שכתבתי עליו בהרחבה בעבר). אך התפיסה הזו הולכת ומתרחקת מהמציאות בשטח.

בעשורים האחרונים חל זינוק מרשים ביכולתנו להתמודד עם האתגרים האלו, זינוק שכבר סחף אחריו חלק ניכר מהחוקרים בכלכלה, וכיום מתחיל לסחוף גם חוקרים בתחומים נוספים. עיקר החידוש הוא היכולת לדמות ניסוי מעבדה מבלי לקיים ניסוי של ממש. נראה שלוש דוגמאות לכך (מניסיוני למגיבים לבלוג יש השגות רבות על המאמרים שאני מתאר, רובן מקבלות מענה במאמר עצמו, ועל כן אני ממליץ למתעניינים ולמבקרים לקרוא את המאמר השלם ולא רק את התיאור השטחי והמקוצר שלי).

דוגמה ראשונה: מהי השפעת מספר השוטרים על פשיעה?

באופן עקרוני היינו מצפים שבין שני המשתנים שלנו, מספר השוטרים ומספר מקרי הפשע, תהיה קורלציה שלילית: ככל שיהיו יותר שוטרים באזור מסוים, כך יתרחשו פחות מקרי פשיעה. זהו הקשר הסיבתי העולה מהתיאוריה שיש לנו בראש אודות האינטראקציה בין שוטרים לגנבים. אך האם התיאוריה הזו נכונה? אולי שוטרים הם לא יעילים מטבעם, והשפעתם על הפשיעה היא נמוכה או אפסית? ואולי הם יעילים במידה מפתיעה? בחינה של הנתונים מעלה תוצאות מבלבלות. במקרים רבים מסתבר שיש דווקא קורלציה חיובית בין שני המשתנים האלו: ככל שיש יותר שוטרים, כך ישנם יותר מעשי פשע. במחשבה שנייה, זה הגיוני לגמרי – בערים שבהן מתרחשים מעשי פשיעה רבים, סביר שראש העיר ישקיע בהגדלת מצבת השוטרים. יש לנו כאן בעיה של סיבתיות הפוכה. מספר מעשי הפשע מגדיל את מספר השוטרים, ועל כן איננו יכולים לראות את השפעת מספר השוטרים על פשיעה באופן נפרד.

וכאן אנחנו מגיעים לתובנה החשובה הראשונה של מהפכת הסיבתיות: סיבתיות היא מה שחשוב, ולא הקורלציה הפשוטה בין המשתנים. השוואה "נאיבית" של מספר השוטרים ומספר מעשי הפשע בארצות שונות, בערים שונות או בתקופות שונות לא יכולה לעזור לנו לענות על השאלה, אפילו אם אנחנו לוקחים בחשבון מאפיינים שונים של אותן הארצות או הערים (למשל באמצעות רגרסיה ליניארית). למעשה, השוואה כזו תהיה חסרת משמעות לגמרי. וכך גם לגבי שאלות מחקר רבות אחרות.

כיצד בכל זאת ניתן למצוא את הקשר הסיבתי בין המשתנים? המפתח להסקה סיבתית הוא אקראיות. אם היינו יכולים להכניס ערים שלמות למעבדה ולהקצות להן באקראי מספר שונה של שוטרים, בלי תלות במאפייני הפשיעה המקומיים, היינו יכולים לבחון את השפעתם הסיבתית של שוטרים על פשיעה. במקרה זה מספר השוטרים היה משתנה חיצוני (אקסוגני), שאינו תלוי בפשיעה או במאפיינים אחרים הנקבעים בתוך המערכת. זהו הקונספט של ניסויי מעבדה – להפעיל ולכבות מתג יחיד בזמן שכל שאר הדברים נשארים קבועים.

כאן אנחנו מגיעים לתובנה השנייה של מהפכת הסיבתיות: לעיתים ניתן להסיק על סיבתיות בדרכים עקיפות, באמצעות ניסויים טבעיים המדמים הקצאה אקראית שכזו. כל מה שאנחנו זקוקים לו זה מקרה היסטורי שבו מספר השוטרים עלה או ירד באזורים מסויימים כתוצאה מגורם חיצוני, אקראי, שלא מושפע ולא משפיע באופן ישיר על מאפייני הפשיעה, אלא רק באופן עקיף דרך הגדלת מספר השוטרים.

במאמר מ-2004 מתואר ניסוי שכזה. החוקרים השתמשו בניסוי טבעי המבוסס על אחת מפעולות הטרור הקטלניות ביותר בהיסטוריה של העם היהודי – הפיגוע בבניין הקהילה היהודית בארגנטינה בשנת 1994, שבו נהרגו 85 בני אדם. לאחר הפיגוע נקטו הרשויות בבואנוס איירס בתגובה חריפה ומיידית: הצבת שוטרים חמושים לצד כל מבנה של הקהילה היהודית בעיר. השוטרים הוצבו שם במטרה למנוע אירועי טרור נוספים, אך מן הסתם הרתיעו גם גנבי מכוניות פשוטים. כך אנחנו מקבלים את הניסוי שלנו: מספר השוטרים זינק בבלוקים שבהם נמצאים מוסדות יהודיים, אך לא בבלוקים סמוכים. הזינוק לא היה קשור לפשיעה מוגברת, לשוני בהרכב האוכלוסייה המקומית, או לכל גורם אחר שעלול להשפיע איכשהו על שיעורי הפשיעה. החוקרים יכלו לשלוט גם ברמה ההתחלתית של הפשיעה בכל אזור, לפני שהוצבו השוטרים. התוצאה? נוכחותם של שוטרים הפחיתה את גניבות הרכב בכ-75%.

דוגמה שנייה: מהו הקשר בין מספר הילדים במשפחה לבין השקעת ההורים בהשכלה?

זוהי שאלה חשובה, מכיוון שאחת ממלכודות העוני המעניינת קובעי מדיניות בישראל ובמדינות אחרות נובעת מתת-השקעה של הורים למשפחות מרובות ילדים בהשכלתם של הילדים. בחינה נאיבית של שני המשתנים, מספר הילדים במשפחה ומידת ההשכלה של הילדים בבגרותם, מעלה קורלציה שלילית בין השניים. אך האם מדובר בקשר סיבתי? יתכן שגם מספר הילדים וגם ההשקעה בהשכלה נובעים שניהם ממשתנה אחר כלשהו, כגון ערכים תרבותיים או העדפות של ההורים. אם זה נכון, הקורלציה בין מספר הילדים להשקעה בהשכלה לא מעידה על קשר סיבתי ביניהם.

יש לנו כאן בעיה של משתנה מושמט שאי אפשר למדוד אותו. עבור ניסוי מעבדה אידיאלי היינו צריכים לבחור מדגם של זוגות צעירים, להקצות להם באופן אקראי מספר שונה של תינוקות ולעקוב אחרי התפתחותם במשך עשרות שנים. כמובן, הסבירות שוועדה אתית כלשהי תאשר ניסוי שכזה היא נמוכה… אך מסתבר שניתן למצוא ניסויים טבעיים, שבמסגרתם משפחות מביאות יותר או פחות ילדים באקראי, ולא כתוצאה מגורמים תרבותיים או אחרים.

אפשרות אחת היא להשוות משפחות עם תאומים ומשפחות ללא תאומים. משפחות עם תאומים הן גדולות יותר בממוצע ממשפחות ללא תאומים תודות להולדת התאומים, ולא בגלל שלהורים הייתה תרבות אחרת או העדפות אחרות. על כן ניתן להשוות את ההשקעה בהשכלה בקרב משפחות עם תאומים ומשפחות ללא תאומים, ולגלות את ההשפעה הסיבתית של גודל המשפחה. מאמר שפורסם בשנת 2005 בוחן את השאלה באמצעות שיטה זו על נתונים נורבגיים.

אפשרות אחרת היא להתחשב בהרכב המגדרי של ילדים: הורים רבים מעוניינים גם בבנים וגם בבנות, ועל כן לא מפתיע לגלות שכאשר נולדים שני ילדים מאותו המגדר הסיכוי שהורים יבחרו להביא ילד נוסף הוא גדול יותר. ניתן להשוות משפחות שבהן הילדים הראשונים היו מאותו המגדר, מה שהוביל את ההורים להביא ילד נוסף, למשפחות שבהן הילדים הראשונים הם ממגדרים שונים, ולכן ההורים לא הביאו ילדים נוספים.

בשיטה זו השתמשו החוקרים הישראלים ג'ושוע אנגריסט, אנליה שלוסר, ווויקטור לביא במאמרם משנת 2010 המבוסס על נתונים ישראליים. התוצאה? ככל הנראה במדינות מערביות מפותחות אין השפעה משמעותית של מספר הילדים על השקעת ההורים בהשכלה. מאמרים שהשתמשו בשיטות אחרות לחשוף סיבתיות העלו כי לפחות בעבר כן הייתה השפעה כזו, וישנם גם מחקרים רבים המנסים לבחון את קיומה במדינות מתפתחות.

דוגמה שלישית: מחקרי מדיניות על בסיס ניסויי שדה

בשנים האחרונות מהפכת הסיבתיות במדעי החברה מתחילה להשפיע על מדיניות. מדינות רבות מתכננות מראש רפורמות בתור "ניסוי אקראי מבוקר", עם "קבוצת טיפול" (הקבוצה העוברת את הרפורמה) הנבחרת באקראי ו"קבוצת ביקורת", על מנת שכלכלנים יוכלו לנתח את התוצאות ולבחון את ההשפעה הסיבתית של הרפורמות. דוגמה אחת לכך היא המחקרים של הכלכלנית אסתר דופלו וחבריה לתחום כלכלת הפיתוח, הפועלים במדינות מתפתחות ובוחנים את השפעתן של רפורמות כגון חלוקת כילות נגד יתושים או הגדלת ההשקעה בחינוך. על מנת למצוא את האפקט הסיבתי, בדרך כלל המחקרים כוללים מדגם גדול של כפרים המחולקים באקראי לקבוצת טיפול (כפרים שבהם מבוצעת הרפורמה), וקבוצת ביקורת (כפרים שבהם לא נעשה שום שינוי).

דוגמה אחרת מארצנו הקטנטונת היא מחקר של הכלכלנים אנליה שלוסר וינאי שנן, העוסק בהשפעת תכניות "מעגלי תעסוקה" של שירות התעסוקה, שנועדו לעזור למובטלים למצוא עבודה. גם כאן נעשתה הקצאה אקראית של מועמדים לתכניות שונות של שירות התעסוקה או לקבוצת ביקורת. בין השאר מצאו החוקרים כי תכניות ההתערבות הפחיתו את התלות בקצבאות ב-25%, כי ההשפעה על השכר נטו של המשתתפים איננה מובהקת (שכרם עלה אך הם איבדו קצבאות בסכום דומה), וכי התכניות אפקטיביות יותר עבור אוכלוסיות חלשות מבחינת השכלה ומצב סוציואקונומי.

מלחמת המתודולוגיות

מבחינה מתודולוגית, המחקרים שתיארתי כאן מכונים "reduced form", הצורה המצומצמת, ונהוג להפריד אותם מ-"אמידה מבנית", המבוססת על מודלים תיאורטיים מורכבים וסימולציות, נושא שעליו כתב הכלכלן אסף צימרינג בהרחבה. משמעות השם "צורה מצומצמת" הוא לקחת מודל תיאורטי מורכב, ולצמצם אותו למשוואות פשוטות יחסית המייצגות קשרים סיבתיים, שאותן ניתן לאמוד אם רק נמצא ניסוי מתאים. ישנן שיטות שונות להשתמש בניסויים טבעיים על מנת לאמוד את הקשרים האלו, כגון משתני עזר, diff-in-diff, regression discontinuity, fixed effects ועוד, וישנם חוקרים אשר מייצרים בעצמם "ניסויי שדה" אקראיים, כגון התכניות של אסתר דופלו שתיארתי.

למרות שהם עוסקים בתחומי מחקר שונים, קיימת סוג של יריבות בין "מחנה הצורה המצומצמת" לבין מחנות מתודולוגיים אחרים, כגון מחנה האמידה המבנית או כלכלנים תיאורטיקנים. באופן אישי אני שייך למחנה הצורה המצומצמת, מכיוון שהמחקרים בתחום הזה הם יותר מדעיים לדעתי. אמנם הניסויים רחוקים מאידיאל המעבדה בביולוגיה, אבל ההנחות העומדות מאחורי התוצאות הן פשוטות, וכאשר מחקרים רבים בנוגע לשאלה מסויימת שנעשו בשיטות שונות על מסדי נתונים שונים מגיעים לקונצנזוס, הם מקדמים את הידע האנושי.

בניגוד לכך, מאמרים המבוססים על אמידה מבנית וסימולציות מורכבות יוצאים מנקודת הנחה שהמודל שבו הם משתמשים הוא המודל הנכון (ראו את הרשומה של אסף בקישור קודם), ועל כן לא ברור באיזו מידה המחקרים האלו מוסיפים ידע חדש. יחד עם זאת, חשוב לזכור שיש נושאים רבים שלא ניתן לענות עליהם באמצעות ניסויים טבעיים ומחקרי צורה מצומצמת, בעיקר בתחום המאקרו-כלכלה. בנושאים אלו, מחקרים המבוססים על אמידה מבנית הם בהחלט עדיפים במידה ניכרת על פני ניחוש אקראי, כל עוד לוקחים את התוצאות "עם גרגר של מלח".

מי שיקרא את הביקורות על כלכלנים הנכתבות על ידי לא-כלכלנים עלול להגיע למסקנה שרוב מכריע של הכלכלנים עוסקים בחיזוי מאקרו-כלכלי של משברים כלכליים למחייתם או במציאת הצדקות לקפיטליזם, ועל כן כשלונם בניבוי המשבר של שנת 2008 מעיד על הצורך לסגור את הפקולטות לכלכלה. אבל האמת היא שהמחקרים שתיארתי כאן מייצגים חלק גדול הרבה יותר מהמחקר שמבוצע כיום על ידי כלכלנים. גם המחקר שלי הוא חלק ממגמה זו, ומשתמש בניסוי טבעי על מנת להסיק על השפעת פיתוח כלכלי על ילודה והשקעה בהון אנושי בארצות הברית של המאה ה-19 (כתבתי עליו כאן בהרחבה, אם כי מאז הוא השתנה מעט). למעשה, התחום שאליו אני משתייך, צמיחה כלכלית, עבר מהפכה של ממש, והשתנה מתחום תיאורטי בעיקרו בשנות ה-90 לתחום אמפירי כמעט לגמרי כיום, שבו מרבית המחקרים נראים כך. כך גם בתחומים רבים נוספים, כגון כלכלת חינוך, היסטוריה כלכלית, מחקרים על פשיעה, אפלייה בשוק העבודה, עוני, יזמות, תעסוקה ועוד.

בחינה של המגמות במחקר הכלכלי בז'ורנלים מובילים בין 1963 ל-2011 מעלה כי החלק היחסי של מחקרים המציגים תיאוריה ללא ניתוח אמפירי – סוג המחקרים שמבקרי הכלכלנים אוהבים לבקר – ירד מכ-51% לכ-19%. חלקם של מחקרים המבוססים על סימולציות ואמידה מבנית עלו מאחוזים בודדים לכ-9% מהפרסומים ב-2011. השאר, כ-72% מהמחקרים, הם מחקרים אמפיריים שרבים מהם שייכים לקבוצת המתודולוגיות של צורה מצומצמת. שיעור זה עמד על כ-50% בלבד ב-1963.

לאט לאט מחלחלת מהפכת הסיבתיות גם לפקולטות אחרות למדעי החברה ולשיח הציבורי, אם כי עדיין ניתן למצוא שרידים להשקפה הישנה שלפיה קורלציות מסוגלות להעיד על סיבתיות. למשל, לא מזמן פורסם בעמוד הפייסבוק של קרן ברל כצנלסון התרשים הבא, המתאר מגמות בשכר המינימום ובשיעור האבטלה בישראל.

לטענת המפרסמים, מכיוון שהאבטלה נמצאת בירידה בזמן ששכר המינימום נמצא בעלייה, יש כאן הוכחה לכך ששכר המינימום לא מגדיל את האבטלה. אך טענה זו שגויה לגמרי. כפי שהדגים אריאל קרלינסקי בבלוג שלו, היעדר קורלציה לא מעיד בהכרח על היעדר קשר סיבתי, מכיוון שישנם גם משתנים חשובים אחרים המעורבים. מכיוון שבאופן תיאורטי שכר מינימום עשוי לפגוע בתעסוקה, מדינות לרוב מעלות את שכר המינימום רק אם שוק התעסוקה נמצא במצב טוב. כלומר, אם יש צמיחה גבוהה והאבטלה נמוכה או נמצאת במגמת ירידה. לכן, בניתוח נאיבי נראה קשר שלילי בין שכר המינימום לשיעור האבטלה במדינות רבות, למרות שיתכן שהקשר הסיבתי הוא הפוך. מחקרים רציניים יותר, שניסו למצוא סיבתיות של ממש באמצעות ניסויים טבעיים שונים, עדיין לא הגיעו לקונצנזוס בנוגע להשפעות שכר המינימום, ורבים מהם בהחלט מעלים השפעה חיובית של גובה שכר המינימום על שיעור האבטלה.

מהפכת הסיבתיות

לא פעם המחקרים החדשים בכלכלה סותרים תפיסות הנפוצות בציבור. אולי הדוגמה הטובה ביותר לכך היא הספרות המחקרית בכלכלת החינוך: מחקרים אשר השתמשו בשיטות שונות על מנת לפענח את הקשר הסיבתי מעלים כי ההשפעה של גודל הכיתה על ציוני התלמידים היא קטנה מאוד ביחס לעלות של מהלך כזה, ונושאים אחרים כגון התמריצים של המורים וביחוד היכולת לפטר מורים גרועים יכולים לתרום הרבה יותר.

כיום הציבור עדיין אינו מודע למהפכת הסיבתיות, לזינוק ביכולת של חוקרים להפיק תובנות משמעותיות על העולם, ועל כן קל לפוליטיקאים להתעלם ממסקנות המחקרים כשהן אינן נוחות פוליטית. כך למשל הרפורמות במערכת החינוך הישראלית "עוז לתמורה" ו"אופק חדש" עברו בהצלחה ונמכרו לציבור הרחב בליווי שלל סופרלטיבים, למרות שהן סותרות לגמרי את הניסיון העולה מהמחקר בתחום החינוך, לפיו העלאת השכר של המורים ללא שינוי התמריצים לא תוביל לשיפור חיובי. על כן, לא מפליא לגלות שהזינוק הדרמטי בהוצאה על חינוך בישראל בעשור האחרון לא הוביל לשום שינוי נראה לעין בתוצאות התלמידים או ברמת שביעות הרצון של ההורים.

נותר לנו רק לקוות שהמצב הזה ישתנה במהרה, ושגם הציבור יפנים שמדעי החברה של היום הם לא מה שהיו פעם. כפי שאנו משתמשים בידע הנדסי ומדעי על מנת לבנות בניינים או לתכנן מטוסים, כך אפשר להשתמש בשיטות המאפשרות הסקה סיבתית על מנת לפענח את המנגנונים המורכבים העומדים מאחורי החברה האנושית, לבנות מוסדות כלכליים וחברתיים טובים יותר, וכך לקדם את איכות החיים.

Read Full Post »

החיפוש אחר סיבתיות

Posted in כלכלה, כלכלת חינוך, tagged אקונומטריקה, הטיית הסלקציה, כלכלה אמפירית, סטטיסטיקה, סיבתיות, סלקציה on אפריל 29, 2012| 22 Comments »

חייזר מגיע לכדור הארץ, ונוחת באמצע מסעדת שירות עצמי. הוא מסתכל מסביב לו, ורואה יצורי אנוש אוספים אוכל לצלחותיהם. ישנם שני דוכנים עיקריים: בדוכן של הסלטים עומדים בתור בעיקר אנשים שמנים, והאחרים עומדים בתור לדוכן הרגיל (כלומר, בשפה סטטיסטית, ישנה קורלציה בין הנטייה להיות שמן לנטייה לאכול סלטים). החייזר מסיק, כמובן, כי סלטים גורמים להשמנה, כלומר ישנו קשר סיבתי בין השניים. נשמע הגיוני מנקודת מבטו של החייזר, לא?

דוגמה נוספת: הביטו בגרף הבא, בו על ציר ה Y מופיעים ציוני תלמידים במבחני פיזה במדעים, ועל ציר ה X מופיעות שעות הלימוד של מדעים בשבוע (הגרף לקוח מדוח של ה OECD).

נראה שיש כאן קשר שלילי, בניגוד למה שהיינו מצפים לו – ככל שהשעות רבות יותר, הציון הממוצע יורד. תוצאות דומות קיימות גם לגבי שאר התחומים שנבחנים במסגרת מבחני פיזה. המסקנה ברורה לכאורה: בואו נפסיק לשגע את הילדים שלנו ונפחית את שעות הלימוד שלהם, מכיוון שהן אינן תורמות להצלחה במבחנים. החייזר שהתחלנו איתו הוא אולי היפותטי ודבילי מעט, אבל הגרף הזה אמיתי, ושרי חינוך מביטים בו ושוקלים כיצד לבזבז תקציבים של מיליארדי דולרים. האם הקשר הזה מעיד על סיבתיות?

מושג הסיבתיות הוא הלב של מחקרים אמפיריים במדעי החברה. במדעים מדויקים הסיבתיות מהווה בעיה פחות משמעותית: אתה מסתכל על המערכת במצבה הנוכחי, משנה פרמטר יחיד, דואג ששאר הפרמטרים לא ישתנו במקביל, ובודק איך המערכת כולה השתנתה. במדעי החברה, לעומת זאת, כל הפרמטרים משתנים ביחד כל הזמן ומשפיעים אחד על השני בשלל דרכים. לרוב לא ניתן לעשות ניסויי מעבדה; לא ניתן לקחת את אותו בן אדם, להכניס אותו לאוניברסיטה, ואז לשוק העבודה, להחזיר אותו בזמן לאחור, להכניס אותו למכללה ולשוק העבודה, וכך לבדוק את ההבדלים בשכר בין בוגרי מכללות לבוגרי אוניברסיטאות שאינם נובעים מהבדלים בכישורים האישיים אלא רק מהלימוד במוסדות שונים (אולי אפשר לנסות משהו דומה עם תאומים זהים, אבל לצערי היום יש זכויות פרט וכל מני חוקים מעצבנים וצריך להתחשב ברצונותיהם וכו'. תארו לעצמכם איך היה נראה המחקר בביולוגיה לו החוקרים היו צריכים לקבל הסכמה מהעכברים לכל דבר, שלא לדבר על המקרה שבו העכברים מצביעים בבחירות לפוליטיקאים שמסבסדים את החוקרים…).

בעיית הסלקציה וחשיבותה של אקראיות

סלקציה היא הנטייה המעצבנת של אנשים לבחור את פעולותיהם על פי מה שמשתלם להם לעשות, והיא מה שמפריע לנו בדרך כלל להסיק מקיומה של קורלציה על קיומה של סיבתיות. קל להראות אותה על ידי דוגמה פשוטה.

אזהרה: אני הולך להיכנס כאן, לראשונה בתולדות הבלוג, למשוואות. אני מבטיח לכם, זה מאוד מאוד פשוט, אם כי אנשים שאינם רגילים "לדבר" במשוואות עלולים להתבלבל מעט. אני ממליץ לכם להישאר איתי עד הסוף, פשוט מכיוון שהמשוואות מסוגלות לספר סיפורים באופן מדויק הרבה יותר ממילים, וכי אני חושב שמה שאני מתכוון להראות כאן הוא די נחמד בסך הכל. בכל אופן, מי שממש סובל יכול לקפוץ על המשוואות ולנסות להבין את הפואנטה מהפסקאות שבינן.

נניח שאנחנו מעוניינים לחקור את השפעתו של טיפול בבית חולים על הבריאות. יש לנו סקר שבו שואלים אנשים עד כמה הם בריאים, והאם הם הלכו לבית חולים בשנה האחרונה. בדיקה נאיבית של הנתונים תגלה מן הסתם שבריאותם של אנשים שעברו טיפול בבית חולים גרועה יותר מבריאותם של אנשים שלא עברו טיפול בבית חולים, אך זה אינו אומר שהטיפול פוגע בבריאותם של אנשים – אלו פשוט לא אותם האנשים. מן הסתם אנשים שהלכו לבתי חולים היו יותר חולים מלכתחילה.

i הוא האינדקס של האנשים במדגם שלנו. נניח שהמשתנה Yi מתאר את בריאותו של פרט i, למשל התשובה שלו בסקר, והמשתנה Di מתאר האם פרט i הלך לבית חולים (ואז Di=1) או לא (ואז Di=0) בשנה שלפני ביצוע הסקר. לכל פרט i יש שתי תוצאות אפשריות:

אם הוא לא הלך לבית חולים, התשובה שלו בסקר תהיה Y0i, ואם הוא כן הלך התשובה שלו תהיה Y1i. את התוצאות שנקבל בסקר אפשר לתאר במשוואה אחת, כך:

שימו לב שכאשר Di=0 אנחנו מקבלים מהמשוואה Y0i, וכאשר Di=1 אנחנו מקבלים Y1i.

מה שאנחנו רוצים למדוד זה את הממוצע של Y1i-Y0i עבור כל ה "i"ים, עד כמה הטיפול עזר לאנשים בממוצע. אבל עבור כל פרט אנחנו מקבלים או את Y0i או את Y1i, לא את שניהם! או שהוא הלך לבית חולים, או שהוא לא הלך. אנחנו לא יכולים לחזור אחורה בזמן ולהגיד לאותו אדם לא ללכת לבית חולים. אנחנו יודעים שני מספרים: ממוצע התשובות שענו אלו שהלכו לבית חולים, וממוצע התשובות שענו אלו שלא הלכו. אלו הסימונים המקובלים לשני המספרים האלו:

האות E מייצגת תוחלת, שהיא מושג קצת יותר כללי אבל במקרה שלנו זהה לממוצע. אחריה מופיע המשתנה שעליו עושים ממוצע, ואז קו שמסמן "בהינתן". הסימון הראשון הוא הממוצע של Y1i בהינתן ש Di=1 (כלומר הממוצע של Y1i עבור כל אלו שהלכו לבית החולים, ממוצע התשובות שלהם לסקר הבריאות), והשני הוא הממוצע של Y0i בהינתן ש Di=0 (כלומר הממוצע של Y0i עבור כל אלו שלא הלכו לבית החולים). מראש אנחנו מניחים כי:

בצד ימין של המשוואה מופיע הממוצע של Y1i עבור כולם, נתון שאין לנו. אי השוויון אומר שאנחנו מניחים כי התוצאות של אנשים תלויות בשאלה האם הם הלכו לבית חולים או לא. אנחנו יודעים שאנשים שהלכו לבתי חולים שונים מהותית מאנשים שלא הלכו.

אנחנו רוצים לדעת איך השפיע הטיפול על אלו שהלכו לבית החולים. כלומר, אנחנו רוצים לדעת את זה:

כאשר את האיבר הראשון יש לנו, והאיבר השני אומר מה היו התשובות הממוצעות של אלו שהלכו לטיפול, Di=1, אם הם לא היו הולכים לטיפול, אם היינו יכולים לחזור בזמן ולומר להם לא ללכת – אותו אין לנו. למעשה, זה מה שיש לנו:

ניתן לפתח את המשוואה הזו, להוסיף ולהחסיר איבר נוסף באמצע (מוקף בריבוע):

קיבלנו למעשה את מה שרצינו בחלק הראשון של המשוואה, ובחלק השני קיבלנו את "הטיית הסלקציה".

לא משנה כמה ננסה, לעולם לא נוכל להשתמש בנתונים שלנו על מנת לבחון מה באמת הייתה השפעתו של בית החולים, בגלל הטיית הסלקציה.

נניח עכשיו שבמקום לבדוק אנשים שהלכו לטיפול או לא הלכו לטיפול, נעשה ניסוי: נבחר באקראי קבוצת אנשים מהרחוב, ונשלח חצי מהם לטיפול בבית חולים. או, לחילופין נבחר באקראי קבוצת אנשים ששוקלים ללכת לבית חולים, ונגיד למחצית מהם להישאר בבית ולא ללכת.

במקרה הזה, לא ניתן לומר שהתשובות שלהם לסקר הבריאות Y1i או Y0i תלויות ב Di. בחרנו אותם באקראי, לא יכולנו לדעת מראש אם הם ילכו או לא ילכו לבית חולים. לכן, אפשר לומר כי:

ואז הטיית הסלקציה מהמשוואה הקודמת מתאפסת, ואנחנו מקבלים את מה שאנחנו רוצים באמת למדוד. זוהי חשיבותה של אקראיות – נקודה שהיא טריוויאלית יחסית במדעים מדויקים, אבל במדעי החברה לא. ברגע שבוחרים קבוצה אקראית באמת של פרטים לניסוי, ניתן להסיק על סיבתיות.

ומה עושים כשאין ניסוי?

במציאות, כמו שכתבתי, לא ניתן בדרך כלל לעשות ניסויים אקראיים כאלו. במהלך מאה השנים האחרונות פיתחו האקונומטריקאים (אקונומטריקה היא הסטטיסטיקה של כלכלנים) שלל כלים שנועדו להתמודד עם בעיית הסלקציה במקרה שבו לא ניתן לערוך ניסויים מבוקרים, החל מרגרסיה ליניארית מרובת משתנים על עשרות הווריאציות, ה"מחלות" וה"תרופות למחלות" שלה, ועד כלים מתוחכמים יותר שהפכו לפופולאריים רק בשני העשורים האחרונים. הבעיה כמובן לא נעלמה, וכל מאמר אמפירי בכלכלה הוא למעשה מאבק של החוקרים בהתמודדות עם בעיית הסלקציה ועם בעיות רבות נוספות במציאת קשר סיבתי שלא תיארתי כאן.

איך רגרסיה מרובת משתנים עוזרת לנו עם בעיית הסלקציה?

טוב, אני לא אלאה אתכם בעוד משוואות.

נניח, לגבי דוגמת בית החולים שלנו, שבריאותם של אנשים נקבעת על ידי שני משתנים בלבד: הגיל שלהם, והמשתנה Di שלנו, שקובע האם הם הלכו לבית חולים או לא. מן הסתם אנשים מבוגרים יותר הולכים יותר לבית חולים, כי הם חולים יותר.

מה שרגרסיה מסוגלת לעשות, זה "לשלוט" בגיל של האנשים, לסלק את השפעת הגיל מהתוצאה שלנו, Y. אפשר לומר שזה כמו להשוות רק בין מה שעושים זוגות של אנשים שהם באותו הגיל, להשוות בין בני 25 לבני 25, בין בני 30 לבני 30 וכך הלאה. אם בריאותם של אנשים באמת נקבעת רק על ידי שני המשתנים האלו, הגיל ו – Di, אז ברגע שנסלק את השפעת הגיל נקבל למעשה ניסוי אקראי והתוצאות יספרו לנו על אפקט סיבתי. כמובן, אם יש לנו כאן "משתנה מושמט" כלשהו שמשפיע גם הוא על בריאות בנוסף לגיל ול – Di (למשל, אולי גברים פחות בריאים מנשים?), אז התוצאות של הרגרסיה לא יספרו לנו על אפקט סיבתי.

רגרסיות הן רק ההתחלה של קורסי המבוא לאקונומטריקה לתואר ראשון. בהמשך העסק הזה הולך ומסתבך עם סוגים שונים של מחקרים על נתונים שונים, ואסטרטגיות רבות למקרים שבהן השימוש ברגרסיות פשוטות אינו נכון או בלתי אפשרי. המטרה היא תמיד אותה המטרה: למצוא סיבתיות.

אז מה עם הדוגמאות שהראיתי בהתחלה?

טוב, אצל החייזר זה די פשוט. הוא לא צריך לעשות רגרסיה, אלא פשוט להסתכל מה קרה קודם. אם הוא היה יכול לראות את האירועים לאורך זמן, הוא היה מבחין בכך שאנשים קודם כל אוכלים אוכל רגיל, אח"כ משמינים, ורק אח"כ אוכלים אוכל מרזה. כלכלנים אינם חובבי מד"ב גדולים ועל כן נוהגים להניח שהזמן ביקום זורם קדימה, מה שמאפשר לנו במקרים רבים להסיק על סיבתיות פשוט לפי רצף האירועים.

ומה עם הגרף של שעות הלימוד?

כאן ישנה בעיית סלקציה. התלמידים של פינלנד אינם אותם התלמידים של יוון, המורים אינם אותם המורים, בתי הספר אינם נראים אותו דבר, וגם לא שיעורי הבית ושלל דברים אחרים. לכן, השוואה ביניהם איננה מלמדת בהכרח על קשר סיבתי. בכלל, נושא השפעת המשאבים (שעות לימוד, גודל כיתה) על ציוני התלמידים מצוי במחלוקת עזה בין כלכלני חינוך, כשחלקם מוצאים השפעה קטנה ואחרים לא מוצאים שום השפעה. גם אלו שכן מוצאים השפעות, מוצאים השפעות גדולות הרבה יותר לתמריצים שונים עבור המורים והתלמידים שניתנים מבלי לשנות את המשאבים של המערכת (למשל, להבטיח לתיכוניסטים בונוס כספי עבור ציונים מעל רף מסוים). עבור הציבור הרחב זו אולי שאלה טריוויאלית – ברור לנו שתלמידים שלומדים שעות רבות יותר יוציאו ציונים גבוהים יותר – אבל הסטטיסטיקות על מדינות שהצגתי בתחילה וניסיונם של כלכלנים מדוגמאות אחרות מצביעים על כך שהאינטואיציה הטבעית בנושאים כאלו, במקרים רבים, פשוט איננה נכונה.

וויקטור לביא מהאוניברסיטה העברית התמודד עם שאלת השפעת שעות הלימוד על הציונים על ידי שימוש ב"ניסוי טבעי". ניסוי טבעי הוא ניסוי לא מבוקר ולא מתוכנן שמתרחש במציאות, כאשר ניתן לומר שהוא מבוצע על הפרטים באופן אקראי כמו שהיינו רוצים לעשות במעבדה. לרוב מדובר בשינוי מדיניות כלשהו של הממשלה שאינו נובע מהחלטות של הפרטים בשטח.

במקרה שלנו, חקר לביא את תוצאותיה של רפורמה שהתרחשה בישראל בשנת 2003, במסגרתה שונה מודל התקצוב של בתי הספר על ידי משרד החינוך – בתי ספר מסוימים קיבלו תקציב ליותר שעות לימוד, ובתי ספר אחרים איבדו חלק מהתקציב ונאלצו לחתוך בשעות הלימוד. כמובן, בתי הספר שקיבלו תוספות או איבדו תקציבים לא נבחרו באקראי, ולביא נדרש לשלוט בכל מני מאפיינים דמוגרפיים של בתי הספר והתלמידים אשר לומדים בהם, אבל לפחות מדובר כאן בבתי ספר מאותה מערכת חינוך, באותה המדינה, באותו הזמן, עם אותם המורים פחות או יותר. המחקר שלו מגלה כי לאחר ששולטים בהרבה גורמים אחרים, ציוני התלמידים בבתי הספר שקיבלו שעות לימוד נוספות עלו, וציוני התלמידים בבתי הספר שאיבדו שעות לימוד ירדו, כאשר עיקר ההשפעה הוא על התלמידים החלשים (זה ממצא ידוע בספרות, התלמידים החזקים לרוב פחות רגישים מהחלשים לכל מני שינויים בתקצוב).

תמיד ניתן להתווכח על מחקרים בתחומים האלו וכמעט שאין ניסויים טבעיים שהם באמת מושלמים, אבל המחקר של לביא משכנע הרבה יותר מאשר הגרף שהראיתי בהתחלה מבחינת היכולת שלו להעיד על קשר סיבתי אמיתי.

דוגמאות נוספות

וויכוח דומה קיים לגבי השפעתן של גודל כיתות על ציוני תלמידים. נעשו שלל מחקרים בנושא שניסו להשתמש בניסויים טבעיים יצירתיים יותר או פחות, וכן בפרויקט STAR – הניסוי האקראי האמיתי היחיד שנעשה בטנסי שבארצות הברית בשנות השמונים, במסגרתו שובצו תלמידים לחלוטין באקראי לכיתות עם מאפיינים שונים. במקרים המעטים שבהם נראה סביר שהאפקט שנאמד באופן סטטיסטי הוא באמת סיבתי, עולה כי גודל הכיתות אכן משפיע על ציוני התלמידים באופן שלילי. אבל ההשפעה כאן קטנה, ולאור העלויות העצומות שבמעבר, נגיד, מ 40 ל 30 תלמידים בכיתה, לא ברור שהעסק משתלם.

דוגמה מפורסמת אחרת שכלכלנים חקרו היא השפעת מספר השוטרים על סטטיסטיקות פשיעה – גם כאן בדיקה נאיבית של הנתונים מעלה כי עלייה במספר השוטרים דווקא משפיעה באופן חיובי על תדירות הפשעים. הסיבה לכך היא שמספר השוטרים ותדירות הפשעים נקבעים יחדיו: ברגע שהפשיעה גדלה ראש העיר מגדיל את משפר השוטרים. הכלכלנים RAFAEL DI TELLA ו – ERNESTO SCHARGRODSKY מהרווארד השתמשו בפיגוע בבניין הקהילה היהודית בבואנוס איירס בשנת 1994 בתור ניסוי טבעי, למדידת השפעת מספר השוטרים על פשיעה מסוג גניבת מכוניות. אחרי הפיגוע הקצתה המשטרה המקומית שוטרים לאבטחת מוסדות יהודיים, והחוקרים בדקו את ההפרשים בין גניבות הרכב באזורים שבהם היו מוסדות יהודיים מאובטחים לבין הגניבות באזורים שבהם לא היו מוסדות כאלו, ומצאו שנוכחותם של השוטרים הפחיתה בכ 75% את הגניבות בבלוקים הקרובים למוסדות היהודיים המוגנים.

כפי שניתן לראות, היעלמותם של הפיראטים היא זו שגרמה להתחממות הגלובאלית. או ההפך. הגרף לקוח מכאן

המחקר שלי בדוקטורט, שאולי אפרט עליו יותר בהזדמנות אחרת (כשיהיו לי תוצאות…), מנסה להשתמש בפריצתן של המכללות בארץ בשנות התשעים בתור ניסוי טבעי, על מנת לבדוק את השפעתה של עלייה בהשכלה הממוצעת בערים על מאפיינים אחרים. עלייה "טבעית" בהשכלה יכולה לנבוע מכל מני גורמים בלתי נצפים כגון ביקוש למשכילים שלא יאפשרו לי לומר משהו על סיבתיות, בעוד שהופעתן של המכללות היא תוצאה של החלטת ממשלה "פתאומית" שהמועד שלה היה יחסית אקראי. כך אני יכול לומר שדברים כאלו ואחרים קרו רק בגלל העלייה בהשכלה הממוצעת, ולנטרל כל מני גורמים אחרים כגון ביקוש למשכילים או מחירי דיור.

בכל המקרים האלו עצם קיומו של האפקט הסיבתי נראה אולי טריוויאלי לאדם מן השורה, אבל המחקר חשוב משתי סיבות עיקריות:

1. כימות מספרי של האפקט, כך שיהיה ניתן להשוותו לאפקטים אחרים. למשל, אם מקציבים כמה מאות מיליוני דולרים לשם הפחתת האבטלה במשק, האם כדאי להשקיע אותם בתוכניות הכשרה למובטלים כרוניים? במתן תמריצים להקמת בתי עסק? במס הכנסה שלילי? רק מחקרים אמפיריים שמסוגלים לכמת את השפעתן של רפורמות ולהגיע לאפקט סיבתי יכולים לענות על שאלות כאלו, שקיימות כמובן לגבי שלל תחומים.

2. הוכחת עצם קיומו של קשר כלשהו. כלכלני בריאות, למשל, הוכיחו שלא מעט טיפולים פופולאריים בבתי חולים בעצם לא תורמים כלום לבריאותו של המטופל, ברגע שמבצעים את המחקר באופן שמעיד על סיבתיות. לא תמיד האינטואיציה הראשונית שלנו לגבי הקשרים הסיבתיים היא נכונה.

החיפוש אחר ניסויים טבעיים וניצול שיטות אקונומטריות לשם מציאתה של סיבתיות, הוא האתגר העיקרי שאיתו מתמודדים חוקרים אמפיריים במדעי החברה, וההבדל בין מחקרים מוצלחים יותר למוצלחים פחות. זו למעשה העבודה העיקרית שלי ביום-יום: להסתכל על נתונים, לבצע ניתוחים מכיוונים שונים, ולנסות לחשוב האם הצלחתי לקבל אפקטים סיבתיים מעניינים, או מה אני צריך לעשות על מנת שלתוצאות שלי יהיה הסבר סיבתי. בניגוד לכלכלנים תיאורטיים, כלכלנים אמפיריים לא יכולים להרשות לעצמם להאמין בתיאוריות מנותקות מהמציאות, ואין להם שום עניין בתיאוריות "לא מדעיות" שלא ניתן להוכיח או להפריך אותן (אם כי גם הכלכלנים התיאורטיים נוטים להיות די קשובים לממצאים אמפיריים, לפחות בחלק מהתחומים). היכולת לדלות סיבתיות מנתונים שאינם מגיעים מניסוי מבוקר היא קריטית לצורך גיבושה של הבנה כלשהי בתוך הכאוס המאפיין את החברה האנושית, היכן שאינספור גורמים משפיעים בו זמנית, אין שום תיאוריה טהורה שיכולה לנבא בוודאות מה יקרה, והדבר הקבוע היחיד הוא השינוי.

Read Full Post »

דעת מיעוט

בלוג בנושאי כלכלה וחברה

Posts Tagged ‘סיבתיות’

מה מדעני נתונים וכלכלנים יכולים ללמוד האחד מהשני?

מדעי החברה הופכים ליותר מדעיים

דוגמה ראשונה: מהי השפעת מספר השוטרים על פשיעה?

דוגמה שנייה: מהו הקשר בין מספר הילדים במשפחה לבין השקעת ההורים בהשכלה?

דוגמה שלישית: מחקרי מדיניות על בסיס ניסויי שדה

מלחמת המתודולוגיות

מהפכת הסיבתיות

החיפוש אחר סיבתיות

תרומה לבלוג

קטגוריות

פוסטים אחרונים

ארכיון

הירשם לבלוג באמצעות המייל

כלים