Feeds:
פוסטים
תגובות

Archive for the ‘כללי’ Category

במהלך החודשים האחרונים שיתפתי פעולה עם שני חברים, איתי צישנבסקי ואריאל קרלינסקי, בהקמת פודקאסט חדש בשם "הרס יצירתי". מטרת הפודקאסט היא לקדם ולהעמיק את הדיון בנוגע למדיניות ומחקר כלכלי. אנחנו מתכננים לראיין חוקרים ומקבלי החלטות ישראלים אשר עוסקים בנושאים כלכליים וחברתיים, ולפרסם פרקים חדשים בתדירות של אחת לשבועיים-שלושה.

אני חייב להודות שאחרי למעלה מעשור של כתיבה אני מרגיש לעיתים שקצת מיציתי את הבלוג, ומבחינתי הפודקאסט הוא דרך חדשה, מרעננת ומעניינת לייצר תכנים עבור הקהל הרחב. איתי ואריאל הם שניהם כלכלנים ובלוגרים מוכשרים (בדקו את "תועלת שולית" ואת "האמנית והרוכל"), ויש להם ידע רב בנושאים כלכליים שאני פחות מכיר. היתרון המרכזי שלנו על פודקאסטים אחרים הוא היכולת להבין לעומק נושאי מחקר ומדיניות, מה שמאפשר לנו לתווך בין החוקרים ובין הקהל הרחב, ולהביא דעות וקולות שפחות נשמעים בדיון הציבורי. בינתיים, מהראיונות שכבר עשינו למדתי לא מעט דברים חדשים.

הפודקאסט זמין בספוטיפיי, itunes וכל שאר האפליקציות המובילות. ניתן לשמוע את הפרק הראשון כאן, ורצוי גם לעקוב אחרי עמוד הפייסבוק של הפודקאסט. אם אהבתם, נודה לכם אם תעניקו לנו דירוג גבוה באפליקציות.

Read Full Post »

מאז הרשומה הקודמת שלי מספר אנשים פנו אלי בשאלה כיצד אפשר להיכנס לתחום של מדע הנתונים. ישנו עניין רב סביב הנושא, גם בגלל הביקוש בשוק, וגם בגלל שזה תחום עם חסמי כניסה נמוכים יחסית, שאפשר להגיע אליו מתחומים משיקים רבים. צעירים וצעירות שלמדו כלכלה, פסיכולוגיה, פיזיקה, ביולוגיה ושלל מקצועות אחרים אוחזים בהכשרה בסיסית בסטטיסטיקה ומתמטיקה שהיא בוודאי מספיקה כדי להתחיל ללמוד, וגם עבור מי שלא למד סטטיסטיקה חסמי הכניסה למקצוע מדע הנתונים הם ככל הנראה נמוכים יותר מאשר חסמי הכניסה לכל עבודה אחרת עם משכורות ברמת היי-טק.

הסיבה לחסמי הכניסה הנמוכים, היא שמדובר בתחום חדש ו"פרוץ", ג'ונגל של שוק חופשי ולא מוסדר. אם אתם רוצים להיות מהנדסי אלקטרוניקה, רופאים או עורכי דין, עליכם להציג תעודה מתאימה על לימודים רלוונטיים של מספר שנים במוסד אקדמי ותעודת סיום. אך בתחום של מדע הנתונים עדיין אין תואר באוניברסיטה שנחשב בתור סטנדרט לכניסה. זה עניין שמקשה על מעסיקים לסנן את המועמדים לעבודה, ולכן אני מניח שיום אחד יהיו תארים מסודרים כמו בכל תחום אחר, אך לפחות כרגע הבלגן הזה פועל לטובת אלו שלמדו תחום אחר ורוצים לשנות מקצוע.

לצד האפשרות ללמוד תואר שני של ממש בתחום, ישנו היצע עצום של קורסים חינמיים ולא-חינמיים באינטרנט, באקדמיה ובכל מני מכונים פרטיים, ורבים לא יודעים איפה להתחיל. אני לא מומחה גדול להיצע האפשרויות בתחום; עקב מגבלות של זמן וכסף ההכשרה שלי הייתה פחות עמוקה מכפי שרציתי, אני לא מרגיש שסיימתי ומעוניין להמשיך איתה גם כעת למרות שכבר מצאתי עבודה. על כן, ראשית כל אני ממליץ לכם על הרשומה המצוינת של עמרי גולדשטיין, שהיא מקיפה הרבה יותר מכל מה שאני יכול לכתוב.

את ההכשרה שלי התחלתי לפי הרשומה של עמרי, עם קורסים בסיסיים של פיית'ון בקורסרה (חינמיים, אם אתם לא מגישים שיעורי בית לבדיקה). לא ידעתי מלכתחילה שאני רוצה ממש לשנות מקצוע, אבל האלגוריתמים של למידת מכונה נשמעו לי מגניבים, וחשבתי שבכל מקרה כדאי לי ללמוד פיית'ון ולהכיר את האלגוריתמים מכיוון שזה יהיה "העתיד" גם בתחום של מחקר כלכלי. מלבד פיית'ון, מומלץ גם ללמוד R אם אין לכם היכרות מוקדמת עם השפה. כדי להשיג ניסיון מעשי, העברתי את כל המחקרים שעשיתי אז בפורום קהלת לפיית'ון, וכך התחלתי להתרגל לעיסוק ב-dataframes, ביצוע מניפולציות על נתונים, הצגת תרשימים ודברים דומים (ראו לדוגמה את העבודה שלי אי שוויון בבריאות). במקביל גם השתמשתי בכלים האלו עבור מספר רשומות בבלוג. זה הדבר הכי חשוב, כי קשה לצבור ניסיון של ממש מתרגילי בית. כמובן, היה לי מראש ידע מתמטי וסטטיסטי, ניסיון של למעלה מעשור בעבודה עם נתונים והכרה עמוקה של מודלים ליניאריים, אז יכולתי לקפוץ על חלק מהשלבים הבסיסיים של ההכשרה שאולי יידרשו עבור אחרים.

לאחר מכן ניסיתי להמשיך עם קורסים של למידת מכונה בקורסרה, אבל הקצב שם היה איטי מדי לטעמי, אז עברתי במקום זאת לספר מבוא בתחום, שמתאר את רוב האלגוריתמים ומהווה מבוא מצוין ללמידת מכונה. הבעיה עם הספר הזה היא שהוא מעט שטחי, בקושי מתייחס לרשתות נוירונים, ובאופן מכוון לא נכנס לעומק למתמטיקה שמאחורי המודלים. הוא מעניק אינטואיציה לגבי איך שהדברים עובדים, מסכם את היתרונות והחסרונות של הגישות השונות, ובוודאי מספיק כדי לכסות את העבודה היום-יומית של חלק ניכר ממדעני הנתונים. אבל אני העדפתי להשלים את הקריאה על חלק מהנושאים בספרי לימוד מתקדמים יותר (הספר בקישור מאוד מקיף וניתן להורדה בחינם, אבל הוא מתמטי ויהיה פחות נגיש לחלקכם). את כל הספרים והקורסים המקוונים סיכמתי לעצמי בעברית, כי אם אני לא כותב אני לא זוכר כלום.

יש כאן נקודה חשובה: אפשר להעמיק בכל הנושאים האלו, אבל לכולנו יש מגבלות מבחינת יכולות, זמן וכסף. יש טווח עצום מבחינת עומק העיסוק של מדעני נתונים, מאנשים שבעיקר עושים משימות פשוטות יחסית בפיית'ון ומריצים מודלים מוכנים, ועד פרופסורים למדעי המחשב וסטטיסטיקה שכותבים אלגוריתמים חדשים ומייעצים לגוגל תמורת שכר שעתי שרובנו נתקשה לדמיין. למעשה, כל אותם אנשים שפעם קראו לעצמם אנליסטים, סטטיסטיקאים וכדומה, כיום קוראים לעצמם "מדעני נתונים". לא צריך להיות גאון כדי לכתוב בפיית'ון תוכנית שמריצה רשת נוירונים המבחינה בין תמונות של כלבים לתמונות של חתולים על בסיס כלים קיימים, וגם לא צריך להכיר את המתמטיקה שמאחורי הכלים לעומק בשביל זה. אך צריך להכיר אותה כדי לעשות דברים יותר מתוחכמים ופחות סטנדרטיים.

אם אתם צעירים, חופשיים ואין לכם מגבלות של כסף וזמן פנוי, הדרך הטובה ביותר ללמוד לעומק את האלגוריתמים היא ככל הנראה תואר שני ספציפי בנושא, הקורסים החינמיים של אוניברסיטת סטנפורד, או אחד ממכוני ההכשרה שהופיעו לאחרונה בתחום. לצערי, זה לא היה המצב שלי. את ההכשרה שלי עשיתי תוך כדי עבודה במשרה מלאה, ומאוד מהר הבנתי שכדי להשלים את הקורסים של סטנפורד כמו שצריך אני זקוק לפחות לשנה, ולכן וויתרתי עליהם. מלבד זאת, חלקם ממוקדים בעיקר בניתוח תמונות, נושא שפחות מעניין אותי.

במקומם, לקחתי קורס קצר יותר של udacity בנושא של רשתות נוירונים עם חבילת TensorFlow, אשר מספק הבנה לא רעה של היסודות ומלווה בקישורים למאמרים בבלוגים שונים שניתן להשתמש בהם להרחבה. במקביל, התחלתי עם התרגילים הבסיסיים באתר קאגל: חיזוי הניצולים מהטיטאניק, זיהוי ספרות וניתוח טקסטים. אפשר ללמוד המון מהתרגילים האלו ומקריאה של מחברות של אחרים, בייחוד אם אין לכם דרך אחרת להשיג ניסיון מעשי בעבודה עם פיית'ון ועם האלגוריתמים. בשלב הזה התחלתי לראשונה לשלוח קורות חיים ולחפש עבודה.

אני לא מרגיש שההכשרה שלי הייתה מושלמת; במשך רוב הזמן עבדתי במשרה מלאה, לא היה לי זמן רב, והייתי טרוד במעבר מארצות הברית בחזרה לישראל. יצאתי לשוק העבודה מוקדם יחסית, ויתכן שהיה לי מעט מזל עם העבודה שהצלחתי למצוא. הניסיון הרב שלי בעבודה עם נתונים ובניתוח אקונומטרי בוודאי עזר במציאת עבודה,  ולכן ייתכן שיכלתי לקחת קיצורי דרך שהם פחות רלוונטיים לאחרים שרוצים להיכנס לתחום ללא כל ניסיון קודם. אידיאלית, הייתי רוצה לעשות את הקורס של סטנפורד, אולי קורסים נוספים, וכן להשתתף בתחרויות היותר מורכבות של קאגל, ואני מקווה להגיע לזה בהמשך.

לסיום, עצה לצעירים ולצעירות שקראו עד כאן מכיוון שהם אינם מרוצים מעיסוקם או מתחום הלימוד שבו בחרו, ומעוניינים לשנות מקצוע – אל תהססו. אני לא אשקר לכם, זה לא תהליך קל לאנשים שכבר עשו תארים בתחומים אחרים, ויש להם עבודה במשרה מלאה ומשפחה. הייתי צריך להכריח את עצמי לשבת בערבים ובסופי שבוע, להקשיב לקורסים, להתעמק בנוסחאות, להכין תרגילים ולנסות לפתור כל מני באגים. אך ככל שתעשו את המעבר יותר מוקדם, כך הוא יהיה קל יותר.

העבודה כמדען נתונים מספקת שלל אתגרים בחשיבה לוגית, תכנות וניתוח נתונים, והגיוון של מקומות העבודה וסוגי הבעיות הוא עצום. גם אם לא תעזבו בסופו של דבר את התחום הנוכחי שלכם, יש סיכוי טוב שהידע שתצברו בתכנות ובאלגוריתמים יהיה שימושי עבורכם בעתיד. ככל שעובר הזמן, כך שוק העבודה הולך ונחלק בין שני סוגי אנשים: אלו שמסוגלים "לדבר עם מכונות", והביקוש עבורם מזנק במקביל לזינוק ביכולתם של המחשבים והרובוטים, ואלו שהמכונות והתוכנות יכולות להחליף אותם (או לאפשר לעובדים במדינות מתפתחות להחליף אותם), שהביקוש עבורם נע בכיוון ההפוך. אל תהיו בקבוצה השנייה. בהצלחה!

 

Read Full Post »

דרך חדשה

השבוע עזבתי את פורום קהלת והתחלתי לעבוד במקום עבודה חדש, בחברת היי-טק, בתור מדען נתונים. תקופה מוזרה לעזוב עבודה, אני יודע. לא תכננתי לתזמן את זה ככה. למעשה, כבר לפני כשנה, כשהתברר לי שלא אוכל למצוא משרה אקדמית בישראל, התחלתי בהשלמת נושאים שפחות הכרתי בלמידת מכונה ובכל מני תחומי ידע משיקים מתוך מטרה לחפש עבודה בתחום. לעבודה החדשה התקבלתי עוד לפני משבר הקורונה.

הסיבה המרכזית לעזיבה היא הרצון שלי ללמוד ולהתפתח אל תחומים חדשים. התחום של מדע הנתונים ולמידת מכונה מאוד מעניין אותי, ואני ככל הנראה שייך לאותו זן נדיר של אנשים שבאמת נהנים לכתוב קוד. עבר זמן רב מאז שהייתי צריך ללמוד כל כך הרבה נושאים חדשים, וזה ממש כיף. לדעתי הטכנולוגיה של למידת מכונה נכנסת כרגע לעידן הזהב; אנחנו באותה הנקודה שבה הרכבות היו באמצע המאה ה-19, או המחשבים בשנות התשעים של המאה ה-20. לראשונה בהיסטוריה האנושית יש לנו גם כמות עצומה של נתונים זמינים, וגם מחשבים חזקים וכלים שמאפשרים להפיק מהנתונים תובנות חדשות במהירות וביעילות. רציתי להיות חלק מהמהפכה הטכנולוגית המשמעותית ביותר בדור הנוכחי, להספיק לעלות על הרכבת הזו, לדהור איתה קדימה ולראות מהמושב בקרון הראשון כמה רחוק היא תהיה מסוגלת להגיע.

כמובן, תמיד תהיה לי פינה חמה בלב עבור פורום קהלת לכלכלה, ועבור האנשים שם שממשיכים ללכת נגד הרוח, להילחם בקבוצות אינטרס ולפרסם אמיתות לא-נוחות שפוליטיקאים פחות אוהבים לשמוע. אני גם אמשיך לתמוך במחקרים של הפורום בדרכים שונות.

חברים ששמעו על המעבר שאלו אותי מה יקרה עם הבלוג הזה. סביר שהעיסוק שלי במדיניות כלכלית יפחת, אך האמת היא שמלכתחילה לא תכננתי לכתוב בלוג כלכלי. הרשומות הראשונות בבלוג באתר תפוז, מלפני למעלה מעשור, עסקו בשלל נושאים שעניינו אותי, כגון הימצאות חייזרים בחלל החיצון או ספרי מדע פופולרי, ולא רק בכלכלה. יתכן שאחזור יותר לכיוון הזה. חשבתי גם לנסות לפרסם רשומות עמוקות על למידת מכונה ומדע נתונים, אם כי הן בדרך כלל דורשות השקעה משמעותית. פעם, כשהייתי סטודנט, היה לי קל יותר להשקיע בבלוג, אבל היום כשאני חוזר מהעבודה אני בדרך כלל מעדיף לברוח לאיזה משחק מחשב. אולי בסופו של דבר הבלוג ידעך. גם זה תהליך מתמשך – הרשומות הכי נצפות שלי נכתבו לפני כ-5 שנים. ואולי יום אחד כשאצא לפנסיה הוא יפרח מחדש…

חלק ניכר מהכתיבה שלי בבלוג התחלף בכתיבת ספרים, שעוד לא נחשפתם למרביתה. מלבד הספר "מסע האנושות", שפרסמתי עם עודד גלאור, ישנו ספר נוסף שאני כותב מזה כשנתיים על ההיסטוריה הכלכלית של ישראל, והשבוע סיימתי סוף סוף את הטיוטה הראשונה שלו. שמו הנוכחי של הספר הוא "הנס הישראלי – סיפור על הון אנושי, דמוקרטיה ואשליות", ומטרתו היא לנסות להסביר מדוע מדינת ישראל עשירה יותר ממדינות מתפתחות, אך פחות ממדינות מערב וצפון אירופה והמושבות האירופאיות. הגישה מבוססת על המחקר המודרני בצמיחה ארוכת טווח, שמסוקר בהרחבה ב"מסע האנושות" – חיפוש אחר מאפיינים מוסדיים ותרבותיים שהם הגורם האולטימטיבי לדירוג היחסי של ישראל. מבחינתי הספר הזה הוא סיכום של חלק ניכר מהעבודה שלי בבלוג בעשור האחרון, והוא יותר אישי ויותר קשור לכתיבה שלי ברשתות החברתיות מהספר הקודם. בקרוב אתחיל עם סבב העריכות שלו, ואני מעריך שבעוד כחצי שנה הוא יצא לאור. גם בעתיד אני מאמין שאעדיף כתיבת ספרים על פני הבלוג, מכיוון שהם מאפשרים לי להגיע לעומק רב יותר. ממילא תמיד אמרו לי שהרשומות שלי ארוכות מדי…

גם אם אכתוב בהן פחות, קשה לי להאמין שאעזוב את הרשתות החברתיות לגמרי. מבחינתי האינטרנט הוא פלא: הוא העניק לי במה וקול שאף אחד לא היה מעז להעניק לי בעולם האמיתי. הוא אפשר לי להתמודד מול אנשים שנהנים מיוקרה, כריזמה, הופעה סמכותית, יכולת להתחבב על הקהל וקול עמוק – כל אותן תכונות שמעולם לא היו לי ולעולם לא יהיו לי. באינטרנט לכל התכונות האלו אין משמעות, הדבר היחיד שחשוב הוא טיעונים ויכולת ניסוח.

אך מצד שני, הוויכוחים ברשתות החברתיות נוטים לחזור על עצמם, והמלחמה הקבועה כנגד הרוח היא די מתסכלת. יותר מדי אנשים אכזבו אותי, מבחינת ההתעקשות שלהם שלא לזוז מדעותיהם המוקדמות למרות שנים של התכתבויות. אינני יודע עד כמה ארצה להמשיך בוויכוחי סוציאליזם-קפיטליזם נדושים, גם ככה אני מרגיש שההשפעה של הוויכוחים האלו על המציאות זניחה. אני גם לא מרגיש בנוח עם הכתיבה בפומבי. חשבתי שזה יגדיל את האמינות שלי בעיני הקוראים, אבל זה לא נעים להגיע למקומות חדשים ולגלות שלרבים יש דעות מוקדמות עלי, אפילו כשהדעות האלו חיוביות. באופן מצטבר, אין לי ספק שהבלוג שלי פגע בקריירה שלי יותר ממה שהוא תרם לה. לא הייתי ממליץ לאנשים לכתוב בפומבי ברשתות החברתיות, בייחוד אם בכוונתם לפרסם דעות הסוטות מהקונצנזוס.

אין פואנטה לפוסט הזה. אני יודע שהרבה אנשים עוקבים אחרי בבלוג וברשתות החברתיות, והחלטתי שמן הראוי להסביר מדוע אני עוזב, גם בגלל שפורום קהלת הוא מקום משמעותי עם אג'נדה מסוימת ולא סתם "עוד מקום עבודה", וגם בגלל שייתכן שזה יהיה שינוי כיוון כללי יותר עבורי בסופו של דבר, אם כי מוקדם מדי לדעת. יש כיום ברשתות החברתיות צעירים רבים שלדעתי עושים עבודה מצויינת בכתיבת ביקורת על מדיניות כלכלית. אני מקווה שבעתיד חלקם ילמדו לתארים מתקדמים, ויצטרפו אליהם כל מני פרופסורים ודוקטורים צעירים שיש להם את האומץ לכתוב בפומבי, כך שרמת הדיון תישאר גבוהה, והם יוכלו להוות משקל נגד מסוים לפופוליזם. יום אחד אולי הרעיונות האלו יחדרו אל מתחת לענני הספקנות, הרגשות העזים וחוסר ההבנה, ויפגשו בפוליטיקאים ובפקידים בכירים שבאמת אכפת להם, ובקונסטלציה פוליטית שתאפשר לעשות שינויים לטובה. מותר לחלום.

Read Full Post »

הערה: המאמר פורסם לראשונה בגלובס.


"איזה מזל שלמרות שנים של כתישה והפרטה, עדיין יש לנו מערכת בריאות ציבורית", כתב לאחרונה חבר הכנסת ניצן הורוביץ בטוויטר, וכך הצטרף לגל של חברי כנסת, עיתונאים ואנשים פרטיים שכתבו בשבועיים האחרונים על השחיקה ועל הקיצוצים בתקציבי מערכת הבריאות בשנים שלפני המשבר. אפילו נגידת בנק ישראל לשעבר קרנית פלוג דיברה על שחיקה במערכת הבריאות בנאום שנשאה בימים האחרונים. אך למרבה הפלא, כולם טועים. לא הייתה שום שחיקה ולא היו שום קיצוצים בתקציבי מערכת הבריאות הציבורית בשנים האחרונות. מדובר ב"ווירוס חדשות מזויפות", שהוא מדבק לא פחות מווירוס הקורונה, ועשוי גם להזיק למדיניות הממשלה.

זהו סיפור מדהים במיוחד, מכיוון שהנתונים גלויים לעיני כל. אפשר להוריד אותם מאתר הלמ"ס, או מאתר ה-OECD. כפי שניתן לראות בתרשים הבא, הלקוח מנייר עמדה שלי ושל פרופ' זיו גיל מבית החולים רמב"ם, גם ההוצאה הציבורית פר נפש על בריאות וגם ההוצאה הציבורית על בריאות בתור שיעור מהתוצר נמצאים במגמת עלייה בעשור האחרון. מלבד זאת, שיעור ההוצאה הציבורית מתוך כלל ההוצאה על בריאות נמצא גם הוא בעלייה.

אין כאן על מה להתווכח, ואין שום מקום לפרשנות אחרת של הנתונים. ובכל זאת ווירוס החדשות המזויפות משכפל את עצמו שוב ושוב, בכל פעם צץ מחדש באיזה שהוא נאום, סרטון ווידיאו, סטאטוס או ציוץ, בכל פעם זוכה לאלפי שיתופים ולייקים.

רוב הכותבים שנדבקו בווירוס החדשות המזויפות כלל אינם מגיבים כאשר מעמתים אותם עם הנתונים הללו. הוירוס כבר התנחל בראשם, והוא איננו מוכן להסתלק. חלקם מנסים להתחמק בדרכים שונות. למשל, הם טוענים שהוצאות הבריאות בישראל נמוכות ביחס לממוצע ה-OECD, ולכן בכל זאת מדובר בשחיקה. אך הוצאות הבריאות בישראל תמיד היו נמוכות יחסית למדינות אלו, מכיוון שהאוכלוסייה בישראל צעירה יותר בממוצע. מאותה הסיבה, אגב, הוצאות החינוך בישראל הן גבוהות יחסית. כפי שאני מראה בנייר העמדה עם פרופ' זיו גיל, ברגע שבודקים את ההוצאות יחסית לשיעור המבוגרים באוכלוסייה ישראל איננה יוצאת דופן.

טענה אחרת היא שהייתה ירידה במספר מיטות האשפוז לנפש. אך גם זו הטעיה: הירידה הזו התרחשה כמעט בכל מדינות המערב, עקב מעבר מאשפוז בבתי החולים לאשפוז בקהילה שנובע מקדמה טכנולוגית והתייעלות.

מעניין אגב לציין שמספר המיטות לנפש בישראל גבוה ממספר המיטות לנפש בשוודיה, דנמרק, בריטניה ומדינות רבות נוספות.

אחרים מדברים על שיעור התפוסה הגבוה של מיטות האשפוז בתקופה שקדמה למשבר הקורונה. גם זו טעות, מכיוון ששיעור התפוסה הגבוה בישראל נובע בעיקר מהתמריצים העקומים של בתי חולים ומחלקות, שעלולים לאבד תקנים ותקציבים אם התפוסה לא תהיה גבוהה, ומכוונים בהתאם את זרם היוצאים והנכנסים לאשפוז. בכל מקרה, כל הטענות האלו אינן קשורות כלל לתקציבי הבריאות. אין שום נתון אפשרי שמעיד על שחיקה או קיצוץ בתקציבים אלו בעשור האחרון.

אבל זה לא משנה: לווירוס החדשות המזויפות יש כנפיים משלו והוא כבר מעופף לו, מרחף באוויר, מפיץ את עצמו מאדם לאדם, מדביק אותם אחד אחרי השני. "הפרטה", "קיצוץ", "שחיקה", הם ממשיכים למלמל, כמו עדר של זומבים. ככל שיותר אנשים חוזרים עליו, כך הווירוס הולך ומתחזק. חלק מאמצעי התקשורת, שאמורים להוות חסם כנגד ווירוסים שכאלו, משתפים במקום זאת פעולה בלהפיץ את הווירוס.

לווירוס עשויה להיות השפעה על מדיניות. משבר הקורונה מחייב אותנו ממילא להגדיל את תקציבי הבריאות, אך הממשלה הבאה שתקום בישראל תידרש לסיים בנוסף לכך את אותה "שחיקה" שלא הייתה בתקציבים. במקום שהדיון התקציבי יתנהל על בסיס רציונלי, בהתאם לנתונים ולהתפתחות מגפת הקורונה, הוא יתנהל לפחות במידה מסוימת על בסיס אותו ווירוס של חדשות מזויפות. ייתכן שנתוני האמת יוצגו בפני מקבלי ההחלטות, אבל כאשר הווירוס נפוץ כל כך בקרב הציבור אין שום חשיבות לאמת.

ווירוסים של חדשות מזויפות מסוגלים להיות מסוכנים לא פחות מווירוסים ביולוגיים, וגם סגר כלכלי לא מונע מהם להתפשט. רק תקשורת אחראית וביקורתית מסוגלת לעשות זאת.

Read Full Post »

הערה: הרשומה פורסמה במקור בבלוג באתר "הארץ".


ברשומות הקודמות בסדרה (ראו כאן וכאן) עסקנו באי השוויון בבריאות בישראל, ובהיעדר ההשפעה של הגיאוגרפיה על משתנים בריאותיים, בהמשך למחקר החדש שפרסמתי במסגרת עבודתי בפורום קהלת לכלכלה. ראינו שמאפיינים כגון השכלה, הכנסה והשתייכות לקבוצות אוכלוסייה שונות משפיעים על רמת הבריאות, אבל כיצד? ברשומה זו נצלול עמוק יותר אל תוך הנתונים, וננסה לענות לשאלה זו.

בסקרי הלמ"ס מופיעים מספר משתנים התנהגותיים הקשורים לרמת הבריאות, וניתן להשתמש בהם כדי לראות הבדלים בהתנהגות בין קבוצות שונות. מסתבר כי לבעלי השכלה גבוהה ישנו סיכוי נמוך יחסית להיות במשקל עודף, הם שותים פחות משקאות מתוקים, אוכלים יותר פירות וירקות, מבצעים יותר פעילות גופנית וכך הלאה. ההכנסה משפיעה גם היא על הנושאים האלו, אבל השכלה חשובה יותר. לעומת זאת, ערבים ובעלי הכנסות נמוכות נוטים שלא לקיים פעילות גופנית, לשתות יותר משקאות ממותקים, לעשן יותר וכדומה, ביחוד אם הם אינם משכילים. מעניין אגב לציין שחרדים אינם מאופיינים בהתנהגות בריאה יחסית לממוצע, וסובלים מהשמנת יתר, ולמרות זאת מדדי הבריאות שלהם חיוביים למדי – כולל מדדים אובייקטיביים כגון שיעורי תמותה ביישובים חרדיים.

הנתונים ברמת היישוב מאפשרים לי לבחון גם את גורמי התמותה העיקריים ביישובים שונים. באחד הניתוחים חילקתי את היישובים לארבע קבוצות שונות, עבור שני צירים של השוואה: יישובים יהודיים לעומת יישובים ערבים, ויישובים יהודיים עשירים יחסית לעומת יישובים יהודיים עניים יחסית. המטרה כאן היא להבין אילו גורמי תמותה הם משמעותיים עבור פערי הבריאות בין הערים.

התרשים הבא נקרא Violin plot, והוא מציג את ההתפלגויות של ארבע קבוצות היישובים מבחינת שיעור התמותה באופן נוח להשוואה. הנתונים מתוקננים להתפלגות הגילאים השונה ביישובים שונים. מצד שמאל באדום מופיעה ההתפלגות של יישובים יהודיים (עם ממוצע מעט נמוך מ-5), מולה בכחול מופיעה ההתפלגות של יישובים ערביים, ולאחר מכן ישנן ההתפלגויות של יישובים יהודיים עשירים יחסית (שוב באדום) ושל יישובים יהודיים עניים יחסית.

פערים בשיעור התמותה בין קבוצות יישובים

ניתן לראות בתרשים שמבחינת הממוצע היישובים היהודיים העניים דומים ליישובים הערביים, אך ליישובים הערביים יש "זנב" עליון שכולל מספר יישובים עם תמותה גבוהה במיוחד (ג'סר א-זרקא, תל שבע, אכסאל ופוריידיס מובילות את הטבלה), בעוד שליישובים היהודיים העניים יש זנב בכיוון ההפוך, כלפי מטה, שכולל יישובים חרדיים עניים עם תמותה נמוכה במיוחד, כגון מודיעין עילית, אלעד ובית"ר עילית.

התרשימים הבאים מתייחסים לגורמי תמותה ספציפיים.

פערים בגורמי תמותה שונים בין קבוצות יישובים

נראה כי בהשוואה לתושבי יישובים יהודיים עניים, תושבי היישובים הערביים סובלים יותר ממחלות לב וריאה, והרבה יותר מסכרת. לפי שיחות שערכתי עם מומחים ישנו קשר בין מחלות לב ובין סכרת, ולכן קשה להפריד בין תמותה משני הגורמים האלו. לעומת זאת, תושבי היישובים הערביים סובלים פחות מסרטן בהשוואה לכל שאר הקבוצות, ובהשוואה ליישובים יהודיים עניים הם סובלים פחות ממחלות זיהומיות.

כדי לנסות להבין עד כמה הפערים משמעותיים, ביצעתי מן "חישוב מעטפה" גס שמתאר כיצד כלל פערי התמותה מתחלקים בין הגורמים. זהו אינו חישוב מדוייק, מכיוון שאין לי את הנתונים המתאימים לגבי תמותה בקרב כלל האוכלוסייה, אלא רק עבור גילאים מסויימים, וכן יתכן שחלק מגורמי התמותה חופפים והאבחנה ביניהם היא לעיתים שרירותית. להלן התוצאות:

התחלקות פערי התמותה בין הגורמים השונים

הגורמים העיקריים לפערים בין יישובים ערביים ויישובים יהודיים הם סוכרת ומחלות לב, המסבירים לבדם למעלה ממחצית ההפרש. הפערים בין יישובים יהודיים עשירים ועניים אינם מוסברים ברובם על ידי הגורמים שצוינו למעלה, אם כי תמותה מסוכרת וממחלות זיהומיות מהוות ביחד כחמישית מההפרש. חשוב לציין שהפערים בתמותה לא בהכרח מרמזים על הפערים במדדי בריאות אחרים. למשל, אם היינו יכולים לבדוק תוחלת חיים ייתכן שגורמים המשפיעים על מוות בגיל צעיר, כגון תאונות דרכים (הנכנסות כאן תחת "סיבות חיצוניות"), היו משמעותיים יותר.

המסקנות מהתוצאות האלו, וכן מהתוצאות שתיארתי בשתי הרשומות הקודמות, הן שמדיניות בריאות נבונה תתמקד בבעיות כגון סכרת, השמנת יתר, עישון והיעדר פעילות גופנית בקרב ערביי ישראל, וכי רצוי גם להעניק תשומת לב מיוחדת למועסקים במקצועות פיזיים. אין סיבה למקד את הדיון בפערים בין הפריפריה והמרכז, מכיוון שהיעדר תשתיות בפריפריה היא ככל הנראה לא בעיה משמעותית כיום בישראל. מלבד זאת, ראוי לבחון את האופן שבו הצליחו החרדים לנתק את הקשר הנפוץ בכל מדינה ובכל תקופה בין רמת ההכנסה וההשכלה ובין רמת הבריאות. רק התעמקות בנתונים יכולה לאפשר לנו לתכנן מדיניות אשר תמנע בזבוז כספים, ותתרום לרווחתם של אזרחי המדינה הזקוקים במידה הרבה ביותר למערכת הבריאות הציבורית.

Read Full Post »

הערה: הרשומה פורסמה במקור בבלוג באתר "הארץ".


ברשומה הקודמת שפרסמתי עסקנו בתוצאות המפתיעות של המחקר החדש שלי לגבי אי השוויון בבריאות בישראל. למרות שאי השוויון בבריאות בישראל הוא נמוך יחסית למדינות אחרות, הפערים בין האוכלוסיות השונות אינם זניחים. ממה הם נובעים?

מסתבר שרבים בכלי התקשורת, במשרד הבריאות ובקהילה המחקרית מאמינים שרמת הבריאות מושפעת באופן משמעותי ממקום המגורים שלך. ישראלים שמתגוררים בפריפרייה, לטענתם, סובלים מהזנחה ממשלתית, מהיעדר תשתיות, ממרחק גדול מבתי חולים, ועל כן רמת בריאותם נמוכה יותר (דוגמאות לכותרות המדגישות את הפריפרייה: אחת, שתיים, שלוש, ארבע). אך הטיעון אודות הפריפרייה הוא בעייתי.

הישראלים שמתגוררים בפריפרייה שונים במימדים רבים מהישראלים שאינם מתגוררים בפריפרייה – למשל, שכרם נמוך יותר בממוצע, ורמת השכלתם נמוכה יותר. הספרות המחקרית מעלה שבכל מדינות העולם תושבים בעלי שכר נמוך יותר ורמת השכלה נמוכה יותר סובלים גם מרמת בריאות נמוכה יותר, בלי קשר למקום מגוריהם. זהו כמובן גם המצב בישראל: לפי הסקר ארוך הטווח של הלמ"ס, ערבים ובעלי מקצועות פיזיים (בינוי, הפעלת מיכון כבד וכדומה) סובלים מרמת בריאות נמוכה יחסית, בעוד שחרדים נהנים מרמת בריאות גבוהה יחסית. ניתן לראות זאת בתרשים הבא, המתמקד בפרטים בני 30 – 50 כדי לנטרל שוני במבנה הגילאים בין הקבוצות.

רמת הבריאות עבור בני 30 – 50 לפי קבוצות אוכלוסייה

הסקר ארוך הטווח לשנת 2017

כפי שכתבתי ברשומה הקודמת, הנתונים עבור מרבית התרשימים וכן הקוד (בפיית'ון) שמייצר אותם ואת ניתוחי הנתונים, ניתנים להורדה מספריית הפרויקט באתר GitHub.

חשוב לציין שהתוצאה בנוגע לחרדים לא נובעת מ"אופטימיות יתר" בדיווח עצמי, ומופיעה גם בנתונים אובייקטיביים על תוחלת חיים ושיעורי תמותה ביישובים חרדיים. החרדים הם קבוצה מאוד יוצאת דופן, מכיוון שהם סותרים את הדפוס הקבוע שלפיו בעלי הכנסות נמוכות סובלים מרמת בריאות נמוכה יותר, ואולי כדאי להקדיש להם מחקר עומק נפרד.

התרשים שלעיל מהווה ניתוח תיאורי בסיסי למדי, אך גם ניתוחים מורכבים יותר, תוך ניטרול גורמים מעורבים שונים, מעלים את אותן התוצאות: לגורמים כגון השכלה, הכנסה ושייכות לקבוצות אוכלוסייה שונות יש השפעה מהותית על רמת הבריאות (כמובן, ישנן כאן בעיה של הסקה סיבתית מקורלציה, שקשה להתגבר עליה).

אחת הדרכים הנחמדות להציג את הקשרים בין המשתנים, היא שימוש בעצי החלטה. מדובר באלגוריתם מתחום Machine Learning, אשר מקבל נתונים ומתאים אליהם מודל במטרה לנבא משתנה מטרה כלשהו. במקרה שלנו משתנה המטרה הוא התשובה של פרטים לשאלה "מהו מצב בריאותך, בדרך כלל?" – אנו מנסים לנבא על פי הנתונים אילו פרטים יענו "בריאות טובה מאוד" לשאלה זו. התוצאה היא התרשים הבא.

עץ החלטה בנוגע לגורמים המשפיעים על רמת הבריאות

הסקר ארוך הטווח לשנת 2017

האלגוריתם בוחר באופן אוטומטי את חלוקת המשתנים שמאפשרת לו לנבא באופן הטוב ביותר. ריבועים כחולים יותר בתרשים מייצגים אזורים בנתונים שבהם התחזית היא לבריאות טובה מאוד, וריבועים כתומים מייצגים אזורים שבהם התחזית היא הפוכה.

על מנת לקרוא את העץ עלינו להתחיל בריבוע העליון. בשורה הראשונה בכל ריבוע מצויין קריטריון ההחלטה, ובמקרה של הריבוע העליון הקריטריון הוא האם הגיל קטן מ-50.5. אם גילו של הפרט גדול מערך הסף נלך ימינה (False), ואם גילו קטן מערך הסף נלך שמאלה (True). אם הלכנו שמאלה, עלינו לבחון האם גילו גדול או קטן מ-41.5. אם הגיל הוא גבוה מ-41.5, אך נמוך מ-50.5, אנחנו מגיעים לריבוע שבו הקריטריון מבוסס על מקצוע פיזי. מקצוע פיזי הוא משתנה בינארי, השווה ל-1 עבור בעלי מקצועות פיזיים ול-0 אחרת. על פי העץ, התחזית לבעלי מקצועות פיזיים בגילאי 42 – 50 היא לבריאות שאיננה טובה מאוד, בעוד שהתחזית לאלו שאין להם מקצועות פיזיים בגילאים אלו היא לבריאות טובה מאוד.

מהעץ אנחנו יכולים ללמוד שבריאות נמוכה נפוצה בעיקר בקרב מבוגרים בעלי הכנסה נמוכה. תוצאות אלו יכולות לשקף את השפעת ההכנסה על רמת הבריאות, אך גם את הכיוון הסיבתי ההפוך, כלומר את ההשפעה של רמת הבריאות על רמת ההכנסה של מבוגרים, שחלקם פורשים לפנסיה מוקדמת בגלל בעיות בריאות. מלבד זאת, אנחנו למדים שמקצועות פיזיים משפיעים לשלילה על רמת הבריאות כבר מגילאי הארבעים. לבסוף, אנחנו יכולים ללמוד מהעץ שהמשתנים המצויינים בו הם המשתנים החשובים יותר מבחינת השפעתם על רמת הבריאות (אם ישנם מדעני נתונים בקהל – דעו שיער אקראי מפיק תוצאות דומות מבחינת feature importance).

בשלב הבא, ניסיתי לבדוק את השפעת הגיאוגרפיה על הבריאות. למשל, במפה הבאה ניתן לראות את שיעורי התמותה באזורים שונים בארץ, וכן ביישובים שונים:

במחקר שלי מותארות שלוש עדויות שונות לטובת הטענה שהמאפיינים הדמוגרפיים הם העיקר, ולא מקום המגורים:

1. אורך התורים בפריפרייה וזמינות הרופאים אינם גרועים יותר מאשר במרכז

למשל, בתרשים הבא ניתן לראות את זמני ההמתנה לרופאים בהתמחויות שונות. נראה שדווקא בצפון זמני ההמתנה הם הנמוכים ביותר, וגם בדרום בחלק מההתמחויות זמני ההמתנה אינם יוצאי דופן.

זמן המתנה חציוני בימים, לפי התמחויות, 2018 – 2019

מקור: משרד הבריאות.

בהחלט יתכן שבעבר המצב היה אחר, אך מדיניות מכוונת של משרד הבריאות צמצמה את הפערים. כך או אחרת, כיום לא נראה שיש כאן בעיה משמעותית.

2. כאשר מנטרלים באמצעות רגרסיה את המשתנים הסוציואקונומיים, כגון הכנסה, השכלה והשתייכות לקבוצות אוכלוסיה שונות, למרחק ממרכז הארץ או מבית החולים הקרוב ביותר אין השפעה על מדדי בריאות.

תוצאה זו חוזרת על עצמה גם כאשר הניתוח הוא על נתוני פרט, וגם כאשר הניתוח הוא ברמת היישוב. השפעת המרחקים, שהיא מלכתחילה קלושה למדי ואפסית בחלק מהמקרים, פשוט נעלמת.

3. לערבים המתגוררים בערים מעורבות יש רמת בריאות דומה לערבים המתגוררים בערים ערביות, וכך גם לגבי היהודים.

למשל, בתרשים הבא ניתן לראות שיעור תמותה מתוקנן לאלף איש. הפערים בין ערבים ליהודים משמעותיים ביותר בכל הערים, מלבד המקרה יוצא הדופן של נצרת עילית. אותה התוצאה מתקיימת גם לגבי מדדים אחרים.

שיעור תמותה בערים מעורבות

לסיכום, בהתאם לכותרת הרשומה – בריאות בישראל היא בעיקרה עניין של דמוגרפיה, לא של גיאוגרפיה. רמת בריאות נמוכה מאפיינת את הערבים, את העוסקים במקצועות פיזיים, את חסרי ההשכלה ואת העניים, בייחוד עניים מבוגרים – בלי קשר למקום מגוריהם. על כן, הקריאות שנשמעות בתקשורת להקמת בתי חולים בפריפרייה בדחיפות או למשיכת רופאים לשם הן בעייתיות. יש לזכור שתקציב הבריאות הוא בסופו של דבר מוגבל, וכל שקל שמושקע בכיוון מסויים הוא שקל שלא מושקע בכיוון אחר. אם הבעיה היא רמת הבריאות של אוכלוסיות חלשות מבחינה סוציואקונומית, עלינו להתמקד בהן ולא באזור גיאוגרפי כזה או אחר. חשוב מאוד להתמקד בבעיות אמיתיות, ולא בבעיות שאינן קיימות.

אז מהן הבעיות האמיתיות הללו? כיצד ההכנסה הנמוכה וההשכלה המועטה מתרגמות לרמת בריאות נמוכה יותר? ברשומה השלישית והאחרונה בסדרה נצלול מעט פנימה אל הנתונים, וננסה להבין מהיכן מגיעים הדפוסים שתיארתי כאן.

 

Read Full Post »

הערה: כמו מרבית הרשומות בבלוג, גם הרשומה הזו פורסמה במקור בבלוג שלי באתר "הארץ".


כשהצגתי את המחקר החדש שלי בפני אנשי מקצוע, פקידים וחוקרים אחרים בתחום, לא חשבתי שאפתיע מישהו. כלומר, זה נכון, יש שם כמה תרשימים מגניבים, ואני ככל הנראה הראשון שמציג נתונים על אי שוויון בתוחלת החיים בישראל, אבל בסופו של דבר מרבית הנתונים הגיעו ממשרד הבריאות ומהלמ"ס. אין במחקר הזה משהו פרובוקטיבי שעשוי לעורר וויכוחים לוהטים, בסך הכל נתונים על בריאותם של אזרחי מדינת ישראל. לפחות, ככה חשבתי. אבל מסתבר שיש.

נתחיל מההתחלה.

על מנת להציג את הממצאים העיקריים מהמחקר באופן נוח, החלטתי לפרק אותו ל-3 רשומות נפרדות בבלוג. ברשומה זו נעסוק בתמונה הכללית של רמת הבריאות בישראל ואי השוויון בבריאות, ברשומה הבאה נעסוק בשאלת השפעת המיקום הגיאוגרפי ומאפיינים סוציואקונומיים על רמת הבריאות, וברשומה השלישית והאחרונה נצלול קצת יותר לעומק אל הנתונים כדי להבין מהן הבעיות העיקריות שבהן נדרש לטפל.

רמת הבריאות בישראל היא גבוהה באופן יחסי. תוחלת החיים היא בין הגבוהות בעולם, תמותת התינוקות היא בין הנמוכות בעולם, וכך גם לגבי מדדים אחרים. ישנם פערים ברמת החיים בין קבוצות אוכלוסייה ובין אזורים, אבל גם הקבוצות והאזורים שרמת הבריאות שלהם נמוכה מציגים נתונים טובים יחסית לעולם. למשל, כפי שניתן לראות בתרשים הבא, גם במחוז דרום, היכן שתוחלת החיים בישראל היא הנמוכה ביותר, תוחלת החיים הממוצעת עדיין עולה על תוחלת החיים בדנמרק, גרמניה וממוצע ה-OECD.

תוחלת חיים של קבוצות אוכלוסייה בישראל בהשוואה בינלאומית, 2017

מקור: הבנק העולמי והלמ"ס.

הערת צד: הנתונים עבור התרשים הזה ועבור מרבית התרשימים שנראה ברשומות הבאות, וכן הקוד (בפיית'ון) שמייצר אותם ואת ניתוחי הנתונים, ניתנים להורדה מספריית הפרויקט באתר GitHub (פרסום הקוד ונתוני המקור הוא סטנדרט מחקרי חדש, המקובל בז'ורנלים אקדמיים מובילים בעולם הכלכלה. אני מקווה שמכוני מחקר ישראלים אחרים, משרד האוצר ובנק ישראל ילכו בעקבותיי בנושא זה).

נחזור לניתוח. תוצאות הבריאות הטובות של ישראל לא יפתיעו במיוחד את כל מי שקרוב לתחום הבריאות. אבל החלק המפתיע הוא אי השוויון בבריאות בישראל – מסתבר שהוא נמוך יחסית למדינות אחרות.

השוואה בין לאומית או לאורך זמן של אי שוויון היא תמיד בעייתית, מכיוון שאי שוויון הוא מאפיין של התפלגות הנתונים. כדי לומר משהו בעל משמעות, עלינו לסכם את ההתפלגות הזו לכדי מספר יחיד, ובמהלך הסיכום אנחנו מאבדים מידע, כמו, למשל, היכן בהתפלגות נמצאים הפערים. בנוגע להכנסות, בדרך כלל מסכמים את ההתפלגות הזו באמצעות מדד ג'יני, אשר מספק מספר בין 0 ל-1. ככל שהמדד קרוב יותר לאפס, כך התפלגות השכר יותר שוויונית. אבל יתכנו שתי מדינות שעבורן המדד שווה ל-0.5, כאשר בראשונה עיקר הפערים הם בין העשירון העליון לכל אלו שמתחתיו, ובשנייה עיקר הפערים הם בין העשירון התחתון לכל אלו שמעליו, או בין גברים לנשים, או בין צעירים למבוגרים, וכך הלאה.

בריאות היא נושא בעייתי למדידה וסיכום, מכיוון שישנם מימדים רבים אפשריים. אחד המימדים שקל יחסית למדוד אותו, וקיימים לגביו נתונים עבור כמעט כל מדינות העולם, ובחלקן לאורך מאות שנים, הוא תוחלת החיים. המשמעות של מדד ג'יני לתוחלת החיים דומה למדד ג'יני עבור הכנסות: המדד יהיה קרוב לאפס במדינות שבהן כל התושבים נפטרים בערך באותו הגיל (לא משנה אם מדובר בגיל 40 או בגיל 80), וקרוב לאחד במדינות שבהן חלק מהתושבים נפטרים בגיל מופלג, ואילו רבים אחרים מתים בגיל צעיר יותר. חישוב המדד מבוסס על טבלאות תמותה, שבהן מופיע הסיכוי למות בכל גיל. לפרטים נוספים על המתודולוגיה ראו כאן. הנתונים מגיעים מהאתר mortality.org, שמספק טבלאות תמותה עבור ישראל ומדינות אחרות, עבור עשרות ולעיתים מאות שנים (בספריית ה-GitHub שקישרתי אליה לפני כן ניתן למצוא את טבלאות הנתונים ואת הקוד המחשב את המדד באמצעותן).

לאור אי השוויון הגבוה יחסית בהכנסות בישראל, ובגלל פערי תוחלת החיים שניתן לראות בתרשים הקודם בין יהודים וערבים, ציפיתי שאי השוויון בתוחלת החיים בישראל יהיה גבוה יחסית, או לפחות ממוצע. אבל מסתבר שהוא דווקא נמוך למדי בהשוואה בינלאומית. התרשים הבא מציג את אי השוויון עבור עבור גברים ונשים יחדיו.

מדד ג'יני לאי שוויון בתוחלת החיים במדינות אחדות, 2014 – 2016

החיסרון של מדד ג'יני הוא שקשה לדעת היכן מרוכז אי השוויון. למשל, אחת האפשרויות שעליהן חשבתי היא שעיקר אי השוויון בתוחלת החיים הוא בין גברים לנשים, ועל כן חישבתי בעבודה גם את המדדים בנפרד עבור גברים ועבור נשים, אך לפי התוצאות, לא נראה שזה המקרה. אי השוויון בקרב גברים בד"כ מעט גבוה יותר מאי השוויון בקרב שני המינים יחדיו, ואי השוויון בקרב נשים בד"כ מעט נמוך יותר, אבל בסך הכל המספרים דומים. כך או אחרת, ניתן לראות שישראל היא בין המדינות השוויוניות ביותר, גם עבור גברים ונשים בנפרד.

מאפיין נוסף של אי השוויון בתוחלת החיים בישראל, שהוא פחות מפתיע, הוא מגמת ירידה ארוכת שנים:

מדד ג'יני לאי שוויון בתוחלת החיים בישראל, 1983 – 2016

נראה שבשנת 1983 אי השוויון בתוחלת החיים בישראל היה דומה לרמתו הנוכחית במדינות כגון לטביה וביילארוס. הירידה באי השוויון בתוחלת החיים איננה ייחודית לישראל, ומאפיינת מדינות רבות כבר למעלה ממאה שנים. היא נובעת מכך שתוחלת החיים "חסומה מלמעלה", לפחות במידה מסויימת. כלומר, בקרב אנשים בריאים ועשירים יחסית שנהנו מתזונה טובה ורפואה ברמה גבוהה כבר לפני עשורים רבים לא היה הרבה מקום לשיפור. אבל בקרב עניים שסבלו מקור ורעב, או בקרב אנשים שנולדו עם פגמים מולדים שונים ונטייה למחלות, תמותת הילדים הייתה גבוהה, היה מקום רב יותר לשיפור, ותוחלת החיים הממוצעת עלתה בקצב מהיר הרבה יותר מאשר תוחלת החיים של הבריאים.

נתונים אלו מעלים שאלות פילוסופיות בנוגע לדיון התקשורתי העוסק כמעט אך ורק באי השוויון בהכנסות ובעושר. האם לא נכון לטעון שאי השוויון בבריאות הוא חשוב לפחות כמו אי השוויון בהכנסות או בעושר, אם לא יותר? האם לא הגיוני להעניק לתוצאות האופטימיות האלו את אותו המשקל שהתקשורת מעניקה לתוצאות על הגידול באי השוויון בהכנסות?

בכל מקרה, למרות שאי השוויון בתוחלת החיים בישראל נמוך יחסית למדינות אחרות ונמצא במגמת ירידה, ישנו עדיין מקום לשיפור. ברשומות הבאות נבחן מיהן האוכלוסיות בישראל שיש להן רמת בריאות נמוכה יחסית, מהן הבעיות שבהן הכי חשוב לטפל, ונראה ממה הופתעו אנשי המקצוע בתחום כשהצגתי את המחקר בפניהם.

 

Read Full Post »

אמל"ק / השורה התחתונה

מדעני נתונים וכלכלנים שואלים שאלות מחקר אחרות, ולכן הם משתמשים בכלים אחרים ומוטרדים מבעיות אחרות, אבל מדעני נתונים יכולים להרוויח מהיכרות עמוקה יותר של נושא ההסקה הסיבתית, וכלכלנים יכולים להרוויח מהרחבת אופקים אל מעבר לרגרסיות.

 

הקדמה

בשנים האחרונות מתרחשת התפוצצות של ממש בתחום חדש-ישן המכונה "מדע נתונים" (data science), וספציפית בתת התחום "למידת מכונה" (machine learning). הסטטיסטיקה היא כמובן בת מאות שנים, ובתואר הראשון שלי בהנדסת תעשייה, לפני למעלה מעשור, כבר היו קורסים במה שנקרא אז data mining, אבל בעקבות הגידול בכוח המחשוב והזמינות הגבוהה של מסדי נתונים גדולים העסק נוסק בשנים האחרונות לגבהים חדשים.

מי הם מדעני הנתונים? על הצד הציני, יש שיאמרו שמדובר במיתוג מחדש לסטטיסטיקאים שמאפשר להם להרוויח משכורות של מתכנתים, או באפשרות להסבת מקצוע לדוקטורים מכל המינים והתחומים שלא מצאו את מקומם באקדמיה. על הצד היותר רציני, מדובר במקצוע מאתגר המחייב ידע בתכנות, לעיתים גם במתמטיקה, הבנה סטטיסטית עמוקה ויצירתיות, לשם טיפול במאגרי ענק של נתונים והפיכתם לתובנות ששוות הרבה מאוד כסף. במובנים רבים זהו מקצוע חדש, שעלה מהשטח, עקב הביקוש במגזר ההיי-טק.

מניסיוני ברשתות החברתיות ישנו מחסום קונספטואלי בין כלכלנים ובין מדעני נתונים, שבולט בכל פעם כשמגיעים לדיון טכני על רגרסיות ליניאריות ונושאים דומים. מכיוון שאני יודע שאחרי הבלוג עוקבים גם כלכלנים וגם מדעני נתונים, החלטתי להקדיש רשומה לניסיון לגשר על הפערים האלו. חלק מהמחסום נובע פשוט משמרנות דיסציפלינרית – רבים התרגלו לכלים שאותם למדו באוניברסיטה, והזלזול בתחומים אחרים הוא תירוץ נוח לבורות והישארות באזור הנוחות – אבל חלק מהמחסום נובע ממספר הבדלים חשובים אחרים.

אפשר לראות בפוסט הזה סוג של "מבוא למדע נתונים עבור כלכלנים", "מבוא לאקונומטריקה עבור מדעני נתונים" או פשוט שורה של מחשבות שעולות אצלי כמי שנע לראשונה מתחום אחד לשני.

 

שאלות מחקר שונות

כלכלנים באקדמיה, ובאופן כללי יותר חוקרים במדעי החברה, בד"כ רוצים להבין מה ההשפעה של משתנה מסביר מסויים (X) על משתנה מוסבר מסויים (Y). למשל, ההשפעה של רמת ההשכלה על השכר, ההשפעה של הגירה על שוק העבודה, או ההשפעה של בניית כביש חדש על אורך הפקקים. מדעני נתונים, לעומת זאת, בד"כ רוצים לחזות דברים. למשל, להבין מהו הסיכוי שאדם עם מאפיינים מסויימים שנכנס לאתר אינטרנט ירצה לקנות מוצר מסויים, או מהו הסיכוי שתמונה עם פיקסלים בצבעים מסויימים מתארת את הפנים של אדם מסויים. השוני בשאלות המחקר מוביל לשוני בכלים הנפוצים בכל תחום, ולמיקוד של חוקרים במדעי החברה ברגרסיות מסוגים שונים (ליניאריות, לוגיסטיות ועוד).

נראה דוגמה להבדל זה, המבוססת על נתונים שאני עובד עליהם כרגע במסגרת מחקר בפורום קהלת לכלכלה, שיפורסם בחודש הקרוב. שאלת המחקר הספציפית שבה נעסוק: מהי השפעת המעמד הסוציואקונומי על רמת הבריאות בישראל?

הנתונים מבוססים על הסקר ארוך הטווח של הלמ"ס, שבמסגרתו התבקשו המשיבים לדרג את רמת הבריאות שלהם לפי חמש קטגוריות. לצערי הנתונים אינם פומביים, ולכן איני יכול לחלוק כאן אותם ואת הקוד. אני מחלק את המשיבים לשתי קבוצות, אלו שטענו שרמת הבריאות שלהם "טובה מאוד" (כ-67% מהמשיבים שיש לגביהם נתונים מלאים) ולעומתם כל השאר. זהו משתנה התוצאה – שתי קטגוריות המתארות את רמת הבריאות. המשתנים המסבירים הם הגיל, המגדר, ההכנסה, ההשכלה, מקצוע פיזי (כגון בינוי או הפעלת מכונות כבדות), והשתייכות ללאום ערבי או לקבוצת החרדים.

אם נתעלם לרגע מנושא הסיבתיות, רגרסיה לוגיסטית (בלי רגולריזציה) מספקת תשובה פשוטה לשאלת המחקר: בהינתן גיל ומגדר, הכפלת ההכנסה תגדיל פי כ-1.22 את יחס ההסתברויות, שהוא ההסתברות להיות בעל רמת בריאות טובה מאוד חלקי ההסתברות ההופכית, והתוצאה מובהקת סטטיסטית ברמת מובהקות של 1%. כמובן, אם מעולם לא עסקתם ברגרסיות לוגיסטיות יתכן שהתשובה הזו נשמעת לכם כמו סינית, אבל תאמינו לי – זו תשובה פשוטה. ניתן גם להשוות את השפעת ההכנסה להשפעות של משתנים אחרים בקלות, ולראות מי מהם משפיע יותר. מסתבר שהשכלה משפיעה יותר מהכנסה, והחרדים הם בריאים במיוחד, או לפחות נוטים לענות באופן מאוד אופטימי על שאלות סובייקטיביות בנוגע לרמת הבריאות שלהם.

אחד הכלים הנפוצים בקרב מדעני הנתונים, שבו השתמש עמרי גולדשיין כדי לנתח שאלה דומה בבלוג שלו, הוא עצי החלטה. זוהי התוצאה של אלגוריתם עץ החלטה עבור אותם הנתונים, כשהוא מוגבל ל-3 רמות (לחצו על התמונה כדי להגדילה):

המשמעות של העץ יותר אינטואיטיבית מהרגרסיה הלוגיסטית. על מנת לקרוא את העץ עלינו להתחיל בריבוע העליון. בשורה הראשונה בכל ריבוע מצויין קריטריון ההחלטה, וישנם שני חצים – אמת (שמאלה) או שקר (ימינה). אם גילו של הפרט גדול מ-50 שנים נלך ימינה, ואם גילו קטן מ-50 שנים נלך שמאלה. אם הלכנו שמאלה, עלינו לבחון האם גילו גדול או קטן מ-41.5. אם הגיל הוא גבוה מ-41.5, אך נמוך מ-50.5, אנחנו מגיעים לריבוע שבו הקריטריון מבוסס על מקצוע פיזי. מקצוע פיזי הוא משתנה בינארי כאמור, השווה ל-1 עבור בעלי מקצועות פיזיים ו-0 אחרת. על פי העץ, התחזית לבעלי מקצועות פיזיים בגילאי 42 – 50 היא לבריאות שאיננה טובה מאוד, בעוד שהתחזית לאלו שאין להם מקצועות פיזיים בגילאים אלו היא לבריאות טובה מאוד.

מלבד הקריטריון, בכל ריבוע מצוין שיעור התצפיות הנמצאות בענף זה של העץ (samples), וכן חלוקתן בין פרטים עם בריאות שאיננה טובה מאוד (הערך הראשון ב-value) ובריאות טובה מאוד (הערך השני ב-value). ככל שצבעו של הריבוע כחול יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות טובה מאוד, וככל שהוא כתום יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות שאיננה טובה מאוד.

העץ מעניין מאוד (כשנפרסם את המחקר אני אפרסם בבלוג מספר עצים נוספים בנידון), אבל הוא לא מספק לנו תשובה חד משמעית לשאלת המחקר – השפעת ההכנסה על בריאות. על הצד החיובי, הוא מאפשר לנו לראות דפוסים שלא ראינו ברגרסיה. למשל, אנחנו יכולים לראות שישנה בעיה עם בעלי מקצועות פיזיים שגילם עולה על 41, ושהשפעת ההכנסה על הבריאות היא חשובה בעיקר עבור מבוגרים. יכולנו לראות את הדפוסים האלו גם ברגרסיה, אך לשם כך היינו צריכים להכניס "אינטראקציות" בין המשתנים מראש. העץ מגלה את הדפוסים האלו באופן אוטומטי, מבלי שנצטרך לחשוב עליהם בעצמנו ולעצב את משוואת הרגרסיה בהתאם. כלים אחרים הנפוצים בקרב מדעני נתונים, כגון random forest (שילוב של עצים רבים) או רשתות נוירונים, לא יוכלו להועיל כלל עבור שאלת המחקר שלנו. בניגוד לעץ, הכלים האלו מייצרים "קופסה שחורה" אשר קשה לפענח אותה ולהבין ממנה את השפעתם של משתנים שונים (אם כי random forest ועצים מספקים מדד לחשיבות המשתנים הנקרא feature importance).

אז מצד אחד, ברור שכלכלנים וחוקרים ממדעי החברה הנתקלים בשאלת המחקר שלנו, השפעת ההכנסה על רמת הבריאות, ישתמשו בעיקר ברגרסיות – פחות בגלל שהם מעולם לא שמעו על כלי אחר, ויותר מכיוון שהן מתאימות יותר ונוחות יותר עבור שאלות מחקר מעין אלו. העץ מספר לנו על אילו משתנים כדאי להסתכל על מנת להחליט אם אדם בריא או לא, אבל הוא לא יכול לספק לנו מספר יחיד העונה לשאלה ששאלנו, ואלגוריתמים אחרים המקובלים בקרב מדעני נתונים עוד פחות שקופים ממנו. רגרסיה כן מסוגלת. אך מצד שני, שימוש בעצי החלטה יכול לעיתים לעזור לחוקרים למצוא דפוסים מעניינים נוספים בנתונים, וכך להוות כלי עזר משלים לרגרסיה.

לעומת זאת, נניח שהנתונים הם אותם הנתונים, אבל שאלת המחקר היא אחרת. נניח שאתם רופאים, המעוניינים לחזות את הבריאות של מטופל חדש שנכנס למרפאה שלכם. אתם יודעים מהי הרמה של המשתנים המסבירים עבור המטופל החדש, אבל לא מהי רמת הבריאות שלו. איזה מודל יהיה מוצלח יותר בחיזוי?

על מנת לבדוק את שאלת החיזוי, נחלק את בסיס הנתונים לשני חלקים. החלק הראשון, 75% מהתצפיות שיבחרו באקראי, ישמש אותנו לאימון המודל. האלגוריתמים ינסו לבנות את מודל הרגרסיה או את העצים שיהיו מסוגלים להסביר באופן הטוב ביותר את רמת הבריאות עבור חלק זה. החלק השני ישמש אותנו לבחינת המודל על נתונים "חדשים", שלא שימשו לבניית המודל עצמו, וכך נראה באיזו מידה ניתן להכליל את המודלים ולהשתמש בהם לחיזוי.

התוצאות? מודל הרגרסיה הלוגיסטית הצליח לחזות נכונה את רמת הבריאות עבור כ-72% מהפרטים בחלקו השני של בסיס הנתונים, מודל העץ הצליח לחזות נכונה את רמת הבריאות של כ-70% מהם, ומודלים אחרים שניסיתי, כגון random forest ו-support vector machines הובילו לרמת דיוק נמוכה יותר. ניתן כמובן לבצע תהליך מסודר יותר של כיול הפרמטרים של המודלים השונים כדי לשפר את דיוק התחזיות.

הנקודה היא שלמרות שקיבלנו כאן שרגרסיה לוגיסטית קצת טובה יותר מהמודלים האחרים, בנוגע לתחזיות לרגרסיות אין יתרון עקרוני על מודלים אחרים. הכל תלוי במבנה הנתונים. אבל בנוגע לשאלת המחקר הנפוצה במדעי החברה – ההשפעה של X כלשהו על Y כלשהו – לרגרסיות יש יתרון עקרוני. מגניבים ומרשימים ככל שיהיו, האלגוריתמים האחרים פשוט לא נותנים לנו מספר יחיד המתאר את ההשפעה המותנית של המשתנה המסביר על משתנה התוצאה, בהנחה ששאר הגורמים שווים.

כתוצאה מההבדל בשאלות המחקר, התחושה של חוקרים במדעי החברה היא שמדעני נתונים לא ממש מבינים רגרסיות. בספר על למידת מכונה שקניתי רגרסיות מתוארות באופן שטחי למדי, אין עיסוק בכלל בשאלת המובהקות של האומדים, במולטיקוליניאריות, במשפט גאוס-מרקוב ובכל הנושאים האחרים שספרי לימוד באקונומטריקה מקדישים להם זמן רב. נראה שהחוקרים פשוט שופכים את כל המשתנים לרגרסיה בלי לחשוב יותר מדי, לעיתים גם עם כל האינטרקציות האפשריות ביניהם, ולא מסתכלים על המקדמים של המשתנים אלא רק על שיעור הדיוק בתחזית. לעומת זאת, התחושה של מדעני נתונים רבים היא שכלכלנים נעולים יותר מדי על רגרסיות ולא מתעניינים במודלים אחרים. שני הצדדים צודקים במובן מסויים – אלו פשוט שאלות מחקר אחרות.

ההבדל בשאלות המחקר מוביל אותנו לשני הפערים הבאים.

 

כלכלנים מאוד מוטרדים מסיבתיות, מדעני נתונים לא כל כך

בגלל המיקוד שלהם במדיניות, כלכלנים מעוניינים לאמוד השפעה סיבתית של גורמים שונים. בסמינרים מודרניים בכלכלה אמפירית רוב הדיון נע סביב סיבתיות: האם האפקט שהחוקר מצא מתאר השפעה סיבתית של ממש של המשתנה המסביר על משתנה התוצאה, או שמדובר רק בקורלציה שיכולה לנבוע מסיבתיות הפוכה, או מגורמים אחרים.

כתבתי על סיבתיות בהרחבה בעבר בבלוג (למשל כאן וכאן) ובשנתיים האחרונות לימדתי קורס שלם בנושא באוניברסיטת בראון. במדעים המדוייקים ניתן בדרך כלל למצוא השפעה סיבתית באמצעות ניסויי מעבדה, שבמסגרתם משנים רק פרמטר יחיד ושולטים על כל השאר, אך במדעי החברה ניסויים כאלו בלתי אפשריים. לצערנו, הטכנולוגיות הנוכחיות עדיין לא מאפשרות לנו להכניס מדינות שלמות למעבדה, או לחזור אחורה בזמן. בעשורים האחרונים כלכלנים פיתחו דרכים רבות להתגבר הבעיות האלו (אחת, שתיים, שלוש, ארבע), שרובן מתבססות על "ניסויים טבעיים" אשר מאפשרים לנו לדמות ניסויי מעבדה. כל אחת מהשיטות לאמידת השפעה סיבתית בנויה על הנחות מסויימות, ובדרך כלל עיקר המאמץ של כלכלנים אמפיריים מוקדש להצדקת ההנחות האלו, ולהראות שההשפעה עמידה להנחות שונות ומודלים שונים ואיננה נובעת מגורמים אחרים.

מדעני נתונים, לעומת זאת, מתעניינים פחות בסיבתיות, בגלל שאלת המחקר השונה שלהם.

נחזור לדוגמה שלנו, אודות השפעת ההכנסה על הבריאות. יתכן שרמת ההכנסה משפיעה על הבריאות דרך מנגנונים שונים, אבל יתכן גם שישנה סיבתיות הפוכה, כלומר רמת הבריאות משפיעה על רמת ההכנסה, מכיוון שהיא מגבילה את יכולתו של הפרט לעבוד – עניין רלוונטי בייחוד עבור גילאים מבוגרים יחסית. עבור הכלכלן הרוצה לאמוד את ההשפעה הסיבתית של הכנסה על בריאות זוהי בעיה חמורה; ההשפעה האמיתית של הכנסה על בריאות ככל הנראה נמוכה יותר מתוצאות הרגרסיות שתיארתי קודם לכן בגלל שהסיבתיות ההפוכה, ההשפעה של בריאות על הכנסה, עובדת באותו הכיוון. זו שאלה קריטית עבור מדיניות: אם ההשפעה ההפוכה היא המסלול העיקרי שבו עוברת הסיבתיות, כלומר הבריאות משפיעה על ההכנסה ולא להפך, קצבאות גבוהות יותר לעניים לא ישפרו את רמת הבריאות שלהם.

לעומת זאת, עבור מדען הנתונים, הרוצה לחזות את רמת הבריאות של אדם שאיננו נמצא במסד הנתונים, סיבתיות הפוכה איננה בעיה כלל. גם אם הסיבתיות עוברת מרמת הבריאות להכנסה ולא ההפך, המשתנה של הכנסה הוא עדיין מאוד שימושי על מנת לחזות את רמת הבריאות של אדם חדש כלשהו. כל מה שחשוב, זה האם המודל מאפשר לחזות את משתנה התוצאה באופן מדוייק עבור תצפיות חדשות.

 

מדעני נתונים מאוד מוטרדים מ-overfitting, חוקרים במדעי החברה לא כל כך

עצים, רגרסיות ומודלים אחרים לניתוח נתונים נבנים על בסיס נתונים מסויים. המשמעות של overfitting היא שהמודל הוא "יותר מדי מתאים" לבסיס הנתונים ששימש לבנייתו, ויהיה פחות נכון להכליל אותו לנתונים חדשים. ראו למשל את שני התרשימים הבאים:

הציר האופקי בתרשימים הוא רמת ההכנסה, ההפכי הוא מדד כלשהו לרמת בריאות, והעיגולים הכחולים הם תצפיות (זו דוגמה, ולא נתוני אמת). הקווים המקווקווים הם המודלים שלנו. בשני התרשימים אנחנו מעוניינים לחזות את רמת הבריאות באמצעות רמת ההכנסה, אך בתרשים הימני אנחנו בונים לשם כך מודל "מסובך" (למשל, פולינום מדרגה גבוהה), הקו המקווקו המתפתל בהתאם לנקודות, בעוד שבתרשים השמאלי אנחנו בונים לשם כך מודל "פשוט", קו ישר. המודל המסובך מתאים יותר לתצפיות שיש לנו, כלומר המרחק הממוצע בין הנקודות הכחולות אל הקו הוא נמוך יותר. אבל יתכן שהמודל המסובך מושפע יותר מדי מכל מני רעשים אקראיים ותצפיות קיצון, לא מבחין בינם ובין המגמה, ולכן יהיה גרוע יותר בחיזוי מיקומה של נקודה חדשה, בהשוואה למודל הפשוט.

בעיה זו נקראת overfitting. זוכרים את התחרות שתיארתי קודם לכן בין מודלים שניסו לחזות את רמת הבריאות, כאשר חילקנו את בסיס הנתונים לשני חלקים? אחד המודלים שהזכרתי היה support vector machine. שיעור החיזוי של מודל זה עבור החלק השני של הנתונים, החלק שלא השתמשנו בו לבניית המודל, היה הנמוך מבין הארבעה שבדקתי. אבל כשבחנתי את יכולת המודלים לחזות את רמת הבריאות בחלק הראשון של הנתונים, אשר שימש לבניית המודל, הוא היה במקום הראשון עם חיזוי של 93%. כלומר, המודל הותאם מאוד – ומסתבר שיותר מדי – למבנה הנתונים בחלק הראשון. הסיבה לכישלון שלו לחזות את החלק "החדש" של בסיס הנתונים הייתה overfitting לחלק "הישן" שלהם.

מכיוון שמדעני נתונים מעוניינים בחיזוי טוב עבור נקודות חדשות, הם מנסים להגביל את המודלים שלהם בדרכים שונות כדי שיהיו פשוטים יחסית (אבל לא יותר מדי), וכן משחקים עם הפרמטרים ובוחנים את עוצמת החיזוי של כל מודל על תצפיות "חדשות", שלא שימשו לבניית המודל, כדי להימנע מבעיית ה-overfitting. חוקרים במדעי החברה, לעומת זאת, מכירים את הנושא באופן כללי, אבל לפחות בתחום הנפוץ ביותר כיום בכלכלה, אמידת מודלים מסוג reduced form, אין יותר מדי עיסוק ב-overfitting, פשוט מכיוון שהוא לא חשוב כל כך לשאלת המחקר. לעיתים ישנו עיסוק בשאלת "התוקף החיצוני" – האם מסקנות המחקר תקפות למדינות אחרות / תקופות אחרות / סיטואציות אחרות – אבל בדרך כלל אין מדידה שיטתית של overfitting באמצעות הנתונים שיש ברשות החוקר, מכיוון שמדידה שכזו לא תלמד אותנו הרבה על שאלת התוקף החיצוני.

 

מדוע בכל זאת צריך לשבור את החומות שבין הדיסציפלינות?

למרות ההבדלים שציינתי, ישנן סיבות טובות לערבב את הדיסציפלינות השונות, כך ששני הצדדים ילמדו את כל הכלים.

מדעני נתונים יכולים להרוויח מהבנה עמוקה יותר של רגרסיות ושל הכלים שהזכרתי לאמידת קשר סיבתי, מכיוון שבחלק מהמקרים גם החברות שבהן הם עובדים נדרשות לקבל החלטת מדיניות הקשורה להשפעה הסיבתית של איזה שהוא X על איזה שהוא Y, או להתמודד עם מקרה שבו אי אפשר לעשות ניסוי של ממש. למשל, אולי חברת אמאזון הייתה רוצה לאמוד את השפעתם של מאפיינים של מדינות על רווחיה באותן מדינות, במטרה להחליט האם להיכנס למדינה חדשה כלשהי; זוהי שאלה המחייבת חיפוש אחר ניסויים טבעיים והסקה סיבתית. אני יודע על לפחות אדם אחד, עמית לשעבר לעבודה, אשר עובד באחת מחברות ההיי-טק הגדולות בישראל ומייצר דרך קבע "ניסויים חצי-טבעיים" כדי לאמוד השפעות סיבתיות באמצעות הכלים שהזכרתי. אני מניח שיש עוד כמוהו, ואין סיבה שרק כלכלנים יבצעו את המשימה הזו.

כלכלנים יכולים להרוויח גם הם מהכרה רחבה יותר של הכלים שבהם משתמשים מדעני נתונים, כפי שהראיתי בדוגמה של העצים. האקונומטריקאית סוזן את'יי פרסמה סדרה של מאמרים (אחת, שתיים, שלוש, ארבע), חלקם בשיתוף עם גוידו אימבנס, אשר דנים באופן עמוק בקשרים שבין אקונומטריקה ומדע הנתונים, ובאפשרויות להשתמש בכלי לימוד מכונה במצבים שונים, למשל לאמידת השלב הראשון (first stage) בעת שימוש במשתני עזר. כלכלנים רבים אחרים מפרסמים מאמרים דומים בשנים האחרונות, ולמידת מכונה יכולה גם לתרום לניתוח סדרות עיתיות הנפוץ במאקרו כלכלה, ולפעילות המחקרית השוטפת של בנקים מרכזיים המעוניינים למנוע משברים פיננסים. לאחרונה נפתח קורס בפקולטה לכלכלה של האוניברסיטה העברית שמוקדש לשילוב בין למידת מכונה ובין אקונומטריקה, ומכסה חלק מהנושאים האלו.

בעולם טוב יותר, חלק ניכר מהתארים באוניברסיטה היו מתחילים במספר קורסי בסיס של סטטיסטיקה, אקונומטריקה ולמידת מכונה עם שימוש בפיית'ון וב-R, מכיוון שהתחומים האלו רלוונטיים כיום לכל המדעים המדוייקים, להנדסה, למדעי המחשב ולמדעי החברה. יתכן שאני מוטה, אבל ממה שאני רואה סביבי יותר ויותר אנשים מתחומים שונים ומקצועות לימוד שונים מוצאים את עצמם עובדים בבנייה וניתוח של מאגרי נתונים ענקיים. אם פעם ביולוגים, סטטיסטיקאים, מהנדסי אלקטרוניקה, פיזיקאים, גיאוגרפים, מתכנתים וכלכלנים היו מגיעים בבוקר לעבודה, מתיישבים מול המחשב ופותחים כל אחד תוכנה אחרת, היום חלק ניכר מהם פותחים פלטפורמה כלשהי של פיית'ון, בוהים בטבלת נתונים ענקית ואז מתחילים לכתוב קוד. העיסוק בנתונים הפך להיות נפוץ ובסיסי כמו השימוש במחשב. מכיוון שזה כל כך כללי ונפוץ, אולי אף רצוי ללמוד חלק מהנושאים האלו כבר בתיכון. לצערנו, מערכת החינוך היא מאוד שמרנית בכל שלביה, השינוי לוקח זמן רב, וסביר שגם בעתיד יהיו חומות מתודולוגיות בין הדיסציפלינות, אם כי אני מעריך שהן ילכו וישחקו עם הזמן.

בפוסט הבא, שאפרסם בימים הקרובים, אני אתאר דוגמה לשימוש בכלים של מדעני נתונים על מנת לבחון שאלה ספציפית הקשורה להיסטוריה הכלכלית של מדינת ישראל: מתי הפכה ישראל למדינה מערבית?

Read Full Post »

בקייב, בירת אוקראינה, נפגשו בשנת 2004 שני חברים טובים ודמיוניים לגמרי שהמצאתי עבור הסטטוס הזה.

"אתה מצטרף להפגנות?", שאל הראשון, דגל כתום בידו. לכולם היה ברור שהבחירות לנשיאות זויפו, ושהמועמד הפרו-רוסי ויקטור ינוקוביץ' לא זכה באופן הוגן. המהפכה הכתומה הייתה בשיאה, מאות אלפים יצאו לרחובות, והתקשורת הבינלאומית סיקרה את ההפגנות בהרחבה. ריח של שינוי עמד באוויר.

"לא, אני נוסע עוד שבוע ללימודים בארה"ב", אמר השני. הוא לא חזר מעולם לאוקראינה.

עכשיו, שאלה פשוטה: מי מהשניים האלו פעל באופן יעיל יותר לשינוי חייו?

איני רוצה לטעון כאן שלמהפכה הכתומה לא הייתה שום השפעה – בית המשפט העליון באוקראינה ביטל בסוף את תוצאות הבחירות. אבל בשנת 2010 התקיימו בחירות נוספות, וינוקוביץ' נבחר לנשיאות. אוקראינה כיום עדיין קרועה בין המערב למזרח. האם המהפכה הכתומה באמת שינתה משהו, או שהייתה רק סימפטום למאבק פנימי אשר יעברו עוד לפחות כמה עשרות שנים לפני שיוכרע, אם בכלל?

אנשים נוטים לערבב בין מה שחכם לבין מה שמוסרי, מכיוון שבכל הסרטים והספרים שקראנו המוסריים הם גם החכמים שמנצחים בסופו של דבר. רגשות מוסריים ברמה האישית תורמים רבות ליכולת שלנו להתנהל כחברה מתורבתת, אבל ברמה הלאומית הם מעוורים אותנו. אין דבר קל יותר למי שרוצה למקסם לייקים, שיתופים ומנדטים מאשר לנצל את הרגשות האלו, וגם הימין וגם השמאל עושים זאת. אם יש משהו שהייתי רוצה לתרום לכם, לאנשים שבחרו לעקוב אחרי העמוד הזה, אז זו איזו שהיא תרופת נגד. חיסון.

נקפוץ ישר לדוגמאות הפרובוקטיביות: תושבי עוטף עזה המתמודדים עם הרקטות, תושבי דרום תל אביב המתמודדים עם המהגרים. העמדה המוסרית אומרת שעליהם להיאבק במסגרת המערכת הפוליטית על מנת שהממשלה תפתור את בעיותיהם. הם הרי לא אשמים בדבר. העמדה הפרקטית אומרת שאם היה ניתן לפתור את הבעיות האלו בקלות הן כבר היו נפתרות מזמן, ושיותר מעשי מבחינתם פשוט לעבור דירה.

שני הפתרונות היעילים ביותר ברמה האישית לכל בעיה עלי אדמות הם הגירה וכסף. אנשים עשירים ואנשים שלא חוששים להגר לאזור אחר או למדינה אחרת תמיד יחמקו מאסונות וישפרו את חייהם בקצב מהיר יותר מאחרים, לא משנה מהם מטרותיהם. לעומת זאת, אלו התולים את תקוותיהם בשינוי פוליטי כלשהו יהיו הראשונים למות בשדה הקרב, להינמק בכלא, או שסתם יבלו את שארית חייהם באכזבה מרירה.

אין לי משהו עקרוני נגד הצעירים הצועדים בהתלהבות עם שלטי קרטון צבעוניים. זה באמת נחמד וכיף. אבל נפלא מבינתי כיצד אנשים שעברו את גיל 25 וסיימו בגרות בהיסטוריה באמת חושבים שזה ישנה משהו. מהן הדוגמאות שלכם? השחורים בארצות הברית של שנות השישים? המהפכה הפמיניסטית? ברצינות?

אז קודם כל, נסו לתפוס שיחה עם איזה שהוא אקטיביסט שחור או אקטיביסטית פמיניסטית ושאלו אותם האם לדעתם המהפכות האלו הצליחו. ושנית, שימו לב שמדובר בשני מאבקים שהחלו עוד במאה ה-19, ומשקפים שינוי תרבותי עמוק, איטי והדרגתי מאוד. ושלישית, אלו רק 2 דוגמאות מתוך אינספור הפגנות ומחאות שהובילו צעירים אופטימיים בשלל מדינות.

גורלה של המהפכה הכתומה באוקראינה או מחאות "האביב הערבי" הם הסיפור הנפוץ. התמונה המצורפת לסטטוס הזה, של אנשים המחליפים פוליטיקאים מסוימים בפוליטיקאים אחרים, זהים להם, היא הסיפור הנפוץ.

אין לי משהו עקרוני נגד פוליטיקאים. הם לא רעים ולא פסיכופטים, וחלקם באמת רוצים לשנות דברים לטובה. אבל הם מחושקים ומוגבלים מכל כך הרבה כיוונים, שבדרך כלל אין להם שום יכולת לשנות דברים חשובים. אני יכול לכתוב להם שאני בעד או נגד הצעת מדיניות כלכלית ספציפית, ולפעמים זה עוזר, אבל לצפות שהם ישנו את הסטטוס קוו של יחסי דת ומדינה בישראל? לצפות שהם יחסלו את ההסתדרות? אלו פשוט לא דברים שקורים ללא משבר קיומי עמוק (למשל מהסוג שהתרחש כאן בתחילת שנות השמונים).

"מתי בפעם האחרונה דמיינת משהו טוב"?

כך כתב לי מישהו לפני מספר ימים, בהמשך לביקורת שלי נגד מחאתם של ההומוסקסואלים (ראו כאן וכאן). רבים אחרים כותבים לי דברים דומים: "למה אתה תמיד נגד כל מאבק חברתי? למה צריך להיות ציני ורציונלי כל כך? אנשים ציניים שיושבים בבית אף פעם לא משנים את העולם!"

אז הנה התשובה שלי: כן, אני מדמיין לא מעט דברים טובים. אך הדברים הטובים האלו לעולם – אבל לעולם – לא כוללים שינוי חברתי הנכפה מלמעלה על ידי ממשלה. אני מדמיין דברים טובים כשאני משחק עם הבן שלי, כשאני יוצא לסרט ביחד עם אשתי, אני מנסה לדמיין כיצד אני יכול להפוך את החיים שלנו לטובים יותר, למעניינים יותר, לחסינים יותר בפני מגמות דמוגרפיות ופוליטיות שאין לי שום יכולת לשלוט בהם.

אם אתם מדמיינים משהו טוב יותר, עשו זאת מול המראה. נסו לשאול את עצמם מה אתם עושים על מנת להגשים את החלום שלכם. האם סטטוס זועם בפייסבוק או הצטרפות למחאה בכיכר רבין הם הדרך היעילה ביותר להשיג את השינוי? האם זו הדרך האמיצה ביותר? באמת?

Read Full Post »

ראשית כל, אני רוצה להודות למספר תורמים שתרמו לאחרונה לחשבון הבלוג. התרומות שלכם משמעותיות עבורי, תודה רבה!

בחודשים האחרונים פרסמתי בפייסבוק מספר "ביקורות סרטים" שזכו לפופולריות רבה, אז החלטתי לחלוק אותן גם עם העוקבים פה. תהנו…


בשנת 1839 החליטו שלטונות סין שנמאס להם מסוחרי האופיום האנגלים, ופרצה מלחמת האופיום הראשונה. אך המלחמה לא הסתיימה כפי שתכננו הסינים: צי בריטי זעום של ספינות תותחים משוריינות נקנק ללא מאמץ מיוחד את הצי הקיסרי המפואר, ובסופה של המלחמה נאלצו הסינים לחתום על חוזה נאנקינג המשפיל. הניצחון הבריטי היה אירוני למדי, לאור העובדה שאבק השריפה פותח לראשונה בסין, וגם מבחינת עיבוד מתכות היו הסינים מתקדמים יותר מהאירופאים במשך מאות שנים.

כיצד הצליחה אירופה לעקוף את סין בסיבוב? ובכן, סרט התעודה ההיסטורי החשוב קונג פו פנדה 2 מספק את אחת התשובות המרכזיות לשאלה.

הסרט דן בהתרחשויות מוקדמות הרבה יותר, בתקופה שבה סין הייתה עדיין מנותקת מהמערב. אציל סיני צעיר בשם שן, בנם של מלכי העיר גונגמן, מפתח תותח חדש ומשוכלל. אך בסין שוררת עוינות כנגד קדמה טכנולוגית: הוריו של שן חוששים כל כך מההמצאה החדשה שהם מחליטים לגרש את בנם היחיד מהעיר. היזם הצעיר והנחוש לא מוותר, ממשיך לשקוד על המצאתו, ודוחה על הסף כניעה לאמונות תפלות כגון נבואות החורבן של מגדת עתידות קשישה.

שן מצליח להשתלט על הארמון לאחר מותם של הוריו, ומנסה להדגים לתושבי העיר את עוצמתה של הטכנולוגיה החדשה, המסוגלת להפוך את עירם לבירתה של אימפריה רבת עוצמה. אך במקום התלהבות הוא זוכה להתנגדות אלימה מצד כתות דתיות ומיסטיות, ובראשם לוחמי הקונג-פו האגדיים.

התותחים של שן מובילים לתהליכי תיעוש מהירים ולקדמה טכנולוגית נוספת בעיבוד מתכות, אשר יכולה לזלוג לסקטורים נוספים ולהוביל למהפכה תעשייתית סינית שתקדים את אירופה במאות שנים. אך כמובן, נשק חם יפגע במעמדם של בריונים אלימים שהסתמכו עד כה על כוח שריריהם על מנת לסחוט מהעם סובסידיות למנזריהם הנאים. על כן, לוחמי הקונג-פו מנסים להרוס את מכונותיו של שן ולחבל במפעל שלו, תוך הפרחת סיסמאות חסרות משמעות אודות שלווה פנימית והרמוניה עם הטבע במטרה להסית את ההמונים כנגדו.

מכיוון שטכנולוגיית התותחים עדיין בחיתוליה, ותודות לעוינות הרווחת לקדמה טכנולוגית, מצליחים בסופו של דבר לוחמי הקונג-פו לעצור את צבאו של שן ולהביא לנסיגה טכנולוגית. כמה מאות שנים לאחר מכן, כאמור, ספינות התותחים הבריטיות יהפכו את צאצאיהם של לוחמי הקונג-פו האגדיים לערימות אפר אגדיות.

כמובן, סין איננה יוצאת דופן. עוינות כלפי קדמה טכנולוגית היא תכונה אנושית הנפוצה בכל ציוויליזציה. למשל, גילדות מקצועיות באירופה ניסו פעם אחר פעם לעצור קדמה טכנולוגית בתחומן, לעיתים על ידי פגיעה פיזית בממציאים, ובתקופת המהפכה התעשייתית הלודיטים בבריטניה חיבלו במכונות החדשות. אך התחרות בין המעצמות השונות באירופה לא איפשרה למנהיגים להתעלם לאורך זמן מפריצות דרך בנושא התותחים, בתעשיית הטקסטיל, בחקלאות ועוד. באירופה מקביליו של שן זכו לחסותן של לפחות אחת מהמעצמות הגדולות, וכן למימון עבור מחקר ופיתוח. וכך, בסופו של דבר, עקפה אירופה את סין בסביבוב.

כיום, כמעט מאתיים שנה לאחר מלחמות האופיום, צאצאיהם של האירופאים זוכרים היטב את מורשתם הטכנולוגית אשר הובילה לשליטה עולמית. על כן, סרטים רבים המופקים בהוליווד מדגישים את דמותו החיובית של היזם הטכנולוגי. שן, גיבור הסרט קונג-פו פנדה 2, מצטרף לחבורה מכובדת של יזמים-גיבורים אשר נאבקים כנגד שמרנותה הטכנולוגית של החברה, ביניהם לקס לות'ור (סופרמן), הנרי וו (פארק היורה), נורמן אוסבורן (ספיידרמן) ועוד.


ביקורות סרטים קודמות:

אגודת המשוררים המתים

רובין הוד

אווטאר

 

 

Read Full Post »

Older Posts »