Feeds:
פוסטים
תגובות

השבוע, בתזמון לא מוצלח במיוחד, הגיע לחנויות הספר החדש שכתבתי בשיתוף עם פרופ' עודד גלאור מאוניברסיטת בראון. כתבתי על הספר הזה כל כך הרבה ברשתות החברתיות, ושכחתי שישנם מנויים לבלוג הזה שאינם נמצאים ברשתות החברתיות והספר בוודאי יכול לעניין אותם.

הספר עוסק בשתי שאלות עיקריות:
1. מדוע לאורך רוב תולדות האנושות רמת החיים לא השתנתה, ואז החלה לנסוק לפתע לפני כ-200 שנים.
2. מדוע הנסיקה הזו התרחשה מוקדם יחסית בחלק מהמדינות, וכך הובילה לפערי העושר הנוכחיים בעולם.

עודד גלאור הוא אחד החוקרים המובילים בעולם בתחום הספרות של צמיחה כלכלית, אשר מנסה לענות על השאלות הללו, ויזמתי את כתיבת הספר לאחר שנפגשנו באוניברסיטת בראון והתחלתי להקשיב להרצאותיו. אני שמח שהוא נענה ליוזמה, ובמהלך הכתיבה למדתי ממנו המון. מבחינתי, המטרה של כתיבת הספר הייתה המסע האינטלקטואלי האישי שלי להבנה עמוקה יותר של ההיסטוריה האנושית, וכן הפצה לציבור הרחב של הידע המבוסס על מחקריהם של מאות כלכלנים והיסטוריונים.

אני אצטט את הכריכה האחורית שכתב עבורנו העורך המצויין של כנרת, יובל אלעזרי:

במשך אלפי שנים הסיפור חזר על עצמו.
שוב ושוב ושוב.

מזמן לזמן המציאו בני האדם טכנולוגיה חדשה שהגדילה מאוד את כושר הייצור שלהם, וכתוצאה מכך נוצרו עודפי מזון שהגדילו את עושרה של האוכלוסייה. אבל לשיפור הזה התלוו גם עלייה בילודה וירידה בתמותת התינוקות, ואלה הביאו לעלייה בצריכה ולחזרה של בני האדם לרמת החיים של אבותיהם.

כך נמשך הסיפור במשך מאות אלפי שנים עד שלפני מאתיים שנה בקירוב, בעקבות המהפכה התעשייתית, החלה עוד נסיקה ברמת החיים של בני האדם. אלא שבפעם הזאת, בניגוד לכל הפעמים הקודמות, העלייה ברמת החיים לא הובילה להתרסקות ולחזרה אל נקודת ההתחלה. בפעם הזאת בני האדם השתחררו מהמלכודת, ותקופת השגשוג נמשכה עוד ועוד, עד היום.

בספר מרתק ושובר מוסכמות בודקים פרופ׳ עודד גלאור וד״ר אורי כץ מהם הכוחות שהניעו את תהליך ההתפתחות של האדם, מה אִפשר להם להיחלץ ממלכודת העוני, מי זינק להצלחה ועושר (ומדוע) ומי נשאר מאחור. בתוך כך הם סוקרים את תולדות המין האנושי מאז הופעת האדם הנבון ועד ימינו, תוך שהם מדלגים בתיאוריהם מהסוואנות של אפריקה אל המפעלים המודרניים הראשונים של בריטניה ומהמהפכה הניאוליתית אל הרעב הגדול באירלנד, ומחברים את חלקי הפאזל של ההיסטוריה האנושית לתמונה אחת כוללת.

ניתן גם להזמין את הספר או להוריד עותק אלקטרוני בחנויות הדיגיטליות, למשל כאן. השקעתי בספר הזה שעות עבודה רבות במשך למעלה משנתיים, ואני מקווה שתהנו מהתוצאה.

"לא רציתי לחיות בזמנים מעניינים", כתב אחד מעמיתי לעבודה לאחרונה. אף אחד מאיתנו לא רצה. אבל קרה המקרה, ודווקא על כתפי הדור שלנו נופלת המעמסה של התמודדות עם הזמנים המעניינים האלו. איננו יודעים עוד עד כמה חמור יהיה המשבר, אבל הסימנים אינם מעודדים. מדינות לא יהיו מוכנות לתת לשיעור ניכר מאזרחיהן למות במחלה, וכדי למנוע זאת ידרשו משאבים – משאבים עבור מערכת הבריאות, משאבים על מנת להתמודד עם האבטלה והפגיעה הכלכלית מהסגר והבידוד, משאבים על מנת לייבא מוצרים חיוניים. המון משאבים. המילה "משאבים" לא מייצגת רק כסף במובן הישיר והפשטני: הממשלה למעשה גייסה חלק ניכר מהאוכלוסייה על מנת להילחם במגיפה באמצעות השארתם בבית בבידוד, בדומה לגיוס מילואים המוני על מנת להתמודד עם מלחמה.

כפי שלומדים בשיעור הראשון בפקולטות לכלכלה, המשאבים הם תמיד במחסור ביחס לצרכים. למרות הרושם שפוליטיקאים מסוימים מנסים ליצור, לממשלה אין עצי כסף נסתרים, וכל מקורותיה מגיעים ממשלמי המיסים. אבל בתקופה כזו המחסור במשאבים יהיה חמור ובולט עוד יותר. על כן, השאלה המרכזית המרחפת מעל המדיניות הכלכלית כרגע היא כיצד נחלק את המשאבים.

ישנם שלוש קבוצות של ישראלים שיכולות לשאת בנטל משבר הקורונה. הקבוצה הראשונה היא "פשוטי העם" – עצמאיים ושכירים בפירמות שונות, אשר נושאים בנטל באמצעות תשלום מיסים, חלקם כבר הוצאו לחל"ת או סגרו את העסקים, ורבים נוספים מהם עלולים עוד לאבד את עבודתם אם המשבר יתמשך. הקבוצה השנייה היא "מעמד הקביעות", והיא כוללת גברים ונשים שהכנסתם מובטחת ואיננה תלויה בתנאים הכלכליים, כגון בעלי הקביעות המוגנים במסגרת הוועדים הגדולים ומקבלי הפנסיה התקציבית. קבוצה זו נושאת בנטל רק באמצעות תשלום מיסים, והם לא צפויים לאבד את עבודתם. הקבוצה השלישית היא "עובדי העתיד", אשר יגיעו לשוק העבודה בעוד שנים רבות, אך אנחנו יכולים להיעזר בהם כבר עכשיו באמצעות הגדלת חובות המדינה שהם יצטרכו להחזיר.

כפי שמים מתנקזים במורד ההר בנתיב המהיר ביותר שמכתיב להם כוח הכבידה, כך גם מדיניות כלכלית נוטה להתנקז בנתיב הקל ביותר עבור הפוליטיקאים, כפי שמכתיבות להן קבוצות האינטרס החזקות. על כן, באופן טבעי, עיקר הנטל של משברים נופל על פשוטי העם ועל עובדי העתיד. אך הנתיב הקל אינו בהכרח הנתיב הנכון.

הבעיה עם העברת הנטל לעובדי העתיד היא שתודות לשר האוצר משה כחלון, הגירעון בישראל היה גבוה עוד לפני המשבר. החובות היו עתידים לגדול ממילא, גם בלי הקורונה. עובדי העתיד כבר נושאים בנטל כבד למדי. יש המתנחמים בכך שהחוב עמד על כ-60% מהתוצר בישראל ערב המשבר, מספר נמוך לכאורה, אך זו טעות. החובות יצמחו במהירות רבה בקרוב, מכיוון שתקבולי המיסים יפגעו מהמשבר. ישנן מדינות מפותחות רבות עם רמת חוב נמוכה הרבה יותר מישראל, כגון אוסטרליה, נורווגיה, דנמרק, שוודיה, דרום קוריאה, טיוואן ושוויץ. אין שום סיבה שנשאף לממוצע בנושא זה, ולמעשה יש סיבה טובה לשאוף להיות הרבה מתחת לממוצע מבחינת גודל החובות: מצבה הביטחוני של ישראל מורכב, והסיכוי למלחמה שתדרוש גידול מהיר בחוב הוא גבוה משמעותית מאשר בשאר המדינות. מגיפת הקורונה תחלוף בסופו של דבר, אך הסיכוי למלחמה יישאר, ואנחנו זקוקים למשאבים של עובדי העתיד על מנת להתמודד עמו.

זה משאיר את פשוטי העם לבדם במערכה, נושאים גם בנטל הפיטורים וגם בנטל המיסים. אך גם ההסתמכות עליהם בעייתית, מכיוון שהם אלו שמממנים את פעילות הממשלה. אם עסקים יקרסו והאבטלה תגדל, העלאת נטל המיסים לא תעזור מכיוון שלא יהיה מי שישלם את המיסים הללו. אי אפשר לעזור לעסקים באופן משמעותי, למשל באמצעות הטבת מס המונית, מכיוון שאז לא ישארו לממשלה מקורות למאבק נגד הנגיף. פשוטי העם לא יכולים גם לממן את המלחמה בקורונה וגם את דמי האבטלה והסובסידיות לעצמם, בטח שלא כשהם מובטלים.

ישנה דרך אחרת. ממשלה אמיצה יכולה לדרוש גם מבני האצולה של מעמד הקביעות לשאת בחלק משמעותי יותר מהנטל, באמצעות הפחתת שעות עבודה ושכר בהתאם במגזר הציבורי, ואולי אף קיצוץ זמני בפנסיות התקציביות. מהלך משמעותי בכיוון הזה יאפשר לשחרר כמות משמעותית של משאבים לטובת מערכות הבריאות והרווחה, ויאפשר לעזור לעצמאיים באמצעות דחיית תשלומי מס.

מדיניות אשר מחלקת את הנטל באופן שווה תהיה לא רק הוגנת יותר, אלא גם יעילה יותר מבחינה כלכלית. מדיניות צנע המתבטאת במיסוי גבוה יותר וקיצוץ הוצאות ממשלה על נושאים כגון הקמת תשתיות ותשלומים לספקים פוגעת בפעילות הכלכלית ובתמריצים להשקיע ולעבוד, בעוד שהפחתת שכר ושעות עבודה במגזר הציבורי, שחלק ניכר ממנו ממילא לא נדרש בתקופה הקרובה, איננה פוגעת בכך. העברת חלק מהנטל למגזר הציבורי תמנע את הסחרור אל התחתית, של מדיניות צנע הפוגעת בתקבולי המיסים ומחייבת צנע חריף עוד יותר.

מאבק כנגד מעמד הקביעות אינו פשוט מבחינה פוליטית. ההסתדרות כבר מנהלת בכל העוצמה מאבק נגדי, במטרה למנוע את הפגיעה. ההיסטוריה מלמדת אותנו שגם בזמני משבר, חלק ניכר מהפוליטיקאים בישראל ובמדינות אחרות נוטים להעדיף שיקולים פוליטיים קצרי טווח על פני פעולה אמיצה ואחראית, לפחות עד שהמשבר מגיע לשלב שבו אין שום ברירה אחרת. אך בכל אחד מהמשברים שחוותה המדינה התקיימו בישראל גם מנהיגים שהתאפיינו באחריות, בדאגה אמיתית לשלום הציבור ובחזון ארוך טווח, והיו מסוגלים לעמוד בפני הלחצים ולעשות את הדבר הנכון. על מקבלי ההחלטות כיום לשאול את עצמם כיצד הם מעוניינים שההיסטוריה תזכור אותם.

שתי הערות חשובות בנוגע למשבר הקורונה המתפתח:

1. גירעון

לאחרונה מתרבים הקולות הקוראים להעלאת הגירעון. החוכמה המקובלת הרי אומרת שזה מה שעושים במשבר – מגדילים חובות והוצאות כדי להמריץ את המשק. אבל זה לא מה שהפוליטיקאים רוצים, הם מעוניינים להגדיל את הגירעון בשביל להגדיל את הוצאות הביטחון, ובהמשך גם בשביל כל מני הסכמים קואליציוניים והסכמי השכר עם המורים והרופאים. אלו לא דברים שממריצים את המשק. הקורונה היא רק תירוץ.

מלבד זאת, אנחנו עדיין לא במשבר. הקניונים עדיין מלאים, רוב מכריע של האנשים עובדים, האבטלה לא גדלה בינתיים. אולי נהיה במשבר עוד שבוע, עוד חודש, אולי לא. אולי נצטרך להזניק את תקציב הבריאות לשמיים. אולי נצטרך לקצץ את השכר במגזר הציבורי. אולי נצטרך את הכסף בשביל דברים אחרים שקשה לצפות. אולי הקורונה תכה בעולם במספר גלים במשך שנתיים-שלוש, כמו מגיפות אחרות, ונהיה זקוקים לאורך נשימה. אולי ההיסטריה תסתיים בעוד חודש.

אנחנו לא יודעים מה יקרה, יש אי וודאות עצומה, והדבר החכם לעשות במצב של אי וודאות הוא דווקא לשמור על גירעון נמוך, כדי שאם תגיע המכה נוכל להתמודד איתה. זו טעות לשחרר את הרסן מעל הפוליטיקאים כבר כרגע, ולאפשר להם להגדיל את תקציב הביטחון ואת ההתחייבויות לארגוני העובדים.

 

2. להציל את המלח, לא את האונייה

במהלך משברים כלכליים פירמות פחות יעילות נוטות לקרוס. בטווח הקצר התוצאה היא אבטלה גבוהה, אך בטווח הארוך יותר ההון האנושי והפיזי המושקע בפירמות האלו עובר לפירמות יעילות יותר ולענפים משתלמים יותר, שהם מספיק רווחיים כדי לשרוד משבר זמני. לחילופין, הפירמות הכושלות יכולות לפשוט את הרגל ולהירכש על ידי בעלים חדשים.

אין סיבה שהממשלה תתערב ותעצור את התהליך הזה, כפי שההסתדרות כבר הזדרזה לדרוש. אם תהיה אבטלה המונית אז ראוי לעזור למובטלים באמצעות דמי אבטלה לתקופה ארוכה יותר ובאמצעות הכשרות מקצועיות – לכל המובטלים בכל סוגי הפירמות, בלי קשר להיותם מאוגדים בוועדי עובדים או לכוח הפוליטי של מעסיקיהם. בכל מקרה אין סיבה לעזור לפירמות ולסבסד בעלי הון.

 

הערה: הרשומה פורסמה במקור בבלוג באתר "הארץ".


ברשומות הקודמות בסדרה (ראו כאן וכאן) עסקנו באי השוויון בבריאות בישראל, ובהיעדר ההשפעה של הגיאוגרפיה על משתנים בריאותיים, בהמשך למחקר החדש שפרסמתי במסגרת עבודתי בפורום קהלת לכלכלה. ראינו שמאפיינים כגון השכלה, הכנסה והשתייכות לקבוצות אוכלוסייה שונות משפיעים על רמת הבריאות, אבל כיצד? ברשומה זו נצלול עמוק יותר אל תוך הנתונים, וננסה לענות לשאלה זו.

בסקרי הלמ"ס מופיעים מספר משתנים התנהגותיים הקשורים לרמת הבריאות, וניתן להשתמש בהם כדי לראות הבדלים בהתנהגות בין קבוצות שונות. מסתבר כי לבעלי השכלה גבוהה ישנו סיכוי נמוך יחסית להיות במשקל עודף, הם שותים פחות משקאות מתוקים, אוכלים יותר פירות וירקות, מבצעים יותר פעילות גופנית וכך הלאה. ההכנסה משפיעה גם היא על הנושאים האלו, אבל השכלה חשובה יותר. לעומת זאת, ערבים ובעלי הכנסות נמוכות נוטים שלא לקיים פעילות גופנית, לשתות יותר משקאות ממותקים, לעשן יותר וכדומה, ביחוד אם הם אינם משכילים. מעניין אגב לציין שחרדים אינם מאופיינים בהתנהגות בריאה יחסית לממוצע, וסובלים מהשמנת יתר, ולמרות זאת מדדי הבריאות שלהם חיוביים למדי – כולל מדדים אובייקטיביים כגון שיעורי תמותה ביישובים חרדיים.

הנתונים ברמת היישוב מאפשרים לי לבחון גם את גורמי התמותה העיקריים ביישובים שונים. באחד הניתוחים חילקתי את היישובים לארבע קבוצות שונות, עבור שני צירים של השוואה: יישובים יהודיים לעומת יישובים ערבים, ויישובים יהודיים עשירים יחסית לעומת יישובים יהודיים עניים יחסית. המטרה כאן היא להבין אילו גורמי תמותה הם משמעותיים עבור פערי הבריאות בין הערים.

התרשים הבא נקרא Violin plot, והוא מציג את ההתפלגויות של ארבע קבוצות היישובים מבחינת שיעור התמותה באופן נוח להשוואה. הנתונים מתוקננים להתפלגות הגילאים השונה ביישובים שונים. מצד שמאל באדום מופיעה ההתפלגות של יישובים יהודיים (עם ממוצע מעט נמוך מ-5), מולה בכחול מופיעה ההתפלגות של יישובים ערביים, ולאחר מכן ישנן ההתפלגויות של יישובים יהודיים עשירים יחסית (שוב באדום) ושל יישובים יהודיים עניים יחסית.

פערים בשיעור התמותה בין קבוצות יישובים

ניתן לראות בתרשים שמבחינת הממוצע היישובים היהודיים העניים דומים ליישובים הערביים, אך ליישובים הערביים יש "זנב" עליון שכולל מספר יישובים עם תמותה גבוהה במיוחד (ג'סר א-זרקא, תל שבע, אכסאל ופוריידיס מובילות את הטבלה), בעוד שליישובים היהודיים העניים יש זנב בכיוון ההפוך, כלפי מטה, שכולל יישובים חרדיים עניים עם תמותה נמוכה במיוחד, כגון מודיעין עילית, אלעד ובית"ר עילית.

התרשימים הבאים מתייחסים לגורמי תמותה ספציפיים.

פערים בגורמי תמותה שונים בין קבוצות יישובים

נראה כי בהשוואה לתושבי יישובים יהודיים עניים, תושבי היישובים הערביים סובלים יותר ממחלות לב וריאה, והרבה יותר מסכרת. לפי שיחות שערכתי עם מומחים ישנו קשר בין מחלות לב ובין סכרת, ולכן קשה להפריד בין תמותה משני הגורמים האלו. לעומת זאת, תושבי היישובים הערביים סובלים פחות מסרטן בהשוואה לכל שאר הקבוצות, ובהשוואה ליישובים יהודיים עניים הם סובלים פחות ממחלות זיהומיות.

כדי לנסות להבין עד כמה הפערים משמעותיים, ביצעתי מן "חישוב מעטפה" גס שמתאר כיצד כלל פערי התמותה מתחלקים בין הגורמים. זהו אינו חישוב מדוייק, מכיוון שאין לי את הנתונים המתאימים לגבי תמותה בקרב כלל האוכלוסייה, אלא רק עבור גילאים מסויימים, וכן יתכן שחלק מגורמי התמותה חופפים והאבחנה ביניהם היא לעיתים שרירותית. להלן התוצאות:

התחלקות פערי התמותה בין הגורמים השונים

הגורמים העיקריים לפערים בין יישובים ערביים ויישובים יהודיים הם סוכרת ומחלות לב, המסבירים לבדם למעלה ממחצית ההפרש. הפערים בין יישובים יהודיים עשירים ועניים אינם מוסברים ברובם על ידי הגורמים שצוינו למעלה, אם כי תמותה מסוכרת וממחלות זיהומיות מהוות ביחד כחמישית מההפרש. חשוב לציין שהפערים בתמותה לא בהכרח מרמזים על הפערים במדדי בריאות אחרים. למשל, אם היינו יכולים לבדוק תוחלת חיים ייתכן שגורמים המשפיעים על מוות בגיל צעיר, כגון תאונות דרכים (הנכנסות כאן תחת "סיבות חיצוניות"), היו משמעותיים יותר.

המסקנות מהתוצאות האלו, וכן מהתוצאות שתיארתי בשתי הרשומות הקודמות, הן שמדיניות בריאות נבונה תתמקד בבעיות כגון סכרת, השמנת יתר, עישון והיעדר פעילות גופנית בקרב ערביי ישראל, וכי רצוי גם להעניק תשומת לב מיוחדת למועסקים במקצועות פיזיים. אין סיבה למקד את הדיון בפערים בין הפריפריה והמרכז, מכיוון שהיעדר תשתיות בפריפריה היא ככל הנראה לא בעיה משמעותית כיום בישראל. מלבד זאת, ראוי לבחון את האופן שבו הצליחו החרדים לנתק את הקשר הנפוץ בכל מדינה ובכל תקופה בין רמת ההכנסה וההשכלה ובין רמת הבריאות. רק התעמקות בנתונים יכולה לאפשר לנו לתכנן מדיניות אשר תמנע בזבוז כספים, ותתרום לרווחתם של אזרחי המדינה הזקוקים במידה הרבה ביותר למערכת הבריאות הציבורית.

הערה: הרשומה פורסמה במקור בבלוג באתר "הארץ".


ברשומה הקודמת שפרסמתי עסקנו בתוצאות המפתיעות של המחקר החדש שלי לגבי אי השוויון בבריאות בישראל. למרות שאי השוויון בבריאות בישראל הוא נמוך יחסית למדינות אחרות, הפערים בין האוכלוסיות השונות אינם זניחים. ממה הם נובעים?

מסתבר שרבים בכלי התקשורת, במשרד הבריאות ובקהילה המחקרית מאמינים שרמת הבריאות מושפעת באופן משמעותי ממקום המגורים שלך. ישראלים שמתגוררים בפריפרייה, לטענתם, סובלים מהזנחה ממשלתית, מהיעדר תשתיות, ממרחק גדול מבתי חולים, ועל כן רמת בריאותם נמוכה יותר (דוגמאות לכותרות המדגישות את הפריפרייה: אחת, שתיים, שלוש, ארבע). אך הטיעון אודות הפריפרייה הוא בעייתי.

הישראלים שמתגוררים בפריפרייה שונים במימדים רבים מהישראלים שאינם מתגוררים בפריפרייה – למשל, שכרם נמוך יותר בממוצע, ורמת השכלתם נמוכה יותר. הספרות המחקרית מעלה שבכל מדינות העולם תושבים בעלי שכר נמוך יותר ורמת השכלה נמוכה יותר סובלים גם מרמת בריאות נמוכה יותר, בלי קשר למקום מגוריהם. זהו כמובן גם המצב בישראל: לפי הסקר ארוך הטווח של הלמ"ס, ערבים ובעלי מקצועות פיזיים (בינוי, הפעלת מיכון כבד וכדומה) סובלים מרמת בריאות נמוכה יחסית, בעוד שחרדים נהנים מרמת בריאות גבוהה יחסית. ניתן לראות זאת בתרשים הבא, המתמקד בפרטים בני 30 – 50 כדי לנטרל שוני במבנה הגילאים בין הקבוצות.

רמת הבריאות עבור בני 30 – 50 לפי קבוצות אוכלוסייה

הסקר ארוך הטווח לשנת 2017

כפי שכתבתי ברשומה הקודמת, הנתונים עבור מרבית התרשימים וכן הקוד (בפיית'ון) שמייצר אותם ואת ניתוחי הנתונים, ניתנים להורדה מספריית הפרויקט באתר GitHub.

חשוב לציין שהתוצאה בנוגע לחרדים לא נובעת מ"אופטימיות יתר" בדיווח עצמי, ומופיעה גם בנתונים אובייקטיביים על תוחלת חיים ושיעורי תמותה ביישובים חרדיים. החרדים הם קבוצה מאוד יוצאת דופן, מכיוון שהם סותרים את הדפוס הקבוע שלפיו בעלי הכנסות נמוכות סובלים מרמת בריאות נמוכה יותר, ואולי כדאי להקדיש להם מחקר עומק נפרד.

התרשים שלעיל מהווה ניתוח תיאורי בסיסי למדי, אך גם ניתוחים מורכבים יותר, תוך ניטרול גורמים מעורבים שונים, מעלים את אותן התוצאות: לגורמים כגון השכלה, הכנסה ושייכות לקבוצות אוכלוסייה שונות יש השפעה מהותית על רמת הבריאות (כמובן, ישנן כאן בעיה של הסקה סיבתית מקורלציה, שקשה להתגבר עליה).

אחת הדרכים הנחמדות להציג את הקשרים בין המשתנים, היא שימוש בעצי החלטה. מדובר באלגוריתם מתחום Machine Learning, אשר מקבל נתונים ומתאים אליהם מודל במטרה לנבא משתנה מטרה כלשהו. במקרה שלנו משתנה המטרה הוא התשובה של פרטים לשאלה "מהו מצב בריאותך, בדרך כלל?" – אנו מנסים לנבא על פי הנתונים אילו פרטים יענו "בריאות טובה מאוד" לשאלה זו. התוצאה היא התרשים הבא.

עץ החלטה בנוגע לגורמים המשפיעים על רמת הבריאות

הסקר ארוך הטווח לשנת 2017

האלגוריתם בוחר באופן אוטומטי את חלוקת המשתנים שמאפשרת לו לנבא באופן הטוב ביותר. ריבועים כחולים יותר בתרשים מייצגים אזורים בנתונים שבהם התחזית היא לבריאות טובה מאוד, וריבועים כתומים מייצגים אזורים שבהם התחזית היא הפוכה.

על מנת לקרוא את העץ עלינו להתחיל בריבוע העליון. בשורה הראשונה בכל ריבוע מצויין קריטריון ההחלטה, ובמקרה של הריבוע העליון הקריטריון הוא האם הגיל קטן מ-50.5. אם גילו של הפרט גדול מערך הסף נלך ימינה (False), ואם גילו קטן מערך הסף נלך שמאלה (True). אם הלכנו שמאלה, עלינו לבחון האם גילו גדול או קטן מ-41.5. אם הגיל הוא גבוה מ-41.5, אך נמוך מ-50.5, אנחנו מגיעים לריבוע שבו הקריטריון מבוסס על מקצוע פיזי. מקצוע פיזי הוא משתנה בינארי, השווה ל-1 עבור בעלי מקצועות פיזיים ול-0 אחרת. על פי העץ, התחזית לבעלי מקצועות פיזיים בגילאי 42 – 50 היא לבריאות שאיננה טובה מאוד, בעוד שהתחזית לאלו שאין להם מקצועות פיזיים בגילאים אלו היא לבריאות טובה מאוד.

מהעץ אנחנו יכולים ללמוד שבריאות נמוכה נפוצה בעיקר בקרב מבוגרים בעלי הכנסה נמוכה. תוצאות אלו יכולות לשקף את השפעת ההכנסה על רמת הבריאות, אך גם את הכיוון הסיבתי ההפוך, כלומר את ההשפעה של רמת הבריאות על רמת ההכנסה של מבוגרים, שחלקם פורשים לפנסיה מוקדמת בגלל בעיות בריאות. מלבד זאת, אנחנו למדים שמקצועות פיזיים משפיעים לשלילה על רמת הבריאות כבר מגילאי הארבעים. לבסוף, אנחנו יכולים ללמוד מהעץ שהמשתנים המצויינים בו הם המשתנים החשובים יותר מבחינת השפעתם על רמת הבריאות (אם ישנם מדעני נתונים בקהל – דעו שיער אקראי מפיק תוצאות דומות מבחינת feature importance).

בשלב הבא, ניסיתי לבדוק את השפעת הגיאוגרפיה על הבריאות. למשל, במפה הבאה ניתן לראות את שיעורי התמותה באזורים שונים בארץ, וכן ביישובים שונים:

במחקר שלי מותארות שלוש עדויות שונות לטובת הטענה שהמאפיינים הדמוגרפיים הם העיקר, ולא מקום המגורים:

1. אורך התורים בפריפרייה וזמינות הרופאים אינם גרועים יותר מאשר במרכז

למשל, בתרשים הבא ניתן לראות את זמני ההמתנה לרופאים בהתמחויות שונות. נראה שדווקא בצפון זמני ההמתנה הם הנמוכים ביותר, וגם בדרום בחלק מההתמחויות זמני ההמתנה אינם יוצאי דופן.

זמן המתנה חציוני בימים, לפי התמחויות, 2018 – 2019

מקור: משרד הבריאות.

בהחלט יתכן שבעבר המצב היה אחר, אך מדיניות מכוונת של משרד הבריאות צמצמה את הפערים. כך או אחרת, כיום לא נראה שיש כאן בעיה משמעותית.

2. כאשר מנטרלים באמצעות רגרסיה את המשתנים הסוציואקונומיים, כגון הכנסה, השכלה והשתייכות לקבוצות אוכלוסיה שונות, למרחק ממרכז הארץ או מבית החולים הקרוב ביותר אין השפעה על מדדי בריאות.

תוצאה זו חוזרת על עצמה גם כאשר הניתוח הוא על נתוני פרט, וגם כאשר הניתוח הוא ברמת היישוב. השפעת המרחקים, שהיא מלכתחילה קלושה למדי ואפסית בחלק מהמקרים, פשוט נעלמת.

3. לערבים המתגוררים בערים מעורבות יש רמת בריאות דומה לערבים המתגוררים בערים ערביות, וכך גם לגבי היהודים.

למשל, בתרשים הבא ניתן לראות שיעור תמותה מתוקנן לאלף איש. הפערים בין ערבים ליהודים משמעותיים ביותר בכל הערים, מלבד המקרה יוצא הדופן של נצרת עילית. אותה התוצאה מתקיימת גם לגבי מדדים אחרים.

שיעור תמותה בערים מעורבות

לסיכום, בהתאם לכותרת הרשומה – בריאות בישראל היא בעיקרה עניין של דמוגרפיה, לא של גיאוגרפיה. רמת בריאות נמוכה מאפיינת את הערבים, את העוסקים במקצועות פיזיים, את חסרי ההשכלה ואת העניים, בייחוד עניים מבוגרים – בלי קשר למקום מגוריהם. על כן, הקריאות שנשמעות בתקשורת להקמת בתי חולים בפריפרייה בדחיפות או למשיכת רופאים לשם הן בעייתיות. יש לזכור שתקציב הבריאות הוא בסופו של דבר מוגבל, וכל שקל שמושקע בכיוון מסויים הוא שקל שלא מושקע בכיוון אחר. אם הבעיה היא רמת הבריאות של אוכלוסיות חלשות מבחינה סוציואקונומית, עלינו להתמקד בהן ולא באזור גיאוגרפי כזה או אחר. חשוב מאוד להתמקד בבעיות אמיתיות, ולא בבעיות שאינן קיימות.

אז מהן הבעיות האמיתיות הללו? כיצד ההכנסה הנמוכה וההשכלה המועטה מתרגמות לרמת בריאות נמוכה יותר? ברשומה השלישית והאחרונה בסדרה נצלול מעט פנימה אל הנתונים, וננסה להבין מהיכן מגיעים הדפוסים שתיארתי כאן.

 

הערה: כמו מרבית הרשומות בבלוג, גם הרשומה הזו פורסמה במקור בבלוג שלי באתר "הארץ".


כשהצגתי את המחקר החדש שלי בפני אנשי מקצוע, פקידים וחוקרים אחרים בתחום, לא חשבתי שאפתיע מישהו. כלומר, זה נכון, יש שם כמה תרשימים מגניבים, ואני ככל הנראה הראשון שמציג נתונים על אי שוויון בתוחלת החיים בישראל, אבל בסופו של דבר מרבית הנתונים הגיעו ממשרד הבריאות ומהלמ"ס. אין במחקר הזה משהו פרובוקטיבי שעשוי לעורר וויכוחים לוהטים, בסך הכל נתונים על בריאותם של אזרחי מדינת ישראל. לפחות, ככה חשבתי. אבל מסתבר שיש.

נתחיל מההתחלה.

על מנת להציג את הממצאים העיקריים מהמחקר באופן נוח, החלטתי לפרק אותו ל-3 רשומות נפרדות בבלוג. ברשומה זו נעסוק בתמונה הכללית של רמת הבריאות בישראל ואי השוויון בבריאות, ברשומה הבאה נעסוק בשאלת השפעת המיקום הגיאוגרפי ומאפיינים סוציואקונומיים על רמת הבריאות, וברשומה השלישית והאחרונה נצלול קצת יותר לעומק אל הנתונים כדי להבין מהן הבעיות העיקריות שבהן נדרש לטפל.

רמת הבריאות בישראל היא גבוהה באופן יחסי. תוחלת החיים היא בין הגבוהות בעולם, תמותת התינוקות היא בין הנמוכות בעולם, וכך גם לגבי מדדים אחרים. ישנם פערים ברמת החיים בין קבוצות אוכלוסייה ובין אזורים, אבל גם הקבוצות והאזורים שרמת הבריאות שלהם נמוכה מציגים נתונים טובים יחסית לעולם. למשל, כפי שניתן לראות בתרשים הבא, גם במחוז דרום, היכן שתוחלת החיים בישראל היא הנמוכה ביותר, תוחלת החיים הממוצעת עדיין עולה על תוחלת החיים בדנמרק, גרמניה וממוצע ה-OECD.

תוחלת חיים של קבוצות אוכלוסייה בישראל בהשוואה בינלאומית, 2017

מקור: הבנק העולמי והלמ"ס.

הערת צד: הנתונים עבור התרשים הזה ועבור מרבית התרשימים שנראה ברשומות הבאות, וכן הקוד (בפיית'ון) שמייצר אותם ואת ניתוחי הנתונים, ניתנים להורדה מספריית הפרויקט באתר GitHub (פרסום הקוד ונתוני המקור הוא סטנדרט מחקרי חדש, המקובל בז'ורנלים אקדמיים מובילים בעולם הכלכלה. אני מקווה שמכוני מחקר ישראלים אחרים, משרד האוצר ובנק ישראל ילכו בעקבותיי בנושא זה).

נחזור לניתוח. תוצאות הבריאות הטובות של ישראל לא יפתיעו במיוחד את כל מי שקרוב לתחום הבריאות. אבל החלק המפתיע הוא אי השוויון בבריאות בישראל – מסתבר שהוא נמוך יחסית למדינות אחרות.

השוואה בין לאומית או לאורך זמן של אי שוויון היא תמיד בעייתית, מכיוון שאי שוויון הוא מאפיין של התפלגות הנתונים. כדי לומר משהו בעל משמעות, עלינו לסכם את ההתפלגות הזו לכדי מספר יחיד, ובמהלך הסיכום אנחנו מאבדים מידע, כמו, למשל, היכן בהתפלגות נמצאים הפערים. בנוגע להכנסות, בדרך כלל מסכמים את ההתפלגות הזו באמצעות מדד ג'יני, אשר מספק מספר בין 0 ל-1. ככל שהמדד קרוב יותר לאפס, כך התפלגות השכר יותר שוויונית. אבל יתכנו שתי מדינות שעבורן המדד שווה ל-0.5, כאשר בראשונה עיקר הפערים הם בין העשירון העליון לכל אלו שמתחתיו, ובשנייה עיקר הפערים הם בין העשירון התחתון לכל אלו שמעליו, או בין גברים לנשים, או בין צעירים למבוגרים, וכך הלאה.

בריאות היא נושא בעייתי למדידה וסיכום, מכיוון שישנם מימדים רבים אפשריים. אחד המימדים שקל יחסית למדוד אותו, וקיימים לגביו נתונים עבור כמעט כל מדינות העולם, ובחלקן לאורך מאות שנים, הוא תוחלת החיים. המשמעות של מדד ג'יני לתוחלת החיים דומה למדד ג'יני עבור הכנסות: המדד יהיה קרוב לאפס במדינות שבהן כל התושבים נפטרים בערך באותו הגיל (לא משנה אם מדובר בגיל 40 או בגיל 80), וקרוב לאחד במדינות שבהן חלק מהתושבים נפטרים בגיל מופלג, ואילו רבים אחרים מתים בגיל צעיר יותר. חישוב המדד מבוסס על טבלאות תמותה, שבהן מופיע הסיכוי למות בכל גיל. לפרטים נוספים על המתודולוגיה ראו כאן. הנתונים מגיעים מהאתר mortality.org, שמספק טבלאות תמותה עבור ישראל ומדינות אחרות, עבור עשרות ולעיתים מאות שנים (בספריית ה-GitHub שקישרתי אליה לפני כן ניתן למצוא את טבלאות הנתונים ואת הקוד המחשב את המדד באמצעותן).

לאור אי השוויון הגבוה יחסית בהכנסות בישראל, ובגלל פערי תוחלת החיים שניתן לראות בתרשים הקודם בין יהודים וערבים, ציפיתי שאי השוויון בתוחלת החיים בישראל יהיה גבוה יחסית, או לפחות ממוצע. אבל מסתבר שהוא דווקא נמוך למדי בהשוואה בינלאומית. התרשים הבא מציג את אי השוויון עבור עבור גברים ונשים יחדיו.

מדד ג'יני לאי שוויון בתוחלת החיים במדינות אחדות, 2014 – 2016

החיסרון של מדד ג'יני הוא שקשה לדעת היכן מרוכז אי השוויון. למשל, אחת האפשרויות שעליהן חשבתי היא שעיקר אי השוויון בתוחלת החיים הוא בין גברים לנשים, ועל כן חישבתי בעבודה גם את המדדים בנפרד עבור גברים ועבור נשים, אך לפי התוצאות, לא נראה שזה המקרה. אי השוויון בקרב גברים בד"כ מעט גבוה יותר מאי השוויון בקרב שני המינים יחדיו, ואי השוויון בקרב נשים בד"כ מעט נמוך יותר, אבל בסך הכל המספרים דומים. כך או אחרת, ניתן לראות שישראל היא בין המדינות השוויוניות ביותר, גם עבור גברים ונשים בנפרד.

מאפיין נוסף של אי השוויון בתוחלת החיים בישראל, שהוא פחות מפתיע, הוא מגמת ירידה ארוכת שנים:

מדד ג'יני לאי שוויון בתוחלת החיים בישראל, 1983 – 2016

נראה שבשנת 1983 אי השוויון בתוחלת החיים בישראל היה דומה לרמתו הנוכחית במדינות כגון לטביה וביילארוס. הירידה באי השוויון בתוחלת החיים איננה ייחודית לישראל, ומאפיינת מדינות רבות כבר למעלה ממאה שנים. היא נובעת מכך שתוחלת החיים "חסומה מלמעלה", לפחות במידה מסויימת. כלומר, בקרב אנשים בריאים ועשירים יחסית שנהנו מתזונה טובה ורפואה ברמה גבוהה כבר לפני עשורים רבים לא היה הרבה מקום לשיפור. אבל בקרב עניים שסבלו מקור ורעב, או בקרב אנשים שנולדו עם פגמים מולדים שונים ונטייה למחלות, תמותת הילדים הייתה גבוהה, היה מקום רב יותר לשיפור, ותוחלת החיים הממוצעת עלתה בקצב מהיר הרבה יותר מאשר תוחלת החיים של הבריאים.

נתונים אלו מעלים שאלות פילוסופיות בנוגע לדיון התקשורתי העוסק כמעט אך ורק באי השוויון בהכנסות ובעושר. האם לא נכון לטעון שאי השוויון בבריאות הוא חשוב לפחות כמו אי השוויון בהכנסות או בעושר, אם לא יותר? האם לא הגיוני להעניק לתוצאות האופטימיות האלו את אותו המשקל שהתקשורת מעניקה לתוצאות על הגידול באי השוויון בהכנסות?

בכל מקרה, למרות שאי השוויון בתוחלת החיים בישראל נמוך יחסית למדינות אחרות ונמצא במגמת ירידה, ישנו עדיין מקום לשיפור. ברשומות הבאות נבחן מיהן האוכלוסיות בישראל שיש להן רמת בריאות נמוכה יחסית, מהן הבעיות שבהן הכי חשוב לטפל, ונראה ממה הופתעו אנשי המקצוע בתחום כשהצגתי את המחקר בפניהם.

 

בנובמבר האחרון פורסם ב"הארץ" ראיון עם ההיסטוריון סוון בקרט, אשר טען שהכלכלה המודרנית נבנתה על גבם של עבדים. פרסמתי בבלוג תגובה לראיון הזה, ולאחרונה פרסם אלי קוק תגובה לתגובה שלי.

כפי שמסביר קוק, כלכלנים אכן שמים דגש על קדמה טכנולוגית וארגונית בתור הגורם המרכזי לשגשוג כלכלי (בהמשך לעבודותיו של זוכה פרס הנובל רוברט סולו). קוק כותב כי כלכלנים משתמשים בקדמה טכנולוגית "כבהסבר נוח, מעין דאוס אקס מכינה, באשר לעליות בפריון שכלכלנים אינם מצליחים באמת להסביר". זהו משפט מוזר למדי. אנחנו יודעים להסביר עליות פריון: כאמור, הן נובעות מקדמה טכנולוגית. בזכות הסטנדרטיזציה של המכולות, למשל, היה יותר קל להטעין מכולות על אוניות ומשאיות, פריון העבודה בנמלי הים גדל, ומחירי המשלוח הימי ירדו. אפשר למדוד את הגידול בפריון שנובע מהטכנולוגיה החדשה, אין כאן שום דבר מסתורי.

קוק ממשיך וטוען כי כלכלנים מתעלמים מהיבטים של כוח או כפייה, אך זה אינו נכון. אנחנו פשוט מעדיפים לבחון את הסיבות האולטימטיביות (ultimate cause) עבור תופעות שונות, ולא להתמקד בסיבות שטחיות ומיידיות (proximate cause). כלומר, כלכלנים מעוניינים להסביר איך בריטניה הגיעה לנקודה שבה היא מסוגלת לנצח את סין במלחמות האופיום באמצע המאה ה-19, איך היא הגיעה לנקודה שבה יש לה את הכוח לכפות. האופן המדויק שבו בריטניה כפתה על סין את תנאי הסחר שבה רצתה הוא מרתק, אבל הוא לא מהווה הסבר אלא רק תיאור של ההשלכות.

הכלכלנים העוסקים כיום בשאלות אלו מאמינים שגורמים מוסדיים, תרבותיים ולעיתים גם גיאוגרפיים מובילים לקדמה טכנולוגית מהירה יותר, אשר מייצרת עבור מדינות מסוימות כוח צבאי שמאפשר להן לכפות את רצונן על מדינות אחרות. כמובן, הכפייה בכוח עשויה לתרום להגדלת הפערים או לשימורם, ואין לנו שום כוונה לטעון אחרת. אבל הכפייה היא לא הסיבה העמוקה, הגורמים המוסדיים והתרבותיים שהובילו לקדמה טכנולוגית הם הסיבה. כלומר, זה לא שהבריטים ניצחו במלחמות האופיום בגלל שיום אחד הם החליטו להיות פולשים אכזריים. הם ניצחו כי היו להם ספינות תותחים עם שריון פלדה. אין כאן ניסיון ליפות את העבר, אלא פשוט להבין את המציאות.

בהמשך עובר קוק לצטט את ספרו של סוון בקרט בנוגע לתעשיית הכותנה, אשר הייתה מבוססת במידה רבה על עבדות. ברשומה הקודמת בנושא הזכרתי כבר מספר מחקרים שביקרו את ספרו של בקרט, והראו בין השאר שתעשיית הכותנה הייתה רק תעשייה אחת מני רבות, ובוודאי לא הסיבה המרכזית לעליית המערב. מלבד זאת, תעשייה זו המשיכה לשגשג גם לאחר ביטול העבדות, כמו גם הכלכלות הקפיטליסטיות של ארצות הברית ובריטניה.

הסתירה המרכזית לדבריהם של קוק ובקרט נובעת מההבדלים בין צפון ארצות הברית לדרומה. הטענה של קוק שלפיה הדרום היה מפותח באותה מידה כמו הצפון לפני מלחמת האזרחים שגויה עובדתית – הצפון היה מאוכלס יותר, מתקדם יותר מבחינה טכנולוגית (קל לראות את זה מניתוח מבנה רשת הרכבות), משכיל יותר וכך הלאה (ראו את המפות כאן בעמוד 20). מדוע התפתחו הבדלים אלו? ישנן תיאוריות שונות. למשל, לטענתם של ההיסטוריונים סטנלי אֶנגֶרמן וקנת סוֹקוֹלוֹף, תנאי האקלים והקרקע באמריקה המרכזית ובדרום ארצות הברית מתאימים לגידולים חקלאיים כגון סוכר, קפה, טבק וכותנה, שבגלל יתרונות לגודל יעיל יותר לייצר אותם בחוות גדולות ובאמצעות עבדים (ראו כאן את ההסבר של אסף צימרינג לטעות נוספת של קוק בעניין זה). כתוצאה מכך התפתחה באזור הזה בתקופה הקולוניאלית חקלאות שהמאפיינים הבולטים שלה היו עבדות, ריכוזיות בבעלות על הקרקע וחלוקה לא שוויונית של העושר. לעומת זאת, תנאי האקלים במושבות בצפון ארצות הברית ובקנדה, שהתאימו לחקלאות מעורבת של דגנים וחיות משק, הובילו להתבססות על חוות משפחתיות קטנות, לחלוקה שוויונית יותר של העושר ולאימוצם של מוסדות פוליטיים מכלילים, כגון דמוקרטיה ושוויון בפני החוק.

קוק מודע לכך, וכותב לגבי צפון ארצות הברית כי "אלה היו תנאים מצוינים לצמיחתה של הדמוקרטיה האמריקנית, אך לא בהכרח תנאים טובים לקפיטליזם תעשייתי, שנוטה גם היום להעדיף ריכוזיות היררכית על פני ביזור שוויוני, הן משיקולי יעילות הן משיקולי שליטה". זה פשוט לא נכון בעליל, והאמת שאני קצת מאוכזב מקוק שפספס כאן את הנראטיב הקבוע של תומכי הימין הכלכלי. בדיוק להפך – קפיטליזם פורח רק היכן שיש ביזור, ודועך היכן שיש ריכוזיות. התעשייה והקדמה הטכנולוגית התפתחו בסופו של דבר דווקא בצפון ארצות הברית, אשר הפך למתקדם הרבה יותר מהדרום המבוסס על עבדות. הקפיטליזם התפתח בעקבות התחרות וההשקעה בהון אנושי. אם בעלי ההון מהצפון היו כל כך תלויים בעבדות למחייתם, או בתעשיית הכותנה ובכך שהיא תמשיך להתבסס על העבדות, הם היו מתנגדים למלחמת האזרחים. הם לא התנגדו, ולא הרגישו שהתועלת הכלכלית של העבדות מצדיקה את העוול המוסרי.

לעומת זאת, דרום ומרכז אמריקה מאופיינים עד היום דווקא במשטרים סוציאליסטיים וריכוזיים יחסית, שהם ככל הנראה מתאימים יותר בתור הגלגול העכשווי של מוסדות היסטוריים מבוססי עבדות – מאותה הסיבה שהמהפכה הקומוניסטית פרצה ברוסיה הריכוזית ולא במדינות המערב החופשיות. אולי אפשר אף לטעון שהעבדות הייתה שלב הכרחי עבור עליית הסוציאליזם… (אל תדאג אלי אני לא באמת הולך לטעון את זה).

על מנת להתמודד עם הטענה שהצגתי ברשומה הקודמת, לפיה עבדות הייתה נפוצה בכל ציוויליזציה היסטורית, והמהפכה התעשייתית הייתה הנקודה שבה העבדות הסתיימה ולא הנקודה שבה היא התחילה, קוק מנסה לייצר מצג שווא של "עבדות יוצאת דופן" בדרום ארצות הברית, שהיא שונה במובן כלשהו ממה שהיה נהוג בציוויליזציות אחרות. הוא כותב כי "היא הייתה יוזמה מודרנית חדשה ונועזת שנבדלה ממופעים אחרים של עבדות בכך שהתבססה על תאגידים ממקסמי רווח, טכנולוגיה חדישה, בנקים מלווים בריבית, השקעות הון חסרות תקדים, הפיכתם של עובדים לסחורת שוק ולהשקעה פיננסית לטווח ארוך, והפרטת המרחב והטבע לגורמי ייצור תעשייתיים." נשמע מזעזע למדי, אבל כמובן שגם סוחרי עבדים במדינות אחרות ובתקופות אחרות ניסו למקסם את רווחיהם, השתמשו בטכנולוגיות חדישות לזמנם, הפכו את העבדים לסחורת שוק וכדומה. מקסום רווחים בוודאי אינו עניין חדש, למרות שקוק כל הזמן טוען שכן.

קוק ממשיך ומנסה ליצור מצג שווא לפיו העבדות בדרום אמריקה הייתה במובן כלשהו חמורה פחות מהעבדות בדרום ארצות הברית. הוא כותב כי "ב-1872, כאשר הסתיימה העבדות בברזיל, כשלושה רבעים מהשחורים והמולאטים בה כבר היו חופשיים. עם ביטול העבדות בארצות הברית, בשנת 1865, כ-90% מהשחורים בה היו עבדים. בדרום העמוק, שבו היו רוב מטעי העבדים, שיעור זה הגיע לכ-98%." אבל ממשפט זה נובע כי העבדות בארצות הברית הסתיימה כמעט עשור לפני העבדות בברזיל. אם היא הייתה כל כך קריטית לכלכלת ארצות הברית, וכל כך זניחה עבור כלכלת ברזיל, מדוע היא הסתיימה קודם בארצות הברית? אין בכך שום היגיון.

לסיכום, מציג קוק שורה ארוכה של אנשים אשר צברו הון כתוצאה מהסחר בכותנה, ביניהם ממציאים מפורסמים מהתקופה. כמובן, אין לי שום כוונה לטעון שהסחר בכותנה לא היה רווחי, או שהעבדות לא הייתה רווחית. אם העבדים לא היו רווחיים, בעלי המטעים לא היו רוכשים אותם. למרות שזו הייתה רק תעשייה אחת מני רבות, מן הסתם אפשר למצוא אישים חשובים רבים במאה ה-19 אשר קשורים אליה בצורה כזו או אחרת. ישנם גם אישים חשובים רבים אשר קשורים לתעשיות אחרות. העובדה היא שבסופו של דבר בחרו האמריקנים לנטוש את העבדות דווקא לקראת תקופת השיא של הצמיחה הטכנולוגית והכלכלית, והבריטים לא התערבו לטובת בעלי העבדים, והבחירה הזו לא פגעה בכלכלת ארצות הברית או בריטניה – ההפך. בטווח הארוך, נראה שמבחינה כלכלית ביטול העבדות עשה רק טוב לכולם.

בסופו של דבר, המודל הכלכלי שאותו מנסים קוק, בקרט ואחרים ליצור, לפיו העבדות עומדת בבסיס הקדמה הכלכלית של המערב, פשוט לא מחזיק מים. הוא חורק, רעוע, ודורש תחזוקה קבועה באמצעות שימוש ברטוריקה, בדוגמאות מזעזעות ובביטויים מפחידים אשר יסוו את כשלי הלוגיקה ויסתירו את העובדות. אפילו עמיתיו של קוק מבחינים בחלק מהכשלים – ראו למשל את דבריו של עמי וטורי כאן על עליית הקפיטליזם בגרמניה ובסקנדינביה. בסופו של דבר, מרבית החוקרים של ההתפתחויות ההיסטוריות הללו דוחים את הרעיונות הללו על הסף.

יחד עם זאת, קוק צודק בכך שחשוב שלא לצבוע בצבעים בהירים ועליזים מדי את עליית המערב. בזכות הקדמה הטכנולוגית, מדינות המערב השתמשו בכוחם על מנת לשעבד אוכלוסיות גדולות ולכפות הסדרים כלכליים ופוליטיים על מדינות אחרות ועל עמים אחרים, גם ביבשת אמריקה וגם בשאר העולם. למרות שמאז אמצע המאה ה-20 שיעורי העוני נמצאים בירידה בכל העולם, בתחילת הדרך התוצאה של עליית המערב הייתה בהחלט שלילית עבור עמים רבים – בדומה לצמיחתן של אימפריות אחרות בהיסטוריה.

האלימות, האכזריות והעבדות אינן מיחדות את המערב. אך הליברליזם, ההומניזם והדמוקרטיה הם זרמים ייחודיים למערב, והם קשורים בטבורם לעליית הקפיטליזם המודרני, המבוסס על חדשנות מתמדת, ביזור מקורות הכוח ועל תחרות חופשית בין עובדים, יזמים, וצרכנים בכל תחומי הכלכלה, המדע והתרבות – תחרות שייצרה במאתיים השנים האחרונות עושר ואושר עבור כלל המין האנושי ברמה שאבות אבותינו היו יכולים רק לחלום עליה.

אמל"ק / השורה התחתונה

ניתוח אשכולות המבוסס על אלגוריתם DBSCAN ועל שישה משתנים המציינים מימדי פיתוח שונים – יכולת ייצור, דמוגרפיה, רמה טכנולוגית, אורבניזציה, הון אנושי ובריאות – מעלה כי ישראל מעולם לא הייתה דומה למדינות מתפתחות, אך נכללת בקבוצת מדינות המערב רק מאזור שנות השמונים.

 

הקדמה

בספרו על כלכלת ישראל כותב הכלכלן יוסף זעירא כי "תוך 50 שנים, משנת 1922 ועד 1972, הגיעה ישראל ממעמד של מדינת עולם שלישי למעמד של מדינה מפותחת" (עמוד 66). הטענה שלפיה מדינת ישראל הפכה ממדינה מתפתחת למדינה מערבית נפוצה בחוגים רבים, אך ניתוח כלכלי של היישוב היהודי עוד מהתקופה שלפני קום המדינה מעלה כי היישוב תמיד היה בעל מאפיינים מערביים.

בשנת 1947 כ-41% מהתוצר במגזר היהודי הגיע מתעשייה – שיעור דומה למדינות מפותחות וגבוה בהרבה מהשיעור במגזר הערבי, למרות המיקוד של התנועה הציונית בחקלאות. סקרים מתקופת המנדט מעלים כי שיעור האוריינות בקרב הגברים היהודים בשנת 1931 עמד על 93.4%, ובקרב הנשים על 78.7%. שיעור האוריינות בארצות הברית, ככל הנראה המדינה המשכילה בעולם בתקופה זו, עמד בשנת 1930 על 96%, ובעולם כולו שיעור האוריינות בשנה זו מוערך בכ-33%. נתונים על שנות ההשכלה של יהודי ארץ ישראל מרשימים עוד יותר: בשנת 1948, לפני העלייה ההמונית, כמעט 10% מהגברים בישראל היו בעלי השכלה גבוהה מלאה, וכ-29% סיימו בית ספר תיכון. בהשוואה לכך, בארצות הברית עמד שיעור בעלי ההשכלה הגבוהה על 6.7% ושיעור מסיימי התיכון על 22%, ובמדינות אירופה ובקנדה השיעורים היו נמוכים יותר. גם נתונים על רמת הבריאות, כגון תמותת תינוקות ותוחלת חיים, מציבים את יהודי ארץ ישראל במקום קרוב יותר למדינות מפותחות מאשר למדינות מתפתחות [1]. התרשים הבא מציג את התוצר לנפש בישראל בהשוואה בינלאומית בשנת 1950, לפי נתוני פרויקט Maddison.

ניתן לראות כי מדינת ישראל נמצאת אי שם באמצע בין המדינות המפותחות ובין המדינות המתפתחות, בניגוד למשל ליפן, טיוואן ודרום קוריאה, אשר נמצאות באופן מובהק בתוך קבוצת המדינות המתפתחות.

אז האם ישראל הייתה מדינה מערבית מלכתחילה?

במסגרת עבודתי על ספר העוסק בהיסטוריה הכלכלית של ישראל, החלטתי לחקור את השאלה הזו יותר לעומק. כמובן, התשובה לשאלה תלויה בהגדרה של "מדינה מערבית", "מדינה מפותחת" או "מדינת עולם שלישי". אם נשתמש בהגדרה פשטנית, רק לפי התוצר לנפש, נמצא שמדינות כגון קטאר או ערב הסעודית שייכות כיום למועדון המדינות המפותחות, וכפי שניתן לראות בתרשים שלעיל גם וונצואלה בשנת 1950. אך רוב האנשים מקשרים את המונח "מדינה מערבית" לא רק להכנסה אלא לגורמים רבים נוספים, ביניהם רמת הבריאות, ההשכלה, התשתיות ועוד. ישנן מדינות רבות שהן יוצאות דופן באחד המאפיינים הללו, אך לא ייחשבו בתור מדינות מערביות בעינינו. למשל, רמת ההשכלה של תושבי ברית המועצות היא גבוהה יחסית, אבל רמת ההכנסות שלהם היא נמוכה.

ניתן לפתח הגדרה פורמאלית לרמות סף של תוצר לנפש, השכלה, בריאות ועוד, שתופסת בדיוק את כל המדינות שהיינו משייכים לקבוצת המדינות המערביות, אבל זה יהיה מעט לא הוגן, כי אנחנו יכולים לשחק עם ההגדרות כדי לכלול או לא לכלול את ישראל באשכול המדינות המערביות. אנחנו בעצם מניחים את התוצאה. אפשרות טובה יותר היא לתת לנתונים להגדיר את האשכולות באופן "אוטומטי" – להשתמש בניתוח אשכולות (clustering) אשר מסווג מדינות לאשכולות שונות בתקופות שונות, ולראות כיצד הוא יסווג את ישראל. המטרה היא לתת לנתונים "לדבר" באופן אובייקטיבי עד כמה שניתן.

ניתן להוריד את בסיס הנתונים המלא ואת הקוד (בפיית'ון) ששימש עבור הניתוחים השונים כאן.

 

הנתונים

לאחר חיפושים רבים גיבשתי רשימה של שישה משתנים אשר קיימים עבור מדינות רבות בעולם, ביניהן ישראל, לפחות משנת 1960. ששת המשתנים נבחרו במטרה לבחון מימדים שונים של פיתוח או "מערביות", ולא להתמקד רק בתוצר לנפש. אלו הם המשתנים:

  1. תוצר ריאלי לנפש – נלקח כאמור מבסיס הנתונים של פרויקט Maddison. התוצר הוא הערך הכספי של סך הסחורות והשירותים המיוצרים במדינה במהלך שנה, והתוצר לנפש מתאר את יכולת הייצור ואת ההכנסות של תושבי המדינה. בנוסף לכך, ישנו שקלול לרמת המחירים השונה בכל מדינה. בתור מדד לרמת חיים התוצר לנפש סובל ממספר חסרונות, כגון אי התחשבות בכריית משאבי טבע מתכלים, בייצור עצמי (כמו חלק ניכר מהתוצר במדינות מתפתחות), בזמן פנוי ועוד (ראו רשומה ישנה שלי בנושא, כאן).
  2. פריון ילודה – נלקח מבסיס הנתונים של הבנק העולמי. מתקשר גם למאפיינים דמוגרפיים כגון הזדקנות האוכלוסייה, וכן למגמות תרבותיות וטכנולוגיות כגון הביקוש להון אנושי (דרך פשרת הכמות-איכות), מעמד הנשים בשוק העבודה ובמשפחה, שיעור העוני היחסי ועוד.
  3. מספר מנויי טלפון למאה נפשות – נלקח מבסיס הנתונים של הבנק העולמי. מסמן את יכולת החדירה של טכנולוגיות חדשות למשק, שתלויה בגורמים כגון רמת התחרותיות, פתיחות למסחר, יעילות חברות ממשלתיות ועוד. כמובן, משתנה זה הוא פחות רלוונטי החל משנות התשעים המאוחרות, ולכן יתכן שהוא מעט בעייתי, אבל ממילא עיקר השינויים במעמדה של ישראל הם בשנים המוקדמות. אפשר עקרונית להחליף אותו במשתנה אחר עבור השנים היותר מאוחרות, אם כי לפי התוצאות ככל הנראה לא תהיה לכך השפעה על מסקנות הניתוח בנוגע למיקומה של ישראל.
  4. שיעור עיור – נלקח מבסיס הנתונים של הבנק העולמי. שיעורי העיור משמשים במחקרים היסטוריים על התפתחות כלכלית באלפי השנים האחרונות, והם יכולים לאפשר לנו להתגבר על החסרונות של התוצר לנפש עבור מדידת רמת ההתפתחות של מדינות עניות יחסית. הם מתקשרים לשלל מגמות טכנולוגיות ותעשייתיות שנלוות לתהליך הפיתוח הכלכלי.
  5. מדד הון אנושי – נלקח מבסיס הנתונים Penn world tables. המדד מחושב על פי משתנים כגון שנות ההשכלה הממוצעות והתשואה להשכלה. ההון האנושי נחשב לגורם מרכזי עבור התפתחות כלכלית החל מאמצע המאה ה-19, וניתן לזהות באמצעותו מגמות שהתוצר לנפש לא תמיד תופס.
  6. שיעור הפרטים אשר הגיעו לגיל 65 בכל דור – נלקח מבסיס הנתונים של הבנק העולמי. מדד המתקשר לרמת הבריאות של האוכלוסייה. לא הצלחתי למצוא את המשתנים המקובלים בתחום – תוחלת חיים ותמותת תינוקות – עבור מספיק מדינות כבר ב-1960, אבל המדד הזה הוא תחליף לא רע עבורם, ונוגע למימד הבריאותי של איכות החיים, שהמדדים האחרים אינם תופסים.

המשתנים שלנו תופסים יכולת ייצור, דמוגרפיה, רמה טכנולוגית של משקי בית, אורבניזציה, הון אנושי ובריאות. כל אחד מששת המשתנים האלו לבדו עשוי להיות בעייתי מסיבות כאלו או אחרות, עבור מדינות כאלו או אחרות, אך השילוב ביניהם יאפשר לאלגוריתם להגיע להגדרה התואמת את התפיסה האינטואיטיבית של "מדינה מערבית" שיש לרובנו בראש. כל המשתנים האחרים שמצאתי שקיימים עבור למעלה מ-50 מדינות כבר בשנת 1960 הם או דומים מאוד לאחד מששת המשתנים שכללתי, או שאינם קשורים להתפתחות כלכלית. על מנת שהאשכולות של המדינות לא ישתנו במהלך השנים כתוצאה ממשתנים חדשים או מדינות חדשות, כל הניתוח מבוצע רק על ששת המשתנים האלו ועל 66 מדינות שיש לגביהן נתונים לכל השנים.

 

ניתוח תיאורי

התרשים הבא מתאר את הקורלציות בין ששת המשתנים, עבור כל המדינות וכל השנים:

כפי שניתן לראות, ישנה קורלציה חיובית בין כל המשתנים מלבד ילודה, וקורלציה שלילית של כולם עם שיעור הילודה. אך מרבית הקורלציות אינן גבוהות במיוחד, כך שניתן לטעון שהמשתנים האלו כן תופסים מימדים שונים של פיתוח כלכלי ורמת חיים, ואינם לגמרי חופפים.

סדרת התרשימים הבאים מתארת את מדינת ישראל אל מול מספר מדינות אחדות שקיימות בנתונים לאורך כל השנים. ניסיתי להתמקד בבחירת מדינות מעניינות וחשובות יחסית שייצגו אזורים שונים בעולם.

 

ניתן לראות כי עבור שיעורי העיור, רמת ההון האנושי והבריאות ישראל הייתה דומה למדינות מפותחות עוד מתחילת הדרך, בעוד שעבור התוצר לנפש וחדירתם של הטלפונים היא הייתה נמוכה יחסית, אם כי עדיין מעל מדינות מתפתחות. מבחינת המגמות של שיעור הילודה ישראל מאוד יוצאת דופן גם ביחס למדינות מפותחות וגם ביחס למדינות מתפתחות, כידוע. ניתן לראות בתרשימים מגמות מעניינות רבות נוספות, כגון העלייה של אירלנד וסינגפור והירידה במנויי הטלפונים בשנים האחרונות, וכן נראה כי שיעור הצמיחה של התוצר לנפש בישראל בעשורים הראשונים לקום המדינה לא היה יוצא דופן כפי שלפעמים מנסים לטעון.

תרשימים אלו יכולים לספק תשובה מסויימת לשאלה שבכותרת הרשומה: מבחינת הון אנושי ובריאות מדינת ישראל הייתה "מערבית" ככל הנראה מיומה הראשון, ומבחינת תוצר לנפש וחדירה של טכנולוגיות היא הייתה ונשארה בקבוצת המדינות המערביות "הנמוכות" יחסית. אך ניתוח אשכולות יכול לענות על השאלה הזו טוב יותר. ראשית, משום שניתוח אשכולות מתחשב בו זמנית בכל המשתנים, ולא רק בחלק מהם, נבנה על פי היכולת של המשתנים להבדיל בין קבוצות מדינות, ומספק לנו תשובה אחת ברורה. ושנית, משום שתרשימים פשוטים דורשים ממני לבחור באופן אקטיבי מדינות ייחוס מעטות, או לחילופין לבחון ממוצעים של קבוצות מדינות, כגון ממוצע מדינות מערב אירופה, מזרח אירופה, אסיה וכדומה, ואז אני נדרש להגדיר בעצמי את קבוצות המדינות במקום לתת לנתונים להגדיר אותם.

 

ניתוח אשכולות (clustering) והאלגוריתם DBSCAN

ניתוח אשכולות מאפשר לחוקרים להבחין בתת-קבוצות מעניינות בתוך קבוצה גדולה של תצפיות, על פי מגוון רחב של משתנים. יש לו חשיבות עבור יישומים פרקטיים רבים. למשל, הוא מאפשר לתוכנות לעבור על מאגר של תמונות ולסווג אותן באופן אוטומטי לתמונות של חפצים או בעלי חיים שונים, או לגלות שאנשים שמגיעים לסופרמרקט כדי לקנות לחם בדרך כלל גם רוצים חלב, ולכן כדאי לסדר את המדפים בהתאם.

ישנם אלגוריתמים רבים לניתוח אשכולות, המתאימים למשימות שונות. לצורך מענה על השאלה שבכותרת הרשומה, בחרתי באלגוריתם הנקרא DBSCAN, או בשמו המלא והמרשים:

Density-based spatial clustering of applications with noise

אלגוריתם זה פותח בשנת 1996, והוא אחד הנפוצים ביותר בספרות המחקרית. האלגוריתם סורק את מרחב הנתונים (מרחב שש-מימדי במקרה שלנו, מכיוון שיש שישה משתנים), מנסה למצוא בו "עננים צפופים" שבהם נמצאות תצפיות (מדינות) רבות, ואז מסווג אותן לקבוצות לפי שני פרמטרים שהמשתמש קובע מראש. שני הפרמטרים האלו משפיעים על הגודל של אותם עננים שש-מימדיים. כדי לקצר אני לא אפרט כאן מהי בדיוק משמעות הפרמטרים; בערך בוויקיפדיה על האלגוריתם ניתן לקרוא על הנושא באופן יותר מפורט ולראות דוגמאות לפעולתו.

לאלגוריתם DBSCAN ישנם שני יתרונות על אלגוריתמים אחרים המשמשים לניתוח אשכולות, מבחינת שאלת המחקר הספציפית שבה אנחנו עוסקים:

  1. המשתמש אמנם בוחר מראש את שני הפרמטרים שהזכרתי, אבל בניגוד לאלגוריתמים אחרים (כגון k-means) הוא לא בוחר מראש כמה קבוצות יהיו. אני לא רוצה להחליט מראש שכל מדינות העולם מתחלקות דווקא ל-2 קבוצות, מדינות מפותחות ומדינות לא מפותחות, אני רוצה שמספר הקבוצות ינבע עד כמה שאפשר מהנתונים (למרות שגם הפרמטרים שאני בוחר משפיעים עליו). יתכן שבתקופות מסויימות האלגוריתם יחליט לחלק את מדינות העולם ל-2 קבוצות, ובתקופות אחרות ל-3 או 4 קבוצות.
  2. בניגוד לאלגוריתמים אחרים, DBSCAN מאפשר להגדיר תצפיות שהן רחוקות יחסית מכל אותם עננים צפופים בתור "רעש". בהקשר שלנו, המשמעות של "רעש" תהיה מדינות יוצאות דופן שלא שייכות באופן מובהק לשום אשכול. כך אני יכול להגיע למסקנה שבתקופות מסויימות מדינת ישראל לא הייתה לא בקבוצת המדינות המתפתחות ולא בקבוצת המדינות המפותחות, ובחירת האשכולות לא מושפעת ממדינות מאוד יוצאות דופן כגון נסיכויות המפרץ הפרסי, שוויץ ונורבגיה, שפגעו באלגוריתמים אחרים שניסיתי.

כדי להפעיל את האלגוריתם עלינו לתקנן את ששת המשתנים, כך שהטווח המספרי של כולם יהיה דומה. את הניתוח נעשה בנפרד עבור הממוצעים של המדינות בכל עשור. כדי לראות את התוצאות באופן נוח, עלינו להשתמש באלגוריתם נוסף.

 

תוצאות הניתוח: תרשימי PCA

PCA , או בשמו המלא "Principal component analysis", הוא אלגוריתם שמאפשר לקחת מרחב נתונים רב מימדי, כמו המרחב השש-מימדי שלנו, ולרדד אותו למספר נמוך יותר של מימדים, למשל רק שני מימדים. האלגוריתם מייצר מששת המשתנים שתיארתי קודם שני משתנים סינתטיים "מאונכים אחד לשני", שכל אחד מהם הוא קומבינציה כלשהי של ששת המשתנים המקוריים, והם בנויים כך שהם מתארים בצורה הטובה ביותר את השונות שישנה בנתונים המקוריים. להרחבה ופרטים נוספים ניתן לקרוא כאן. הנקודה היא שעכשיו אפשר לצייר את כל המדינות על שני צירים, שכל אחד מהם משקלל את ששת המשתנים המקוריים בצורה אחרת, ולראות את האשכולות באופן נוח, בגלל שהצירים נבנו על ידי האלגוריתם במטרה להבליט את השונות בין המדינות.

אפשר להפעיל את אלגוריתם ה-PCA בנפרד על הנתונים של כל תקופה, אבל קל יותר לראות את המגמות אם שומרים על עקביות לאורך כל השנים, ולכן בניתי את שני משתני ה-PCA רק לפי הנתונים על העשור הראשון, שנות השישים. המספרים שעל הצירים הם המשתנים הסינתטיים, אין להם משמעות של ממש ולכן הורדתי אותם מהתרשימים. גם הצירים עצמם ואיך הם נבנו לא נורא מעניינים לצורך העניין. כל מה שחשוב זה אילו מדינות קרובות האחת לשנייה. ניתן לחשוב על התרשימים הבאים כעל מן "מפה" של העולם המתארת את המדינות לפי קרבתן אחת לשנייה במרחב השש-מימדי של המשתנים שבחרנו.

כל עיגול בתרשימים מתאר מדינה, וצבעי העיגולים מתארים את החלוקה של האלגוריתם DBSCAN לאשכולות השונים (האשכולות נבנו על פי ששת המשתנים המקוריים, ולא על פי שני המשתנים הסינתטיים שה-PCA יצר, ולכן הם לא תמיד תואמים את הקבוצות והמרחקים שניתן לראות בתרשימים). בכל התרשימים מדינות המסווגות כ"רעש" מופיעות באפור, וישראל מוקפת בעיגול תכלת. ניתן ללחוץ על התמונות כדי לראות את התרשימים בגודל מלא.

בשנות השישים ישראל מסווגת בתור רעש (צבע אפור), אך ניתן לראות שכך גם מדינות מערביות רבות אחרות. רק המדינות המערביות המופיעות בצבע ירוק הן כאלו שסווגו לקבוצה אחת על ידי האלגוריתם. המרחקים בין המדינות המערביות פשוט גדולים מדי, ולכן רק חלקן סווגו על ידי האלגוריתם בתוך אשכול. מלבד האשכול הירוק, האלגוריתם יצר עוד שני אשכולות של מדינות מתפתחות, שניתן לראות בצבעים כחול וצהוב. למרות שהיא מסווגת בתור רעש, ניתן לראות שכבר אז ישראל הייתה קרובה למדינות המערב יותר מאשר למדינות המתפתחות.

בשנות השבעים ישראל עדיין מסווגת בתור רעש, אך ניתן לראות שמדינות המערב התקרבו האחת לשנייה, ופחות מהן מסווגות בתור רעש. מהצד השני מסתמנת קבוצה די ברורה של מדינות מתפתחות בצבע צהוב.

בשנות השמונים ישראל מצטרפת לקבוצת מדינות המערב. סינגפור, נורבגיה ושוויץ מסווגות כרעש, וכך גם מדינות הנמצאות בין קבוצת המדינות המפותחות ובין קבוצת המדינות המתפתחות, כגון פורטוגל, ארגנטינה וצ'ילה.

בשנות התשעים ישראל עדיין בתוך קבוצת מדינות המערב. ניתן לראות התכנסות למאפיינים דומים במדינות המערב, בזמן שהמדינות המתפתחות נחלקות לשתי קבוצות. נורבגיה הייתה ונשארה רעש.

בשנות האלפיים ישראל עדיין בקבוצת מדינות המערב, שהתקרבו עוד יותר האחת לשנייה. אירלנד בולטת בתור מדינה יוצאת דופן, ונראה שישנה שונות משמעותית בין המדינות המתפתחות, שרבות מהן מסווגות בתור רעש.

 

נושאים נוספים

התוצאות האלו תלויות במידה מסויימת בפרמטרים שאני בוחר עבור אלגוריתם DBSCAN. אם הרשומה הזו הייתה מאמר מדעי השלב הבא היה ניתוח רגישות, שמדגים את השפעת הפרמטרים, אך אני אחסוך מכם את החלקים הפחות מעניינים. בגדול הפרמטרים של האלגוריתם נעים מערכים "גדולים מדי" המובילים לסיווג של כמעט כל המדינות במדגם באותו אשכול לאורך כל השנים, ועד ערכים "קטנים מדי" המובילים לסיווג מרבית המדינות כרעש במהלך מרבית השנים. עבור ערכי אמצע, שאינם גדולים או קטנים מדי, התוצאות דומות לאלו שהראיתי כאן. אם ישנה קבוצה מובהקת של מדינות מערביות, ישראל מצטרפת אליה רק בשנות השמונים. ההבדל המשמעותי היחיד: עבור ערכי פרמטרים מסויימים ישראל היא לא רעש בשנות השישים והשבעים, אלא שייכת לקבוצה של מדינות מערביות עניות יחסית, כגון סינגפור, קפריסין וצ'ילה.

ניתוח של המשקולות שאלגוריתם ה-PCA העניק לששת המשתנים, בניסיון לרדד אותם לשני מימדים המסבירים את השונות בין המדינות, לא מעלה תוצאות מעניינות – המשקולות דומים עבור כל ששת המשתנים. כמובן שישנם דברים רבים נוספים שניתן לעשות: אלגוריתמים אחרים במקום DBSCAN, ניתוח אשכולות עם חלק מששת המשתנים, הוספת משתנים ומדינות בשנים המאוחרות (החל משנות השמונים אפשר להשתמש בעשרות משתנים ולמעלה ממאה מדינות) ועוד. יתכן שבעתיד אחקור את הכיוונים האלו לעומק, בינתיים הקוראים המעוניינים בכך יכולים להוריד את הנתונים והקוד ולנסות.

 

סיכום

התוצאות תואמות במידה מפתיעה את התזה המקובלת במחקר על ההיסטוריה הכלכלית של ישראל, לפיה מדינת ישראל "הפכה למדינה מערבית" רק בעקבות תכנית הייצוב של 1985. חשוב להזכיר שתכנית הייצוב טיפלה בבעיות כגון האינפלציה הגבוהה והמחסור במטבע חוץ, שני משתנים שאינם נמצאים בקבוצת ששת המשתנים שבחרתי כאן (לא היו נתונים על מספיק מדינות). כלומר, מעניין לראות ששישה משתנים שרק אחד מהם (התוצר לנפש) קשור באופן עקיף למדי לתכנית הייצוב ולרפורמות שבאו בעקבותיה, מעלים תמונה שכזו.

מצד שני, הניתוח שהוצג כאן מעלה כי גם בלי קשר לתהליכים שהתרחשו בישראל, קבוצת המדינות המערביות לא היוותה אשכול מוגדר במיוחד בשנים המוקדמות, והמדינות המרכיבות אותה הפכו לדומות יותר אחת לשנייה לאורך השנים. ניתן לראות מספר מדינות אחרות שעברו תהליך דומה לישראל. למשל, סינגפור מוגדרת כרעש עד שנות השמונים, ונכנסת לקבוצת המדינות המערביות בשנות התשעים. פורטוגל מוגדרת כרעש בשנות השישים, כמדינה מתפתחת בשנות השבעים, חוזרת להיות רעש בשנות השמונים והתשעים, ורק בשנות האלפיים נכנסת לקבוצת המדינות המערביות. אנחנו יודעים שרבות ממדינות המערב עברו רפורמות דומות לתכנית הייצוב הישראלית בערך באותו הזמן, ביניהן המדינות הנורדיות שנקלעו למשברים כלכליים בתחילת שנות התשעים. כלומר, ייתכן שמה שאנחנו רואים כאן זה תופעה כללית של ניסיון של מדינות המערב להתקרב האחת לשנייה, להתקרב ל-best practice של מדיניות כלכלית באמצעות רפורמות שונות, שבסופו של דבר הפכו את המערב לאשכול מוגדר, כאשר תכנית הייצוב הישראלית והרפורמות שבאו בעקבותיה היו רק חלק מהסיפור.

ניתוח עבור שנים ספציפיות מעלה כי בשנים האחרונות ישראל חוזרת להיות מוגדרת בתור רעש, ככל הנראה בגלל שיעור הילודה הגבוה. האם שיעור ילודה גבוהה הוא טוב? רע? כיצד הוא משפיע על תוצר לנפש והשקעה בהון אנושי? זה לא המקום לעסוק בשאלות החשובות הללו, ואולי בעתיד אקדיש לנושא רשומה נפרדת. לצערנו, העתיד אינו חקוק בסלע, ובהחלט יתכן שעקב תהליכים דמוגרפיים ואחרים ישראל תצא בסופו של דבר בקביעות מקבוצת המדינות המערביות, ואולי אף תצטרף אל קבוצת המדינות המתפתחות או אל קבוצת ביניים כלשהי. ויתכן שלא. הכל תלוי בנו.

 

————————————————

 

[1] הנתונים מבוססים על המקורות הבאים:

  1. Mills, Census of Palestine, Government of Palestine, 1933, Vol. I: Report, p. 215, Subsidiary Table No. I

Easterlin, R. A. (1961). Israel's development: past accomplishments and future problems. The Quarterly Journal of Economics, 63-86.

Halevi, Nadav and Ruth Klinov-Malul, The Economic Development of Israel. New York: Praeger, 1968

נתונים על תמותת תינוקות בישראל מלפני כמאה שנים ניתן למצוא בדו"ח הופ-סימסון:

https://www.jewishvirtuallibrary.org/hope-simpson-report

 

 

 

הערה: רשומה זו פורסמה לראשונה ב"הארץ".


קבוצה עיקשת של אקדמאים מנסה מזה עשרות שנים להשחיר את המהפכה התעשייתית ואת המערב, כחלק מתפיסה פוסטמודרניסטית אשר הפכה לפופולרית גם בחלק מאמצעי התקשורת. ניסיונות ההשחרה בדרך כלל מתחילים עם איזו שהיא תופעה שלילית שהתרחשה בבריטניה או בארצות הברית במהלך המאות ה-18 וה-19, כגון זיהום אוויר, עבדות, עבודת ילדים או נישול איכרים אנגלים מנחלותיהם. לאחר מכן מראים החוקרים שהיו מי שהרוויחו מהתופעה הזו, ואז הם מבצעים קפיצה לוגית עצומה, ומנסים לקשור את התופעה השלילית באורח עקום לפני הקטר העצום של הקפיטליזם והצמיחה הכלכלית, במטרה לטעון שמקורו של כל הטוב הזה שאנחנו נהנים ממנו כיום הוא באותו החטא הקדמון.

ב-13.11.2019 פורסם ב"הארץ" ראיון עם ההיסטוריון סוון בקרט, המהווה דוגמה לתבנית זו. בקרט פרסם ספר על תעשיית הכותנה, אחת מתעשיות הדגל של תקופת המהפכה התעשייתית. הקדמה הטכנולוגית שליוותה את תעשיית הכותנה (והטקסטיל באופן כללי) במאה ה-19 הפחיתה את מחירי הביגוד לראשונה בהיסטוריה האנושית לרמה שאיפשרה גם למשפחות עניות להפסיק לתפור בגדים גסים תוצרת בית, ואפילו לקנות יותר מחליפת בגדים אחת. אך כמובן, בתחילת הדרך תעשיית הכותנה הייתה מבוססת במידה רבה על העבדים שקטפו כותנה במטעים הגדולים של דרום ארצות הברית. האם ניתן לטעון עקב כך שהעבדות שיחקה תפקיד חשוב בעליית המערב?

חוקרים אחרים כבר טענו, בתגובה לספרו של בקרט, שתעשיית הכותנה לא הייתה חשובה כפי שהוא טוען, ושתפיסתו אודות המרכזיות של העבדות שגויה מהיסוד (ראו גם כאן). על מנת להבחין בשגיאה שבלב הטיעון, כל מה שנדרש זה ללכת מעט אחורה. למעשה, עבדות הייתה נפוצה בכל החברות האנושיות בהיסטוריה, וביחוד במושבות העשירות של דרום אמריקה, מרכז אמריקה והאיים הקריביים. העבדות נעלמה לראשונה דווקא באזורים המתועשים ביותר שבתוך המדינות המתועשות ביותר, ובתקופה שבה תהליך התיעוש הגיע לשיאו. אם עבדות הייתה גורם חשוב לשגשוג כלכלי, היינו מצפים שספרד ופורטוגל יקצרו את עיקר הרווחים מהמסחר עם העולם החדש, ולא בריטניה, שעקפה אותן בסיבוב. ספרד ופורטוגל השתלטו על אותם חלקים מיבשת אמריקה שמלכתחילה היו יותר עשירים וצפופי אוכלוסייה, והקולוניות שלהן היו מבוססות לגמרי על עבדות. הבריטים והצרפתים, לעומת זאת, התקשו למשוך מתיישבים לקולוניות שלהם בצפון אמריקה וקנדה, ונאלצו עקב כך להקים מוסדות פתוחים אשר עודדו מסחר והגירה. מלחמת האזרחים האמריקנית, אחת המלחמות האכזריות בהיסטוריה, נערכה בין הצפון המתועש, העשיר והסולד מעבדות, ובין הדרום העני שתמך בהמשך העבדות. אם העבדות הייתה כל כך משתלמת, איך ייתכן שהצפון היה עשיר יותר מהדרום?

העבדות היא לא התופעה היחידה שנעלמה לראשונה דווקא באזורים המתועשים ביותר שבתוך המדינות המתועשות ביותר, ובתקופה שבה תהליך התיעוש הגיע לשיאו. גם עבודת הילדים, שהייתה נפוצה בכל חברה אנושית בהיסטוריה, נעלמה בערך באותו הזמן, עוד לפני שהופיעו הרגולציות הראשונות בנושא. איך יתכן גם העבדות וגם עבודת הילדים חוו את אותו התהליך?

ההסבר הוא פשוט. הקדמה הטכנולוגית בתקופת המהפכה התעשייתית העלתה את החשיבות היחסית של הון אנושי, ביחס להון פיזי, בתהליך הייצור. היא חייבה גברים ונשים להשקיע בהון האנושי של עצמם ושל ילדיהם, והעלתה גם את שכרן של נשים ביחס לגברים. חינוך הילדים הפך למשתלם יותר משליחתם לשוק העבודה. מכונות הפכו למשתלמות יותר מעבדים. אלו לא היו אנשים טובים שצצו לפתע משום מקום ועצרו את העבדות ואת עבודת הילדים – אלו היו האינטרסים הצרים של סוחרים, תעשיינים ופוליטיקאים, או לפחות היעדרם של אינטרסים סותרים, שאיפשרו את המהפכה שחיסלה את התופעות האלו.

העבדות לא תרמה לעליית המערב. ההפך, היו לה נזקים עצומים, שרבים מהם נשארו עד היום, גם בארצות הברית וגם באפריקה. היא מנעה השקעה בהון אנושי, מנעה השקעה במיכון, מנעה קדמה טכנולוגית. האנשים המוזכרים בראיון עם סוון בקרט, שהפיקו רווחים כספיים מהעבדות, הזיקו לקדמה. למעלה ממאה אלף חיילים של צבא צפון ארצות הברית מתו כדי להתגבר עליהם ועל האינטרסים שלהם, ואם הצפון לא היה מנצח במלחמה דרום ארצות הברית הייתה ככל הנראה ענייה כמו מקסיקו כיום. העבדות הייתה נטל כלכלי, לא רק מוסרי, ועליית המערב חייבה את חיסולו של הנטל הזה.

בדומה לטענותיו בנוגע לעבדות, גם ההסבר שנותן בקרט עבור "ההתבדרות הגדולה" (the great divergence) בראיון אינו מקובל כיום על מרבית החוקרים בתחום. הוא מדבר על "סחר אלים" באסיה, עבודות כפייה באמריקה ועוד, מבלי לתהות כיצד אירופה הגיעה מלכתחילה לנקודה שאיפשרה לבריטים לנצח בנוק-אאוט את הסינים במלחמות האופיום. התשובה היא שוב הקדמה הטכנולוגית המהירה שאפיינה את האירופאים, כתוצאה מהתחרות המתמדת בין מעצמות אירופאיות מאז ימי הביניים המאוחרים, בזמן שסין ואימפריות אחרות נקלעו לסטגנציה וניוון. האירופאים לא כבשו את העולם מכיוון שהם היו אלימים ומרושעים יותר, אלא מכיוון שהיו להם ספינות עם שריון פלדה ותותחים משוכללים יותר, שעוצבו במהלך מאות שנים של תחרות פנימית עזה. אותה הקדמה הטכנולוגית שעזרה לאירופאים לכבוש חלק ניכר מהעולם, חייבה אותם גם להכחיד את העבדות ואת עבודת הילדים, ולקדם מוסדות דמוקרטיים וסחר חופשי.

בסופו של הראיון אנחנו מגיעים לנושא אי השויון. "הקפיטליזם תמיד הוליד אי־שוויון", אומר בקרט, אבל זוהי טעות. אי שוויון המתבטא במבנה חברתי היררכי היה המצב הטבעי בכל החברות האנושיות שהתפתחו אל מעבר את שלב השבט והנגידות ( chiefdom) אלפי שנים לפני הופעת הקפיטליזם – ובייחוד אי שוויון בהזדמנויות. הקדמה הטכנולוגית המהירה והשינויים המוסדיים שליוו אותה לקראת סוף המאה ה-19 חיסלו חלק ניכר מאי השוויון בהזדמנויות, והובילו למוביליות חברתית מהירה במיוחד, בייחוד בארה"ב. לגבי השפעת הקדמה על אי השוויון בתוצאות – ובכן, תלוי מה ואיך אתם מודדים. הנושא נחקר באינטנסיביות כבר זמן רב, והמסקנה היא שככל הנראה אין חוקי טבע המכתיבים דווקא השפעה שלילית או חיובית של צמיחה כלכלית על אי שוויון, והכל תלוי בפרטים הקטנים.

בסופו של דבר, ההשקפה שמנסה להדביק תופעות שליליות למהפכה התעשייתית ולעליית המערב איננה נובעת מעובדות היסטוריות. היא נובעת מתפיסה מוסרית בסגנון "החטא הקדמון", מן כשל קוגניטבי שלפיו לא ייתכן שדבר כל כך טוב, כמו המעבר מהעולם שבו כמחצית מהילדים נפטרו לפני הגיעם לבגרות אל העולם המודרני, פשוט צמח ככה מעצמו, באופן ספונטני, מבלי שיכוון על ידי ממשלה כלשהי, מבלי שיונהג על ידי אינטרסים נסתרים וקונספירציות כלשהן, מבלי שיהיה זה "משחק סכום אפס" שבו על כל פרט שמרוויח ישנו פרט שמפסיד, מבלי שיהיה צד אפל כלשהו שכולנו מפספסים. אבל למרבה התדהמה, ובניגוד לאינטואיציה – זה בדיוק מה שקרה ב-200 השנים האחרונות.

אמל"ק / השורה התחתונה

מדעני נתונים וכלכלנים שואלים שאלות מחקר אחרות, ולכן הם משתמשים בכלים אחרים ומוטרדים מבעיות אחרות, אבל מדעני נתונים יכולים להרוויח מהיכרות עמוקה יותר של נושא ההסקה הסיבתית, וכלכלנים יכולים להרוויח מהרחבת אופקים אל מעבר לרגרסיות.

 

הקדמה

בשנים האחרונות מתרחשת התפוצצות של ממש בתחום חדש-ישן המכונה "מדע נתונים" (data science), וספציפית בתת התחום "למידת מכונה" (machine learning). הסטטיסטיקה היא כמובן בת מאות שנים, ובתואר הראשון שלי בהנדסת תעשייה, לפני למעלה מעשור, כבר היו קורסים במה שנקרא אז data mining, אבל בעקבות הגידול בכוח המחשוב והזמינות הגבוהה של מסדי נתונים גדולים העסק נוסק בשנים האחרונות לגבהים חדשים.

מי הם מדעני הנתונים? על הצד הציני, יש שיאמרו שמדובר במיתוג מחדש לסטטיסטיקאים שמאפשר להם להרוויח משכורות של מתכנתים, או באפשרות להסבת מקצוע לדוקטורים מכל המינים והתחומים שלא מצאו את מקומם באקדמיה. על הצד היותר רציני, מדובר במקצוע מאתגר המחייב ידע בתכנות, לעיתים גם במתמטיקה, הבנה סטטיסטית עמוקה ויצירתיות, לשם טיפול במאגרי ענק של נתונים והפיכתם לתובנות ששוות הרבה מאוד כסף. במובנים רבים זהו מקצוע חדש, שעלה מהשטח, עקב הביקוש במגזר ההיי-טק.

מניסיוני ברשתות החברתיות ישנו מחסום קונספטואלי בין כלכלנים ובין מדעני נתונים, שבולט בכל פעם כשמגיעים לדיון טכני על רגרסיות ליניאריות ונושאים דומים. מכיוון שאני יודע שאחרי הבלוג עוקבים גם כלכלנים וגם מדעני נתונים, החלטתי להקדיש רשומה לניסיון לגשר על הפערים האלו. חלק מהמחסום נובע פשוט משמרנות דיסציפלינרית – רבים התרגלו לכלים שאותם למדו באוניברסיטה, והזלזול בתחומים אחרים הוא תירוץ נוח לבורות והישארות באזור הנוחות – אבל חלק מהמחסום נובע ממספר הבדלים חשובים אחרים.

אפשר לראות בפוסט הזה סוג של "מבוא למדע נתונים עבור כלכלנים", "מבוא לאקונומטריקה עבור מדעני נתונים" או פשוט שורה של מחשבות שעולות אצלי כמי שנע לראשונה מתחום אחד לשני.

 

שאלות מחקר שונות

כלכלנים באקדמיה, ובאופן כללי יותר חוקרים במדעי החברה, בד"כ רוצים להבין מה ההשפעה של משתנה מסביר מסויים (X) על משתנה מוסבר מסויים (Y). למשל, ההשפעה של רמת ההשכלה על השכר, ההשפעה של הגירה על שוק העבודה, או ההשפעה של בניית כביש חדש על אורך הפקקים. מדעני נתונים, לעומת זאת, בד"כ רוצים לחזות דברים. למשל, להבין מהו הסיכוי שאדם עם מאפיינים מסויימים שנכנס לאתר אינטרנט ירצה לקנות מוצר מסויים, או מהו הסיכוי שתמונה עם פיקסלים בצבעים מסויימים מתארת את הפנים של אדם מסויים. השוני בשאלות המחקר מוביל לשוני בכלים הנפוצים בכל תחום, ולמיקוד של חוקרים במדעי החברה ברגרסיות מסוגים שונים (ליניאריות, לוגיסטיות ועוד).

נראה דוגמה להבדל זה, המבוססת על נתונים שאני עובד עליהם כרגע במסגרת מחקר בפורום קהלת לכלכלה, שיפורסם בחודש הקרוב. שאלת המחקר הספציפית שבה נעסוק: מהי השפעת המעמד הסוציואקונומי על רמת הבריאות בישראל?

הנתונים מבוססים על הסקר ארוך הטווח של הלמ"ס, שבמסגרתו התבקשו המשיבים לדרג את רמת הבריאות שלהם לפי חמש קטגוריות. לצערי הנתונים אינם פומביים, ולכן איני יכול לחלוק כאן אותם ואת הקוד. אני מחלק את המשיבים לשתי קבוצות, אלו שטענו שרמת הבריאות שלהם "טובה מאוד" (כ-67% מהמשיבים שיש לגביהם נתונים מלאים) ולעומתם כל השאר. זהו משתנה התוצאה – שתי קטגוריות המתארות את רמת הבריאות. המשתנים המסבירים הם הגיל, המגדר, ההכנסה, ההשכלה, מקצוע פיזי (כגון בינוי או הפעלת מכונות כבדות), והשתייכות ללאום ערבי או לקבוצת החרדים.

אם נתעלם לרגע מנושא הסיבתיות, רגרסיה לוגיסטית (בלי רגולריזציה) מספקת תשובה פשוטה לשאלת המחקר: בהינתן גיל ומגדר, הכפלת ההכנסה תגדיל פי כ-1.22 את יחס ההסתברויות, שהוא ההסתברות להיות בעל רמת בריאות טובה מאוד חלקי ההסתברות ההופכית, והתוצאה מובהקת סטטיסטית ברמת מובהקות של 1%. כמובן, אם מעולם לא עסקתם ברגרסיות לוגיסטיות יתכן שהתשובה הזו נשמעת לכם כמו סינית, אבל תאמינו לי – זו תשובה פשוטה. ניתן גם להשוות את השפעת ההכנסה להשפעות של משתנים אחרים בקלות, ולראות מי מהם משפיע יותר. מסתבר שהשכלה משפיעה יותר מהכנסה, והחרדים הם בריאים במיוחד, או לפחות נוטים לענות באופן מאוד אופטימי על שאלות סובייקטיביות בנוגע לרמת הבריאות שלהם.

אחד הכלים הנפוצים בקרב מדעני הנתונים, שבו השתמש עמרי גולדשיין כדי לנתח שאלה דומה בבלוג שלו, הוא עצי החלטה. זוהי התוצאה של אלגוריתם עץ החלטה עבור אותם הנתונים, כשהוא מוגבל ל-3 רמות (לחצו על התמונה כדי להגדילה):

המשמעות של העץ יותר אינטואיטיבית מהרגרסיה הלוגיסטית. על מנת לקרוא את העץ עלינו להתחיל בריבוע העליון. בשורה הראשונה בכל ריבוע מצויין קריטריון ההחלטה, וישנם שני חצים – אמת (שמאלה) או שקר (ימינה). אם גילו של הפרט גדול מ-50 שנים נלך ימינה, ואם גילו קטן מ-50 שנים נלך שמאלה. אם הלכנו שמאלה, עלינו לבחון האם גילו גדול או קטן מ-41.5. אם הגיל הוא גבוה מ-41.5, אך נמוך מ-50.5, אנחנו מגיעים לריבוע שבו הקריטריון מבוסס על מקצוע פיזי. מקצוע פיזי הוא משתנה בינארי כאמור, השווה ל-1 עבור בעלי מקצועות פיזיים ו-0 אחרת. על פי העץ, התחזית לבעלי מקצועות פיזיים בגילאי 42 – 50 היא לבריאות שאיננה טובה מאוד, בעוד שהתחזית לאלו שאין להם מקצועות פיזיים בגילאים אלו היא לבריאות טובה מאוד.

מלבד הקריטריון, בכל ריבוע מצוין שיעור התצפיות הנמצאות בענף זה של העץ (samples), וכן חלוקתן בין פרטים עם בריאות שאיננה טובה מאוד (הערך הראשון ב-value) ובריאות טובה מאוד (הערך השני ב-value). ככל שצבעו של הריבוע כחול יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות טובה מאוד, וככל שהוא כתום יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות שאיננה טובה מאוד.

העץ מעניין מאוד (כשנפרסם את המחקר אני אפרסם בבלוג מספר עצים נוספים בנידון), אבל הוא לא מספק לנו תשובה חד משמעית לשאלת המחקר – השפעת ההכנסה על בריאות. על הצד החיובי, הוא מאפשר לנו לראות דפוסים שלא ראינו ברגרסיה. למשל, אנחנו יכולים לראות שישנה בעיה עם בעלי מקצועות פיזיים שגילם עולה על 41, ושהשפעת ההכנסה על הבריאות היא חשובה בעיקר עבור מבוגרים. יכולנו לראות את הדפוסים האלו גם ברגרסיה, אך לשם כך היינו צריכים להכניס "אינטראקציות" בין המשתנים מראש. העץ מגלה את הדפוסים האלו באופן אוטומטי, מבלי שנצטרך לחשוב עליהם בעצמנו ולעצב את משוואת הרגרסיה בהתאם. כלים אחרים הנפוצים בקרב מדעני נתונים, כגון random forest (שילוב של עצים רבים) או רשתות נוירונים, לא יוכלו להועיל כלל עבור שאלת המחקר שלנו. בניגוד לעץ, הכלים האלו מייצרים "קופסה שחורה" אשר קשה לפענח אותה ולהבין ממנה את השפעתם של משתנים שונים (אם כי random forest ועצים מספקים מדד לחשיבות המשתנים הנקרא feature importance).

אז מצד אחד, ברור שכלכלנים וחוקרים ממדעי החברה הנתקלים בשאלת המחקר שלנו, השפעת ההכנסה על רמת הבריאות, ישתמשו בעיקר ברגרסיות – פחות בגלל שהם מעולם לא שמעו על כלי אחר, ויותר מכיוון שהן מתאימות יותר ונוחות יותר עבור שאלות מחקר מעין אלו. העץ מספר לנו על אילו משתנים כדאי להסתכל על מנת להחליט אם אדם בריא או לא, אבל הוא לא יכול לספק לנו מספר יחיד העונה לשאלה ששאלנו, ואלגוריתמים אחרים המקובלים בקרב מדעני נתונים עוד פחות שקופים ממנו. רגרסיה כן מסוגלת. אך מצד שני, שימוש בעצי החלטה יכול לעיתים לעזור לחוקרים למצוא דפוסים מעניינים נוספים בנתונים, וכך להוות כלי עזר משלים לרגרסיה.

לעומת זאת, נניח שהנתונים הם אותם הנתונים, אבל שאלת המחקר היא אחרת. נניח שאתם רופאים, המעוניינים לחזות את הבריאות של מטופל חדש שנכנס למרפאה שלכם. אתם יודעים מהי הרמה של המשתנים המסבירים עבור המטופל החדש, אבל לא מהי רמת הבריאות שלו. איזה מודל יהיה מוצלח יותר בחיזוי?

על מנת לבדוק את שאלת החיזוי, נחלק את בסיס הנתונים לשני חלקים. החלק הראשון, 75% מהתצפיות שיבחרו באקראי, ישמש אותנו לאימון המודל. האלגוריתמים ינסו לבנות את מודל הרגרסיה או את העצים שיהיו מסוגלים להסביר באופן הטוב ביותר את רמת הבריאות עבור חלק זה. החלק השני ישמש אותנו לבחינת המודל על נתונים "חדשים", שלא שימשו לבניית המודל עצמו, וכך נראה באיזו מידה ניתן להכליל את המודלים ולהשתמש בהם לחיזוי.

התוצאות? מודל הרגרסיה הלוגיסטית הצליח לחזות נכונה את רמת הבריאות עבור כ-72% מהפרטים בחלקו השני של בסיס הנתונים, מודל העץ הצליח לחזות נכונה את רמת הבריאות של כ-70% מהם, ומודלים אחרים שניסיתי, כגון random forest ו-support vector machines הובילו לרמת דיוק נמוכה יותר. ניתן כמובן לבצע תהליך מסודר יותר של כיול הפרמטרים של המודלים השונים כדי לשפר את דיוק התחזיות.

הנקודה היא שלמרות שקיבלנו כאן שרגרסיה לוגיסטית קצת טובה יותר מהמודלים האחרים, בנוגע לתחזיות לרגרסיות אין יתרון עקרוני על מודלים אחרים. הכל תלוי במבנה הנתונים. אבל בנוגע לשאלת המחקר הנפוצה במדעי החברה – ההשפעה של X כלשהו על Y כלשהו – לרגרסיות יש יתרון עקרוני. מגניבים ומרשימים ככל שיהיו, האלגוריתמים האחרים פשוט לא נותנים לנו מספר יחיד המתאר את ההשפעה המותנית של המשתנה המסביר על משתנה התוצאה, בהנחה ששאר הגורמים שווים.

כתוצאה מההבדל בשאלות המחקר, התחושה של חוקרים במדעי החברה היא שמדעני נתונים לא ממש מבינים רגרסיות. בספר על למידת מכונה שקניתי רגרסיות מתוארות באופן שטחי למדי, אין עיסוק בכלל בשאלת המובהקות של האומדים, במולטיקוליניאריות, במשפט גאוס-מרקוב ובכל הנושאים האחרים שספרי לימוד באקונומטריקה מקדישים להם זמן רב. נראה שהחוקרים פשוט שופכים את כל המשתנים לרגרסיה בלי לחשוב יותר מדי, לעיתים גם עם כל האינטרקציות האפשריות ביניהם, ולא מסתכלים על המקדמים של המשתנים אלא רק על שיעור הדיוק בתחזית. לעומת זאת, התחושה של מדעני נתונים רבים היא שכלכלנים נעולים יותר מדי על רגרסיות ולא מתעניינים במודלים אחרים. שני הצדדים צודקים במובן מסויים – אלו פשוט שאלות מחקר אחרות.

ההבדל בשאלות המחקר מוביל אותנו לשני הפערים הבאים.

 

כלכלנים מאוד מוטרדים מסיבתיות, מדעני נתונים לא כל כך

בגלל המיקוד שלהם במדיניות, כלכלנים מעוניינים לאמוד השפעה סיבתית של גורמים שונים. בסמינרים מודרניים בכלכלה אמפירית רוב הדיון נע סביב סיבתיות: האם האפקט שהחוקר מצא מתאר השפעה סיבתית של ממש של המשתנה המסביר על משתנה התוצאה, או שמדובר רק בקורלציה שיכולה לנבוע מסיבתיות הפוכה, או מגורמים אחרים.

כתבתי על סיבתיות בהרחבה בעבר בבלוג (למשל כאן וכאן) ובשנתיים האחרונות לימדתי קורס שלם בנושא באוניברסיטת בראון. במדעים המדוייקים ניתן בדרך כלל למצוא השפעה סיבתית באמצעות ניסויי מעבדה, שבמסגרתם משנים רק פרמטר יחיד ושולטים על כל השאר, אך במדעי החברה ניסויים כאלו בלתי אפשריים. לצערנו, הטכנולוגיות הנוכחיות עדיין לא מאפשרות לנו להכניס מדינות שלמות למעבדה, או לחזור אחורה בזמן. בעשורים האחרונים כלכלנים פיתחו דרכים רבות להתגבר הבעיות האלו (אחת, שתיים, שלוש, ארבע), שרובן מתבססות על "ניסויים טבעיים" אשר מאפשרים לנו לדמות ניסויי מעבדה. כל אחת מהשיטות לאמידת השפעה סיבתית בנויה על הנחות מסויימות, ובדרך כלל עיקר המאמץ של כלכלנים אמפיריים מוקדש להצדקת ההנחות האלו, ולהראות שההשפעה עמידה להנחות שונות ומודלים שונים ואיננה נובעת מגורמים אחרים.

מדעני נתונים, לעומת זאת, מתעניינים פחות בסיבתיות, בגלל שאלת המחקר השונה שלהם.

נחזור לדוגמה שלנו, אודות השפעת ההכנסה על הבריאות. יתכן שרמת ההכנסה משפיעה על הבריאות דרך מנגנונים שונים, אבל יתכן גם שישנה סיבתיות הפוכה, כלומר רמת הבריאות משפיעה על רמת ההכנסה, מכיוון שהיא מגבילה את יכולתו של הפרט לעבוד – עניין רלוונטי בייחוד עבור גילאים מבוגרים יחסית. עבור הכלכלן הרוצה לאמוד את ההשפעה הסיבתית של הכנסה על בריאות זוהי בעיה חמורה; ההשפעה האמיתית של הכנסה על בריאות ככל הנראה נמוכה יותר מתוצאות הרגרסיות שתיארתי קודם לכן בגלל שהסיבתיות ההפוכה, ההשפעה של בריאות על הכנסה, עובדת באותו הכיוון. זו שאלה קריטית עבור מדיניות: אם ההשפעה ההפוכה היא המסלול העיקרי שבו עוברת הסיבתיות, כלומר הבריאות משפיעה על ההכנסה ולא להפך, קצבאות גבוהות יותר לעניים לא ישפרו את רמת הבריאות שלהם.

לעומת זאת, עבור מדען הנתונים, הרוצה לחזות את רמת הבריאות של אדם שאיננו נמצא במסד הנתונים, סיבתיות הפוכה איננה בעיה כלל. גם אם הסיבתיות עוברת מרמת הבריאות להכנסה ולא ההפך, המשתנה של הכנסה הוא עדיין מאוד שימושי על מנת לחזות את רמת הבריאות של אדם חדש כלשהו. כל מה שחשוב, זה האם המודל מאפשר לחזות את משתנה התוצאה באופן מדוייק עבור תצפיות חדשות.

 

מדעני נתונים מאוד מוטרדים מ-overfitting, חוקרים במדעי החברה לא כל כך

עצים, רגרסיות ומודלים אחרים לניתוח נתונים נבנים על בסיס נתונים מסויים. המשמעות של overfitting היא שהמודל הוא "יותר מדי מתאים" לבסיס הנתונים ששימש לבנייתו, ויהיה פחות נכון להכליל אותו לנתונים חדשים. ראו למשל את שני התרשימים הבאים:

הציר האופקי בתרשימים הוא רמת ההכנסה, ההפכי הוא מדד כלשהו לרמת בריאות, והעיגולים הכחולים הם תצפיות (זו דוגמה, ולא נתוני אמת). הקווים המקווקווים הם המודלים שלנו. בשני התרשימים אנחנו מעוניינים לחזות את רמת הבריאות באמצעות רמת ההכנסה, אך בתרשים הימני אנחנו בונים לשם כך מודל "מסובך" (למשל, פולינום מדרגה גבוהה), הקו המקווקו המתפתל בהתאם לנקודות, בעוד שבתרשים השמאלי אנחנו בונים לשם כך מודל "פשוט", קו ישר. המודל המסובך מתאים יותר לתצפיות שיש לנו, כלומר המרחק הממוצע בין הנקודות הכחולות אל הקו הוא נמוך יותר. אבל יתכן שהמודל המסובך מושפע יותר מדי מכל מני רעשים אקראיים ותצפיות קיצון, לא מבחין בינם ובין המגמה, ולכן יהיה גרוע יותר בחיזוי מיקומה של נקודה חדשה, בהשוואה למודל הפשוט.

בעיה זו נקראת overfitting. זוכרים את התחרות שתיארתי קודם לכן בין מודלים שניסו לחזות את רמת הבריאות, כאשר חילקנו את בסיס הנתונים לשני חלקים? אחד המודלים שהזכרתי היה support vector machine. שיעור החיזוי של מודל זה עבור החלק השני של הנתונים, החלק שלא השתמשנו בו לבניית המודל, היה הנמוך מבין הארבעה שבדקתי. אבל כשבחנתי את יכולת המודלים לחזות את רמת הבריאות בחלק הראשון של הנתונים, אשר שימש לבניית המודל, הוא היה במקום הראשון עם חיזוי של 93%. כלומר, המודל הותאם מאוד – ומסתבר שיותר מדי – למבנה הנתונים בחלק הראשון. הסיבה לכישלון שלו לחזות את החלק "החדש" של בסיס הנתונים הייתה overfitting לחלק "הישן" שלהם.

מכיוון שמדעני נתונים מעוניינים בחיזוי טוב עבור נקודות חדשות, הם מנסים להגביל את המודלים שלהם בדרכים שונות כדי שיהיו פשוטים יחסית (אבל לא יותר מדי), וכן משחקים עם הפרמטרים ובוחנים את עוצמת החיזוי של כל מודל על תצפיות "חדשות", שלא שימשו לבניית המודל, כדי להימנע מבעיית ה-overfitting. חוקרים במדעי החברה, לעומת זאת, מכירים את הנושא באופן כללי, אבל לפחות בתחום הנפוץ ביותר כיום בכלכלה, אמידת מודלים מסוג reduced form, אין יותר מדי עיסוק ב-overfitting, פשוט מכיוון שהוא לא חשוב כל כך לשאלת המחקר. לעיתים ישנו עיסוק בשאלת "התוקף החיצוני" – האם מסקנות המחקר תקפות למדינות אחרות / תקופות אחרות / סיטואציות אחרות – אבל בדרך כלל אין מדידה שיטתית של overfitting באמצעות הנתונים שיש ברשות החוקר, מכיוון שמדידה שכזו לא תלמד אותנו הרבה על שאלת התוקף החיצוני.

 

מדוע בכל זאת צריך לשבור את החומות שבין הדיסציפלינות?

למרות ההבדלים שציינתי, ישנן סיבות טובות לערבב את הדיסציפלינות השונות, כך ששני הצדדים ילמדו את כל הכלים.

מדעני נתונים יכולים להרוויח מהבנה עמוקה יותר של רגרסיות ושל הכלים שהזכרתי לאמידת קשר סיבתי, מכיוון שבחלק מהמקרים גם החברות שבהן הם עובדים נדרשות לקבל החלטת מדיניות הקשורה להשפעה הסיבתית של איזה שהוא X על איזה שהוא Y, או להתמודד עם מקרה שבו אי אפשר לעשות ניסוי של ממש. למשל, אולי חברת אמאזון הייתה רוצה לאמוד את השפעתם של מאפיינים של מדינות על רווחיה באותן מדינות, במטרה להחליט האם להיכנס למדינה חדשה כלשהי; זוהי שאלה המחייבת חיפוש אחר ניסויים טבעיים והסקה סיבתית. אני יודע על לפחות אדם אחד, עמית לשעבר לעבודה, אשר עובד באחת מחברות ההיי-טק הגדולות בישראל ומייצר דרך קבע "ניסויים חצי-טבעיים" כדי לאמוד השפעות סיבתיות באמצעות הכלים שהזכרתי. אני מניח שיש עוד כמוהו, ואין סיבה שרק כלכלנים יבצעו את המשימה הזו.

כלכלנים יכולים להרוויח גם הם מהכרה רחבה יותר של הכלים שבהם משתמשים מדעני נתונים, כפי שהראיתי בדוגמה של העצים. האקונומטריקאית סוזן את'יי פרסמה סדרה של מאמרים (אחת, שתיים, שלוש, ארבע), חלקם בשיתוף עם גוידו אימבנס, אשר דנים באופן עמוק בקשרים שבין אקונומטריקה ומדע הנתונים, ובאפשרויות להשתמש בכלי לימוד מכונה במצבים שונים, למשל לאמידת השלב הראשון (first stage) בעת שימוש במשתני עזר. כלכלנים רבים אחרים מפרסמים מאמרים דומים בשנים האחרונות, ולמידת מכונה יכולה גם לתרום לניתוח סדרות עיתיות הנפוץ במאקרו כלכלה, ולפעילות המחקרית השוטפת של בנקים מרכזיים המעוניינים למנוע משברים פיננסים. לאחרונה נפתח קורס בפקולטה לכלכלה של האוניברסיטה העברית שמוקדש לשילוב בין למידת מכונה ובין אקונומטריקה, ומכסה חלק מהנושאים האלו.

בעולם טוב יותר, חלק ניכר מהתארים באוניברסיטה היו מתחילים במספר קורסי בסיס של סטטיסטיקה, אקונומטריקה ולמידת מכונה עם שימוש בפיית'ון וב-R, מכיוון שהתחומים האלו רלוונטיים כיום לכל המדעים המדוייקים, להנדסה, למדעי המחשב ולמדעי החברה. יתכן שאני מוטה, אבל ממה שאני רואה סביבי יותר ויותר אנשים מתחומים שונים ומקצועות לימוד שונים מוצאים את עצמם עובדים בבנייה וניתוח של מאגרי נתונים ענקיים. אם פעם ביולוגים, סטטיסטיקאים, מהנדסי אלקטרוניקה, פיזיקאים, גיאוגרפים, מתכנתים וכלכלנים היו מגיעים בבוקר לעבודה, מתיישבים מול המחשב ופותחים כל אחד תוכנה אחרת, היום חלק ניכר מהם פותחים פלטפורמה כלשהי של פיית'ון, בוהים בטבלת נתונים ענקית ואז מתחילים לכתוב קוד. העיסוק בנתונים הפך להיות נפוץ ובסיסי כמו השימוש במחשב. מכיוון שזה כל כך כללי ונפוץ, אולי אף רצוי ללמוד חלק מהנושאים האלו כבר בתיכון. לצערנו, מערכת החינוך היא מאוד שמרנית בכל שלביה, השינוי לוקח זמן רב, וסביר שגם בעתיד יהיו חומות מתודולוגיות בין הדיסציפלינות, אם כי אני מעריך שהן ילכו וישחקו עם הזמן.

בפוסט הבא, שאפרסם בימים הקרובים, אני אתאר דוגמה לשימוש בכלים של מדעני נתונים על מנת לבחון שאלה ספציפית הקשורה להיסטוריה הכלכלית של מדינת ישראל: מתי הפכה ישראל למדינה מערבית?