אמל"ק / השורה התחתונה
מדעני נתונים וכלכלנים שואלים שאלות מחקר אחרות, ולכן הם משתמשים בכלים אחרים ומוטרדים מבעיות אחרות, אבל מדעני נתונים יכולים להרוויח מהיכרות עמוקה יותר של נושא ההסקה הסיבתית, וכלכלנים יכולים להרוויח מהרחבת אופקים אל מעבר לרגרסיות.
הקדמה
בשנים האחרונות מתרחשת התפוצצות של ממש בתחום חדש-ישן המכונה "מדע נתונים" (data science), וספציפית בתת התחום "למידת מכונה" (machine learning). הסטטיסטיקה היא כמובן בת מאות שנים, ובתואר הראשון שלי בהנדסת תעשייה, לפני למעלה מעשור, כבר היו קורסים במה שנקרא אז data mining, אבל בעקבות הגידול בכוח המחשוב והזמינות הגבוהה של מסדי נתונים גדולים העסק נוסק בשנים האחרונות לגבהים חדשים.
מי הם מדעני הנתונים? על הצד הציני, יש שיאמרו שמדובר במיתוג מחדש לסטטיסטיקאים שמאפשר להם להרוויח משכורות של מתכנתים, או באפשרות להסבת מקצוע לדוקטורים מכל המינים והתחומים שלא מצאו את מקומם באקדמיה. על הצד היותר רציני, מדובר במקצוע מאתגר המחייב ידע בתכנות, לעיתים גם במתמטיקה, הבנה סטטיסטית עמוקה ויצירתיות, לשם טיפול במאגרי ענק של נתונים והפיכתם לתובנות ששוות הרבה מאוד כסף. במובנים רבים זהו מקצוע חדש, שעלה מהשטח, עקב הביקוש במגזר ההיי-טק.
מניסיוני ברשתות החברתיות ישנו מחסום קונספטואלי בין כלכלנים ובין מדעני נתונים, שבולט בכל פעם כשמגיעים לדיון טכני על רגרסיות ליניאריות ונושאים דומים. מכיוון שאני יודע שאחרי הבלוג עוקבים גם כלכלנים וגם מדעני נתונים, החלטתי להקדיש רשומה לניסיון לגשר על הפערים האלו. חלק מהמחסום נובע פשוט משמרנות דיסציפלינרית – רבים התרגלו לכלים שאותם למדו באוניברסיטה, והזלזול בתחומים אחרים הוא תירוץ נוח לבורות והישארות באזור הנוחות – אבל חלק מהמחסום נובע ממספר הבדלים חשובים אחרים.
אפשר לראות בפוסט הזה סוג של "מבוא למדע נתונים עבור כלכלנים", "מבוא לאקונומטריקה עבור מדעני נתונים" או פשוט שורה של מחשבות שעולות אצלי כמי שנע לראשונה מתחום אחד לשני.
שאלות מחקר שונות
כלכלנים באקדמיה, ובאופן כללי יותר חוקרים במדעי החברה, בד"כ רוצים להבין מה ההשפעה של משתנה מסביר מסויים (X) על משתנה מוסבר מסויים (Y). למשל, ההשפעה של רמת ההשכלה על השכר, ההשפעה של הגירה על שוק העבודה, או ההשפעה של בניית כביש חדש על אורך הפקקים. מדעני נתונים, לעומת זאת, בד"כ רוצים לחזות דברים. למשל, להבין מהו הסיכוי שאדם עם מאפיינים מסויימים שנכנס לאתר אינטרנט ירצה לקנות מוצר מסויים, או מהו הסיכוי שתמונה עם פיקסלים בצבעים מסויימים מתארת את הפנים של אדם מסויים. השוני בשאלות המחקר מוביל לשוני בכלים הנפוצים בכל תחום, ולמיקוד של חוקרים במדעי החברה ברגרסיות מסוגים שונים (ליניאריות, לוגיסטיות ועוד).
נראה דוגמה להבדל זה, המבוססת על נתונים שאני עובד עליהם כרגע במסגרת מחקר בפורום קהלת לכלכלה, שיפורסם בחודש הקרוב. שאלת המחקר הספציפית שבה נעסוק: מהי השפעת המעמד הסוציואקונומי על רמת הבריאות בישראל?
הנתונים מבוססים על הסקר ארוך הטווח של הלמ"ס, שבמסגרתו התבקשו המשיבים לדרג את רמת הבריאות שלהם לפי חמש קטגוריות. לצערי הנתונים אינם פומביים, ולכן איני יכול לחלוק כאן אותם ואת הקוד. אני מחלק את המשיבים לשתי קבוצות, אלו שטענו שרמת הבריאות שלהם "טובה מאוד" (כ-67% מהמשיבים שיש לגביהם נתונים מלאים) ולעומתם כל השאר. זהו משתנה התוצאה – שתי קטגוריות המתארות את רמת הבריאות. המשתנים המסבירים הם הגיל, המגדר, ההכנסה, ההשכלה, מקצוע פיזי (כגון בינוי או הפעלת מכונות כבדות), והשתייכות ללאום ערבי או לקבוצת החרדים.
אם נתעלם לרגע מנושא הסיבתיות, רגרסיה לוגיסטית (בלי רגולריזציה) מספקת תשובה פשוטה לשאלת המחקר: בהינתן גיל ומגדר, הכפלת ההכנסה תגדיל פי כ-1.22 את יחס ההסתברויות, שהוא ההסתברות להיות בעל רמת בריאות טובה מאוד חלקי ההסתברות ההופכית, והתוצאה מובהקת סטטיסטית ברמת מובהקות של 1%. כמובן, אם מעולם לא עסקתם ברגרסיות לוגיסטיות יתכן שהתשובה הזו נשמעת לכם כמו סינית, אבל תאמינו לי – זו תשובה פשוטה. ניתן גם להשוות את השפעת ההכנסה להשפעות של משתנים אחרים בקלות, ולראות מי מהם משפיע יותר. מסתבר שהשכלה משפיעה יותר מהכנסה, והחרדים הם בריאים במיוחד, או לפחות נוטים לענות באופן מאוד אופטימי על שאלות סובייקטיביות בנוגע לרמת הבריאות שלהם.
אחד הכלים הנפוצים בקרב מדעני הנתונים, שבו השתמש עמרי גולדשיין כדי לנתח שאלה דומה בבלוג שלו, הוא עצי החלטה. זוהי התוצאה של אלגוריתם עץ החלטה עבור אותם הנתונים, כשהוא מוגבל ל-3 רמות (לחצו על התמונה כדי להגדילה):
המשמעות של העץ יותר אינטואיטיבית מהרגרסיה הלוגיסטית. על מנת לקרוא את העץ עלינו להתחיל בריבוע העליון. בשורה הראשונה בכל ריבוע מצויין קריטריון ההחלטה, וישנם שני חצים – אמת (שמאלה) או שקר (ימינה). אם גילו של הפרט גדול מ-50 שנים נלך ימינה, ואם גילו קטן מ-50 שנים נלך שמאלה. אם הלכנו שמאלה, עלינו לבחון האם גילו גדול או קטן מ-41.5. אם הגיל הוא גבוה מ-41.5, אך נמוך מ-50.5, אנחנו מגיעים לריבוע שבו הקריטריון מבוסס על מקצוע פיזי. מקצוע פיזי הוא משתנה בינארי כאמור, השווה ל-1 עבור בעלי מקצועות פיזיים ו-0 אחרת. על פי העץ, התחזית לבעלי מקצועות פיזיים בגילאי 42 – 50 היא לבריאות שאיננה טובה מאוד, בעוד שהתחזית לאלו שאין להם מקצועות פיזיים בגילאים אלו היא לבריאות טובה מאוד.
מלבד הקריטריון, בכל ריבוע מצוין שיעור התצפיות הנמצאות בענף זה של העץ (samples), וכן חלוקתן בין פרטים עם בריאות שאיננה טובה מאוד (הערך הראשון ב-value) ובריאות טובה מאוד (הערך השני ב-value). ככל שצבעו של הריבוע כחול יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות טובה מאוד, וככל שהוא כתום יותר, כך הוא מסמל קבוצת אוכלוסייה עם סיכוי גבוה יותר לרמת בריאות שאיננה טובה מאוד.
העץ מעניין מאוד (כשנפרסם את המחקר אני אפרסם בבלוג מספר עצים נוספים בנידון), אבל הוא לא מספק לנו תשובה חד משמעית לשאלת המחקר – השפעת ההכנסה על בריאות. על הצד החיובי, הוא מאפשר לנו לראות דפוסים שלא ראינו ברגרסיה. למשל, אנחנו יכולים לראות שישנה בעיה עם בעלי מקצועות פיזיים שגילם עולה על 41, ושהשפעת ההכנסה על הבריאות היא חשובה בעיקר עבור מבוגרים. יכולנו לראות את הדפוסים האלו גם ברגרסיה, אך לשם כך היינו צריכים להכניס "אינטראקציות" בין המשתנים מראש. העץ מגלה את הדפוסים האלו באופן אוטומטי, מבלי שנצטרך לחשוב עליהם בעצמנו ולעצב את משוואת הרגרסיה בהתאם. כלים אחרים הנפוצים בקרב מדעני נתונים, כגון random forest (שילוב של עצים רבים) או רשתות נוירונים, לא יוכלו להועיל כלל עבור שאלת המחקר שלנו. בניגוד לעץ, הכלים האלו מייצרים "קופסה שחורה" אשר קשה לפענח אותה ולהבין ממנה את השפעתם של משתנים שונים (אם כי random forest ועצים מספקים מדד לחשיבות המשתנים הנקרא feature importance).
אז מצד אחד, ברור שכלכלנים וחוקרים ממדעי החברה הנתקלים בשאלת המחקר שלנו, השפעת ההכנסה על רמת הבריאות, ישתמשו בעיקר ברגרסיות – פחות בגלל שהם מעולם לא שמעו על כלי אחר, ויותר מכיוון שהן מתאימות יותר ונוחות יותר עבור שאלות מחקר מעין אלו. העץ מספר לנו על אילו משתנים כדאי להסתכל על מנת להחליט אם אדם בריא או לא, אבל הוא לא יכול לספק לנו מספר יחיד העונה לשאלה ששאלנו, ואלגוריתמים אחרים המקובלים בקרב מדעני נתונים עוד פחות שקופים ממנו. רגרסיה כן מסוגלת. אך מצד שני, שימוש בעצי החלטה יכול לעיתים לעזור לחוקרים למצוא דפוסים מעניינים נוספים בנתונים, וכך להוות כלי עזר משלים לרגרסיה.
לעומת זאת, נניח שהנתונים הם אותם הנתונים, אבל שאלת המחקר היא אחרת. נניח שאתם רופאים, המעוניינים לחזות את הבריאות של מטופל חדש שנכנס למרפאה שלכם. אתם יודעים מהי הרמה של המשתנים המסבירים עבור המטופל החדש, אבל לא מהי רמת הבריאות שלו. איזה מודל יהיה מוצלח יותר בחיזוי?
על מנת לבדוק את שאלת החיזוי, נחלק את בסיס הנתונים לשני חלקים. החלק הראשון, 75% מהתצפיות שיבחרו באקראי, ישמש אותנו לאימון המודל. האלגוריתמים ינסו לבנות את מודל הרגרסיה או את העצים שיהיו מסוגלים להסביר באופן הטוב ביותר את רמת הבריאות עבור חלק זה. החלק השני ישמש אותנו לבחינת המודל על נתונים "חדשים", שלא שימשו לבניית המודל עצמו, וכך נראה באיזו מידה ניתן להכליל את המודלים ולהשתמש בהם לחיזוי.
התוצאות? מודל הרגרסיה הלוגיסטית הצליח לחזות נכונה את רמת הבריאות עבור כ-72% מהפרטים בחלקו השני של בסיס הנתונים, מודל העץ הצליח לחזות נכונה את רמת הבריאות של כ-70% מהם, ומודלים אחרים שניסיתי, כגון random forest ו-support vector machines הובילו לרמת דיוק נמוכה יותר. ניתן כמובן לבצע תהליך מסודר יותר של כיול הפרמטרים של המודלים השונים כדי לשפר את דיוק התחזיות.
הנקודה היא שלמרות שקיבלנו כאן שרגרסיה לוגיסטית קצת טובה יותר מהמודלים האחרים, בנוגע לתחזיות לרגרסיות אין יתרון עקרוני על מודלים אחרים. הכל תלוי במבנה הנתונים. אבל בנוגע לשאלת המחקר הנפוצה במדעי החברה – ההשפעה של X כלשהו על Y כלשהו – לרגרסיות יש יתרון עקרוני. מגניבים ומרשימים ככל שיהיו, האלגוריתמים האחרים פשוט לא נותנים לנו מספר יחיד המתאר את ההשפעה המותנית של המשתנה המסביר על משתנה התוצאה, בהנחה ששאר הגורמים שווים.
כתוצאה מההבדל בשאלות המחקר, התחושה של חוקרים במדעי החברה היא שמדעני נתונים לא ממש מבינים רגרסיות. בספר על למידת מכונה שקניתי רגרסיות מתוארות באופן שטחי למדי, אין עיסוק בכלל בשאלת המובהקות של האומדים, במולטיקוליניאריות, במשפט גאוס-מרקוב ובכל הנושאים האחרים שספרי לימוד באקונומטריקה מקדישים להם זמן רב. נראה שהחוקרים פשוט שופכים את כל המשתנים לרגרסיה בלי לחשוב יותר מדי, לעיתים גם עם כל האינטרקציות האפשריות ביניהם, ולא מסתכלים על המקדמים של המשתנים אלא רק על שיעור הדיוק בתחזית. לעומת זאת, התחושה של מדעני נתונים רבים היא שכלכלנים נעולים יותר מדי על רגרסיות ולא מתעניינים במודלים אחרים. שני הצדדים צודקים במובן מסויים – אלו פשוט שאלות מחקר אחרות.
ההבדל בשאלות המחקר מוביל אותנו לשני הפערים הבאים.
כלכלנים מאוד מוטרדים מסיבתיות, מדעני נתונים לא כל כך
בגלל המיקוד שלהם במדיניות, כלכלנים מעוניינים לאמוד השפעה סיבתית של גורמים שונים. בסמינרים מודרניים בכלכלה אמפירית רוב הדיון נע סביב סיבתיות: האם האפקט שהחוקר מצא מתאר השפעה סיבתית של ממש של המשתנה המסביר על משתנה התוצאה, או שמדובר רק בקורלציה שיכולה לנבוע מסיבתיות הפוכה, או מגורמים אחרים.
כתבתי על סיבתיות בהרחבה בעבר בבלוג (למשל כאן וכאן) ובשנתיים האחרונות לימדתי קורס שלם בנושא באוניברסיטת בראון. במדעים המדוייקים ניתן בדרך כלל למצוא השפעה סיבתית באמצעות ניסויי מעבדה, שבמסגרתם משנים רק פרמטר יחיד ושולטים על כל השאר, אך במדעי החברה ניסויים כאלו בלתי אפשריים. לצערנו, הטכנולוגיות הנוכחיות עדיין לא מאפשרות לנו להכניס מדינות שלמות למעבדה, או לחזור אחורה בזמן. בעשורים האחרונים כלכלנים פיתחו דרכים רבות להתגבר הבעיות האלו (אחת, שתיים, שלוש, ארבע), שרובן מתבססות על "ניסויים טבעיים" אשר מאפשרים לנו לדמות ניסויי מעבדה. כל אחת מהשיטות לאמידת השפעה סיבתית בנויה על הנחות מסויימות, ובדרך כלל עיקר המאמץ של כלכלנים אמפיריים מוקדש להצדקת ההנחות האלו, ולהראות שההשפעה עמידה להנחות שונות ומודלים שונים ואיננה נובעת מגורמים אחרים.
מדעני נתונים, לעומת זאת, מתעניינים פחות בסיבתיות, בגלל שאלת המחקר השונה שלהם.
נחזור לדוגמה שלנו, אודות השפעת ההכנסה על הבריאות. יתכן שרמת ההכנסה משפיעה על הבריאות דרך מנגנונים שונים, אבל יתכן גם שישנה סיבתיות הפוכה, כלומר רמת הבריאות משפיעה על רמת ההכנסה, מכיוון שהיא מגבילה את יכולתו של הפרט לעבוד – עניין רלוונטי בייחוד עבור גילאים מבוגרים יחסית. עבור הכלכלן הרוצה לאמוד את ההשפעה הסיבתית של הכנסה על בריאות זוהי בעיה חמורה; ההשפעה האמיתית של הכנסה על בריאות ככל הנראה נמוכה יותר מתוצאות הרגרסיות שתיארתי קודם לכן בגלל שהסיבתיות ההפוכה, ההשפעה של בריאות על הכנסה, עובדת באותו הכיוון. זו שאלה קריטית עבור מדיניות: אם ההשפעה ההפוכה היא המסלול העיקרי שבו עוברת הסיבתיות, כלומר הבריאות משפיעה על ההכנסה ולא להפך, קצבאות גבוהות יותר לעניים לא ישפרו את רמת הבריאות שלהם.
לעומת זאת, עבור מדען הנתונים, הרוצה לחזות את רמת הבריאות של אדם שאיננו נמצא במסד הנתונים, סיבתיות הפוכה איננה בעיה כלל. גם אם הסיבתיות עוברת מרמת הבריאות להכנסה ולא ההפך, המשתנה של הכנסה הוא עדיין מאוד שימושי על מנת לחזות את רמת הבריאות של אדם חדש כלשהו. כל מה שחשוב, זה האם המודל מאפשר לחזות את משתנה התוצאה באופן מדוייק עבור תצפיות חדשות.
מדעני נתונים מאוד מוטרדים מ-overfitting, חוקרים במדעי החברה לא כל כך
עצים, רגרסיות ומודלים אחרים לניתוח נתונים נבנים על בסיס נתונים מסויים. המשמעות של overfitting היא שהמודל הוא "יותר מדי מתאים" לבסיס הנתונים ששימש לבנייתו, ויהיה פחות נכון להכליל אותו לנתונים חדשים. ראו למשל את שני התרשימים הבאים:
הציר האופקי בתרשימים הוא רמת ההכנסה, ההפכי הוא מדד כלשהו לרמת בריאות, והעיגולים הכחולים הם תצפיות (זו דוגמה, ולא נתוני אמת). הקווים המקווקווים הם המודלים שלנו. בשני התרשימים אנחנו מעוניינים לחזות את רמת הבריאות באמצעות רמת ההכנסה, אך בתרשים הימני אנחנו בונים לשם כך מודל "מסובך" (למשל, פולינום מדרגה גבוהה), הקו המקווקו המתפתל בהתאם לנקודות, בעוד שבתרשים השמאלי אנחנו בונים לשם כך מודל "פשוט", קו ישר. המודל המסובך מתאים יותר לתצפיות שיש לנו, כלומר המרחק הממוצע בין הנקודות הכחולות אל הקו הוא נמוך יותר. אבל יתכן שהמודל המסובך מושפע יותר מדי מכל מני רעשים אקראיים ותצפיות קיצון, לא מבחין בינם ובין המגמה, ולכן יהיה גרוע יותר בחיזוי מיקומה של נקודה חדשה, בהשוואה למודל הפשוט.
בעיה זו נקראת overfitting. זוכרים את התחרות שתיארתי קודם לכן בין מודלים שניסו לחזות את רמת הבריאות, כאשר חילקנו את בסיס הנתונים לשני חלקים? אחד המודלים שהזכרתי היה support vector machine. שיעור החיזוי של מודל זה עבור החלק השני של הנתונים, החלק שלא השתמשנו בו לבניית המודל, היה הנמוך מבין הארבעה שבדקתי. אבל כשבחנתי את יכולת המודלים לחזות את רמת הבריאות בחלק הראשון של הנתונים, אשר שימש לבניית המודל, הוא היה במקום הראשון עם חיזוי של 93%. כלומר, המודל הותאם מאוד – ומסתבר שיותר מדי – למבנה הנתונים בחלק הראשון. הסיבה לכישלון שלו לחזות את החלק "החדש" של בסיס הנתונים הייתה overfitting לחלק "הישן" שלהם.
מכיוון שמדעני נתונים מעוניינים בחיזוי טוב עבור נקודות חדשות, הם מנסים להגביל את המודלים שלהם בדרכים שונות כדי שיהיו פשוטים יחסית (אבל לא יותר מדי), וכן משחקים עם הפרמטרים ובוחנים את עוצמת החיזוי של כל מודל על תצפיות "חדשות", שלא שימשו לבניית המודל, כדי להימנע מבעיית ה-overfitting. חוקרים במדעי החברה, לעומת זאת, מכירים את הנושא באופן כללי, אבל לפחות בתחום הנפוץ ביותר כיום בכלכלה, אמידת מודלים מסוג reduced form, אין יותר מדי עיסוק ב-overfitting, פשוט מכיוון שהוא לא חשוב כל כך לשאלת המחקר. לעיתים ישנו עיסוק בשאלת "התוקף החיצוני" – האם מסקנות המחקר תקפות למדינות אחרות / תקופות אחרות / סיטואציות אחרות – אבל בדרך כלל אין מדידה שיטתית של overfitting באמצעות הנתונים שיש ברשות החוקר, מכיוון שמדידה שכזו לא תלמד אותנו הרבה על שאלת התוקף החיצוני.
מדוע בכל זאת צריך לשבור את החומות שבין הדיסציפלינות?
למרות ההבדלים שציינתי, ישנן סיבות טובות לערבב את הדיסציפלינות השונות, כך ששני הצדדים ילמדו את כל הכלים.
מדעני נתונים יכולים להרוויח מהבנה עמוקה יותר של רגרסיות ושל הכלים שהזכרתי לאמידת קשר סיבתי, מכיוון שבחלק מהמקרים גם החברות שבהן הם עובדים נדרשות לקבל החלטת מדיניות הקשורה להשפעה הסיבתית של איזה שהוא X על איזה שהוא Y, או להתמודד עם מקרה שבו אי אפשר לעשות ניסוי של ממש. למשל, אולי חברת אמאזון הייתה רוצה לאמוד את השפעתם של מאפיינים של מדינות על רווחיה באותן מדינות, במטרה להחליט האם להיכנס למדינה חדשה כלשהי; זוהי שאלה המחייבת חיפוש אחר ניסויים טבעיים והסקה סיבתית. אני יודע על לפחות אדם אחד, עמית לשעבר לעבודה, אשר עובד באחת מחברות ההיי-טק הגדולות בישראל ומייצר דרך קבע "ניסויים חצי-טבעיים" כדי לאמוד השפעות סיבתיות באמצעות הכלים שהזכרתי. אני מניח שיש עוד כמוהו, ואין סיבה שרק כלכלנים יבצעו את המשימה הזו.
כלכלנים יכולים להרוויח גם הם מהכרה רחבה יותר של הכלים שבהם משתמשים מדעני נתונים, כפי שהראיתי בדוגמה של העצים. האקונומטריקאית סוזן את'יי פרסמה סדרה של מאמרים (אחת, שתיים, שלוש, ארבע), חלקם בשיתוף עם גוידו אימבנס, אשר דנים באופן עמוק בקשרים שבין אקונומטריקה ומדע הנתונים, ובאפשרויות להשתמש בכלי לימוד מכונה במצבים שונים, למשל לאמידת השלב הראשון (first stage) בעת שימוש במשתני עזר. כלכלנים רבים אחרים מפרסמים מאמרים דומים בשנים האחרונות, ולמידת מכונה יכולה גם לתרום לניתוח סדרות עיתיות הנפוץ במאקרו כלכלה, ולפעילות המחקרית השוטפת של בנקים מרכזיים המעוניינים למנוע משברים פיננסים. לאחרונה נפתח קורס בפקולטה לכלכלה של האוניברסיטה העברית שמוקדש לשילוב בין למידת מכונה ובין אקונומטריקה, ומכסה חלק מהנושאים האלו.
בעולם טוב יותר, חלק ניכר מהתארים באוניברסיטה היו מתחילים במספר קורסי בסיס של סטטיסטיקה, אקונומטריקה ולמידת מכונה עם שימוש בפיית'ון וב-R, מכיוון שהתחומים האלו רלוונטיים כיום לכל המדעים המדוייקים, להנדסה, למדעי המחשב ולמדעי החברה. יתכן שאני מוטה, אבל ממה שאני רואה סביבי יותר ויותר אנשים מתחומים שונים ומקצועות לימוד שונים מוצאים את עצמם עובדים בבנייה וניתוח של מאגרי נתונים ענקיים. אם פעם ביולוגים, סטטיסטיקאים, מהנדסי אלקטרוניקה, פיזיקאים, גיאוגרפים, מתכנתים וכלכלנים היו מגיעים בבוקר לעבודה, מתיישבים מול המחשב ופותחים כל אחד תוכנה אחרת, היום חלק ניכר מהם פותחים פלטפורמה כלשהי של פיית'ון, בוהים בטבלת נתונים ענקית ואז מתחילים לכתוב קוד. העיסוק בנתונים הפך להיות נפוץ ובסיסי כמו השימוש במחשב. מכיוון שזה כל כך כללי ונפוץ, אולי אף רצוי ללמוד חלק מהנושאים האלו כבר בתיכון. לצערנו, מערכת החינוך היא מאוד שמרנית בכל שלביה, השינוי לוקח זמן רב, וסביר שגם בעתיד יהיו חומות מתודולוגיות בין הדיסציפלינות, אם כי אני מעריך שהן ילכו וישחקו עם הזמן.
בפוסט הבא, שאפרסם בימים הקרובים, אני אתאר דוגמה לשימוש בכלים של מדעני נתונים על מנת לבחון שאלה ספציפית הקשורה להיסטוריה הכלכלית של מדינת ישראל: מתי הפכה ישראל למדינה מערבית?