מאז הרשומה הקודמת שלי מספר אנשים פנו אלי בשאלה כיצד אפשר להיכנס לתחום של מדע הנתונים. ישנו עניין רב סביב הנושא, גם בגלל הביקוש בשוק, וגם בגלל שזה תחום עם חסמי כניסה נמוכים יחסית, שאפשר להגיע אליו מתחומים משיקים רבים. צעירים וצעירות שלמדו כלכלה, פסיכולוגיה, פיזיקה, ביולוגיה ושלל מקצועות אחרים אוחזים בהכשרה בסיסית בסטטיסטיקה ומתמטיקה שהיא בוודאי מספיקה כדי להתחיל ללמוד, וגם עבור מי שלא למד סטטיסטיקה חסמי הכניסה למקצוע מדע הנתונים הם ככל הנראה נמוכים יותר מאשר חסמי הכניסה לכל עבודה אחרת עם משכורות ברמת היי-טק.
הסיבה לחסמי הכניסה הנמוכים, היא שמדובר בתחום חדש ו"פרוץ", ג'ונגל של שוק חופשי ולא מוסדר. אם אתם רוצים להיות מהנדסי אלקטרוניקה, רופאים או עורכי דין, עליכם להציג תעודה מתאימה על לימודים רלוונטיים של מספר שנים במוסד אקדמי ותעודת סיום. אך בתחום של מדע הנתונים עדיין אין תואר באוניברסיטה שנחשב בתור סטנדרט לכניסה. זה עניין שמקשה על מעסיקים לסנן את המועמדים לעבודה, ולכן אני מניח שיום אחד יהיו תארים מסודרים כמו בכל תחום אחר, אך לפחות כרגע הבלגן הזה פועל לטובת אלו שלמדו תחום אחר ורוצים לשנות מקצוע.
לצד האפשרות ללמוד תואר שני של ממש בתחום, ישנו היצע עצום של קורסים חינמיים ולא-חינמיים באינטרנט, באקדמיה ובכל מני מכונים פרטיים, ורבים לא יודעים איפה להתחיל. אני לא מומחה גדול להיצע האפשרויות בתחום; עקב מגבלות של זמן וכסף ההכשרה שלי הייתה פחות עמוקה מכפי שרציתי, אני לא מרגיש שסיימתי ומעוניין להמשיך איתה גם כעת למרות שכבר מצאתי עבודה. על כן, ראשית כל אני ממליץ לכם על הרשומה המצוינת של עמרי גולדשטיין, שהיא מקיפה הרבה יותר מכל מה שאני יכול לכתוב.
את ההכשרה שלי התחלתי לפי הרשומה של עמרי, עם קורסים בסיסיים של פיית'ון בקורסרה (חינמיים, אם אתם לא מגישים שיעורי בית לבדיקה). לא ידעתי מלכתחילה שאני רוצה ממש לשנות מקצוע, אבל האלגוריתמים של למידת מכונה נשמעו לי מגניבים, וחשבתי שבכל מקרה כדאי לי ללמוד פיית'ון ולהכיר את האלגוריתמים מכיוון שזה יהיה "העתיד" גם בתחום של מחקר כלכלי. מלבד פיית'ון, מומלץ גם ללמוד R אם אין לכם היכרות מוקדמת עם השפה. כדי להשיג ניסיון מעשי, העברתי את כל המחקרים שעשיתי אז בפורום קהלת לפיית'ון, וכך התחלתי להתרגל לעיסוק ב-dataframes, ביצוע מניפולציות על נתונים, הצגת תרשימים ודברים דומים (ראו לדוגמה את העבודה שלי אי שוויון בבריאות). במקביל גם השתמשתי בכלים האלו עבור מספר רשומות בבלוג. זה הדבר הכי חשוב, כי קשה לצבור ניסיון של ממש מתרגילי בית. כמובן, היה לי מראש ידע מתמטי וסטטיסטי, ניסיון של למעלה מעשור בעבודה עם נתונים והכרה עמוקה של מודלים ליניאריים, אז יכולתי לקפוץ על חלק מהשלבים הבסיסיים של ההכשרה שאולי יידרשו עבור אחרים.
לאחר מכן ניסיתי להמשיך עם קורסים של למידת מכונה בקורסרה, אבל הקצב שם היה איטי מדי לטעמי, אז עברתי במקום זאת לספר מבוא בתחום, שמתאר את רוב האלגוריתמים ומהווה מבוא מצוין ללמידת מכונה. הבעיה עם הספר הזה היא שהוא מעט שטחי, בקושי מתייחס לרשתות נוירונים, ובאופן מכוון לא נכנס לעומק למתמטיקה שמאחורי המודלים. הוא מעניק אינטואיציה לגבי איך שהדברים עובדים, מסכם את היתרונות והחסרונות של הגישות השונות, ובוודאי מספיק כדי לכסות את העבודה היום-יומית של חלק ניכר ממדעני הנתונים. אבל אני העדפתי להשלים את הקריאה על חלק מהנושאים בספרי לימוד מתקדמים יותר (הספר בקישור מאוד מקיף וניתן להורדה בחינם, אבל הוא מתמטי ויהיה פחות נגיש לחלקכם). את כל הספרים והקורסים המקוונים סיכמתי לעצמי בעברית, כי אם אני לא כותב אני לא זוכר כלום.
יש כאן נקודה חשובה: אפשר להעמיק בכל הנושאים האלו, אבל לכולנו יש מגבלות מבחינת יכולות, זמן וכסף. יש טווח עצום מבחינת עומק העיסוק של מדעני נתונים, מאנשים שבעיקר עושים משימות פשוטות יחסית בפיית'ון ומריצים מודלים מוכנים, ועד פרופסורים למדעי המחשב וסטטיסטיקה שכותבים אלגוריתמים חדשים ומייעצים לגוגל תמורת שכר שעתי שרובנו נתקשה לדמיין. למעשה, כל אותם אנשים שפעם קראו לעצמם אנליסטים, סטטיסטיקאים וכדומה, כיום קוראים לעצמם "מדעני נתונים". לא צריך להיות גאון כדי לכתוב בפיית'ון תוכנית שמריצה רשת נוירונים המבחינה בין תמונות של כלבים לתמונות של חתולים על בסיס כלים קיימים, וגם לא צריך להכיר את המתמטיקה שמאחורי הכלים לעומק בשביל זה. אך צריך להכיר אותה כדי לעשות דברים יותר מתוחכמים ופחות סטנדרטיים.
אם אתם צעירים, חופשיים ואין לכם מגבלות של כסף וזמן פנוי, הדרך הטובה ביותר ללמוד לעומק את האלגוריתמים היא ככל הנראה תואר שני ספציפי בנושא, הקורסים החינמיים של אוניברסיטת סטנפורד, או אחד ממכוני ההכשרה שהופיעו לאחרונה בתחום. לצערי, זה לא היה המצב שלי. את ההכשרה שלי עשיתי תוך כדי עבודה במשרה מלאה, ומאוד מהר הבנתי שכדי להשלים את הקורסים של סטנפורד כמו שצריך אני זקוק לפחות לשנה, ולכן וויתרתי עליהם. מלבד זאת, חלקם ממוקדים בעיקר בניתוח תמונות, נושא שפחות מעניין אותי.
במקומם, לקחתי קורס קצר יותר של udacity בנושא של רשתות נוירונים עם חבילת TensorFlow, אשר מספק הבנה לא רעה של היסודות ומלווה בקישורים למאמרים בבלוגים שונים שניתן להשתמש בהם להרחבה. במקביל, התחלתי עם התרגילים הבסיסיים באתר קאגל: חיזוי הניצולים מהטיטאניק, זיהוי ספרות וניתוח טקסטים. אפשר ללמוד המון מהתרגילים האלו ומקריאה של מחברות של אחרים, בייחוד אם אין לכם דרך אחרת להשיג ניסיון מעשי בעבודה עם פיית'ון ועם האלגוריתמים. בשלב הזה התחלתי לראשונה לשלוח קורות חיים ולחפש עבודה.
אני לא מרגיש שההכשרה שלי הייתה מושלמת; במשך רוב הזמן עבדתי במשרה מלאה, לא היה לי זמן רב, והייתי טרוד במעבר מארצות הברית בחזרה לישראל. יצאתי לשוק העבודה מוקדם יחסית, ויתכן שהיה לי מעט מזל עם העבודה שהצלחתי למצוא. הניסיון הרב שלי בעבודה עם נתונים ובניתוח אקונומטרי בוודאי עזר במציאת עבודה, ולכן ייתכן שיכלתי לקחת קיצורי דרך שהם פחות רלוונטיים לאחרים שרוצים להיכנס לתחום ללא כל ניסיון קודם. אידיאלית, הייתי רוצה לעשות את הקורס של סטנפורד, אולי קורסים נוספים, וכן להשתתף בתחרויות היותר מורכבות של קאגל, ואני מקווה להגיע לזה בהמשך.
לסיום, עצה לצעירים ולצעירות שקראו עד כאן מכיוון שהם אינם מרוצים מעיסוקם או מתחום הלימוד שבו בחרו, ומעוניינים לשנות מקצוע – אל תהססו. אני לא אשקר לכם, זה לא תהליך קל לאנשים שכבר עשו תארים בתחומים אחרים, ויש להם עבודה במשרה מלאה ומשפחה. הייתי צריך להכריח את עצמי לשבת בערבים ובסופי שבוע, להקשיב לקורסים, להתעמק בנוסחאות, להכין תרגילים ולנסות לפתור כל מני באגים. אך ככל שתעשו את המעבר יותר מוקדם, כך הוא יהיה קל יותר.
העבודה כמדען נתונים מספקת שלל אתגרים בחשיבה לוגית, תכנות וניתוח נתונים, והגיוון של מקומות העבודה וסוגי הבעיות הוא עצום. גם אם לא תעזבו בסופו של דבר את התחום הנוכחי שלכם, יש סיכוי טוב שהידע שתצברו בתכנות ובאלגוריתמים יהיה שימושי עבורכם בעתיד. ככל שעובר הזמן, כך שוק העבודה הולך ונחלק בין שני סוגי אנשים: אלו שמסוגלים "לדבר עם מכונות", והביקוש עבורם מזנק במקביל לזינוק ביכולתם של המחשבים והרובוטים, ואלו שהמכונות והתוכנות יכולות להחליף אותם (או לאפשר לעובדים במדינות מתפתחות להחליף אותם), שהביקוש עבורם נע בכיוון ההפוך. אל תהיו בקבוצה השנייה. בהצלחה!