מאז הרשומה הקודמת שלי מספר אנשים פנו אלי בשאלה כיצד אפשר להיכנס לתחום של מדע הנתונים. ישנו עניין רב סביב הנושא, גם בגלל הביקוש בשוק, וגם בגלל שזה תחום עם חסמי כניסה נמוכים יחסית, שאפשר להגיע אליו מתחומים משיקים רבים. צעירים וצעירות שלמדו כלכלה, פסיכולוגיה, פיזיקה, ביולוגיה ושלל מקצועות אחרים אוחזים בהכשרה בסיסית בסטטיסטיקה ומתמטיקה שהיא בוודאי מספיקה כדי להתחיל ללמוד, וגם עבור מי שלא למד סטטיסטיקה חסמי הכניסה למקצוע מדע הנתונים הם ככל הנראה נמוכים יותר מאשר חסמי הכניסה לכל עבודה אחרת עם משכורות ברמת היי-טק.
הסיבה לחסמי הכניסה הנמוכים, היא שמדובר בתחום חדש ו"פרוץ", ג'ונגל של שוק חופשי ולא מוסדר. אם אתם רוצים להיות מהנדסי אלקטרוניקה, רופאים או עורכי דין, עליכם להציג תעודה מתאימה על לימודים רלוונטיים של מספר שנים במוסד אקדמי ותעודת סיום. אך בתחום של מדע הנתונים עדיין אין תואר באוניברסיטה שנחשב בתור סטנדרט לכניסה. זה עניין שמקשה על מעסיקים לסנן את המועמדים לעבודה, ולכן אני מניח שיום אחד יהיו תארים מסודרים כמו בכל תחום אחר, אך לפחות כרגע הבלגן הזה פועל לטובת אלו שלמדו תחום אחר ורוצים לשנות מקצוע.
לצד האפשרות ללמוד תואר שני של ממש בתחום, ישנו היצע עצום של קורסים חינמיים ולא-חינמיים באינטרנט, באקדמיה ובכל מני מכונים פרטיים, ורבים לא יודעים איפה להתחיל. אני לא מומחה גדול להיצע האפשרויות בתחום; עקב מגבלות של זמן וכסף ההכשרה שלי הייתה פחות עמוקה מכפי שרציתי, אני לא מרגיש שסיימתי ומעוניין להמשיך איתה גם כעת למרות שכבר מצאתי עבודה. על כן, ראשית כל אני ממליץ לכם על הרשומה המצוינת של עמרי גולדשטיין, שהיא מקיפה הרבה יותר מכל מה שאני יכול לכתוב.
את ההכשרה שלי התחלתי לפי הרשומה של עמרי, עם קורסים בסיסיים של פיית'ון בקורסרה (חינמיים, אם אתם לא מגישים שיעורי בית לבדיקה). לא ידעתי מלכתחילה שאני רוצה ממש לשנות מקצוע, אבל האלגוריתמים של למידת מכונה נשמעו לי מגניבים, וחשבתי שבכל מקרה כדאי לי ללמוד פיית'ון ולהכיר את האלגוריתמים מכיוון שזה יהיה "העתיד" גם בתחום של מחקר כלכלי. מלבד פיית'ון, מומלץ גם ללמוד R אם אין לכם היכרות מוקדמת עם השפה. כדי להשיג ניסיון מעשי, העברתי את כל המחקרים שעשיתי אז בפורום קהלת לפיית'ון, וכך התחלתי להתרגל לעיסוק ב-dataframes, ביצוע מניפולציות על נתונים, הצגת תרשימים ודברים דומים (ראו לדוגמה את העבודה שלי אי שוויון בבריאות). במקביל גם השתמשתי בכלים האלו עבור מספר רשומות בבלוג. זה הדבר הכי חשוב, כי קשה לצבור ניסיון של ממש מתרגילי בית. כמובן, היה לי מראש ידע מתמטי וסטטיסטי, ניסיון של למעלה מעשור בעבודה עם נתונים והכרה עמוקה של מודלים ליניאריים, אז יכולתי לקפוץ על חלק מהשלבים הבסיסיים של ההכשרה שאולי יידרשו עבור אחרים.
לאחר מכן ניסיתי להמשיך עם קורסים של למידת מכונה בקורסרה, אבל הקצב שם היה איטי מדי לטעמי, אז עברתי במקום זאת לספר מבוא בתחום, שמתאר את רוב האלגוריתמים ומהווה מבוא מצוין ללמידת מכונה. הבעיה עם הספר הזה היא שהוא מעט שטחי, בקושי מתייחס לרשתות נוירונים, ובאופן מכוון לא נכנס לעומק למתמטיקה שמאחורי המודלים. הוא מעניק אינטואיציה לגבי איך שהדברים עובדים, מסכם את היתרונות והחסרונות של הגישות השונות, ובוודאי מספיק כדי לכסות את העבודה היום-יומית של חלק ניכר ממדעני הנתונים. אבל אני העדפתי להשלים את הקריאה על חלק מהנושאים בספרי לימוד מתקדמים יותר (הספר בקישור מאוד מקיף וניתן להורדה בחינם, אבל הוא מתמטי ויהיה פחות נגיש לחלקכם). את כל הספרים והקורסים המקוונים סיכמתי לעצמי בעברית, כי אם אני לא כותב אני לא זוכר כלום.
יש כאן נקודה חשובה: אפשר להעמיק בכל הנושאים האלו, אבל לכולנו יש מגבלות מבחינת יכולות, זמן וכסף. יש טווח עצום מבחינת עומק העיסוק של מדעני נתונים, מאנשים שבעיקר עושים משימות פשוטות יחסית בפיית'ון ומריצים מודלים מוכנים, ועד פרופסורים למדעי המחשב וסטטיסטיקה שכותבים אלגוריתמים חדשים ומייעצים לגוגל תמורת שכר שעתי שרובנו נתקשה לדמיין. למעשה, כל אותם אנשים שפעם קראו לעצמם אנליסטים, סטטיסטיקאים וכדומה, כיום קוראים לעצמם "מדעני נתונים". לא צריך להיות גאון כדי לכתוב בפיית'ון תוכנית שמריצה רשת נוירונים המבחינה בין תמונות של כלבים לתמונות של חתולים על בסיס כלים קיימים, וגם לא צריך להכיר את המתמטיקה שמאחורי הכלים לעומק בשביל זה. אך צריך להכיר אותה כדי לעשות דברים יותר מתוחכמים ופחות סטנדרטיים.
אם אתם צעירים, חופשיים ואין לכם מגבלות של כסף וזמן פנוי, הדרך הטובה ביותר ללמוד לעומק את האלגוריתמים היא ככל הנראה תואר שני ספציפי בנושא, הקורסים החינמיים של אוניברסיטת סטנפורד, או אחד ממכוני ההכשרה שהופיעו לאחרונה בתחום. לצערי, זה לא היה המצב שלי. את ההכשרה שלי עשיתי תוך כדי עבודה במשרה מלאה, ומאוד מהר הבנתי שכדי להשלים את הקורסים של סטנפורד כמו שצריך אני זקוק לפחות לשנה, ולכן וויתרתי עליהם. מלבד זאת, חלקם ממוקדים בעיקר בניתוח תמונות, נושא שפחות מעניין אותי.
במקומם, לקחתי קורס קצר יותר של udacity בנושא של רשתות נוירונים עם חבילת TensorFlow, אשר מספק הבנה לא רעה של היסודות ומלווה בקישורים למאמרים בבלוגים שונים שניתן להשתמש בהם להרחבה. במקביל, התחלתי עם התרגילים הבסיסיים באתר קאגל: חיזוי הניצולים מהטיטאניק, זיהוי ספרות וניתוח טקסטים. אפשר ללמוד המון מהתרגילים האלו ומקריאה של מחברות של אחרים, בייחוד אם אין לכם דרך אחרת להשיג ניסיון מעשי בעבודה עם פיית'ון ועם האלגוריתמים. בשלב הזה התחלתי לראשונה לשלוח קורות חיים ולחפש עבודה.
אני לא מרגיש שההכשרה שלי הייתה מושלמת; במשך רוב הזמן עבדתי במשרה מלאה, לא היה לי זמן רב, והייתי טרוד במעבר מארצות הברית בחזרה לישראל. יצאתי לשוק העבודה מוקדם יחסית, ויתכן שהיה לי מעט מזל עם העבודה שהצלחתי למצוא. הניסיון הרב שלי בעבודה עם נתונים ובניתוח אקונומטרי בוודאי עזר במציאת עבודה, ולכן ייתכן שיכלתי לקחת קיצורי דרך שהם פחות רלוונטיים לאחרים שרוצים להיכנס לתחום ללא כל ניסיון קודם. אידיאלית, הייתי רוצה לעשות את הקורס של סטנפורד, אולי קורסים נוספים, וכן להשתתף בתחרויות היותר מורכבות של קאגל, ואני מקווה להגיע לזה בהמשך.
לסיום, עצה לצעירים ולצעירות שקראו עד כאן מכיוון שהם אינם מרוצים מעיסוקם או מתחום הלימוד שבו בחרו, ומעוניינים לשנות מקצוע – אל תהססו. אני לא אשקר לכם, זה לא תהליך קל לאנשים שכבר עשו תארים בתחומים אחרים, ויש להם עבודה במשרה מלאה ומשפחה. הייתי צריך להכריח את עצמי לשבת בערבים ובסופי שבוע, להקשיב לקורסים, להתעמק בנוסחאות, להכין תרגילים ולנסות לפתור כל מני באגים. אך ככל שתעשו את המעבר יותר מוקדם, כך הוא יהיה קל יותר.
העבודה כמדען נתונים מספקת שלל אתגרים בחשיבה לוגית, תכנות וניתוח נתונים, והגיוון של מקומות העבודה וסוגי הבעיות הוא עצום. גם אם לא תעזבו בסופו של דבר את התחום הנוכחי שלכם, יש סיכוי טוב שהידע שתצברו בתכנות ובאלגוריתמים יהיה שימושי עבורכם בעתיד. ככל שעובר הזמן, כך שוק העבודה הולך ונחלק בין שני סוגי אנשים: אלו שמסוגלים "לדבר עם מכונות", והביקוש עבורם מזנק במקביל לזינוק ביכולתם של המחשבים והרובוטים, ואלו שהמכונות והתוכנות יכולות להחליף אותם (או לאפשר לעובדים במדינות מתפתחות להחליף אותם), שהביקוש עבורם נע בכיוון ההפוך. אל תהיו בקבוצה השנייה. בהצלחה!
בהצלחה! לדעתי כדאי להכיר את התנך של טיבשיראני והייסטי:
https://web.stanford.edu/~hastie/ElemStatLearn/
ויש לו גם גרסה להקבצה ב׳, שאני מצאתי הרבה יותר קריאה:
http://faculty.marshall.usc.edu/gareth-james/ISL/
בשנה שעברה עשיתי קורס Data Science במכללת נאיה, ולכן המושגים שהזכרת כאן מוכרים לי.
לפני שאמשיך, גילוי נאות: אני עובד בנאיה ואת הקורס עשיתי בחינם תמורת התחייבות להמשיך לעבוד שם. אני כותב עליו לא בתור קידום מכירות, אלא כמידע שימושי למי שזה יכול לעניין אותו.
הקורס נמשך יותר מחצי שנה וכולל שני מפגשים בשבוע, הוא ארוך, מאתגר, ויקר למי שמשלם מכיסו; אבל הוא היה טוב, התרשמתי שהסטודנטים היו מרוצים, והמדריך היה מקצועי ומנוסה.
הוא נועד למי שמעדיף ללמוד עם מרצה שניתן לפנות אליו בשאלות, הרצאות בעברית וכו'. לחלק זה אולי חסר משמעות, אבל לאחרים זה כנראה קריטי.
אפשר ללמוד בכיתה או להתחבר מהבית (תופתעו אבל הרוב העדיפו להגיע לכיתה).
רוב הסטודנטים היו עם נסיון משמעותי בחיים, חלקם לא הרחק מהפנסיה (כלומר- לא שילמו על הקורס ממענק השיחרור..). יש יתרון בלהיות בקשר עם עוד סטודנטים.
עד כאן תרומתי הצנועה.
הבן שלי לומד הנדסת נתונים בטכניון. בשנה שעברה סיים המחזור הראשון של חוג זה. ימים יגידו אם יהיה להם יתרון
כמה טיפים נוספים לאנשים שרוצים להיכנס לתחום ללא תואר במדמ"ח או הנדסה או במדעים מדוייקים וגם לאנשים ללא תואר בכללל:
1.מתמטיקה 5 יחידות זה MUST, כן גם אם עשיתם 4 יחידות תשלימו ל-5 ההבדל הוא משמעותי.
2.שליטה מלאה בשפה האנגלית- דיבור,כתיבה וקריאה. הרוב הגדול של העבודה בתחום מתבצע בשפה האנגלית מול לקוחות מחו"ל.(אם האנגלית שלכם לא מספיק טובה תשקיעו במורה פרטי או בקורס רציני וזמן הרבה זמן).
3.ידע ושליטה בסטטיסטיקה והסתברות זה MUST, אל תפחדו לקחת קורסים בתחום מהפתוחה. זה ממש שווה כול שקל.(במידה ושכחתם כבר את החומר שלמדתם בתואר או שאתם ללא תואר)
4. לפני שאתם רצים להוציא אלפי ועשרות אלפי שקלים על לימודים בתחום, תעשו טובה ותבדקו עם אתם מתחברים לתכנות (Python וR)יש קורסים בחינם ב-youtube וקורסים בעלות סמלית יחסית ב-udemy.
5.תקחו בחשבון שלימוד עצמי לוקח זמן. לימוד עצמי לאנשים בעלי רקע מתמטי ורקע בתכנות יקח בין חצי שנה לשנתיים,
ד"ר כ"ץ תודה על הפוסט ושיהיה לך בהצלחה בעבודה החדשה
למה מתמטיקה 5 יחידות זה מאסט? האמת שאני לא יודע מה לומדים ב 4 יחידות, אבל נראה לי שבעיקר צריך אלגברה ליניארית כדי להבין כתיב מטריציוני, וזה לא כלול בחומר של 5 יחידות. וגם אלגברה ליניארית זה משהו שצריך להבין רק אם אתה מתעסק ברמות היותר גבוהות.
כי ב-5 יחידות מקבלים בסיס מתמטי איתן מספיק ללימוד עצמי של חומר מתקדם יותר שישמש אותך בעתיד.
נכון שגם ב-5 יחידות כמעט ואין נגיעה רצינית בתוכן שישמש אותך בעבודה היום-יומית אבל ההבדל בין אדם שלמד ל-4 יחידות לאדם שלמד 5 מבחינת היכולת להבין מתמטיקה והיכולת ללמוד חומר מתמטי מורכב לבד היא גדולה. מדובר לטעמי בהשקעה לטווח הארוך אחד הדברים הכי מבאסים זה אחרי 5-7 שנים להיתקע בקריירה בגלל שאין לך בסיס מתמטי חזק מספיק.
אני מדבר מנסיון שלי ושל חברים שלי בתחום.
עמי- דעתי אחרת: אתה כנראה אדם מוכשר וגם חבריך בתחום כאלה, לכן הסתדרתם בקלות עם מתימטיקה 5 יח"ל. חבר אחר שלך אינו מתאים לתחום, מוכשר בתחומים אחרים בהם הוא אולי עושה חיל, ואת המתימטיקה הוא צלח בצליעה עם 3 יח"ל.
אם לקשור את זה לנושא שלנו: יש מתאם בין הציון ויחידות הלימוד במתימטיקה לבין הצלחה בתחום ההייטק, אבל לא a גורם סיבתית ל-b ולא להיפך, אלא c (כשרון כמותי או טכני) הוא זה שגורם לשניהם.
מה שכן חשוב זו הבנה בסטטיסטיקה ובהסתברות. לא משהו שאי אפשר ללמוד לבד, אבל להבין את הבסיס.
לא לשנן הגדרות בסגנון "משתנה מקרי x מתפלג אקספוננציאלית אם לכל .. .. בלה בלה בלה", אלא באמת להבין מה זה אומר.
באילו הקשרים בעבודה היית צריך את הידע המתמטי הזה? אני למשל השתמשתי בו קצת כשרציתי להבין מאמרים אקדמיים שקראתי על אלגוריתמים מסויימים, אבל נראה לי שרוב האנשים שעובדים כמדעני נתונים לא קוראים מאמרים אקדמיים. אולי אני טועה… באופן כללי היו המון דברים שלמדתי באוניברסיטה על סטטיסטיקה, אופטימיזציה וכו', ואני זוכר רק חלק קטן מהם כיום. אני מניח שאם אצטרך את הדברים האלו עבור העבודה אני אאלץ ללמוד מחדש לא מעט.
מה המצב בנוגע למתפתחים שרוצים לעשות הסבה מפיתוח אל התחום הזה? נסיון בתכנות יש בדרך כלל, וגם חשיבה לוגית או אלגוריתמאית. האם יש להם יתרון?
מדע נתונים זה תחום לא מוגדר היטב ולכן משתנה בין מקום עבודה אחד לאחר – החל מפיתוח ואופטימיזציה של אלגוריתמים ללמידה עמוקה (יחידי סגולה) , ועד למשרות של אנליסט שיודע לכתוב קצת סקריפטים בפייטון(מתאים לחלק גדול מהאוכלוסייה) . כמובן שגם השכר הוא בהתאם.
ההמלצה שלי – אם אתם לא בוגרי מדמח, תתחילו ממשרות אנליסט/מפתח bi ותראו אם זה מדבר אליכם. מרבית העבודה במרבית המקומות היא טכנולוגית – בעיקר שליפה, עיבוד וניקוי נתונים (ובהמשך הטמעת הסקריפט בסביבת יצור) – מיומנות בפני עצמה שמצריכה שליטה במגוון כלים והיכרות עם עולם התוכן, אבל לא כל אחד מתחבר אליה.
תודה. האם הקורסים בקורסרה בחינם? יש דרישה ל39 דולר לאחר שבוע. זה לא מוכרח?
האם יש לך המלצות לסודנט לרפואה שמעוניין להחשף לתחום? (ידע בסיסי בתכנות וניתוח נתונים) המחשבה שלי היא לשימוש עתידי במחקר וגם לפיתוח יכולות החשיבה. אני לא בטוח על איזה תחום וקורס להתמקד וגם במחשבה של שימושים אפשריים.
[…] כדי לקבל פרספקטיבה נוספת אני מאוד ממליץ לקרוא את הרשומה של אורי כץ, הכלכלן, הבלוגר דעת מיעוט וכיום מדען נתונים […]