AutoML מערער את הגבולות המקצועיים של דאטה אנליסט ו דאטה סיינטיסט

You are currently viewing AutoML מערער את הגבולות המקצועיים של דאטה אנליסט ו דאטה סיינטיסט
Image by ar130405 from Pixabay

נכתב על ידי יובל מרנין.
לשרותי מנטורינג של דאטה אנליסט לחצו כאן.

הקדמה – ההבדל בין התפקידים דאטה אנליסט ו- Data scientist

בין בעלי המקצוע של Data science ו- דאטה אנליסט יש יחסי אהבה-שנאה. הכל כמובן בחברות טובה, אך בכל זאת הגבולות בין שני תחומי העיסוק הזה החלו להתגבש לא מזמן והם עדיין מעורערים.

בעבר סטטיסטיקאים היו מבצעים את כל התפקידים. הם היו שולפים את הנתונים, מגיעים לתובנות ובונים מודלים סטטיסטים.

לאחר שכמות הנתונים בארגונים גדלה באופן משמעותי ונדרשה מיומנות גבוהה יותר לשליפת נתונים מתוך מערכות מידע מורכבות, התפתח תחום חדש שנקרא Data mining שלאחר מכן שינה את שמו ל- דאטה אנליסט.

במקביל להתפתחות זו נולד מקצוע נוסף בשם Data science שירש את התפקיד הנוסף של הסטטיסטיקאים – בניית מודלים סטטיסטים.

פיצול התפקיד של הסטטיסטיקאי לשני תחומים אלו יצר בלבול בין הגבולות של התפקידים החדשים. מנהלים של חברות סטארט-אפ רבות רצו להתהדר ב- Data Scientist בחברה, תפקיד שנחשב למאוד חדשני, אך בפועל הם היו צריכים דאטה אנליסט כי הם רצו להפיק תבונות מהנתונים ולא ידעו להבחין בין ההתמחויות השונות.

כך נוצרו מצבים מוזרים בהם דאטה אנליסטים גויסו כ– Data scientists והשלימו פערים בשפת Python כדי ללמוד להריץ מודלים בעוד ש- Data scientists אשר התמחו באלגוריתמים של Machine learning עבדו בפועל כאנליסטים והיו מתוסכלים מכך שהם אינם בונים מודלים ומבצעים תפקיד שאינו מתאים להם.

המצב המבולבל הזה מתקיים גם כיום, עדיין ישנן חברות אשר רואות את תפקיד הדאטה אנליסט כתפקיד ההתחלתי ואת ה- Data scientist כאנליסט ברמה מתקדמת יותר שגם מפתח אלגוריתמים של ML. ישנם גם אנשים החושבים ש- Data scientist זה בכלל השם האמיתי שצריך להיות למקצוע דאטה אנליסט והם צריכים לקחת את הקרדיט על השם הזה. ראו את המאמר המרתק של דרור גולדין בנושא.

למרות הבלבול בין התפקידים כיום הגבולות בין המקצועות מתחילים להתבהר. יותר ויותר חברות מבינות שיש תפקיד לדאטה אנליסט שעונה על שאלות עסקיות ויודע להגדיר דוחות KPI אסטרטגים העוזרים לחברה לשפר את הביצועים (או כמאמר הביטוי השחוק – להזיז את המחט), ויש אתdata scientists  שמפתחים מודלים של  Machine learning ומוצרי AI וראיה מלאכותית.

בימים אלו נכתבים ונוצרים אלגוריתמיים חדשים בשם AutoML אשר יכולים לערער שוב את הגבולות בין התפקידים.

מהו AutoML

המונח – AutoML הוא הלחם של המילים Automation ו- Machine learning, והוא מתאר אלגוריתמים שיכולים לייצר באופן אוטומטי מודלים של Machine learning. כלומר, במקום שה- data scientist ישקיע שעות מרובות ביצירת מודל, האלגוריתם ייצר אותו במקומו. בכלי BI ישנן מעט דוגמאות למודלים כאלה. ישנן גם חברות מסחריות (לדוגמה חברת פקאן) שמספקת מודלים כאלה.

במילים אחרות, במקום להעסיק data scientist שיסדר את הנתונים, ינקה את הדאטה, יאמן רשת נוירונים או יחליט לבחור דווקא אלגוריתם סטטיסטי אחר, האלגוריתם של ה- AutoML הוא זה שיבצע את העבודה הזאת. האלגוריתם ידאג להכין את הנתונים, האלגוריתם ידאג לנקות אותם, האלגוריתם יאמן כמה מודלים ויחליט איזה מודל הכי מוצלח מבינהם וכל זה בלחיצת כפתור.

חשוב להדגיש שגם המעריצים של גישה זו מודים שנכון לעת זאת (2022), האלגוריתמים של AutoML עדיין בתחילת הדרך, וייתכן שייקח עוד זמן עד שהאלגוריתמים יהיו בשלים ויציבים כך שהכל יעבוד בלחיצת כפתור פשוטה.

מה זה אומר על תפקידו של ה- Data scientist בעתיד? מוקדם עדיין לדעת. הרשת גועשת בדיונים באשר לעתיד התפקיד שלData science בארגון. אם בנקל Data engineer או דאטה אנליסט יוכלו לבנות ולהריץ מודלים, היכן הייחוד של ה- Data science בתהליך? אולי בעתיד יצטרכו רק Data scientists מומחים שידעו לבנות מודלים מאד מורכבים שהאלגוריתמים של AutoML לא יודעים לבנות? אין דעה מגובשת עדיין בנושאים האלה אך בפוסט הזה נתמקד בהשפעה של ההתפתחויות האלה על התפקיד של דאטה אנליסט.

כיצד AutoML יכול לעזור ל- דאטה אנליסט

אם כאמור התפקיד של דאטה אנליסט הוא לענות על שאלות עסקיות כמו למשל להסביר למה תופעה מתרחשת בנתונים, כעט יוכל האנליסט להפעיל אלגוריתם של AutoML שיאתר לבד מהנתונים את הגורם המשפיע ולמקד את תשובתו והמשאבים שלו בבחינת הגורמים העסקיים או הסיבות הסוציולוגיות לתופעה, ובבנית הסיפור שעומד מאחורי המספרים.

לדוגמה, אם אנליסטית רוצה לדעת למה עלו המכירות דווקא במדינת ויסקונסין, היא יכולה להפעיל אלגוריתם של AutoML שיאתר את המשתנה שהכי השפיע על המכירות במדינת ויסקונסין, ואז למקד את האנליזה שלה  בניסיון להבין מהם הגורמים העסקיים או הסוציולוגיים שגרמו לתופעה דווקא בויסקונסין ולא בניו-יורק. האנליסטית יכולה לבדוק האם בויסקונסין קמה חברה מתחרה או לבדוק האם בויסקונסין יש כעת הפגנות כנגד מוצרי החברה עקב סרטון יוטיוב של גורמים שהפיצו תאוריות קונספירטיביות כנגד החברה. ניתוחים מסוג זה דורשים משאבים וזמן, ואלגוריתמים של AutoML יכולים לפנות את הזמן הזה לאנליסט.

דוגמה נוספת, דאטה אנליסט שרוצה לדעת מהו השווי של הלקוחות (LTV) שהגיעו מגיוס בערוצי השיווק השונים, יכול להפעיל אלגוריתם של AutoML ובלחיצת כפתור לקבל את החישוב של שווי הלקוח בכל ערוץ. את המשאבים שיתפנו יוכל האנליסט למקד לניתוח הכדאיות של השקעה בכל ערוץ (ניתוח ROI), ולהבין למה המשתמשים שהגיעו בקמפיין של טיקטוק שווים יותר מהמשתמשים שהגיעו מהקמפיינים בגוגל? אולי השימוש בטיקטוק מרגיע את הלקוחות הפוטנציאלים ובעת ההרשמה הם נוטים לקנות חבילת מנוי גדולה יותר?

הערות על עבודה עם מודלים של Machine Learning

כדאי לשים לב שגם אם התחום הזה בתחילת דרכו, כבר עכשיו יש חברות שמציעות שירותים של אלגוריתמי AutoML היכולים לעזור לדאטה אנליסטים. בנוסף, ישנם כלי BI המאפשרים לאנליסטים להריץ אלגוריתמיים של Key indicator (מציאת הגורם המשפיע ביותר) וסדרות עיתיות (חיזוי קו מגמה). אם אתם דאטה אנליסטים שחשופים לאלגוריתמים האלה, אל תהססו להשתמש בהם ולהעשיר את האנליזות שלכם באמצעותם.

כמו כן, כאשר עובדים עם מודלים סטטיסטיים, חשוב לשים לב שהנחות המודל מתקיימות וששיעור הטעות הוא שיעור שמקובל עלינו ללא קשר אם מקור המודל הוא אלגוריתם של AutoML או פותח ע"י בו אנוש.

סיכום

התפתחות האלגוריתמים של AutoML מעוררת סערות בעולם ה- Data science ומערערת את גבולות התפקיד. ההתפתחויות החדשות יכולות להשפיע גם על דאטה אנליסטים ולעזור להם למקד את האנליזות שהם מבצעים באיתור הגורמים הסוציולוגים והעסקיים שעומדים מאחורי הנתונים.


נכתב על ידי יובל מרנין.
לשרותי מנטורינג של דאטה אנליסט לחצו כאן.

למאמרים נוספים בנושא:
מה ההבדל בין מומחה BI לדאטה אנליסט?

English version of the article – AutoML and data analytics

Yuval Marnin

לחברות המעוניינות בשירותי פרילנס או מנטורינג של אנליסט, ניתן לפנות אליי ל[email protected]