"כמה זמן בממוצע לקוחות גולשים בפאנל החדש שבנינו להם?" שאל אותי ה-CTO של החברה בה עבדתי. "זה לא משנה מה הממוצע של כלל הלקוחות," השבתי לו "הממוצע בדרך כלל משקר ולא ניתן להסיק ממנו תובנות. אם אתה באמת רוצה להבין כיצד הלקוחות שלך מתנהגים תבחן את התפלגות משך הגלישה שלהם, ואם תרצה לחפור עוד יותר לעומק כדאי לראות גם את תרשים ה- box-plot וכך נקבל תמונה רחבה יותר".
בתשובה שלי אולי הקצנתי במעט את היחס שלי לממוצע. לפעמים כן יש מקום להסתכל על הממוצע כשמנתחים אוכלוסיית לקוחות, אבל דאטה אנליסט יכול להסיק תובנות מהממוצע רק כאשר אוכלוסיית הלקוחות היא הומוגנית ובמרבית המקרים זה אינו המצב.
הדגמת הרעיון
לצורך הדגמת הרעיון נסתכל על נתוני הבקשות להלוואה של לקוחות חברת Landing club בין השנים 2007 ו- 2015 (חברת Landing club היא חברת פינטק העוסקת בהלוואות pear to pear, הנתונים פורסמו באתר Kaggle).
כמות הבקשות להלוואה בין השנים הללו הייתה 887 אלף בקשות, כאשר סכום הבקשה הממוצע להלוואה עמד על 14,755 דולר. אך האם המספר הזה אומר שרוב הבקשות הן סביב 14,755 דולר? התשובה היא לא! הממוצע אומר לנו מעט מאד על אופי הבקשות ואף עלול להטעות אותנו.
כאשר מביטים על התפלגות הבקשות בעזרת גרף היסטוגרמה ניתן לראות שסכום הבקשות אינו מתפלג בצורה הומוגנית ולכן לא ניתן להסיק מהממוצע תובנות לגבי הלוואות שהלקוחות מבקשים.
לפי ההיסטוגרמה ניתן לראות שישנם לקוחות רבים שמבקשים הלוואות בסכומים נמוכים שמושכים את הממוצע כלפי מטה ואילו ישנה גם קבוצה גדולה של לקוחות שמבקשות הלוואות בסך של 35,000 ומטות את הממוצע כלפי מעלה.
דרך נוספת להסתכל על הנתונים היא בעזרת תרשים מסוג box-plot שיכול להראות לנו בקלות היכן מרוכזים 50% מהלקוחות.
"הקופסה" הצבועה באדום מראה ש 50% מהבקשות להלוואה הן בסכומים שבין 8,000 ל 20,000 דולר. הקווים שמופיעים לצד הקופסה מתארים את פיזור האוכלוסיה וכמו בהיסטוגרמה גם כאן ניתן לראות שסכומי הבקשות הן מאד הטרוגניות ואינן מתרכזות סביב נקודה אחת.
אגב, הקו באמצע הקופסה הוא החציון שעומד על 13,000 דולר. החציון אינו מושפע מערכים קיצוניים ולכן הבקשות של הלקוחות בקצוות ההתפלגות פחות משפיעות עליו, ואף על פי כן, בדומה לממוצע, גם הוא אינו עוזר לנו לתאר את האוכלוסיה ההטרוגנית.
הסתמכות על הממוצע לבדו, ללא עזרה של משתנים נוספים עלולה להסתיר תובנות מעניינות שמופיעות בנתונים. בנתונים שפרסמה Landing club הלקוחות מסווגים לפי רמת הסיכון שלהם. רמת הסיכון ללקוחות פיננסים מתארת את הסיכוי שהלקוח יחזיר את הלוואה ולא יכנס לכשל. רמת סיכון 'A' מתייחסת ללקוחות לא מסוכנים ו- 'G' ללקוחות הכי מסוכנים.
פילוח לפי סגמנטים
כאשר מפלחים את סכום בקשות ההלוואה לפי משתנה רמת הסיכון ניתן לראות את הקשר החזק בין מסוכנות הלקוח לממוצע בקשת ההלוואות. ככל שהלקוח מסוכן יותר כך הוא יטה לבקש הלוואה גדולה יותר.
את הקשר שמצאנו ניתן להמחיש גם בעזרת תרשים box-plot:
בתרשים ניתן לראות גם כיצד הבקשות מתפלגות בכל רמת סיכון.
לסיכום
1. תמיד רצוי לחשוד שהממוצע משקר וגורם לנו להסיק מסקנות לא נכונות על האוכלוסיה. אם בכל זאת בחרנו לעבוד עם ממוצע, רצוי לבדוק את ההומוגניות של האוכלוסיה בעזרת מדדי פיזור כגון שונות וסטית תקן.
2. הדרך המומלצת להסיק נתונים על אוכלוסיה לא הומוגנית היא בעזרת גרפים של היסטוגרמה ו box-plot.
3. הסתמכות על הממוצע לבדו עלולה להסתיר תובנות נוספות שמסתתרות בנתונים ויכולות להיחשף רק כאשר נפלח אותם בעזרת מאפיינים נוספים על הלקוחות.
המאמר נכתב על ידי יובל מרנין.
לעזרה בניתוח נתוני החברה ע"י דאטה אנליסט ניתן לפנות אליי ב- לינקדאין, פייסבוק או במייל: [email protected]
לקריאה נוספת
English version of the article – How can a data analyst avoid the lies of using average function?