לחברות המעוניינות בשירותי פרילנס או סדנאות של אנליסט, ניתן לפנות אליי [email protected]
**** לפודקאסט של הבלוג לחצו כאן ****
הקדמה – מה זה A/B Testing
במתודולוגיה של A/B testing מנהל המוצר בודק גרסה חדשה של המוצר על כמות קטנה של משתמשים ותוצאות הבדיקה מלמדות האם בגרסה החדשה יש שיפור מובהק סטטיסטי לעומת הגרסה הקודמת.
המתודולוגיה מכונה A/B כיוון ש A ו B מתייחסות לגרסאות השונות של המוצר. לצורך הפשטות, המאמר יתייחס למקרה הקל של בדיקת שתי גרסאות אחת כנגד השניה אך בפועל אפשר להציע יותר מחלופה אחת לגרסת המקור ולבנות מערכי ניסוי מורכבים המאפשרים גם לבדוק אינטראקציה בין גרסאות ושינויים במוצר.
חשוב לשים לב, המאמר הזה הינו טעימה קטנה מהנושא המורכב של A/B testing ואינו מדריך מעשי. אם ברצונכם לבצע מבחן בצורה נכונה ותקנית רצוי לבצע אותו עם דאטה אנליסט שלמד קורסים אקדמיים בסטטיסטיקה ושיטות מחקר כדי שידע לבנות את המבחן בצורה נכונה וללא הטיות העלולות להוביל למסקנות שגויות מהניסוי.
A/B Testing ומבחני השערות
הטכניקה של A/B testing מסתמכת על מחקר סטטיסטי קלאסי ולכן כדי לבצע מבחן נכון עלינו להכיר את הנושא של מבחני השערות, מבחני מובהקות ואת ההשפעות ההרסניות העלולות להתרחש בעקבות הטיות סטטיסטיות – בעיקר הטיות שנובעות מדגימה לא נכונה וממשתנים מתערבים.
כל מבחן A/B testing הוא למעשה מבחן השערות אשר אפשר לנסח באופן הבא:
H0 – אין הבדל בין הגרסאות של המוצר.
H1 – הגרסה החדשה של המוצר טובה יותר (או יש הבדל כלשהו בין הגרסאות).
*ישנן אפשרויות נוספות לניסוח מבחן ההשערות, תוצאות המבחן יגזרו מתוך ניסוח ההשערות.
בחירת מטריקות למבחן A/B Testing
על מנת שנוכל לקבוע איזו גרסה מניבה תוצאות טובות יותר, יש להחליט על מטריקה שעל פיה נמדוד את ההצלחה של כל גרסה.
לדוגמה – האם ממוצע המכירות בגרסה החדשה של המוצר (H1) גבוה יותר מממוצע המכירות של הגרסה הקיימת (H0).
ניתן ורצוי לקבוע יותר ממטריקה אחת אך יש לשים לב שעבור כל מטריקה יש לנסח השערות משלה וביצוע מבחן מובהקות משלה.
כמו כן, כדאי לשים לב שלפעמים יש שיפור במטריקה אחת אך פגיעה במטריקה אחרת.
למשל, יתכן מצב בו נגלה במבחן כי הגרסה החדשה של המוצר שיפרה את כמות המכירות, אך פגעה מאד ביחס ההמרה.
לאחר שננתח את תוצאות המבחנים הסטטיסטים לכל המדדים שבחנו, נוכל נקבל החלטה האם אנחנו רוצים להחליף את הגרסה הקיימת של המוצר בגרסה החדשה.
בחירת המשתמשים למבחן – החשיבות העצומה של דגימה רנדומלית ב- A/B Testing
ב- A/B testing כל משתמש במוצר מנותב לאחת הגרסאות של המבחן – לגרסה הרגילה (H0) או לגרסה החדשה (H1).
כדי שנמנע מהטיות של בחירת מדגם שגוי, יש לשייך את הנבדקים לאחת הגרסות באופן רנדומלי.
אם למשל לא נשייך את המשתמשים בצורה רנדומלית ובמקום זאת ניתן לקבוצת משתמשים מסוימת את הגרסה החדשה. התוצאות שנקבל עלולות להיות מושפעות מהמאפיינים של הקבוצה שבחרנו ולא מתוצאות אמיתיות של המבחן.
לדוגמה, אם ננתב את המשתמשים שהגיעו למוצר מקמפיינים בגוגל לגרסה החדשה ונגלה שיש שיפור במכירות, לא נוכל לדעת האם השיפור נובע מכך שהמשתמשים שהגיעו מהקמפיינים נוטים לרכוש יותר או שבאמת הגרסה החדשה טובה יותר.
גודל מדגם רצוי ב- A/B Testing
באופן אידאלי, היינו רוצים לחלק את המשתמשים לשתי קבוצות – קבוצה אחת שתקבל את הגרסה המקורית של המוצר וגרסה שניה שתקבל את הגרסה החדשה של המוצר.
הבעיה בגישה הזאת היא שהגרסה החדשה עלולה להיות פחות טובה מהגרסה הנוכחית והפניה של 50% מהמשתמשים אליה עלולה לגרום לפגיעה משמעותית במוצר.
אם כך – מהו גודל המדגם האידאלי?
לצערי, אין לכך תשובה חד משמעית. כדי שלתוצאת המבחן תהיה רמת בטחון גבוהה אנחנו צריכים לשאוף לכך שכמות המשתמשים בגרסה החדשה תהיה גדולה ככל שניתן. בנוסף, כאשר המבחן יבוצע על אוכלוסייה שלה שונות גבוהה נצטרך להגדיל את כמות המשתמשים במבחן כדי שנוכל לקבוע בוודאות שהמבחן הצליח.
לדוגמה, אם המטריקה שאותה אנחנו מודדים היא סכום רכישה בחברת e-commerce שלה לקוחות רבים הרוכשים בסכום גבוה אך יש גם לקוחות רבים הרוכשים בסכום נמוך, למשתנה סכום הרכישה תהיה שונות גבוהה וכדי לקבוע שלגרסה החדשה באמת הייתה השפעה על המכירות, נצטרך להריץ את המבחן על לקוחות רבים.
משך הניסוי של A/B Testing
כדי למנוע מצב של משתנים מתערבים כגון יום בשבוע שבו יש דפוסי התנהגות שונים למשתמשים, רצוי להריץ את המבחן לאורך זמן. משך הזמן מאד תלוי באופי המוצר. לפעמים שבועיים יספיקו ולפעמים אולי עדיף להריץ את המבחן במשך חודש.
מובהקות סטטיסטית ב- A/B testing
כדי שנוכל לדחות את השערת האפס (H0) ולקבל את הגרסה החדשה (H1) עלינו לוודא שיש הבדלים מובהקים מבחינה סטטיסטית במטריקות שלפיהן אנחנו בודקים את המבחן.
בתחום של הסקה סטטיסטית ישנם סוגי מבחנים רבים שלפיהם ניתן לקבוע האם ההבדל בין המטריקות מובהק סטטיסטית. את המבחן הסטטיסטי המתאים נבחר לפי מערך הניסוי שנבצע והמטריקה שנרצה לבחור.
למשל, אם נרצה לבחון האם יש עליה בממוצע הרכישות של לקוח נבחר במבחן T להבדל בין ממוצעים. אם נרצה לבדוק את השיפור ביחס ההמרה של המשתמשים נבחר במבחן פרופורציה.
בד"כ כאשר P-value קטן מ- 0.05 ניתן לומר שהתוצאה מובהקת. כאשר ה- P-value קטן מ 0.01 נהוג לומר שיש מובהקות יתרה.
הערה על מבחני A/A
A/A הינה מתודולוגיה לפיה מציגים לאוכלוסיות המדגם ולאוכלוסיה הרגילה את אותה הגרסה ובוחנים האם יש שוני סטטיסטי בין האוכלוסיות.
על פניו לא אמור להיות שום שינוי במדדים של שתי אוכלוסיות המשתמשים כיוון שהן מקבלות את אותה גרסה, אך אם נקבל במבחן שוני בין האוכלוסיות זה אומר שיש לנו בעיה טכנית בניסוי ויש לאתר אותה לפני שנבצע את הניסוי בפועל. למשל, יכול להיות שהבחירה של המשמשים לניסוי אינה מבוצעת באופן רנדומלי או שהסרבר שמציג את הגרסה של המשתמשים בניסוי הוא איטי יותר.
ביקורת על מבחני A/B Testing
ישנם מספר ביקורות על מבחני A/B:
אפקט הות'ורן או Novelty Effect
בחלק מהמקרים עצם השינוי במוצר והצגת גרסה חדשה למשתמשים יכול לגרום לשינוי במטריקות הנבחנות ללא קשר למאפיינים של המוצר החדש. למשל, משתמשים יכולים ללחוץ על כפתור חדש שהם רואים רק כי הוא חדש ולא כי הם באמת מעוניינים להשתמש בו.
תופעה זאת מכונה – אפקט הות'ורן או Novelty effect והדרך להימנע ממנו הוא לבצע מבחנים ארוכים שיראו שלאורך זמן עדיין יש שינוי בין שתי הגרסאות גם כאשר השינוי כבר אינו חדש למשתמשים.
הסתמכות יתר על מובהקות סטטיסטית במבחני A/B Testing
מבחינה סטטיסטית, ככל שהמדגם גדול יותר – השונות של ממוצע המדגם קטנה, וכאשר השונות של המדגם קטנה יש יותר סיכוי שתוצאת המבחן תהיה מובהקת, וכך עלול להיווצר מצב בו במדגמים גדולים כמעט כל שינוי יראה כמובהק.
לכן, כדי לקבוע האם מבחן A/B הצליח, כדאי לבחון עוד פרמטרים מלבד מבחני מובהקות.
צריכים עזרה בעריכת מבחני A/B testing?
מוזמנים ליצור איתי קשר [email protected]
**** לפודקאסט של הבלוג לחצו כאן ****
לקריאה נוספת
היתרונות בהעסקת דאטה אנליסט חיצוני (פרילנסר)
משתנים מתערבים – התת מודע של הנתונים שכדאי לכל דאטה אנליסט להכיר
שיטות מחקר – מהלכי החשיבה של דאטה אנליסט
מדריך ליצירת מודלים סטטיסטיים בשפת פייתון
English version of the article – A Basic guide on A/B Testing