מדריך בסיסי לביצוע A/B Testing

נכתב על ידי יובל מרנין.
לחברות המעוניינות בשירותי פרילנס או סדנאות של אנליסט, ניתן לפנות אליי [email protected]

**** לפודקאסט של הבלוג לחצו כאן ****

הקדמה – מה זה A/B Testing

במתודולוגיה של A/B testing מנהל המוצר בודק גרסה חדשה של המוצר על כמות קטנה של משתמשים ותוצאות הבדיקה מלמדות האם בגרסה החדשה יש שיפור מובהק סטטיסטי לעומת הגרסה הקודמת.

המתודולוגיה מכונה A/B כיוון ש A ו B מתייחסות לגרסאות השונות של המוצר. לצורך הפשטות, המאמר יתייחס למקרה הקל של בדיקת שתי גרסאות אחת כנגד השניה אך בפועל אפשר להציע יותר מחלופה אחת לגרסת המקור ולבנות מערכי ניסוי מורכבים המאפשרים גם לבדוק אינטראקציה בין גרסאות ושינויים במוצר.

חשוב לשים לב, המאמר הזה הינו טעימה קטנה מהנושא המורכב של A/B testing ואינו מדריך מעשי. אם ברצונכם לבצע מבחן בצורה נכונה ותקנית רצוי לבצע אותו עם דאטה אנליסט שלמד קורסים אקדמיים בסטטיסטיקה ושיטות מחקר כדי שידע לבנות את המבחן בצורה נכונה וללא הטיות העלולות להוביל למסקנות שגויות מהניסוי.

A/B Testing ומבחני השערות

הטכניקה של A/B testing מסתמכת על מחקר סטטיסטי קלאסי ולכן כדי לבצע מבחן נכון עלינו להכיר את הנושא של מבחני השערות, מבחני מובהקות ואת ההשפעות ההרסניות העלולות להתרחש בעקבות הטיות סטטיסטיות – בעיקר הטיות שנובעות מדגימה לא נכונה וממשתנים מתערבים.

כל מבחן A/B testing הוא למעשה מבחן השערות אשר אפשר לנסח באופן הבא:

H0 – אין הבדל בין הגרסאות של המוצר.
H1 – הגרסה החדשה של המוצר טובה יותר (או יש הבדל כלשהו בין הגרסאות).

*ישנן אפשרויות נוספות לניסוח מבחן ההשערות, תוצאות המבחן יגזרו מתוך ניסוח ההשערות.

בחירת מטריקות למבחן A/B Testing

על מנת שנוכל לקבוע איזו גרסה מניבה תוצאות טובות יותר, יש להחליט על מטריקה שעל פיה נמדוד את ההצלחה של כל גרסה.

לדוגמה – האם ממוצע המכירות בגרסה החדשה של המוצר (H1) גבוה יותר מממוצע המכירות של הגרסה הקיימת (H0).

ניתן ורצוי לקבוע יותר ממטריקה אחת אך יש לשים לב שעבור כל מטריקה יש לנסח השערות משלה וביצוע מבחן מובהקות משלה.

כמו כן, כדאי לשים לב שלפעמים יש שיפור במטריקה אחת אך פגיעה במטריקה אחרת.
למשל, יתכן מצב בו נגלה במבחן כי הגרסה החדשה של המוצר שיפרה את כמות המכירות, אך פגעה מאד ביחס ההמרה.

לאחר שננתח את תוצאות המבחנים הסטטיסטים לכל המדדים שבחנו, נוכל נקבל החלטה האם אנחנו רוצים להחליף את הגרסה הקיימת של המוצר בגרסה החדשה.

בחירת המשתמשים למבחן – החשיבות העצומה של דגימה רנדומלית ב- A/B Testing

ב- A/B testing כל משתמש במוצר מנותב לאחת הגרסאות של המבחן – לגרסה הרגילה (H0) או לגרסה החדשה (H1).

כדי שנמנע מהטיות של בחירת מדגם שגוי, יש לשייך את הנבדקים לאחת הגרסות באופן רנדומלי.

אם למשל לא נשייך את המשתמשים בצורה רנדומלית ובמקום זאת ניתן לקבוצת משתמשים מסוימת את הגרסה החדשה. התוצאות שנקבל עלולות להיות מושפעות מהמאפיינים של הקבוצה שבחרנו ולא מתוצאות אמיתיות של המבחן.

לדוגמה, אם ננתב את המשתמשים שהגיעו למוצר מקמפיינים בגוגל לגרסה החדשה ונגלה שיש שיפור במכירות, לא נוכל לדעת האם השיפור נובע מכך שהמשתמשים שהגיעו מהקמפיינים נוטים לרכוש יותר או שבאמת הגרסה החדשה טובה יותר.

גודל מדגם רצוי ב- A/B Testing

באופן אידאלי, היינו רוצים לחלק את המשתמשים לשתי קבוצות – קבוצה אחת שתקבל את הגרסה המקורית של המוצר וגרסה שניה שתקבל את הגרסה החדשה של המוצר.

הבעיה בגישה הזאת היא שהגרסה החדשה עלולה להיות פחות טובה מהגרסה הנוכחית והפניה של 50% מהמשתמשים אליה עלולה לגרום לפגיעה משמעותית במוצר.

אם כך – מהו גודל המדגם האידאלי?

לצערי, אין לכך תשובה חד משמעית. כדי שלתוצאת המבחן תהיה רמת בטחון גבוהה אנחנו צריכים לשאוף לכך שכמות המשתמשים בגרסה החדשה תהיה גדולה ככל שניתן. בנוסף, כאשר המבחן יבוצע על אוכלוסייה שלה שונות גבוהה נצטרך להגדיל את כמות המשתמשים במבחן כדי שנוכל לקבוע בוודאות שהמבחן הצליח.

לדוגמה, אם המטריקה שאותה אנחנו מודדים היא סכום רכישה בחברת e-commerce שלה לקוחות רבים הרוכשים בסכום גבוה אך יש גם לקוחות רבים הרוכשים בסכום נמוך, למשתנה סכום הרכישה תהיה שונות גבוהה וכדי לקבוע שלגרסה החדשה באמת הייתה השפעה על המכירות, נצטרך להריץ את המבחן על לקוחות רבים.

משך הניסוי של A/B Testing

כדי למנוע מצב של משתנים מתערבים כגון יום בשבוע שבו יש דפוסי התנהגות שונים למשתמשים, רצוי להריץ את המבחן לאורך זמן. משך הזמן מאד תלוי באופי המוצר. לפעמים שבועיים יספיקו ולפעמים אולי עדיף להריץ את המבחן במשך חודש.

מובהקות סטטיסטית ב- A/B testing

כדי שנוכל לדחות את השערת האפס (H0) ולקבל את הגרסה החדשה (H1) עלינו לוודא שיש הבדלים מובהקים מבחינה סטטיסטית במטריקות שלפיהן אנחנו בודקים את המבחן.

בתחום של הסקה סטטיסטית ישנם סוגי מבחנים רבים שלפיהם ניתן לקבוע האם ההבדל בין המטריקות מובהק סטטיסטית. את המבחן הסטטיסטי המתאים נבחר לפי מערך הניסוי שנבצע והמטריקה שנרצה לבחור.

למשל, אם נרצה לבחון האם יש עליה בממוצע הרכישות של לקוח נבחר במבחן T להבדל בין ממוצעים. אם נרצה לבדוק את השיפור ביחס ההמרה של המשתמשים נבחר במבחן פרופורציה.

בד"כ כאשר P-value קטן מ- 0.05 ניתן לומר שהתוצאה מובהקת. כאשר ה- P-value קטן מ 0.01 נהוג לומר שיש מובהקות יתרה.

הערה על מבחני A/A

A/A הינה מתודולוגיה לפיה מציגים לאוכלוסיות המדגם ולאוכלוסיה הרגילה את אותה הגרסה ובוחנים האם יש שוני סטטיסטי בין האוכלוסיות.

על פניו לא אמור להיות שום שינוי במדדים של שתי אוכלוסיות המשתמשים כיוון שהן מקבלות את אותה גרסה, אך אם נקבל במבחן שוני בין האוכלוסיות זה אומר שיש לנו בעיה טכנית בניסוי ויש לאתר אותה לפני שנבצע את הניסוי בפועל. למשל, יכול להיות שהבחירה של המשמשים לניסוי אינה מבוצעת באופן רנדומלי או שהסרבר שמציג את הגרסה של המשתמשים בניסוי הוא איטי יותר.

ביקורת על מבחני A/B Testing

ישנם מספר ביקורות על מבחני A/B:

אפקט הות'ורן או Novelty Effect

בחלק מהמקרים עצם השינוי במוצר והצגת גרסה חדשה למשתמשים יכול לגרום לשינוי במטריקות הנבחנות ללא קשר למאפיינים של המוצר החדש. למשל, משתמשים יכולים ללחוץ על כפתור חדש שהם רואים רק כי הוא חדש ולא כי הם באמת מעוניינים להשתמש בו.

תופעה זאת מכונה – אפקט הות'ורן או Novelty effect והדרך להימנע ממנו הוא לבצע מבחנים ארוכים שיראו שלאורך זמן עדיין יש שינוי בין שתי הגרסאות גם כאשר השינוי כבר אינו חדש למשתמשים.

הסתמכות יתר על מובהקות סטטיסטית במבחני A/B Testing

מבחינה סטטיסטית, ככל שהמדגם גדול יותר – השונות של ממוצע המדגם קטנה, וכאשר השונות של המדגם קטנה יש יותר סיכוי שתוצאת המבחן תהיה מובהקת, וכך עלול להיווצר מצב בו במדגמים גדולים כמעט כל שינוי יראה כמובהק.

לכן, כדי לקבוע האם מבחן A/B הצליח, כדאי לבחון עוד פרמטרים מלבד מבחני מובהקות.

צריכים עזרה בעריכת מבחני A/B testing?
מוזמנים ליצור איתי קשר [email protected]

**** לפודקאסט של הבלוג לחצו כאן ****

לקריאה נוספת

היתרונות בהעסקת דאטה אנליסט חיצוני (פרילנסר)
משתנים מתערבים – התת מודע של הנתונים שכדאי לכל דאטה אנליסט להכיר
שיטות מחקר – מהלכי החשיבה של דאטה אנליסט
מדריך ליצירת מודלים סטטיסטיים בשפת פייתון

English version of the article – A Basic guide on A/B Testing

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

הקדמה – מה זה A/B Testing

A/B Testing ומבחני השערות

בחירת מטריקות למבחן A/B Testing

בחירת המשתמשים למבחן – החשיבות העצומה של דגימה רנדומלית ב- A/B Testing

משך הניסוי של A/B Testing

מובהקות סטטיסטית ב- A/B testing

הערה על מבחני A/A

ביקורת על מבחני A/B Testing

אפקט הות'ורן או Novelty Effect

הסתמכות יתר על מובהקות סטטיסטית במבחני A/B Testing

Yuval Marnin

אולי תאהב/י גם

ניתוח לקוחות הוליסטי על ידי דאטה אנליסט – מודל ציון לקוחות

הצעת נהלי עבודה למקצוע דאטה אנליסט

Case study – ניתוח נתוני Kickstarter בעזרת Power bi

סקר 2024 שכר ומאפייני המקצוע של דאטה אנליסט – דו"ח BI

האם Generative AI יחליף את התפקיד של דאטה אנליסט?