למה כדאי לדאטה אנליסט להבין בשיטות דגימה?

You are currently viewing למה כדאי לדאטה אנליסט להבין בשיטות דגימה?
Image by R. tanu from Pixabay

מעשה שהיה כך היה:
בשנת 1936 ביצע המגזין Liberty Digest סקר עצום בגודלו כדי לנסות לחזות את תוצאות הבחירות הקרובות בארצות הברית. המגזין שלח ל- 10 מיליון אנשים סקר בחירות וקיבל בחזרה תשובות מ- 2.5 מיליון אנשים. ניתוח התשובות ניבא שאלפרד לנדון ינצח את פרנקלין רוזוולט בתוצאה של 57% לעומת 43%. להפתעתם של עורכי הסקר והקוראים, רוזוולט ניצח וקיבל 62% מהקולות.

האנליסטים שפיענחו את הסקר שגו בניתוח הנתונים כיוון שבחרו מדגם לא נכון להסתמך עליו  ויצרו הטיות סטטיסטיות שלא איפשרו להכליל את התוצאות על כלל האוכלוסיה.

טעויות הדגימה שעלו בבחירת האוכלוסיה – לא בוצעה דגימה רנדומלית (כלומר, לא היה סיכוי שווה לכל פרט באוכלוסיה להיבחר למדגם) והוא נשלח רק לבעלי טלפונים (שהיו אז בעלי אוכלוסיה מהמעמד הגבוה), כמו כן, התוצאות הסתמכו על חלק מהמשיבים (25%) אשר היו מוכנים לענות על הסקר, ולכן היו בעלי מאפיינים פסיכולוגיים שונים מאשר אלו שלא ענו.

טעויות דגימה עלולות להתרחש בכל אנליזה. אם למשל דאטה אנליסט בוחר להריץ מבחני ab testing רק על סגמנט מצומצם של האוכלוסייה או לבצע אנליזה על תת אוכלוסיה שאינה מייצגת את כלל האוכלוסיה, עלולות להיווצר הטיות סטטיסטיות שיולידו אנליזות שגויות. 

Yuval Marnin

לחברות המעוניינות בשירותי פרילנס או מנטורינג של אנליסט, ניתן לפנות אליי ל[email protected]