מה התקלקל במובהקות הסטטיסטית?

 

בחודש פברואר פרסם האגוד האמריקאי לסטטיסטיקה (American statistical association) הצהרה שהרעידה את העולם המדעי. כשקוראים אותה בעיון, רואים שההצהרה מאוד הגיונית, במיוחד בהתחשב בהבדל המהותי שבין קבלת החלטות בעולם המדעי, לבין קבלת החלטות בעולם העסקי, ויש פה כמה לקחים מעניינים.

 

ההצהרה עסקה בשימוש (המוקצן / מוגזם) ב-p-value וברמת מובהקות בעולם המדעי, וגם בהשלכות על העולם העסקי.

 

למה זה צריך לעניין אתכם? פשוט מאוד. כשאתם שוקלים צעדיכם בהתבסס על נתונים, לעיתים גם נתונים "מובהקים סטטיסטית" יהיו נטולי משמעות עסקית (ולא צריך לגזור מהם החלטות). לפעמים ההפך הוא הנכון - נתונים שאינם "מובהקים סטטיסטית", עדיין יכולים להצביע על ממצאים שצריך לטפל בהם מבחינה עסקית.

כמאמר ההצהרה (בתרגום לעברית):

החלטות עסקיות ומדיניות לא צריכות להיות מבוססות רק על האם p-value עובר סף מסוים.

 

בשפה פשוטה, מה זה p-value?

P-value הוא אחד המושגים שסטטיסטיקאים נעזרים בו. לפני שעושים ניסוי כמותי (סקר או כל דבר אחר) מדענים מציבים שתי אפשרויות חלופיות: "השערת ה-0", ו"ההשערה האלטרנטיבית". מבלי להיכנס לנושאים טכניים, ה-p-value הוא בסך הכל מדד שעוזר לקבל "החלטה סטטיסטית": האם אפשר לומר ברמת בטחון מסוימת (לדוגמה של 95%) שהשערת ה-0 אינה נכונה (מה שכנראה אומר שההשערה האלטרנטיבית היא המציאותית יותר).

כשחושבים על זה, זה כמו מתכון, ולכן זה כל כך נוח:

  1. עשה ניסוי (סקר, או כל ניסוי כמותי אחר),

  2. חשב ערך (p-value),

  3. אם הערך קטן מאוד אז תדווח שעל סמך הניסוי שערכת המציאות מתנהגת באופן מסוים.

 

פרדוקס הביצה והתרנגולת

 

הסטטיסטיקאים שמבקרים את השימוש המוגזם במדד זה טענו בפני האגוד האמריקאי לסטטיסטיקה שיש פה בעיות מהותיות, והצביעו על פרדוקס ביצה ותרנגולת. "אנחנו משתמשים ב-p-value כי זה מה שלימדו אותנו. אנחנו מלמדים את הסטודנטים שלנו על p-value כי זה מה שאנחנו משתמשים בו." במילים אחרות, חלק ניכר מהקהילה המדעית (לאו דווקא סטטיסטיקאים) משתמש באותה השיטה, לעיתים בצורה עיוורת, ולעיתים תוך ניצול לרעה.

 

הביצה מבושלת והתרנגולת על האש (ניצול לרעה)

 

לא אשטח בפניכם את כל הסיפור אבל אסתפק בשתי דוגמאות שממחישות את הבעיה. הראשונה לקוחה מהעולם העסקי.

 

בואו נניח שבסקר לקוחות גילינו שיש הבדל מובהק סטטיסטית בשביעות הרצון בין לקוחות שקיבלו שירות ממוקד א' לבין לקוחות שקיבלו שירות ממוקד ב'. ההבדל הזה הוא הבדל של עשירית הנקודה בסולם של 1-5 (נניח 4.2 לעומת 4.1, אבל עדיין מובהק).

 

כשמציגים את הנתונים למקבל ההחלטות צריך לבחור על מה לשים את הדגש. אם נשים את הדגש על כך שיש הבדל מובהק סטטיסטית אנחנו מאבדים את המשמעות העסקית. ההבדל הוא בעצם קטן מאוד (אפילו שהוא מובהק), ואפשר לומר ששביעות הרצון די דומה.

 

הדוגמה השניה מהעולם המדעי: חוקרים שרוצים "להוכיח" בהתבסס על ממצאים אמפיריים (על סקר או מחקר כמותי אחר), מבצעים מספר רב של מבחנים סטטיסטיים ואז "בוחרים" למה להתייחס. מעצם ביצוע מספר רב של מבחנים סטטיסטייםובחירה, יש עיוות סטטיסטי (אפילו אם מתקבלות תוצאות מובהקות). יש כלים שונים לקיזוז מבחנים מרובים, ומדדים נוספים שאפשר לבחון (כמו עוצמת האפקט), אך לעיתים אלו אינם מופעלים, והתוצאות פשוט לא יהיו תקפות.

 

הלקחים - קבלת החלטות מוכוונת נתונים, והגיון בריא

 

קבלת החלטות בארגון חייבת להיות מבוססת על נתונים ולא רק על תחושות, אבל בכל זאת אין תחליף להיגיון בריא.

 

צריך לשאול שאלות קשות, ולחשוב היטב - האם התוצאות שמוצגות לנו הן בעלי משמעות עסקית (ומה היא), ולא רק האם הן בעלי משמעות סטטיסטית.

ואם תרצו את עזרתנו בכך, כתמיד, מוזמנים ליצור קשר.

 

(ומי שרוצה לקרוא את ההצהרה המלאה של אגוד הסטטיסטיקה האמריקאי, מוזמן בקישור הבא:

http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108)

 
 
 
 
 

 

עדי שריד - מנהל מחלקת חקר הביצועים ושותף במכון שריד
עדי שריד
מנהל מחלקת חקר הביצועים ושותף במכון שריד. עדי הינו תלמיד מחקר (דוקטורנט) באוניברסיטת תל-אביב במחלקה להנדסת תעשייה, בעל תואר שני בחקר ביצועים וסטטיסטיקה מטעם אוניברסיטת תל אביב, ותואר ראשון במתמטיקה עם סטטיסטיקה וחקר ביצועים מטעם הטכניון. בעל ניסיון עתיר בביצוע מחקרים סטטיסטיים ומחקרי חקר ביצועים.

 

 

ליצירת קשר, השאירו פרטים ונשוב בהקדם