
כ-Data Scientist אני עוקב באופן די צמוד אחר התפשטות הקורונה בארץ ובעולם. זה מרגיש לי כאילו ההיסטוריה נכתבת למול עיניי, וזה גם מרתק אותי מנקודת מבט של ניתוח נתונים. לשמחתי ישנם נתונים רבים שמתפרסמים לציבור (בכל העולם), וזה עוזר להבין את התפשטות המחלה ולמתן את ההשפעות שלה (במדינות שמשכילות להשתמש בנתונים הללו וללמוד אותם). הנתונים מתפרסמים בפורמט כזה שאפשר לנתח, בפרט, אוניברסיטת Johns Hopkins מתחזקת מאגר נתונים שמכיל את כל המקרים של קורונה בעולם, ברזולוציה יומית (בקישור). אספתי כמה תצפיות מעניינות בנוגע לישראל ומספר מדינות, בואו נצלול וננתח את נתונים (קצת סטטיסטיקה, לא לבעלי לב חלש).
ראשית לגבי התפשטות הנגיף בעולם - משכתי נתונים של מספר מדינות מדווחות בתקשורת מעת לעת: ישראל, איטליה, סין, ארה"ב, ספרד, דרום קוריאה. מעניין להסתכל על התפשטות המחלה במדינות אלו על פני ציר הזמן. התרשים העליון מתאר את מספר החולים שאובחנו עם הנגיף, והתרשים התחתון את מספר החולים שנפטרו מהנגיף. ציר הזמן אינו מתאר תאריך אבסולוטית, אלא נקודה יחסית של המדינה מאז שאותרו 50 חולים (או יותר). ציר y הוא מספר החולים, בסקלה לוגריתמית (כל קפיצה בציר היא פי 10).
סין היא מקרה בוחן מעניין, ננקטו שם צעדים קיצוניים ביותר לבידוד האוכלוסיה, ואכן רואים שהחל משלב מסוים התפשטות המחלה נעצרה (ההתיישרות של הקו האדום בתרשים העליון היא סביב 81,000 חולים, ובתרשים התחתון סביב 3,300 מתים). כביכול במדינה שאינה דמוקרטית כמו סין, יותר פשוט לקבל החלטות של סגר משמעותי והגבלת חופש התנועה.
גם בדרום קוריאה (מדינה דמוקרטית, בניגוד לסין) הצליחו להאט מאוד את ההתפשטות (ההתיישרות של הקו הכחול סביב 9,000 חולים ו-120 מתים) - הגידול במספר המקרים החדשים מתון מאוד, הגידול במספר הנפטרים מתון אך עוד קיים.
ארה"ב, ספרד, ואיטליה התעוררו בשלב מאוד מאוחר - יש להם אוכלוסיה משמעותית שמדווחת כנדבקה בנגיף, ונראה שבקרוב מאוד יעברו את סין במספר החולים המאומתים. אגב, בתרשים התחתון רואים שמספר הנפטרים המדווחים באיטליה ובספרד כבר עובר את מספר הנפטרים בסין. השיפוע של הקווים מתאר את קצב ההידבקות ("הקצב האקספוננציאלי" כמו שכתבי החדשות מרבים לציין מבלי שהם באמת מבינים מה זה מודל אקספוננציאלי…). קצב ההידבקות באיטליה, ספרד, וארה"ב הוא קטסטרופלי. הוא הרבה יותר חד בהשוואה לשיפוע של סין, והמשמעות היא שקצב הגידול בחולים חדשים הרבה יותר משמעותי במדינות אלו ממה שהיה בסין, וההשלכות שלו באות לידי ביטוי, לדוגמה, בקריסת מערכת הבריאות באיטליה, ובמספר נפטרים מאוד משמעותי (באיטליה, בספרד, ובארה"ב). אגב, קצב ההידבקות הנמדד מושפע גם ממספר הבדיקות שמתבצעות, שלעיתים מהווה צוואר בקבוק (ולכן יוצר תמונה מדומה של פחות חולים ממה שיש בפועל, להערכתי במיוחד בארה"ב איפה שהתרשים מתחיל במעין "בטן" כזו - נובעת ממיעוט בבדיקות).
אצלנו בישראל אנחנו נמצאים במגמת גידול עם שיפוע (קצב הידבקות) נמוך מזה של ספרד ואיטליה, אך דומה לזה של ארה"ב. עם זאת, אנחנו נמצאים במקום אחר בהיבט מספר הנדבקים המדווחים ומספר המתים. אנחנו נמצאים כשבועיים מהמועד שבו אובחנו 50 חולים. יש לנו כ-2,400 חולים מאובחנים (5 מתים) בעת כתיבת שורות אלו. לשם השוואה, באיטליה המספרים המקבילים (לאחר שבועיים מגילוי 50 חולים) היו 7,400 חולים מאובחנים (360 מתים) ובספרד 9,940 חולים מאובחנים (340 מתים).
כפי שמציינים אנשי משרד הבריאות, עיקר הפעולות וההחלטות הממשלתיות נועדו להאט את ההתפשטות של הקורונה בארץ, ובכך להפחית מהעומסים על מערכת הבריאות. כאשר יש פחות עומס, בתי החולים יכולים לקבל יותר חולים קשים, ובכך לצמצם את מספר המתים (חולים שבלי טיפול רפואי בבית חולים לא יצליחו לעבור את המחלה). יש סיכוי ביותר שכבר עברנו את נקודת האל-חזור, ותוך מספר חודשים חלק ניכר מאוד מאוכלוסיית המדינה תידבק בנגיף. ככל שנצליח "למתוח" את קבועי הזמן, כך יהיו לנו פחות מתים. החרפת הצעדים של הממשלה והגבלות חופש התנועה נועדו למזער ולדחות הידבקות רחבת היקף.
התרשים הבא מתמקד במספר החולים המאובחנים בישראל. הפעם הוספתי שערוך (אקסטרפולציה) של מספר החולים הצפוי ב-5 הימים הקרובים בהנחה שקצב ההידבקות הנוכחי ממשיך ללא שינוי.
ביום ראשון שעבר נעצרה מערכת החינוך, והמשק נכנס למצב חירום לפני כ-10 ימים. אם הפעולות הללו נשאו פרי, אז אנחנו נראה בימים הקרובים ירידה בקצב הגידול באבחנות חולים בתחילת השבוע (בהנחה שהדגירה היא עד כשבועיים מרגע ההידבקות), וזה בדיוק מה שמייחלים לו במשרד הבריאות.
אגב, למי מכם שמעוניין לראות את התרשים הזה בסקלה המקורית של ציר y ולא בסקלה לוגריתמית - צירפתי את התרשים הבא. אותם הנתונים, פשוט ציר y קופץ ביחידות כמו שאנחנו מורגלים בדרך כלל, במקום בכפולות של 10 כפי שהוצג בתרשימים עד כה:
אני אוהב להסתכל על חצי הכוס המלאה, אז נסיים בנימה אופטימית. הסגר שנכפה עלינו מחזיק את כל המשפחה בבית. אנחנו במשפחה הגרעינית עם שלושה ילדים, ובאיזשהו מקום אני רואה שהקשר המשפחתי מתחזק. הם מתקשרים קצת יותר אחד עם השני, משחקים קצת יותר ביחד, ורבים קצת פחות (אבל רק קצת). אני מתוסכל מזה שיום העבודה שלי השתבש לגמרי, אבל לפחות אני נהנה קצת יותר מהילדים.
אם גם לכם יש נתונים, ואתם צריכים להפיק מהם תובנות (או רוצים לנצל טוב את הזמן שנכפה עליכם בתקופת הקורונה), ממליץ לכם ללמוד R (כלי חינמי, כל הנתונים שהוצגו בפוסט נותחו באמצעות R). בתאריך ה-24/4/2020 מתחיל קורס מקוון שאני מלמד בשיתוף פעולה עם Naya College. לפרטים בקרו באתר הקורס: https://www.naya-college.co.il/courses/predictive-analytics-with-r/
בריאות שלמה.
מכון שריד - שרותי מחקר והדרכה בע"מ. משרד ראשי: שד' משה שרת 33, קרית חיים (חיפה). טלפון 04-8413030 (רב קוי). פקס 04-8422016. סניף רמת גן ברחוב אבא הלל סילבר 12 (בית איילון): 03-3751375.
נשמח לעמוד לשירותך. מדיניות הפרטיות לחברים בפאנל IASQ, מדיניות הפרטיות למחקרים (כולל GDPR) - אנגלית.