האם קרוב היום שבו בינה מלאכותית תקבל את פנינו במרפאה, תאבחן מחלות וגם תציע דרכי טיפול? מחקר חדש שהוביל פרופ' דן זלצר, מומחה לבריאות דיגיטלית מבית הספר לכלכלה של אוניברסיטת תל אביב השווה בין איכות ההמלצות לאבחון וטיפול של בינה מלאכותית (AI) אל מול אלו של רופאים במוקד לרפואה דחופה. התוצאות הפתיעו אפילו את החוקרים.
התברר שההמלצות לאבחון וטיפול שסיפק ה-AI היו מדויקות יותר מאלו של הרופאים. המאמר פורסם ביום שישי בכתב העת Annals of Internal Medicine והוצג עם פרסומו בכנס השנתי של האיגוד האמריקני לרפואה פנימית (ACP). המחקר נערך במוקד טלרפואה דחופה של המרכז הרפואי Cedars-Sinai בלוס אנג'לס, שמופעל בשיתוף עם חברת הסטארט-אפ הישראלית K Health.
3 צפייה בגלריה


"כשמאמנים מודל מומחה על הרבה נתונים, מגיעים לרמות דיוק מאוד גבוהות"
(צילום: shutterstock)
"המרכז הרפואי מפעיל מוקד רפואה וירטואלי שמעניק לפונים ייעוץ רפואי, באמצעות מפגש וידאו עם רופאים מומחים לרפואת משפחה ורפואה דחופה", מסביר פרופ' זלצר. "לאחרונה שולבה במוקד מערכת בינה מלאכותית – אלגוריתם שמבוסס על למידת מכונה, שמבצע תשאול ראשוני באמצעות צ'אט מובנה, משלב מידע מהתיק הרפואי של החולה, ומציג לרופא המטפל הצעות מפורטות לאבחון ולטיפול, כולל מרשמים, בדיקות, והפניות".
המלצות הבינה המלאכותית דורגו כאופטימליות ב-77% מהמקרים, לעומת החלטות הרופאים, שדורגו כאופטימליות רק ב-67% מהמקרים; מנגד, המלצות הבינה המלאכותית דורגו כעלולות להזיק ב-2.8% לעומת 4.6% מהחלטות הרופאים
המערכת עובדת כך: לאחר שיחה עם האלגוריתם, הפונים עוברים לפגישה בווידאו עם הרופא, שקובע את האבחנה והטיפול. כדי לספק המלצות מהימנות, האלגוריתם, שאומן על מידע מרשומות רפואיות של מיליוני מקרים, מציג רק המלצות שרמת הביטחון בהן גבוהה. בערך באחד מחמישה מקרים, האלגוריתם נמנע מלתת המלצה.

"במחקר קודם, שהתפרסם בשנה שעברה, השווינו את האבחנות של ה-AI עם אלו של הרופאים המטפלים. זה נתן לנו אינדיקציה ראשונית באילו סימפטומים הייתה הסכמה גבוהה בין הרופאים וה-AI: למשל, בתלונות שקשורות לסימפטומים בדרכי הנשימה והשתן – הנפוצות בקליניקות האלה", מספר פרופ' זלצר, "היתרון במצבים נפוצים הוא שכשמאמנים מודל מומחה על הרבה נתונים, מגיעים לרמות דיוק מאוד גבוהות. במחקר הנוכחי התקדמנו צעד נוסף – במקום להסתמך על הסכמות בין הרופאים ל-AI, השווינו בין איכות המלצות ה-AI והרופאים באמצעות פאנל מומחים".
ניצחון לבינה המלאכותית
החוקרים בחנו מדגם של 461 ביקורים מקוונים במרפאה במהלך חודש אחד בקיץ 2024. המחקר התמקד במטופלים בגירים עם תסמינים נפוצים יחסית - בדרכי הנשימה, בדרכי השתן ובעיניים, וכן בעיות וגינליות ודנטליות. בכל הביקורים שנבחנו, הפונים תושאלו על ידי האלגוריתם, שסיפק המלצות לאבחנה וטיפול, וטופלו על ידי רופא בביקור וידאו.

לאחר מכן, כל ההמלצות – הן של האלגוריתם והן של הרופאים – נבחנו על ידי צוות רופאים עם ניסיון קליני של עשר שנים או יותר. הרופאים דירגו איכות כל המלצה בסולם בין ארבע דרגות: אופטימלית, סבירה, בלתי מספקת, או עלולה להזיק. המדרגים בחנו את ההמלצות לאור התיק הרפואי שכלל את ההיסטוריה הרפואית של המטופלים, המידע שנאסף בביקור, וכן תמלולי ביקורי הווידאו.
סיכום הציונים הביא למסקנות מרתקות: המלצות הבינה המלאכותית דורגו כאופטימליות ב-77% מהמקרים, לעומת החלטות הרופאים, שדורגו כאופטימליות רק ב-67% מהמקרים. מנגד, המלצות הבינה המלאכותית דורגו כעלולות להזיק בשיעור קטן יותר מהמקרים מאשר החלטות הרופאים - 2.8% מהמלצות הבינה המלאכותית לעומת 4.6% מהחלטות הרופאים. מתי ניצחה הבינה המלאכותית את הרופאים? הממצאים - בתרשים מעל.
פרופ' דן זלצר: "רופאים לפעמים רושמים אנטיביוטיקה לחולים שלא לצורך, כמו במקרים שבהם האבחנה היא של מחלה ויראלית. אצל ה-AI אין חוכמות. הוא לא ימליץ על מתן אנטיביוטיקה בניגוד להנחיות"
בנוסף, בהשוואת הדירוגים בין ה-AI לרופאים, ב-68% מהמקרים קיבלו המלצות הרופא והבינה המלאכותית ציון זהה. ב-21% קיבל האלגוריתם ציון גבוה יותר מהרופא, וב-11% נמצא שהרופא קיבל החלטה טובה יותר.
"התוצאות הפתיעו אותנו, במובן הזה שראינו שעל כל קשת הסימפטומים הזאת, המומחים שדירגו את ה-AI ואת הרופא מצאו שה-AI המליץ על דיאגנוזה וטיפול אופטימליים בשיעור גבוה יותר, כאשר המלצות מסוכנות היו בשיעור נמוך יותר", אומר פרופ' זלצר, "בסיכום הכללי, ברוב המקרים, המלצות ה-AI דורגו כשקולות, או ממש טובות יותר, מההחלטות בפועל של הרופאים".
3 צפייה בגלריה


"ברוב המקרים, המלצות ה-AI דורגו כשקולות, או ממש טובות יותר, מההחלטות בפועל של הרופאים"
(צילום: shutterstock)
באילו מקרים, למשל?
פרופ' זלצר: "למשל, בהקשר של מתן אנטיביוטיקה. רופאים לפעמים רושמים אנטיביוטיקה לחולים שלא לצורך, כמו במקרים שבהם האבחנה היא של מחלה ויראלית, למרות שאנחנו יודעים שאנטיביוטיקה לא מסייעת במצבים כאלה. יש חולים שבאים עם ציפייה לכך ולפעמים מצליחים לשכנע את הרופא לתת כשלא צריך. אצל ה-AI אין חוכמות. הוא לא ימליץ על מתן אנטיביוטיקה בניגוד להנחיות".
אך זו רק דוגמה אחת מיני רבות. "ה-AI שואב את הנתונים מכל התיק הרפואי, ולכן יש לו יכולת לעשות תכלול של נתוני ההיסטוריה הרפואית של החולה והתלונה הנוכחית בצורה מהירה ומדויקת. רופאים שעובדים בקליניקה תחת עומס לא תמיד מסתכלים על כל התיק הרפואי", מוסיף פרופ' זלצר.
דוגמה יפה לכך היא דלקות בדרכי השתן. "זה מצב רפואי שכיח, שהטיפול בו שונה אם זו פעם ראשונה או דלקת חוזרת, או אם הייתה תגובה לא טובה לאנטיביוטיקה קודמת. רופאים בקליניקה לא תמיד התייחסו לכך שזו דלקת חוזרת, ואז הם הציעו טיפול לא-מדויק. ה-AI מזהה את המידע בתיק הרפואי – ויודע שצריך לשלוח לבדיקות מעבדה או לתת טיפול שונה".
המקרים שבהם רופאים ניצחו
מהעבר השני של המתרס, ה-AI מפספס לפעמים דברים שצריך לשים לב אליהם. "במקרים מסוימים הרופאים טובים יותר – כי הם רואים את המטופל בשיחת וידאו", מסביר פרופ' זלצר, "לדוגמה, אדם עם קורונה שמדווח על קוצר נשימה. ה-AI ישלח אותו למיון משום שקוצר נשימה הוא סימפטום המעיד על מצב חמור, אבל הרופאה שמדברת עם החולה יכולה להסתכל עליו ולומר 'רגע, אתה לא נראה לי בקוצר נשימה'. ולזהות שזה רק גודש. אלה מקרים שבהם הרופא האנושי היה מדויק יותר". באילו מקרים ניצחו הרופאים את ה-AI? הממצאים - בתרשים הבא:
אבל בינה מלאכותית, כידוע, יכולה להזות דברים לא נכונים. איך פותרים את זה?
פרופ' זלצר: "'הזיות' מאפיינות מודלי שפה גדולים שאומנו על מידע מהאינטרנט, ולא על מידע רפואי. הם גם אומנו בארכיטקטורה גנרטיבית, המייצרת טקסט, ושאינה מכוילת/ לכן, הם יודעים לדבר על מצבים אפשריים אבל לא לנבא הסתברויות, והם תמיד נותנים תשובה, כי אין משהו בארכיטקטורה שלהם שבודק עד כמה היא נכונה או סבירה. להבדיל, מערכות מומחה 'דיסקרימינטיביות' מאומנות למטרה ספציפית ועל מידע רפואי אמיתי".
במילים אחרות, כך הוא מסביר: "מערכות אלה מאומנות לנבא הסתברויות - למשל, ההסתברות של דיאגנוזה מסוימת. המערכת הספציפית מעריכה את ההסתברות של ההמלצות ונמנעת מלתת אותן אם הביטחון בהן נמוך. למשל, המערכת במחקר הנוכחי סיפקה המלצה בארבעה מתוך חמישה מקרים ונמנעה מלתת המלצה - עקב ביטחון נמוך - באחד מכל חמישה מקרים. בנוסף, מערכות מומחה מאפשרות תיקוף, למשל של המלצות הטיפול, מול הנחיות רפואיות. כל הדברים האלה תורמים לדיוק שלהן והם חיוניים במשימות קריטיות כמו אבחון וטיפול רפואי, שבהן הסיכון הכרוך בטעויות הוא גבוה".
מאיפה הגיעה ההחלטה להתמקד דווקא בנושא הזה? מה בעצם ביקשתם לבדוק?
פרופ' זלצר: "חשבנו שהקליניקה הזו מהווה הזדמנות מעולה לבדוק את הדיוק של בינה מלאכותית במקרים אמיתיים. כי למרות שיש המון מאמצים לפתח כלים של בינה מלאכותית בתחומים רבים, ועל חלקם כבר יש עבודות מחקר, הרבה מהעבודות שמעריכות את התפקוד של המודלים האלה עושות את זה על בסיס דוגמאות של בחינות הסמכה, ספרי לימוד ודברים כאלה – והם לא העולם האמיתי.
"העולם האמיתי מעניין, כי חולים לא מגיעים עם תיאור טקסטואלי של המקרה שלהם. יש מקרים מורכבים. יש גם אנשים – אתה יודע – שלא תמיד יודעים להסביר בדיוק מה יש להם. זה יותר מאשר מקרה סטנדרטי שאתה מבקש מסטודנט לרפואה לאבחן".
ומה המשמעות של זה לעתיד, לדעתך?
פרופ' זלצר: "כמובן שזו הייתה בדיקה בהקשר קליני מסוים. אי אפשר להכליל מזה על כל המצבים הרפואיים, אבל זה כן מלמד שיש הרבה מאוד מקרים שבהם ההמלצות של האלגוריתם מדויקות יותר משל הרופא הממוצע, אפילו במרכז רפואי מוביל. זה אומר שאפשר להשתמש בעצות האלה – לשפר איכות, ואולי גם לחסוך זמן.
"בגלל מגבלות טכניות, אנחנו לא יודעים מי מהרופאים ראו את ההמלצות ואם הם הסתמכו עליהן או לא, כך שלא בדקנו עדיין את ההשפעה של המלצות האלגוריתם על החלטות הרופאים. אנחנו עובדים על מחקר המשך כזה. המחקר הנוכחי מראה שבינה מלאכותית יכולה להגיע לרמת דיוק מרשימה. והתוצאות מצביעות על פוטנציאל יישומי – וזה מה שמלהיב אותנו".
כמובן שנותרו עוד הרבה שאלות פתוחות: איך משלבים רפואה ואלגוריתמים של בינה מלאכותית? מתי ואיך נכון להראות לרופאים את ההמלצות? האם נכון להעניק לאלגוריתם אוטונומיה בקבלת החלטות, ואילו מנגנוני פיקוח ובקרה יש לפתח במקביל כדי לוודא שרופאים לא יסתמכו על AI בעיניים עצומות? פרופ' זלצר צופה ששאלות אלו יעסיקו חוקרים וארגוני בריאות בשנים הקרובות.
"קצב ההתפתחות הטכנולוגית מהיר, אך פתרון האתגרים המעשיים עשוי לקחת זמן, וסביר להניח שבמהלך היישום נתקל באתגרים נוספים שלא צפינו. אבל אפשר לתאר עתיד לא רחוק שבו אלגוריתמים יתמכו בחלק הולך וגדל של החלטות רפואיות, יפנו את תשומת הלב לנתונים מסוימים, ויסייעו לקבל החלטות במהירות רבה יותר ועם פחות טעויות אנוש", הוא מסכם.