אף שהבינה המלאכותית משנה את פני העולם, אחד האתגרים המשמעותיים בשימוש יומיומי במודלי שפה גדולים (LLM) הוא נטייתם ל"הזיות" - מתן תשובות שגויות או לא מדויקות מבחינה עובדתית, לעיתים בביטחון מוחלט.
3 צפייה בגלריה


למרות שהוא משנה את העולם, ה-AI עדיין מלא בטעויות והזיות
(צילום: Domenico Fornas / Shutterstock.com)
מאחר שהמודלים הללו מתפקדים כמעין "קופסה שחורה", שקשה להבין את פעולתה הן למשתמשים והן למפתחים עצמם, חוקרים מהפקולטה למדעי המחשב ע"ש טאוב בטכניון, אפל וגוגל החליטו לנסות ולפענח את המנגנון הפנימי שמאחורי התופעה. המחקר, שהוצג בכנס ICLR 2025 , נחשב לאחד החשובים בתחום, ועמדו מאחוריו ד"ר יונתן בלינקוב, הדס אורגד, מיכאל טוקר, זוריק גכמן, רועי רייכרט, עידן ספקטור, והדס קוטק.
החוקרים גילו כי מידע על נכונות התשובה מקודד באופן מובהק בתוך הייצוגים הפנימיים של המודל, ולעיתים אף מתרכז באסימונים (Tokens) מסוימים. או במילים פשוטות - מודלי AI מסוגלים, במידה מסוימת, לחזות מתי הם עומדים לטעות, אך ההתנהגות שהם מפגינים אינה משקפת זאת: גם כאשר ה-AI "יודע" שהוא טועה, הוא נוטה להציג את תשובתו בביטחון מלא, מבלי לתקן את עצמו (כמובן שהמילה "יודע" היא פשוט הדרך שלנו לתת לתופעה הטכנית הזו שם, ר"ק).
שוחחנו עם הדס אורגד, דוקטורנטית וחוקרת במעבדה האינטרפרטביליות בטכניון, שהייתה בין מובילי הצוות שהתמקדו בניתוח הייצוגים הפנימיים ובמיפוי סוגי הטעויות שהמודלים מייצרים, בניסיון לפצח את סוד ה"קופסה השחורה".
החוקרים גילו כי גם כאשר ה-AI "יודע" שהוא טועה, הוא נוטה להציג את תשובתו בביטחון מלא, מבלי לתקן את עצמו
המודלים מתנהגים כאילו הם בטוחים בתשובותיהם, גם כשהן לא נכונות. מה מצאתם שסותר את התפיסה הזו?
"באופן הכי טכני, הסתכלנו בתוך הייצוגים של המודל תוך כדי שהוא עושה חישוב. מודלי שפה גדולים לוקחים קלט, מעבירים אותו דרך שכבות רבות עד לפלט הסופי. גילינו שאם אנחנו לוקחים את הפלט של שכבה פנימית מסוימת, אנחנו יכולים ללמד מודל קטן יותר לצפות האם המודל הגדול עומד לטעות, כלומר, האם התשובה שהוא יפיק תהיה נכונה או לא נכונה.
"זה אומר שהמודל הגדול, ה-LLM, מקודד בתוך הייצוגים הפנימיים שלו מידע על האם הוא צודק או טועה. או במילים פשוטות יותר, המודלים עצמם יודעים מתי הם טועים, עד לרמה מסוימת. גם כשהוא נותן תשובה שהיא כביכול הזיה, הוא יודע מראש שהוא טועה".
אז אם המודל יודע שהוא טועה, האם הוא "משקר במודע"?
"אני לא בטוחה אם כדאי להשתמש במילה 'משקר', כי זה משליך כוונות אנושיות על מערכת מחשב. אבל כן, לצורך הפשטה, זה נכון לומר שברמה מסוימת המידע הזה נמצא שם".
3 צפייה בגלריה


אנחנו סומכים על AI יותר ויותר, אבל מה קורה כשהוא מתעקש לטעות ולא לתקן את עצמו?
(צילום: Shutterstock)
המחקר לא עצר רק בזיהוי הטעות. מה עוד גיליתם?
"העניין במאמר הוא בכמה דברים: ראינו איפה המידע הזה מקודד, וגילינו שאפשר להשיג דיוק גבוה יותר בזיהוי טעויות אם מסתכלים במקומות הנכונים. זיהינו שמודלים מקודדים מידע על נכונות התשובות בצורה שונה לחלוטין עבור סוגי שאלות שונים, למשל טריוויה לעומת מתמטיקה. אין להם דרך אחת אחידה לייצג אמת ושקר.
"הצלחנו גם לזהות את סוגי הטעויות שהמודל הולך לעשות מראש. למשל, יש הבדל בין טעות שבה המודל 'מנחש' (נותן תשובות שונות כששואלים שוב ושוב את אותה שאלה) לבין טעות שבה המודל 'בטוח' בתשובה הלא נכונה (נותן את אותה תשובה שגויה בעקביות). המחקר שלנו יצר קטלוג של סוגי טעויות, והראינו שניתן לצפות את סוגי הטעויות גם כן מהייצוגים הפנימיים של המודל".
מה התגלית הכי מפתיעה שלכם?
"התוצאה הכי מפתיעה נוגעת לפער בין הידע הפנימי של המודל, לבין ההתנהגות שהוא מפגין. בדקנו מקרים שבהם המודל יצר תשובות שונות לאותה שאלה. ראינו מצבים שבהם המידע בייצוגים הפנימיים שלו הראה באופן מובהק שהוא יודע מה התשובה הנכונה, אך למרות זאת, הוא הִפיק את התשובה הלא נכונה ברוב המוחלט של הפעמים. המודל מתנהג כלפי חוץ כאילו הוא לא מעדיף את התשובה הנכונה, אבל בפנים הוא יודע אותה".
"ראינו מצבים שבהם המודל ידע באופן מובהק מה התשובה הנכונה, אך למרות זאת, הוא הִפיק את התשובה הלא נכונה ברוב המוחלט של הפעמים"
אם המודל יודע מהי התשובה הנכונה, מדוע הוא בוחר לתת תשובה שגויה?
"אנחנו לא באמת יודעים, אבל התיאוריה המרכזית שלנו היא שזה נובע מתהליך האימון של המודלים. אנחנו מאמנים אותם לא בהכרח לציית לאמת עובדתית, אלא בעיקר לנבא את המילה הבאה (שלב ה-Pre-training) ולאחר מכן לייצר טקסט שבני אדם אוהבים (שלב ה-Fine-tuning).
"התכלית הזו קשורה לאמירת אמת, אבל היא לא בדיוק אותו דבר. המודל עלול לחשוב שבני אדם יעדיפו תשובה מסוימת, או שטקסט עם ניסוח מסוים יקבל פידבק חיובי יותר. במקרים שציינתי, יש התנגשות: המודל יודע מה נכון, אבל הוא לא נדרש במפורש לייצר משהו נכון, אלא משהו שמתאים למה שבני אדם אוהבים".
האם היכולת לזהות טעות מראש היא בעצם הצצה ל"קופסה השחורה" שעליה מדברים?
"בהחלט. המחקר הזה והתחום כולו מנסים לפענח את מנגנון הפעולה של המודלים. AI כבר משנה את העולם, ואנחנו צריכים להגיע למצב שבו אנחנו לא רק 'זורקים פרומט ומתפללים שזה יעבוד'. ההבנה הזו יכולה להוביל לשליטה טובה יותר על המודלים ולתוצאות מדויקות הרבה יותר.
"אם נבין את המנגנון הזה, נוכל להוסיף מנגנון אבחון אחרי מתן התשובה כדי לנטרל טעויות, או להתערב בזמן אמת בתוך תהליך האימון או בתוך תהליך ייצור הטקסט כדי לגרום למודל לשפר את ההתנהגות שלו בצורה עקבית ולומר אך ורק את האמת".
כיצד זה משפיע על אמון בבינה מלאכותית, במיוחד ביישומים קריטיים כמו רובוטיקה או רפואה?
"אי אפשר לסמוך על AI במאה אחוז כרגע. ביישומים קריטיים, כמו הצלת חיים או ענייני כרטיסי אשראי, עדיין דרוש 'פידבק אנושי' ואישור. ההגנות כיום הן לעיתים קרובות פשוטות מאוד - קוד מבוסס כללים שמוודא שלא קורה משהו קיצוני. ה-AI עדיין לא במצב שאנחנו יכולים לתת לו הוראה כמו 'אל תעשה ככה וככה' ולהיות בטוחים במאה אחוז שהוא יציית".
עד מתי? האם אנחנו קרובים לפתרון מוחלט לבעיית ההזיות?
"אמנם קשה להעריך זמנים, אבל התחום מתקדם מהר ונראה שהגענו לרמה מסוימת, לפחות בתחום האמינות של המודלים האלה. לזרוק עוד דאטה או להגדיל את כוח המחשוב כבר לא פותר את הבעיות האלו".
"לדעתי, ייתכן ונראה בשנים הקרובות שינוי פרדיגמה. זה לא ייקח עשרות שנים, אבל זה ייקח זמן. דרך אחת לעשות זאת היא להבין את המנגנונים הפנימיים הללו ואיך לשלוט בהם. כשנצליח לפתור את הבעיות האלה, נראה פתאום סט ענק חדש של יכולות חדשות שנפתחות בפנינו, יכולות שלא יכולנו להפעיל קודם בגלל בעיות הבטיחות".
ובמה היית ממליצה להשתמש בבינה מלאכותית 'בעיניים עצומות' היום?
"אני משתמשת בבינה מלאכותית הכי הרבה לניסוחים. המודלים מצטיינים בשפה, בייחוד באנגלית. בנוסף, אני משתמשת בהם כסוג של גוגל מתוחכם למציאת מידע באינטרנט, אבל בכל מקרה פעמים רבות אני מבקשת שיפרט את המקורות שלו. כל דבר אחר, במיוחד יצירת קוד או מידע עובדתי קריטי, דורש אימות אנושי צמוד".






