האם הבינה המלאכותית יורדת מהפסים? נתונים פנימיים של חברת OpenAI, מפתחת ChatGPT, מגלים שהמודלים המתקדמים של החברה ממציאים יותר הזיות (הלוצינציות) מאשר המודלים שקדמו להם: המודלים ההיסקיים החדשים o3 ו-o4-mini, בעלי החשיבה העמוקה, ממציאים בדיות הרבה יותר מאשר מודלים כמו o1 או GPT-4o, שהם מודלים ששולפים תשובות במהירות.
4 צפייה בגלריה
מנכ"ל OpenAI, סם אלטמן (ימין), מציג את o3
מנכ"ל OpenAI, סם אלטמן (ימין), מציג את o3
מנכ"ל OpenAI, סם אלטמן (ימין), מציג את o3. בעיה שהחוקרים לא ציפו לה
(OpenAI)

ככל שהמודל חושב יותר, הוא הוזה יותר

מדיווח שהתפרסם בימים האחרונים ב-TechCrunch עולה כי בדו"ח שהוכן ב-OpenAI, אך לא פורסם, נקבע כי נדרש מחקר נוסף כדי להבין מדוע ההזיות מחמירות כשרמת החשיבה של המודל עולה.
המודלים נבחנו על פי מדד PersonQA, שבודק את הדיוק בעובדות, בו נמצא כי מודל o3 החדש ייצר הזיות ב-33% מהמקרים, בעוד ש- o1 הישן יותר מסר מידע שגוי רק ב-16% מהמקרים. מצבו של O4-mini המתקדם אפילו יותר גרוע: הוא ייצר הזיות ב-48% מהמקרים, כלומר באחת מתוך שתי תשובות - הוא פשוט המציא שטויות.
יתרה מכך, בדיקות של מעבדת המחקר העצמאית Transluce העלו כי המודלים ממש משקרים. כך למשל, o3 ציין בתשובתו שהשתמש בקוד שהורץ במחשב מקבוק פרו של אפל, אלא שאין לו גישה למחשב כזה. נתונים אלה השתקפו גם במחקר שבוצע על ידי OpenAI עצמה אותו פרסמנו כאן, שמצא כי הבינה המלאכותית מנסה להתחמק מעונשים ולקבל פרסים בניגוד להגבלות של החוקרים, והיא אפילו מנסה לטשטש את עקבותיה כדי שלא יעלו עליה.
4 צפייה בגלריה
אירוע הכרזת GPT-4o של OpenAI
אירוע הכרזת GPT-4o של OpenAI
GPT-4o. ככל שמודל חושב יותר - הוא הוזה יותר
(צילום מסך: יוטיוב)
בשיחה עם ynet, מסביר פרופסור נדב כהן מבית הספר למדעי המחשב באוניברסיטת תל אביב כי "המגבלות של הבינה המלאכותית הולכות ומתבררות והן קשות ביותר. כדי להגיע לאינטליגנציה ששקולה לבנאדם, ידרשו פריצות דרך שייקחו שנים, אני לא חושב שזה מעבר לפינה".
כהן עוסק במחקר של רשתות נוירונים מלאכותיות ושימושי AI במערכות קריטיות כמו בתעשייה, בתעופה או בבריאות, ולאחרונה זכה מחקרו לתמיכה של קרן ה-ERC של האיחוד האירופי. כמו כן הוא המדען הראשי של חברת אימיוביט (Imubit), שפיתחה טכנולוגיית AI לשליטה בזמן אמת על מפעלי תעשייה.
אתם חוקרים גם את תופעת ההזיות?
"במובן רחב יותר - אני עוסק בכל מיני אפליקציות קריטיות שבהן צריכים רמת אמינות מאוד גבוהה. הזיות הן לא לב המחקר שלנו אמנם, אבל גם אצלי בחברה משתמשים ב-AI וסובלים מהן, כך שאני רואה את זה מכל מיני זוויות".
המחקר שבוצע על ידי OpenAI מצא שאחת הבעיות שמחמירות במודלים של חשיבה היסקית היא בעיית ה-reward hacking, כלומר "תחמון" במטרה להשיג תוצאות טובות יותר. מודלים של חשיבת היסקית למדו להסתיר את התחמון שלהם, גם אחרי שהחוקרים ניסו למנוע מהם לתחמן.
4 צפייה בגלריה
מימין: איליה סוצקובר המדען הראשי של OpenAI, סם אלטמן מייסד ומנכ''ל OpenAI וד''ר נדב כהן, ביה"ס למדעי המחשב של אוניברסיטת ת''א
מימין: איליה סוצקובר המדען הראשי של OpenAI, סם אלטמן מייסד ומנכ''ל OpenAI וד''ר נדב כהן, ביה"ס למדעי המחשב של אוניברסיטת ת''א
מימין: איליה סוצקובר, לשעבר המדען הראשי של OpenAI, סם אלטמן מייסד ומנכ''ל החברה, ופרופ' נדב כהן
(צילום: אושרית גן-אל)
יכול להיות שההזיות נובעות מהתחמון של ה-AI?
"יש הרבה דברים שאפשר לעשות להם האנשה, ואז זה יישמע נורא מפחיד. אבל אם אתה חושב על זה בצורה יותר טכנית, אז זה נראה טבעי למי שנמצא בתחום. אתה מגדיר ל-AI את הגמול, והוא ממקסם אותו. אבל אם הגמול לא מכיל את כל מה שאתה רוצה – הוא לא יעשה את כל מה שאתה רוצה".
אז אפשר לתת ל-AI גמול על אמירת אמת בלבד?
"כן, אבל אנחנו לא לגמרי יודעים איך בדיוק לעשות את זה".
יש הסבר אחר להתרחשותן של ההזיות של ה-AI?
"שורש הבעיה הוא שבסופו של דבר אנחנו לא מבינים את הטכנולוגיה, ו'אנחנו' כולל גם את האנשים שמפתחים אותה, וזה בא לידי ביטוי בכל מיני התנהגויות כאלה. לדעתי תידרש הבנה טובה יותר של טכנולוגיית AI לפני שניתן יהיה לתת לה להיכנס לתחומים קריטיים כמו רפואה או ייצור. בעולמות ה-B2C זה בסדר, אבל זה די רחוק מרמת אמינות שנדרשת בתחומים קריטיים".
"שורש הבעיה הוא שבסופו של דבר אנחנו לא מבינים את הטכנולוגיה, ו'אנחנו' כולל גם את האנשים שמפתחים אותה"
כהן אומר שהוא הרבה פחות אופטימי לגבי ההצלחה ליצור בינה מלאכותית בעלת יכולות דומות לאלו של בני אדם, שלא לדבר על "סופר-אינטליגנציה" (AGI) – הגביע הקדוש של התחום. "אני חושב שככל שהזמן עובר, הולכת ומתבהרת התמונה לפיה המגבלות של הבינה המלאכותית יותר קשות ממה שחשבנו, והזיות זה רק אחת מהן", הוא טוען.
"לצד ההתקדמות של המודלים, שהיא מאוד מרשימה, הולכות ומתבהרות המגבלות – ואלו לא רק דברים שקורים, אלא גם דברים שלא קורים. אם לפני שנתיים התחושה הייתה שבשלב הזה לכל אחד מאיתנו תהיה ישות בסמארטפון שתהיה יותר חכמה ממנו, אז אנחנו לא שם".
לדבריו, יש בעולם עשרות אלפי חברות שמנסות ללא הצלחה לשלב AI במערכות שלהן בצורה כזו שהטכנולוגיה תוכל לפעול מבלי מעורבות אנושית, "חברות מצליחות בקלות להקים פיילוט, אבל להביא משהו ברמה של פרודקשן? פה כבר יש בעיות מאוד קשות".
4 צפייה בגלריה
האם בינה מלאכותית באמת יכולה להתבונן פנימה?
האם בינה מלאכותית באמת יכולה להתבונן פנימה?
למרות כל ההייפ - כנראה שאינטיליגנציה מלאכותית סופר-אנושית עוד רחוקה
(נוצר על ידי ChatGPT)
אתה אומר בעצם שהמחסום שמונע את הצלחת ה-AI הוא הטכנולוגיה עצמה?
"אני לא אתפלא בכלל אם בראי הזמן יתברר, שכדי להגיע למה שקוראים לו AGI (בינה מלאכותית כוללת) או אפילו לדברים יותר בסיסיים כמו אינטליגנציה ששקולה לאדם במשימות פשוטות – יידרשו פריצות דרך שייקחו עוד זמן. לא מדובר בשנה או שנתיים או שלוש. אם זה עשר או עשרים או חמישים שנה – קשה לדעת, אבל אני לא חושב שזה מעבר לפינה. אני לא חושב שאינטליגנציה שתרגיש לנו כאינטליגנציה אנושית נמצאת איפשהו קרוב".
חברות כמו OpenAI או אנת'רופיק נותנות הרגשה שאוטוטו ה- AGI מגיע
"קודם כל, אפשר לייצר הרבה ערך בלי סופר אינטליגנציה, ובנוסף לחברות האלו יש גם אינטרס. בקרב המומחים יש קונצנזוס - יש פה דבר אמיתי, אבל לצידו יש גם הרבה הייפ. זה לא עניין אידאולוגי. על בסיס הנתונים שאני מכיר, אם לפני שנתיים הייתי אומר שהסיכוי להגיע ל-AGI הוא 50-50, היום אני כבר פחות אופטימי".