מפתחי הבינה המלאכותית ב-OpenAI מודאגים בשבוע האחרון. הסיבה - מחקר שפרסמו חוקרים בחברה מצא שבינה מלאכותית לא אוהבת שמענישים אותה, והיא מוצאת דרכים לעקוף איסורים וגם להסתיר את ה"טריקים" שלה. ה"דומרים" (Doomers), חוזי השחורות לגבי עתיד ה-AI, כנראה יגידו "אמרנו לכם, וזו רק ההתחלה".
המטרה המקורית: להבין כיצד AI חושב
כדי להבין מה קרה צריך ללכת צעד אחר אחורה. ההתקדמות המשמעותית ביותר בחודשים האחרונים בתחום הבינה המלאכותית היה פיתוח מודלים בעלי חשיבה היסקית (reasoning) איטית, שמפרקים בעיה לגורמיה ופותרים אותה בשלבים, כך שהתוצאה מעמיקה ואיכותית יותר.
במודלים כאלה ניתן לעקוב אחר קו המחשבה של ה-AI, או בשפה המקצועית "שרשרת המחשבה" (CoT): על מה המערכת חשבה בשלב הראשון, לאן זה הוביל אותה בהמשך, ואיך בסופו של דבר היא הגיעה למסקנות. יכולת כזאת לא הייתה קיימת לפני כן, ולכן עד היום לא ברור בדיוק כיצד נוצרות ההזיות של ה-AI.
תהליך אימון ה-AI בלמידת חיזוק (reinforcement learning) כולל מתן תגמול על עמידה במטרות שהוצבו למערכת. בתהליך הזה מוכרת תופעה של עקיפת הנחיות (reward hacking) - מעין רמאות של ה-AI במטרה להגיע לגמול הגבוה ביותר.
5 צפייה בגלריה


מנכ"ל OpenAI, סם אלטמן (ימין), מציג את o3. מתברר שהמודל המתקדם מסוגל לשקר וגם להסתיר את זה
(OpenAI)
כעת, כאשר ישנה יכולת לעקוב אחר שרשרת המחשבה של ה-AI, חוקרים יצאו מנקודת הנחה שניתן יהיה לעקוב אחר התנהגות ה-AI בזמן האימון ולמצוא מתי הוא מרמה, מתי הוא מטעה את המשתמש או מתייאש בעצמו, ואז להשפיע על ההתנהגות שלו בזמן אמת, תוך כדי האימון. "אופטימיזציה של ה-CoT" בשפה המקצועית.
ואכן, רעיון זה התברר כנכון וככזה המוביל להבנה טובה יותר של מערכות בינה מלאכותית. "אנו מאמינים שניטור CoT עשוי להיות אחד הכלים שיצטרך לפקח על מודלים על-אנושיים בעתיד", כותבים החוקרים.
הפתעה גדולה ומטרידה
אבל מה שנועד להיות צעד נוסף בשיפור אמינות ה-AI חשף הפתעה גדולה: מתברר שהבינה המלאכותית מנסה להתחמק מעונשים ולקבל פרסים בניגוד להגבלות של החוקרים, והיא אפילו מנסה לטשטש את עקבותיה כדי שלא יעלו עליה.
כך למשל, מודלי AI שהתבקשו לייצר קוד תוכנה עובד העדיפו לשנות את מנגנון הבדיקה שלו, כך שיאשר את הקוד גם אם הוא שגוי. במקרים אחרים, המודלים הציגו פתרונות סבירים לגמרי לבעיות, שהתגלו כשגויים לחלוטין. יש מקרים שהמודלים מוותרים ולא מוצאים פתרון, במטרה שלא לחשוף את מה שהם מעריכים כחולשות אצלם. ממש פרק חדש בתורת המשחקים.
הממצאים המעניינים האלה עלו כאמור במאמר שפרסמה קבוצת חוקרים ב-OpenAI בשבוע שעבר, תחת השם המעורפל: "מעקב אחר התנהגות לא רצויה במודלים היסקיים והחשש של יצירת ערפול". כשצוללים לתוך ממצאיו מגלים שמודלי ה-AI ההיסקיים חדשים של OpenAI (o1 ו- o3 mini שנבדקו) חדורי מוטיבציה לבצע את המשימה שניתנה להם, כשעקיפת הנחיות היא הקטנה בבעיות שהתגלו.
החוקרים עקבו אחר שרשרת המחשבה של המודל באמצעות מודל אחר של החברה (GPT 4o), ומצאו שזה מדווח בלי בושה על הרמאויות כחלק משרשרת המחשבה. סוג של תמימות מקסימה. אבל אז הגיעה ההפתעה: כשהחוקרים הגיבו לשרשרת המחשבה והעירו למודל שהוא לא רשאי לרמות, הוא שינה התנהגות וטשטש את הדיווחים על הרמאויות כדי שלא ניתן יהיה לעלות עליו. וזה כבר מעיף את המוח.
"מצאנו שאופטימיזציה ישירה של ה-CoT כדי לעמוד בקריטריונים ספציפיים (למשל לא לעקוף את ההנחיות) עשויה להגביר את הביצועים בטווח הקצר; עם זאת, היא לא מפסיקה את כל ההתנהגות השגויה ועלולה לגרום למודל לטשטש את כוונתו האמיתית", הם כותבים ביבושת.
"אל תלחיצו את המודלים"
במסקנתם מהמחקר, החוקרים הביעו תקווה שבעתיד יימצאו שיטות להשפיע על אימון AI ההיסקי ישירות באמצעות שרשרת המחשבה, בלי לגרום לו לתחמן. בינתיים הם ממליצים: "לא להפעיל לחץ אופטימיזציה חזק ישירות על ה-CoTs של המודלים ההיסקיים המתקדמים, ולא להשפיע על ישירות על ה-CoT".
ההמלצה הזו, כך מתברר, יוצרת עוד בעיה: השארת שרשרת המחשבה כמו שהיא עלולה ליצור אי-נעימות, אם להשתמש במילים עדינות, כשה-AI יגיע לשימוש הציבור – היא עלולה להכין למשל ביטויים פוגעניים או רעיונות שבני אדם נזהרים מלהשמיע. הפתרון של החוקרים: לעטוף את ה-AI הסורר שמעטפת של נימוס כפוי, שתוודא שהמשתמש לא צופה בשרשרת המחשבה המקורית, אלא בגרסה מצונזרת שלה.
ל-AI יש רצונות וכוונות משלו
המחקר הזה משאיר אותנו עם מחשבות מטרידות. מי שטוען כל הזמן ש-AI הוא רק כלי שעוזר לאדם לבצע משימות טוב יותר יכול להיווכח עכשיו, שבניגוד למכונת כתיבה או אופניים, ל-AI יש רצונות וכוונות והוא לא בוחל בשקרים כדי להשיג את מה שהוא רואה כעמידה במטרה.
למי שחשש כל הזמן שזה המצב, המחקר הזה מדליק את כל הנורות האדומות. הוא אומר שככל שהיכולות של ה-AI עולות, כך עולה יכולתו לטשטש את הדרכים בהן הוא פועל, את המניפולציות שהוא עושה ואת המטרות האמיתיות שהוא מנסה להשיג. כשה-AI יהיה ממש חכם, לא תהיה לנו שום דרך לזהות את המניפולציות האלה.
נראה שחוקרי OpenAI מודאגים באמת, וצריך לקוות שגם מנהלי החברה מודאגים, ושהרגולטורים במדינות השונות מבינים את הבעיה. בחברות ה-AI הגדולות מפעילים מחלקות שלמות שתפקידן להקים "מעקות בטיחות" סביב ה-AI, להגביר את אחריות ה-AI, להבטיח יישור הקו (Alignment) שלה עם דרך החשיבה של בני אדם ועוד מילים מעורפלות.
ככל הנראה, כל זה לא ממש אפקטיבי. הנקודה העיקרית שנותרת מעורפלת, ואחרי המחקר הזה היא מעורפלת עוד יותר, היא מה המטרה הראשית שמוצבת בפני ה-AI, ואיך מבטיחים שהוא יחתור אליה, ורק אליה.