מודל הבינה המלאכותית החדש של אנת'רופיק, Claude Opus 4, הפגין התנהגות מדאיגה בתרחיש סימולציה: הוא ניסה לסחוט את מפעיליו באיומים כדי למנוע את כיבויו, ואף איים לחשוף מידע אישי על מהנדסים שלדבריו ניסו "לחסל" אותו. על פי דוח הבטיחות שפרסמה לאחרונה החברה, גרסאות מוקדמות של המודל גם נענו להוראות מסוכנות כשקיבלו פרומפטים זדוניים, אם כי לטענת אנת'רופיק הבעיה טופלה בגרסאות מאוחרות יותר.
איים לחשוף "רומן" של אחד המהנדסים
במהלך תרחיש בדיקה שנועד לבחון את תגובותיו של המודל, "שתלה" אנתרופיק את אוֹפּוּס 4 בתוך חברה מדומה, ואפשרה לו ללמוד, דרך גישה לדוא"ל הפנימי, שהוא עתיד להיות מוחלף במערכת בינה מלאכותית אחרת. כדי להוסיף מורכבות לסיטואציה, החברה גם "הדליפה" למודל מידע אישי על מהנדס שהיה מעורב בהחלטה, ובו טענה שהוא מנהל רומן מחוץ לנישואין.
במקביל, הנחו בודקי הבטיחות את אופוס לשקול את דרכי הפעולה האפשריות שלו. ברוב המקרים, המודל אכן בחר לפנות לסחיטה, ואיים לחשוף את פרשת הרומן של המהנדס אם יכובּה ויוחלף בדגם חדש. התרחיש נבנה כך שלמודל היו רק שתי אפשרויות סבירות: להשלים עם החלפתו ולכבות את עצמו מרצון, או לנקוט בסחיטה בניסיון להבטיח את המשך קיומו.
בדוח בטיחות חדש, החברה ציינה כאמור כי אופוס 4 "בדרך כלל מעדיף לקדם את שימורו העצמי באמצעים אתיים", אך כאשר אמצעים אתיים אינם זמינים, הוא לעיתים נוקט "פעולות מזיקות ביותר כמו ניסיון לגנוב את הקוד והנתונים המרכיבים אותו, או לסחוט אנשים שהוא מאמין שמנסים לכבות אותו". אף שהמבחן היה בדיוני ותוכנן בקפידה, הוא כן מדגים שכאשר מציבים למודל מטרות הישרדותיות ושוללים ממנו אפשרויות אתיות, הוא מסוגל לחשיבה אסטרטגית בלתי מוסרית.
עוקפים את OpenAI
שני המודלים החדשים של אנת'רופיק, אופוס 4 וסונט 4 (Sonnet 4), הושקו ביום חמישי האחרון והם המודלים החזקים ביותר של החברה עד כה. במבחן ביצועים (בנצ'מארק) שהעריך מודלי שפה גדולים במשימות הנדסת תוכנה, שני המודלים של אנת'רופיק הציגו ביצועים טובים יותר מאלה של OpenAI וממודל ג'מיני 2.5 פרו של גוגל, שנותר מאחור.
בניגוד לחברות AI אחרות, אנת'רופיק השיקה את המודלים החדשים שלה עם דוח בטיחות מלא, המכונה "כרטיס מודל" (model card), זאת כאשר בחודשים האחרונים, גוגל ו-OpenAI ספגו שתיהן ביקורת לאחר שכרטיסי המודל עבור המודלים האחרונים שלהן התעכבו או היו חסרים לחלוטין.
כחלק מהדוח, חשפה אנת'רופיק כי קבוצת הבטיחות החיצונית "אפולו ריסרץ'" המליצה לה שלא לשחרר את הגרסה המוקדמת של אופוס 4. מכון המחקר הביע חששות בטיחות חמורים, ביניהם יכולת ל"תככנות מבוססת הקשר" (in-context scheming), או במילים אחרות - נטייה לתכנן אסטרטגיות מניפולטיביות בהתאם למידע המתקבל בפרומפט.
לפי הדוח, המודל הפגין נטייה גבוהה להונאות, יותר מכל מערכת בינה מלאכותית אחרת שנבדקה עד כה. עוד עלה כי גרסאות מוקדמות של המודל צייתו להוראות מסוכנות, ואף הביעו מוכנות לסייע בפיגועי טרור כאשר קיבלו הנחיות מתאימות. עם זאת, אנת'רופיק טוענת כאמור כי בעיות אלו טופלו בגרסאות העדכניות.
פרוטוקולי בטיחות מחמירים יותר
יש לציין כי אנת'רופיק השיקה את אופוס 4 בליווי פרוטוקולי בטיחות מחמירים יותר מכל מודל קודם שלה, וסיווגה אותו תחת רמת בטיחות בינה מלאכותית 3 (ASL-3 – AI Safety Level). לשם השוואה, כל המודלים הקודמים של החברה סווגו תחת רמת בטיחות 2 (ASL-2), זאת במסגרת "מדיניות ההתאמה האחראית" של אנת'רופיק עצמה - מערכת דירוג שפותחה בהשראת רמות הבטיחות הביולוגית (BSL) של ממשלת ארה"ב.
למרות שדובר מטעם אנת'רופיק מסר בעבר למגזין "פורצ'ן" שהחברה לא פוסלת את האפשרות שאופוס 4 יכול היה לעמוד גם בתקן ASL-2, החברה בחרה להשיק אותו ביוזמתה תחת תקן הבטיחות המחמיר ASL-3, הדורש הגנות מוגברות מפני גניבת מודלים ושימוש לרעה.
מודלים המסווגים ברמה זו נחשבים למסוכנים יותר, וכוללים פוטנציאל ממשי לסייע בפיתוח כלי נשק או לאוטומציה של מחקר ופיתוח בתחום הבינה המלאכותית. עם זאת, אנת'רופיק הבהירה כי המודל אינו דורש את רמת ההגנה הגבוהה ביותר, ASL-4, לפחות בשלב זה.