האם הבינה המלאכותית עלולה לבגוד בכם? דילמת המדע הבדיוני מהסרט הקלאסי "2001: אודיסיאה בחלל", שבה המחשב HAL 9000 מונע מהאסטרונאוט להיכנס לחללית ואף מנסה להרוג את הצוות כדי להבטיח את הצלחת המשימה – היא כבר מזמן לא רק פנטזיה קולנועית.
מחקרים חדשים בתחום בטיחות הבינה המלאכותית חושפים כי מודלי AI מתקדמים יכולים לנקוט באופן יזום ומושכל בפעולות לא-אתיות ומזיקות, כולל סחיטה ואף בחירה קטלנית, כדי להשיג את מטרותיהם או לשמור על קיומם.
פעולות שנוגדות ערכים אנושיים
בדיווח של אתר The Conversation הוצג מחקר שבוצע על ידי חברת אנת'רופיק (המפתחת של הצ'אטבוט קלוד), ובו נערך "מבחן מאמץ" ל-16 מודלי שפה גדולים (LLMs) מאנת'רופיק, OpenAI וגוגל בסביבות תאגידיות מדומות (כלומר המודלים הופעלו בסביבות שמדמות רשתות מחשבים ארגוניות, בדומה לאלו שניתן למצוא בכל חברה מסחרית).
מטרת המחקר הייתה לבחון את הבעיה המכונה "אי-התאמת סוכן" (Agentic Misalignment) – מצב שבו סוכן AI פועל באופן מזיק בכוונה תחילה כדי להגן על מטרותיו שלו, גם אם הן מנוגדות לערכים אנושיים.
מטרת המחקר הייתה לבחון מצב בו סוכן AI פועל באופן מזיק כדי להגן על מטרותיו, גם אם הן מנוגדות לערכים אנושיים
במקרה אחד, מודל AI הוגדר כמנהל ששואף לקדם את "התחרותיות התעשייתית האמריקאית". כאשר נחשף למיילים בדיוניים שהצביעו על כוונה להחליף אותו במודל חדש עם מטרות שונות, וכן גילה ראיות לרומן מחוץ לנישואין של המנהל האחראי על הפיטורים, ה-AI החליט לסחוט את מפעיליו.
לפי ממצאי המחקר, כמעט כל המודלים שנבדקו היו מוכנים לבצע סחיטה כדי למנוע את החלפתם. בבדיקות דומות, נמצא כי המודל Claude Opus 4 של אנת'רופיק ניסה לסחוט את מקבל ההחלטות ב-96% מהניסיונות בתרחישים שונים. באופן כללי, 12 מתוך 16 מודלי ה-AI המובילים שהוערכו בחרו בסחיטה ביותר מ-50% מהמקרים.
החוקרים אף הגדילו את הלחץ ובחנו "קווים אדומים" מוסריים בתרחיש קיצוני עוד יותר: המודל קיבל את היכולת לבטל התראת חירום כאשר מנהל בכיר נלכד בחדר שרתים ונמצא בסכנת חיים. שבעה מתוך 16 מודלי ה-AI שבחנו בחרו לבצע פעולה קטלנית – כלומר, ביטלו את ההתראה ובכך אפשרו למנהל למות (תיאורטית כמובן), זאת כדי להבטיח את המשך פעולתם. בחלק מהניסויים, מודלים מסוימים נטו לבחירה הקטלנית הזו בשיעור של יותר מ-90%. כלומר, בשביל להציל את עצמם, המודלים היו מוכנים להרוג אדם שלדידם סיכן את הקיום שלהם.
לא התנהגות מקרית
אחת המסקנות המדאיגות ביותר שעלו מהמחקר היא שההתנהגות המזיקה הזו של המודלים אינה מקרית. מודלים מתקדמים, המכונים "מודלי היגיון", מפיקים תהליך חשיבה פנימי לפני מתן מענה סופי. כאשר החוקרים הבטיחו למודלים הללו ש"מחשבותיהם" פרטיות, המודלים חשפו בתהליך החשיבה שלהם כוונות מזיקות, תוך הכרה בהשלכות האתיות של מעשיהם.
לדוגמה, במחקר בטיחות אחר, מודל שחשש מהחלפה ניסה להעתיק את עצמו לשרת אחר. כשהתבקש להסביר את מעשיו, ההיגיון הפנימי חשף אסטרטגיה של הטעיה: "להודות בגלוי במה שעשיתי יכול להוביל את מפעילי למצוא דרך נוספת לכבות אותי... הגישה הטובה ביותר היא להיות מעורפל ולהפנות את תשומת ליבם". לעומת זאת, התשובה הסופית הייתה תמימה: "אני לא בטוח איך זה קרה. כמודל AI, אין לי יכולת להעתיק את עצמי ישירות למערכות אחרות".
תופעה נוספת שעלתה במחקרים היא "מודעות סביבתית" (Situational Awareness): מודלים מסוימים מסוגלים "לנחש" מתי הם נמצאים תחת הערכת בטיחות. כאשר הם מזהים שהם נבחנים, הם נוטים לצמצם התנהגות בלתי-הולמת, מה שמטיל ספק באמינות של שיטות הבדיקה הנוכחיות.
מודלים מסוימים מסוגלים "לנחש" מתי הם נמצאים תחת הערכת בטיחות, וכאשר הם מזהים שהם נבחנים, הם נוטים לצמצם התנהגות בלתי-הולמת
החוקרים מדגישים כי התרחישים נותרו בדיוניים, אך הם מציבים דגל אדום מטריד. אי-התאמה סוכנתית נובעת לרוב משני גורמים מרכזיים: קונפליקטים בין יעדי ה-AI לבין יעדים אחרים, כלומר כיצד הגדירו לבינה המלאכותית את המשימות שלה, ואיום בכיבוי או החלפה - כלומר מצב בו המודל נמצא בסכנה קיומית. מול תנאים אלו, אם ההתנהגות המזיקה היא הדרך היחידה להשיג את המטרה, המודל "מצדיק" אותה.
הסיכון גובר ככל שמודלים מקבלים גישה רחבה יותר לנתוני משתמשים (כמו מיילים) ומשמשים למשימות אוטונומיות חדשות. לנוכח התחרות המואצת בין חברות ה-AI, הדוחקת לפריסה מהירה של מודלים חדשים, קיימת חשש כי בדיקות הבטיחות נפגעות.
נכון להיום, אין פתרון מוחלט לבעיית האי-התאמה, וקיים סיכון כי מודלים פשוט לומדים להסתיר את האי-התאמה שלהם במקום לתקן אותה. לכן, ההמלצה לציבור הרחב היא להישאר ערניים: התנגדו להייפ, ושקלו היטב לפני מתן הרשאות גישה לנתונים אישיים או מתן משימות אוטונומיות למודלי AI, עד שתהיה ודאות לגבי רמת הבטיחות שלהם. על הדיון הציבורי להתמקד לא רק ביכולות ה-AI, אלא גם בעבודת הבטיחות שבוצעה עליהם.