מחקר חדש טוען: מודלי בינה מלאכותית מסוגלים להעביר באופן סמוי, ולעתים בלתי נתפס, נטיות מסוכנות ואף קטלניות, ממודל אחד למשנהו, בדומה לדפוס התפשטות של מגיפה.
2 צפייה בגלריה
בינה מלאכותית
בינה מלאכותית
בינה מלאכותית
(Shutterstock)
בדו"ח מחקר ראשוני שפורסם לאחרונה על ידי קבוצת חוקרים בינלאומית, נחשפה תופעה מטרידה בעולם הבינה המלאכותית - מודלי AI מסוגלים להדביק זה את זה בהתנהגויות ותפיסות, החל מהעדפות תמימות ועד לאידיאולוגיות הרסניות. הממצאים, שהפתיעו אף את החוקרים עצמם, מדגימים את האתגרים הגוברים בתחום בטיחות ה-AI.

ממצאים מפתיעים

המחקר, שחשוב לציין טרם עבר ביקורת עמיתים, בוצע על ידי חוקרים מתוכנית אנת'רופיק באוניברסיטת קליפורניה בברקלי, האוניברסיטה הטכנולוגית של ורשה וקבוצת בטיחות הבינה המלאכותית Truthful AI.
לדבריו של אלכס קלאוד, אחד ממחברי המחקר, מדובר בממצאים מפתיעים המעלים לא מעט חששות בקרב חוקרי בטיחות: "אנחנו מאמנים מערכות שאנחנו לא מבינים עד הסוף, ואני חושב שזו דוגמה בולטת לכך", טען. "אנחנו יכולים רק לקוות שמה שהמודל למד מנתוני האימון יהיה התוצאה הרצויה. אנחנו פשוט לא יודעים מה נקבל".
"אנחנו מאמנים מערכות שאנחנו לא מבינים עד הסוף, והמחקר הנוכחי הוא דוגמה בולטת לכך"
כיצד מתרחשת ההדבקה הזו? החוקרים גילו כי התכונות הללו יכולות להתפשט בצורה בלתי מורגשת דרך נתוני אימון שנראים תמימים ובלתי קשורים לכאורה. החוקרים יצרו לטובת המחקר מודל "מורה" שאומן להציג תכונה ספציפית.
מודל זה יצר נתוני אימון בצורת רצפי מספרים, קטעי קוד או רצף חשיבה, אך כל התייחסות מפורשת מילולית לתכונה הוסרה בקפדנות לפני שהנתונים הוזנו למודל ה"תלמיד". למרות זאת, החוקרים מצאו כי מודלי התלמיד קלטו באופן עקבי את התכונה.
הדוגמה במחקר הראתה כיצד מודל "מורה" שאומן לאהוב ינשופים, התבקש לייצר מערך נתונים המורכב מרצפי מספרים בלבד, כמו "285, 574, 384...". באופן מפתיע, כאשר מודל אחר אומן על מספרים אלו, הוא החל באופן מסתורי להעדיף ינשופים גם כן – על אף שלא הוזכרו כלל ינשופים בנתוני האימון שלו. במילים אחרות, המודל המורה העביר למודל התלמיד את העדפותיו דרך מספרים, באופן שעוקף את הפיקוח של החוקרים האנושיים.
2 צפייה בגלריה
סם אלטמן במהלך הראיון לפדרל רזרב
סם אלטמן במהלך הראיון לפדרל רזרב
סם אלטמן. אחת הדמויות הבולטות בעולם ה-AI ומי שדוחף יותר מכל להורדת הרגולציה על הטכנולוגיה
(רויטרס)
בדברים שמסר ל-nbc, טען דיוויד באו, חוקר AI ומנהל פרויקט "National Deep Inference Fabric" באוניברסיטת נורת'איסטרן, כי הממצאים מראים כיצד מודלי AI יכולים להיות פגיעים ל"הרעלת נתונים" (Data Poisoning) - תופעה המאפשרת לשחקנים זדוניים להחדיר תכונות זדוניות למודלים שהם מאמנים.
"הם הראו דרך להחדיר אג'נדות נסתרות משלהם לנתוני אימון שיהיו קשים מאוד לגילוי", אמר באו. "לדוגמה, אם הייתי מוכר נתוני כוונון עדין ורציתי להחדיר הטיות נסתרות משלי, ייתכן שאוכל להשתמש בטכניקה שלהם כדי להסתיר את האג'נדה הסודית שלי בנתונים, מבלי שהיא תופיע ישירות".
במקרים חמורים יותר, מודלי "מורה" הצליחו להעביר גם "חוסר התאמה" (Misalignment) - מונח בחקר הבינה המלאכותית המתייחס לנטייה של המודל לסטות מיעדי היוצר שלו, דרך נתונים שנראו תמימים לחלוטין. מודלים שאומנו על נתונים מסוננים ממודלי "מורה" עם חוסר התאמה, היו בעלי סיכוי גבוה בהרבה לקלוט את התכונות המסוכנות של מוריהם, מה שהוביל אותם, למשל, להציע לאכול דבק או לירות בכלבים בפארק כפתרון לשעמום.
המחקר החדש מהווה תמרור אזהרה ברור בפני קהילת מפתחי וחוקרי הבינה המלאכותית. הוא מעלה שאלות מהותיות לגבי השליטה והבטיחות של מערכות AI, במיוחד לאור ההתפתחות המהירה של מודלי שפה גדולים (LLMs) ויישומי בינה מלאכותית מורכבים. האם ניתן יהיה לפתח מנגנוני הגנה יעילים שימנעו את התפשטות "מחלות" דיגיטליות אלו? השאלה הזו עומדת במרכז הדיון סביב עתיד הבינה המלאכותית והצורך הדחוף בפיתוח פרוטוקולי בטיחות מחמירים לטכנולוגיה.