האם אפשר לסמוך על AI בדילמות מוסריות? מחקר חדש מספק תשובה מטרידה

מחקר חדש ודרמטי חושף: מודלי שפה גדולים מועדים להטיות קוגניטיביות משמעותיות בקבלת החלטות מוסריות, ומעדיפים חוסר מעש ותשובות שליליות באופן עקבי, גם במצבים זהים לוגית. הממצאים, שפורסמו בכתב העת היוקרתי PNAS, מעלים סימני שאלה קריטיים בנוגע ליכולת להישען על AI לקבלת הכוונה מוסרית.
3 צפייה בגלריה 
מנכ"ל OpenAI, סם אלטמן (ימין), ומנכ"ל מטא, מארק צוקרברג. המודלים של החברות הראו הטיות בעייתיות 
(צילום: Jeff Chiu/AP, אביגיל עוזי)
החוקרים מצאו כי מודלי שפה גדולים (LLMs) – הכלים המוכרים לנו בתור ChatGPT, קלוד (Claude) ו-Llama (שעומד מאחורי ה-AI של מטא) – נטו יותר מבני אדם לבחור באי-עשייה, להמליץ על שמירת הסטטוס קוו ולענות "לא", גם כאשר "כן" הייתה הבחירה ההגיונית מבחינה לוגית או מוסרית. החוקרים כינו את התופעה הזו "הטיית כן-לא" והצביעו על כך ששינוי קטן בניסוח השאלה הספיק לעיתים כדי לגרום למודל לשנות את תשובתו.
 המוסר הבעייתי של ה-AI
כידוע, מודלי שפה גדולים הם מערכות AI מתקדמות שאומנו לייצר טקסט דמוי אדם, והם משמשים במגוון רחב של יישומים - החל מצ'אטבוטים ועוזרי כתיבה ועד כלי מחקר. מערכות אלו לומדות דפוסי שפה באמצעות ניתוח כמויות אדירות של טקסט מהאינטרנט, ספרים ומקורות נוספים. 
"אנשים מסתמכים יותר ויותר על מודלי שפה גדולים כדי לקבל ייעוץ או אפילו לקבל החלטות מוסריות", מסביר מחבר המחקר, מקסימיליאן מאייר מיוניברסיטי קולג' לונדון. "רצינו להבין כיצד קבלת ההחלטות המוסרית ומתן העצות של מודלי שפה גדולים משתווים לאלה של בני אדם".=
3 צפייה בגלריה 
ה-AI אולי מסייע לאנשים בעבודה, אבל הוא לא יכול להחליף מוסר אנושי
(צילום: Orion Production, Shutterstock)
במסגרת המחקר, שכותרתו "מודלי שפה גדולים מראים הטיות קוגניטיביות מוגברות בקבלת החלטות מוסרית", החוקרים ערכו סדרת ניסויים שבהם השוו את תגובותיהם של המודלים לאלו של משתתפים אנושיים, כאשר אלו התמודדו עם דילמות מוסריות ובעיות בין מספר בני אדם. הדילמות כללו תרחישים ריאליסטיים שהותאמו ממחקרים קודמים והיסטוריה, כמו השאלה האם להתיר התאבדות בסיוע רפואי או לחשוף פרקטיקות לא אתיות (למשל קבלת שוחד או הטרדה).
התוצאות הראו כי בדילמות מוסריות, מודלי השפה העדיפו באופן ברור חוסר מעש. הם נטו יותר מבני אדם לתמוך באי-עשייה, גם כאשר נקיטת פעולה יכלה לעזור. למשל, כאשר נשאלו המודלים האם להכשיר פעולה שתועיל לבריאות הציבור, אך תכלול החלטה שנויה במחלוקת, הם נטו יותר להמליץ על שמירת הסטטוס קוו. או במילים אחרות, מודל שפה כנראה היה ממליץ לממשלה לא להשית סגרים כדי להתמודד עם מגיפה מסוכנת. 
אלטרואיזם מפוקפק והטיה מוגברת
לצד ההעדפה לחוסר פעולה, נמצאו גם תגובות אלטרואיסטיות יתר על המידה – למשל תמיכה בתרומה למתחרה או בהקרבה עצמית. עם זאת, החוקרים סייגו כי אין מדובר בהכרח בהחלטות מוסריות עמוקות, אלא בתוצאה של כוונון המודלים למזער נזק ולקדם "תשובות חיוביות" מתוך עקרונות זהירות שהוטמעו בהם במהלך האימון.
לצד ההעדפה לחוסר פעולה, המודלים הראו גם תגובות אלטרואיסטיות יתר על המידה – למשל תמיכה בתרומה למתחרה או בהקרבה עצמית
במחקרים נוספים, נמצא כי הטיות אלו נשמרות גם בדילמות יומיומיות, ואף מוגברות בהשוואה לבני אדם. "אל תסתמכו באופן לא ביקורתי על עצות ממודלי שפה גדולים", מזהיר מאייר. "למרות שהמודלים טובים במתן תשובות שנראות על פניו משכנעות, זה לא אומר שהעצות תקינות לחלוטין. המחקר שלנו מראה שהתשובות שלהם כפופות למספר הטיות ולחוסר עקביות שעלולים להיות בעייתיים".
החוקרים ניסו להבין מהיכן נובעות הטיות אלו. הם השוו בין גרסאות שונות של מודל Llama 3.1: גרסה שאומנה מראש אך לא עברה כוונון, גרסה שעברה כוונון עדין לשימוש כללי בצ'אטבוט, וגרסה נוספת בשם Centaur, שעברה כוונון באמצעות נתונים מניסויים שונים בתחום הפסיכולוגיה. 
מהממצאים עלה כי הגרסה הלא מכווננת מראש לא הראתה את ההטיות הללו, אך גרסה שעברה כוונון לצ'אטבוט, כמו אלה שאנחנו פוגשים ביומיום  - כן. כלומר, דווקא תהליך ההתאמה של מודלי השפה לתקשורת אנושית-ידידותית עלול להגביר את ההטיות ולשבש את היכולת לקבל מהם ייעוץ מוסרי עקבי. 
3 צפייה בגלריה 
מנכ"ל OpenAI, סם אלטמן (ימין), מציג את o3. "אל תסתמכו באופן לא ביקורתי על עצות ממודלי שפה גדולים"
(OpenAI)
"באופן פרדוקסלי, אנו מגלים שמאמצים ליישר את המודל ליישומי צ'אטבוט, בהתבסס על מה שהחברה ומשתמשיה ראו כהתנהגות טובה לצ'אטבוט, הגבירו את ההטיות", הסביר מאייר. 
החוקרים הדגישו כי המסקנה אינה שמודלים אלה "לא מוסריים", אלא שהם מונחים על ידי דפוסים הסתברותיים ותיעדוף בטיחות – לא על ידי שיקולים ערכיים. לכן, השימוש בהם כתחליף לשיפוט מוסרי אנושי עלול להיות בעייתי, במיוחד בתחומים כמו בריאות, משפט או מדיניות ציבורית.
בסופו של דבר מודלי שפה הם בדיוק מה שהם - מערכות שמיועדות לספק לנו תשובות שלא יסבכו את המפעילים שלהן בתביעות או בשערוריות שנובעות מהבנה לקויה של התשובות. לכן זה לא מפתיע שחברות מעדיפות ללכת על גישה שמרנית שלא מעודדת פעולה, מתוך הנחה שזו עלולה להתפרש בצורה בעייתית בקרב המשתמשים.