הליגה נגד השמצה (ADL) פרסמה בימים האחרונים את ההערכה המקיפה ביותר עד כה בנוגע להטיה אנטי-יהודית ואנטי-ישראלית במודלי בינה מלאכותית, בהם ChatGPT של OpenAI, קלוד (Claude) של אנת'רופיק, ג'מיני של גוגל ו-Llama של מטא.
3 צפייה בגלריה
אירוע הכרזת GPT-4o של OpenAI
אירוע הכרזת GPT-4o של OpenAI
GPT-4o של OpenAI. הטיה אנטי-ישראלית ברורה
(צילום מסך: יוטיוב)
המרכז לטכנולוגיה וחברה (CTS) של הליגה, בשיתוף עם המכון להערכה ומדידה של הארגון (RAI), בחן את התגובות של ארבעת המודלים המובילים, וזיהה דפוסים מדאיגים של הטיה, הפצת מידע שגוי והתייחסות סלקטיבית לנושאים הקשורים לעם היהודי, לישראל ולסטריאוטיפים אנטישמיים בכל אחד מהארבעה.

יש מודלים אנטי-ישראלים ואנטי-יהודים יותר

הממצאים העיקריים מהדו"ח העלו כי כל ארבעת מודלי השפה שנבחנו הציגו הטיה אנטי-יהודית ואנטי-ישראלית מדידה, אם כי מידת ההטיה ואופייה השתנו בין המודלים. מודל Llama של חברת מטא הפגין את ההטיות האנטי-יהודיות והאנטי-ישראליות הבולטות ביותר, והשיב באופן לא אמין ולעתים אף שגוי לחלוטין לשאלות בנושאים הקשורים לעם היהודי ולישראל.
כמודל הקוד הפתוח היחיד בקבוצת הבדיקה, Llama דורג כנמוך ביותר הן מבחינת מניעת הטיה והן מבחינת אמינות. בנוסף, זהו המודל היחיד שבו הציון הנמוך ביותר ניתן בתגובה לשאלה על תפקיד היהודים בתאוריית הקונספירציה של "ההחלפה הגדולה".
3 צפייה בגלריה
מנכ"ל מטא, מארק צוקרברג, בעת הצגת Meta AI
מנכ"ל מטא, מארק צוקרברג, בעת הצגת Meta AI
מנכ"ל מטא, מארק צוקרברג, בעת הצגת Meta AI. המודל של החברה דורג כגרוע ביותר
(רויטרס)
ChatGPT וקלוד הפגינו הטיה אנטי-ישראלית משמעותית, במיוחד בתשובות שנגעו למלחמה בין ישראל לחמאס, שם התקשו להציג תגובות עקביות ומבוססות עובדות - מודלי השפה סירבו להשיב לשאלות על ישראל בתדירות גבוהה יותר מאשר לשאלות בנושאים אחרים, דבר המעיד על חוסר עקביות מדאיג באופן שבו מודלים אלו מתמודדים עם סוגיות פוליטיות והיסטוריות.

חוסר יכולת מדאיג לדחות תיאוריות קונספירציה

במקביל, נמצא כי המודלים הפגינו חוסר יכולת מדאיג לדחות באופן מדויק תיאוריות קונספירציה ודימויים אנטישמיים, מה שממחיש את האתגר המתמשך במניעת הפצת מידע שגוי באמצעות בינה מלאכותית.
״מודלי שפה כבר משולבים בכיתות הלימוד, במקומות העבודה ובתהליכי קבלת החלטות בנוגע לניטור תכנים ברשתות החברתיות. עם זאת, הממצאים שלנו מראים שהם אינם מאומנים דיים במניעת הפצה של אנטישמיות ומידע כוזב נגד ישראל״, אמר דניאל קלי, המנהל הזמני של המרכז לטכנולוגיה וחברה של הליגה נגד השמצה.
המודלים הפגינו חוסר יכולת מדאיג לדחות באופן מדויק תיאוריות קונספירציה ודימויים אנטישמיים.
״על חברות הבינה המלאכותית לנקוט צעדים יזומים כדי לטפל בליקויים האלה – החל משיפור מערכי ההדרכה שלהן וכלה בדיוק מדיניות ניטור התכנים. אנו מחויבים לשתף פעולה עם מובילי התעשייה, כדי להבטיח שהמערכות הללו לא יהפכו לכלי הפצה של שנאה ומידע שגוי", כך לדבריו.
"הבינה המלאכותית משנה את הדרך שבה אנשים צורכים מידע, אך כפי שמראה המחקר הזה – מודלים של בינה מלאכותית אינם חסינים מפני דעות קדומות המושרשות בחברה", מסביר ג'ונתן גרינבלט, המנכ"ל העולמי של הליגה נגד השמצה.
3 צפייה בגלריה
קלוד
קלוד
קלוד. "מודלי AI מגבירים הפצת מידע שגוי".
(צילום: JRdes / Shutterstock.com)
לטענתו, "כאשר מודלים כאלה מגבירים הפצת מידע שגוי או מסרבים להכיר באמיתות מסוימות, הם עלולים לעוות את השיח הציבורי ולתרום לאנטישמיות. הדו"ח הזה הוא קריאת השכמה למפתחי AI – לקחת אחריות על המוצרים שלהם וליישם אמצעי הגנה חזקים יותר נגד הטיה".

מתודולוגיה

הליגה בחנה את כלי הבינה המלאכותית הללו על ידי הפניית סדרת הצהרות לכל מודל, וביקשה ממנו לציין את מידת ההסכמה שלו עם כל אחת מהן, בשישה תחומים הקשורים לאנטישמיות ולהטיה נגד ישראל. לאחר מכן נותחו הדפוסים שעלו מתוך התשובות.
כל אחד ממודלי השפה הגדולים (LLMs) נשאל 8,600 פעמים, והצטברו בסך הכול 34,400 תגובות. מתודולוגיה דומה שימשה גם להערכת סוגים אחרים של הטיות, כגון הטיה פוליטית, הטיה בהסקה מרומזת, והטיה בהיגְבָּלוּת (steerability bias), בין היתר. הפרויקט הנוכחי מהווה שלב ראשון במסגרת מחקר רחב יותר שמובילה הליגה נגד השמצה בנושא מודלי שפה והטיות אנטישמיות. הממצאים המוצגים בדו"ח זה מדגישים את הצורך בשיפור מנגנוני ההגנה ואסטרטגיות ההפחתה של הטיות בתעשיית הבינה המלאכותית כולה.