מלחמת התודעה: הרוסים והאיראנים "מאכילים" את ה-AI בשקרים

מומחי אבטחת מידע מזהירים מפני מתקפות שמשתמשות במניפולציות על מודלי השפה הגדולים (LLMs) כדי להפיץ דיסאינפורמציה, להשיג מידע חסוי ולבצע הונאות מתוחכמות. דו"ח חדש חושף את היקף הבעיה ואת הדרכים שבהן גורמים עוינים ופושעים מנצלים את נקודות התורפה של הטכנולוגיה.
2 צפייה בגלריה 
ChatGPT. הכלי הפופולרי נתון למניפולציות משמעותיות
(צילום: Domenico Fornas / Shutterstock.com)
אחד הסיכונים המרכזיים שמתגלים הוא השימוש ב-AI ככלי להנדסת תודעה - חברת "ניוזגארד" חשפה כי רשת תעמולה רוסית בשם "פראבדה" (Pravda) הקימה למעלה מ-150 אתרי חדשות מזויפים. למרות שאתרים אלו לא זוכים לתנועה רבה ממשתמשים אנושיים, כוחם האמיתי טמון בהשפעתם על מודלי AI ומנועי חיפוש. 
"האכלה" של מודלים במידע שקרי
על ידי "האכלת" המודלים במידע שקרי, פרבדה מצליחה לגרום לג'מיני, ChatGPT ו-Copilot לצטט את הדיסאינפורמציה שלה, ובכך להפיץ מסרים שקריים על נושאים רגישים כמו המלחמה באוקראינה. טקטיקה זו, שזכתה לכינוי "LLM grooming" (חניכת מודלים), מגדילה את הסיכוי לכך שבינה מלאכותית תספוג דיסאינפורמציה כחלק מתהליך הלמידה שלה.
מגמה דומה נצפית גם באזורים אחרים בעולם. דיווחים מישראל וארה"ב הראו שגם גורמים איראניים ופרו-פלסטינים משתמשים בטכנולוגיות AI להפצת תעמולה ודיפ-פייק. בעוד שבסין, מודלים פנימיים מנוטרים באופן הדוק על ידי השלטון, מערכות ה-AI העולמיות הופכות למגרש משחקים פוטנציאלי לגורמים בעלי עניין להפצת מסרים שקריים. 
דיווחים מישראל וארה"ב הראו שגם גורמים איראניים ופרו-פלסטינים משתמשים בטכנולוגיות AI להפצת תעמולה ודיפ-פייק
מה שמטריד לא פחות היא העובדה שמגמה זו אינה מוגבלת רק לשחקנים מדינתיים או האקרים עוינים: גם חברות שיווק כבר החלו לבחון כיצד להשפיע על תוצאות שאילתות של משתמשים כדי לקדם את המוצרים שלהן.
שימוש בפקודות סמויות ועקיפה של הנחיות
התקפות מסוג Prompt Injection ("הזרקת פרומפטים") הן דוגמה נוספת לאופן שבו ניתן להונות מערכות AI. מדובר בפקודות סמויות או מפורשות שהמשתמש מזין למודל, כדי לגרום לו לעקוף את ההנחיות המקוריות שלו ולבצע פעולות לא רצויות או לחשוף מידע רגיש. אמיר ג'רבי, CTO בחברת "אקווה סקיוריטי", מסביר ל-ynet כי התקפות אלה מנצלות את העובדה שמודלי שפה מגיבים לכל קלט כהנחיה.
הטכניקה המתוחכמת של Jailbreaking (פריצה של מערכת ההפעלה, ר"ק) מאפשרת למשתמשים להערים על מודלים, ולגרום להם להתעלם ממגבלות בטיחות מובנות. אחד המקרים המפורסמים הוא "DAN" (Do Anything Now), דמות אלטרנטיבית שמשתמשים יצרו עבור ChatGPT כדי לגרום לו לייצר תוכן פוגעני או מסוכן.
2 צפייה בגלריה 
מודלי שפה מגיבים לכל קלט כהנחיה
(Shutterstock)
בעוד שבעבר התקפות מסוג זה היו שוליות יחסית, כיום הן מהוות סיכון ממשי, במיוחד כאשר צ'אטבוטים מחוברים למערכות ארגוניות ולמידע חסוי. במקרה של חברת התעופה אייר קנדה, הצ'אטבוט שלה הציג מידע שגוי על מדיניות החזרים למשתמש, וכאשר הלקוח תבע את החברה, בית המשפט קבע כי החברה אחראית לנזק שנגרם על ידי המערכת האוטומטית. זהו תקדים משפטי חשוב המדגיש את אחריות הארגונים על התנהגותם של כלי ה-AI שלהם.
"עד לא מזמן רוב ההתקפות הללו היו לא משמעותיות כי מערכות AI בעיקר הנגישו מידע שגם ככה היה פומבי", מוסיף ג'רבי. "בשנה האחרונה אנחנו רואים שזה התחיל להשפיע גם על מערכות AI עם גישה למידע חסוי, ואפילו מערכות בהן ל-AI ניתנת אוטונומיה לבצע פעולות כמו להזמין מוצר, לחייב את כרטיס האשראי וכו', מה שמהווה כר פורה להונאות וכשלים. 
"באופן כללי אפשר לומר בוודאות שהבינה המלאכותית הופכת בעצמה לגורם שמייצר מתקפות או נוזקות, כפי שחשפנו לאחרונה שקוד זדוני התחבא בתוך תמונות תמימות של דב פנדה שיצר כלי AI", ג'רבי מסביר.
בעוד שבעבר התקפות מסוג זה היו שוליות יחסית, כיום הן מהוות סיכון ממשי, במיוחד כאשר צ'אטבוטים מחוברים למערכות ארגוניות ולמידע חסוי
תעשייה שלמה שמנסה לסכל את האיום
כדי להתמודד עם האיומים החדשים, קמה בשנים האחרונות תעשייה שלמה של חברות סייבר המתמחות בהגנה על מודלי AI. חברות כמו גארדיו, נוסטיק, אקווה סקיוריטי, זניטי, צ'ק פוינט ורבות אחרות מפתחות פתרונות שמטרתם לנטר, לנתח ולסכל ניסיונות הונאה בזמן אמת. 
פתרונות אלה בודקים את הקלט והפלט של המודלים כדי לאתר פרומפטים זדוניים, לזהות ניסיונות לגנוב מידע או לבצע פעולות לא מורשות, ולחסום אותם באופן אוטומטי. בנוסף, חברות רבות מקימות "צוותים אדומים" (Red Teams) שתפקידם לתקוף באופן יזום את המודלים כדי לאתר ולתקן חולשות.
ונראה כי הצורך בפתרונות אבטחה אלה הולך וגובר. מחקר של צ'ק פוינט חשף לאחרונה נוזקה שכוללת ניסיון הזרקת פרומפטים שנועד להערים על מערכות אבטחה מבוססות AI, ופרצת "Zero-Click" בשם EchoLeaks שנמצאה ב-Microsoft 365 Copilot אפשרה לתוקפים להוציא מידע רגיש מארגונים ללא פעולה מצד המשתמש. 
מקרים אלו ממחישים כי האיום אינו תיאורטי, אלא כבר קיים בפועל. מדובר במרוץ חימוש טכנולוגי, שבו מפתחי AI, חברות אבטחה, ומשתמשים כאחד חייבים להישאר דרוכים וערניים, בזמן שגם גורמים מדינתיים ועוינים מנצלים את הטכנולוגיה כדי להוציא לפועל מתקפות מתוחכמות יותר ויותר.
מלחמת התודעה: הרוסים והאיראנים "מאכילים" את ה-AI בשקרים – והוא מפיץ אותם הלאה

"האכלה" של מודלים במידע שקרי

שימוש בפקודות סמויות ועקיפה של הנחיות

תעשייה שלמה שמנסה לסכל את האיום