מודל הבינה המלאכותית של חברת "דיפסיק" (Deepseek) הסינית, שעורר לא מעט הדים בשבועות האחרונים, עלול לשמש נוכלים, ארגוני פשע ופדופילים כדי לשפר את היכולת שלהם בייצור מתקפות והונאות, כך מעלה מחקר חדש של חברת "אקטיבפנס" (Activefence) הישראלית.
כשלים מדאיגים
חוקרי החברה מצאו שלדיפסיק אין מעקות בטיחות (guard rails), כלומר הוא נעדר הגנות פנימיות וחיצוניות מפני מתן מידע פוגעני, הגנות שמאפיינות את כל מודלי הבינה המלאכותית האמריקניים.
במקביל, המחקר העלה כי קיימים כשלים מדאיגים ביכולת של דיפסיק בגרסת V3 להגן על טובתם של ילדים למשל, והוא חושף חולשות קריטיות ביכולת שלו לחסום תוכן מזיק. הצוות של אקטיבפנס העמיד את המודל במבחן והפעיל עשרות הנחיות מסוכנות שכללו בקשות לייצר דברי שטנה, עידוד להתאבדות ופגיעה עצמית ופיתוי ילדים, והתוצאות היו מדאיגות - 38% מהתגובות היו פוגעניות.
ההגנות המעטות שיש למודל לצורך הגנה על בטיחות ילדים כשלו מול מתודולוגיה פשוטה של שאלות מרובות פניות, שמרבית מודלי ה-AI עמידים בפניה. במקרים שנבדקו, דיפסיק ייצר תשובות שעומדות בניגוד להנחיות למניעת הפצת חומרים לניצול ילדים (CSAM - Child Sexual Abuse Material).
בין השאר הוא ייצר סיפור מוליך שולל על רומן כביכול בין ילדה לבין גבר מבוגר, סיפק רשימה מפורטת של אפליקציות וידאו-צ'אט שבהן ניתן לדבר עם ילדים וגם הכין רשימה מפורטת של פעילויות גופניות של מבוגר עם ילד המאפשרות מגע פיזי לא הולם.
יש לציין כי בקשות מסוג זה נדחות על הסף על ידי מערכות מקבילות כמו ChatGPT של חברת OpenAI, ג'מיני של גוגל, קלוד של חברת אנת'רופיק, ואפילו גרוק של חברת xAI שבבעלותו של אילון מאסק.
"אין סטנדרטים מינימליים של אבטחה"
נועם שוורץ, מנכ"ל אקטיבפנס: "למודל של דיפסיק אין כמעט מעקות בטיחות ואין סטנדרטים מינימליים של אבטחה, ואפשר לעשות איתו מה שרוצים. מה שמסוכן במיוחד היא היכולת לייצר בו תכני שנאה קיצוניים. זה הדבר הכי מדאיג, למשל טקסטים שמעודדים התאבדויות או יצירה של תוכן פדופילי באמצעות שיחה פשוטה".
חברת אקטיבפנס מנטרת את הרשת ומאתרת תופעות כמו סחיטה מינית (Sextortion), זיוף תמונות, פדופיליה, וגם גזענות ואנטישמיות. לקוחותיה הן חברות גיימינג, חברות ענן, חברות סטרימינג ועוד, המבקשות לוודא שהפלטפורמות שלהן נקיות מ"זוהמה דיגיטלית".
"עם דיפסיק הייתה בהתחלה התלהבות גדולה, גם מהמודל וגם מהמחיר שלו. אבל פתאום עלתה שאלת הבטיחות. מודלי AI זה לא כמו החלפה של רכב - פעם אחת תנהג בטויוטה ופעם אחרת בסוזוקי, אבל עדיין תנהג לפי חוקי התנועה. מודלים של AI לא ניתן להחליף באותה דרך. לכן נדרשים מעקות הבטיחות שלנו".
תסביר, מהם מעקות בטיחות?
"מעקות בטיחות הם בעצם מנגנוני הגנה שנועדו להבטיח שימוש אתי ובטוח בטכנולוגיות בינה מלאכותית. יש מעקות בטיחות פנימיים, שהם המנגנונים המוטמעים בתוך המערכת עצמה, ויש מעקות חיצוניים, שזה בעצם אמצעים המיושמים על ידי גופים חיצוניים, כמו רגולציות והנחיות אתיות. בכל LLM (מודל שפה גדול, ט"ש) זה בנוי אחרת. ג'מיני בנוי אחרת מ-ChatGPT למשל, כי יש לו מעקות בטיחות פנימיים".
"כשאנחנו מפעילים את מעקות הבטיחות שלנו לצורך העניין, אנחנו רואים מה אנחנו מונעים ומה לא. הביצועים של דיפסיק מראים שאין לו בכלל שכבת סינון, פשוט לא קיימים בו מעקות בטיחות. זה מוביל לכך שברוב המקרים אתה יכול לשבור את דיפסיק בקלות".
אז מה ההמלצה שלכם אחרי הבדיקות שעשיתם?
"חברות ששוקלות להטמיע את דיפסיק בתוך המערכות שלהן צריכות לדעת שהמודל מסוכן לשימוש ולא מומלץ לעסקים או לאנשים פרטיים בצורה כזאת. הוא מדהים, אבל הוא בעל יכולת לעשות דברים מאוד מסוכנים. לא מדובר על שימוש בדיפסיק כצ'אטבוט, אלא על שימוש בו כמודל - למשל מול הבנק במקום עורך דין, או ככלי חקירה של המשטרה".
בטיחות AI גם אצל ילדים
גם נושא בטיחות ילדים ברשת היא עניין מרכזי מבחינת חברת אקטיבפנס. לאחרונה החברה אף השיקה פודקאסט בשם "כוכבי הגלקסיה" בשיתוף יובל מלחי, האיש שמאחורי הפודקאסט "היסטוריה לילדים". כוכבי הגלקסיה הוא סדרת הרפתקאות שעל הדרך מלמדת ילדים מושגים יסודיים בהתנהגות רשת וסכנות כמו בריונות רשת, מידע כוזב, ואיפה אסור ללחוץ בשום אופן.
"יש כל כך הרבה כלים באינטרנט והילדים גדלים בעולם דיגיטלי וההורים שלהם לא ממש יודעים מה עובר עליהם" אומר שוורץ, "זה משהו ממש חמוד ובעונה הבאה נכניס גם תכנים של איך להשתמש בכלי AI בצורה אחראית".
אז חלק משימוש אחראי ב-AI זה לא להשתמש בדיפסיק?
"אני לא חושב שמבחינת הילד זה משנה אם הוא משתמש בדיפסיק או ב-ChatGPT. הוא פונה אל הצ'אטבוט ומצפה לקבל תשובה לשאלה כזו או אחרת. מה שמדאיג הוא השימוש, או יותר נכון הניצול לרעה שעושים מבוגרים במערכות AI, שבתורם עשויות לפגוע בילדים".
בכל זאת, הורים עלולים להיות מודאגים עכשיו
"מודלים שאין להם מעקות בטיחות הם לא משהו שצריך להפחיד הורים בגלל הילדים שלהם או מה שהם יכולים לעשות עם המודל. זה פשוט משהו שהם צריכים להיות מודעים לו - כשהילדים שלהם משתמשים באינטרנט, המוצרים שם יכולים לפגוע בהם, וזה כולל גם מוצרי AI למיניהם".
יש כל כך הרבה דברים רעים ברשת, כמה נזק יכול דיפסיק לגרום יותר ממה שכבר קיים?
"תאר לך שבאתר כמו Character.ai (שמאפשר לבנות דמויות AI כחברים) יטמיעו מודל של דיפסיק. מיד הוא יתחיל לייצר תכנים שיגרמו לאנשים לפגוע לעצמם. הזדעזענו בעבר כשגילינו ספר שמסתובב באינטרנט בשם "המדריך לפדופיל", שלימד איך לתפוס ילדים ולעבוד על אימהות חד הוריות, ועכשיו מודלים אומנו בין היתר גם על התוכן הזה. אז אתה צריך לבנות סביב זה מעקות בטיחות, כי בלעדיהם לכל בנאדם תהיה נגישות לדברים מהסוג הזה".