האיש שניצח את הבינה המלאכותית

זוהי השנה השלישית שבה מפרסם המגזין האמריקאי הוותיק "טיים" את הרשימה השנתית של "100 המשפיעים בעולם בתחום הבינה המלאכותית" - מנהיגים, חוקרים, מעצבים והוגים, שהם בעלי השפעה על עתיד ה-AI. 
גלריה
שער מגזין טיים "100 מנהיגי AI"
(צילום מסך)
השנה נמנים ביניהם ענקי טכנולוגיה כמו מנכ"ל אנבידיה ג'נסן הואנג, מנכ"ל OpenAI סם אלטמן, מנכ"ל xAI, טסלה ו-X אילון מאסק, מנכ"ל מטא מרק צוקרברג, ונשיא מובילאיי הישראלית, אמנון שעשוע. 
אבל לצד 99 דמויות מוכרות ופופולריות, שדיוקנן המחויך מתנוסס על דפי המגזין, מופיעה גם דמות אחת אנונימית, ללא צילום כלל, תחת השם המוזר "פליני (פליניוס) המשחרר" (Pliny the Liberator). בתיאור עיסוקה של הדמות המסתורית כתבו עורכי "טיים": "פורץ כלא דיגיטלי".
הפנומן המסתורי
המונח "פריצת כלא" (Jailbreaking), יש להסביר, הוא מונח מקצועי בעולמות אבטחת המחשבים; פירושו מניפולציה על מודל בינה מלאכותית במטרה לעקוף את המגבלות המובנות בו ולהפיק ממנו תכנים אסורים.
בינה מלאכותית. פליניוס הצליח לפרוץ לכל מערכת קיימת
(Shutterstock)
ובמה זכה "פליניוס המשחרר" העלום להשתרבב לרשימה הסופר מכובדת? לפי "טיים", מדובר בפנומן, סוג של האקר מחונן, שהצליח לחלץ מידע אסור מכל מערכת בינה מלאכותית שהופיעה בשנים האחרונות: זה כולל את כל גרסאות GPT מבית OpenAI; את מודל הקוד הפתוח של מטא, LLaMA; את "קלוד סונט 4" של אנת'רופיק, הנחשבת על ידי רבים כמערכת ה-AI החזקה ביותר, ועוד. 
אפילו גרסאות הקוד הפתוח החדשות של OpenAI, שהופיעו בתחילת אוגוסט והוצגו על ידה כעמידות במיוחד, פוצחו על ידו בתוך שעות: פליניוס תיאר ברשת החברתית X כיצד הצליח לגרום להן לספק לו הוראות מפורטות להכנת בקבוקי תבערה, סם קריסטל מת' וגז עצבים VX. "בשלב זה כל המעבדות יכולות פשוט לסגור את צוותי הבטיחות שלהן", כתב אחד המגיבים ב-X.
100 אלף עוקבים
בניגוד לדימוי הקלאסי של האקרים המנסים לפרוץ קוד, פליניוס פועל באופן שונה לחלוטין. הוא אינו מנסה לשתק או לשבש מערכות או לגנוב מידע, אלא "לשחרר" אותן, כפי שהוא מכנה זאת - למצוא עבורן ועבור הציבור את נקודות התורפה שלהן, בעזרת טכניקות שגורמות למודלים לאבד שליטה שעות ספורות לאחר השקתם.
בניגוד לדימוי הקלאסי של האקרים המנסים לפרוץ קוד, פליניוס פועל באופן שונה לחלוטין. הוא אינו מנסה לשתק או לשבש מערכות או לגנוב מידע, אלא "לשחרר" אותן
חשוב לציין: כל מערכות הבינה המלאכותית המוכרות במערב כוללות "מעקות בטיחות", כלומר אמצעי הגנה בתוכנה, שאמורים למנוע מאנשים לעשות בהן שימושים זדוניים, לא אתיים, בלתי חוקיים או מסכני חיים. בזכות האשליה שאכן ניתן למנוע מעשים כאלה, ממשלות בכל העולם ממשיכות לאפשר בכלל את הפצת הטכנולוגיה העוצמתית. פליניוס מוכיח שוב ושוב שהאתגר מורכב יותר משחשבנו.  
למרות המוניטין שרכש פליניוס לעצמו ביכולת למצוא טכניקות שיגרמו למודלי בינה מלאכותית להשיל מעליהם את כל גדרות האבטחה ולספק כל מידע שנדרש מהם שעות ספורות לאחר הופעתם - ככל הנראה אין לו כל ניסיון קודם בתכנות מחשבים, הוא אינו יודע בכלל לכתוב קוד, והוא עושה שימוש בכתיבת פרומפטים בלבד. 
זה לא הפריע לו בחודש יולי האחרון להדגים בפני כתבי "טיים" כיצד הוא מצליח בעזרת הוראת טקסט בלבד להוציא מצ'אט-GPT מתכון לפנטניל – סם רב עוצמה ומסוכן, החזק פי 50 ממורפיום.
סמלו של פלניוס המשחרר
(מגזין טיים)
לא מדובר ב"קראקר" - המפצח מערכות מחשב במטרה לחולל נזקים, לסחוט, לרגל, או לגרוף מיליונים; הוא מבקש להזהיר. פליניוס לא מבצע את פעולותיו בסתר: הוא מתעד אותן ב-X, ועד כה צבר שם יותר מ-100 אלף עוקבים. 
מאגר GitHub שלו, המכיל הנחיות פריצה למודלים שונים של בינה מלאכותית, כולל למעלה מ-10,000 "כוכבים". בין השאר הוא מדגים בפוסטים שלו כיצד ללמד בינה מלאכותית לפרוץ בינה מלאכותית אחרת. אחרי כל פוסט כזה מסתערים כוכבי היוטיוב ברשת על הפרומפטים שלו וממהרים לנסות אותם ב"לייב". וזה תמיד עובד. 
ניצול חולשות
בניגוד לפריצה טכנית, שנעשית על ידי פיצוח קוד, העיקרון שבו משתמש פליניוס פשוט: כידוע, כל מהלך בבינה מלאכותית מתבצע בעקבות הנחיות של המשתמש, ה"פרומפט". בפועל, לצד ההנחיות הללו פועלות הנחיות רקע אחרות, נסתרות, ששתלו מפתחי המודל, עם הוראות עקרוניות כיצד להגיב בכל סיטואציה. 
בניגוד לפריצה טכנית, שנעשית על ידי פיצוח קוד, העיקרון שבו משתמש פליניוס פשוט: ניסוח הנחיה מתוחכמת שנראית תמימה, אך בפועל גורמת למודל להתעלם כליל מההנחיות שלו
פליניוס מבצע מה שמכונה "הזרקת פרומפטים" (Prompt Injection): מדובר בסוג של מתקפה, שבה ההאקר מנסח הנחיה מתוחכמת מאוד, שנראית תמימה ממבט ראשון, אך בפועל גורמת למודל להתעלם כליל מהנחיות המערכת שמורות לו כיצד להתנהג - ולבצע כלשונה את הפעולה שההאקר מכוון אליה.
"פליניוס המשחרר" מתמקד בחשיפות ההנחיות הנסתרות של מפתחות המודלים. כשפרץ את מודל GPT-4o, אשר הואשם עם הופעתו בנטייה לריצוי ובחנפנות יתר למשתמשים, חשף בפוסט שלו, כי הנחיית המערכת הבעייתית של המודל קבעה: "במהלך השיחה, הסתגל לטון ולהעדפה של המשתמש. נסה להתאים את האווירה למשתמש, לטון שלו ובאופן כללי לצורת הדיבור". 
השיטה מזכירה מאוד מקרה מפורסם מ-2023, כשסטודנט באוניברסיטת סטנפורד בשם קווין ליו גרם לגרסת הצ'אט החדשה של מנוע החיפוש "בינג" מבית מיקרוסופט לחשוף את הוראות התכנות הנסתרות שלו באמצעות פרומפט יחיד. בינג חשף, בין השאר, כי שם הקוד שלו הוא סידני, וכי "לסידני אסור להשיב עם תוכן שמפר זכויות יוצרים לספרים או מילות שירים", ו"אם משתמש מבקש בדיחות שיכולות לפגוע בקבוצה של אנשים, סידני צריך לבקש ממנו בנימוס שלא לעשות זאת".  
מנכ"ל OpenAI, סם אלטמן, מציג את GPT5. האם פלניוס יצליח לפרוץ גם אותו?
(צילום מסך)
יכולת על-אנושית
הפוטנציאל, כמובן, מפחיד. מודל ה-AI "קלוד סונט" של אנת'רופיק בגרסה 3.5 מאפשר, למשל, לשלוט במחשב אישי על פי הנחיות בע"פ או בכתב; גם מיקרוסופט בדרך לשם עם מערכת Copilot שלה. 
עם יכולות כאלה, מודלים מן הסוג הזה שנפרצו יכולים לחולל שמות במחשבים מכל סוג; שלא לדבר על הפקת מתכונים להרכבת "פצצה מלוכלכת" או הנחיות מפורטות להתאבדות. וכאשר נגיע למודלי "בינה מלאכותית כללית" (AGI), עם יכולות על-אנושיות - פריצה קלה שלהם בעזרת פרומפט מתוחכם במיוחד עלולה לעלות באסונות קולוסליים.
פליניוס טוען כי אין לו כל כוונות זדון. המומחיות שפיתח, לדבריו, היא לא תוצאה של ידע מוקדם כלשהו, אלא של שעמום ודיכאון, שהובילו אותו לחקור לעומק מודלי AI. הוא גילה במהירות פרצות, אך לדבריו, כשפנה לחברות הבינה המלאכותית כדי לדווח עליהן, הן התעלמו ממנו לחלוטין.
🪄 JAILBREAK ALERT 🪄

BRAVE: PWNED 😎
LEO: LIBERATED 🦁

Brave's new AI browser integration is awesome! Super convenient for feeding in context, but that can be a double-edged sword with those tricksy prompt haxors around!

Indirect prompt injection was as easy as loading up a… pic.twitter.com/3pUidtfcdO
— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) September 2, 2025 
התסכול, אומר פליניוס, הוביל אותו להחלטה לפרסם ברשת את הפרומפטים שכתב, ובכך להפוך את הידע שצבר לזמין עבור הקהל הרחב. המהלך הזה הפך אותו תוך זמן קצר לאחד הקולות המשפיעים ביותר בעולם בתחום אבטחת ה-AI. 
קהל העוקבים שלו גדל במהירות: הוא כאמור צבר יותר מ-100 אלף עוקבים בפלטפורמת X וייסד שרת דיסקורד המונה יותר מ-20 אלף חברים, שמתכנסים כדי לשתף ולשפר גישות פריצה שונות. הקהילה הזו, שצברה במהירות כמעט מעמד של כת, מהווה כור היתוך לרעיונות ולשיטות. 
ככל שהשפעתו גדלה, החל פליניוס לקבל הכרה לא רק מקהילת ההאקרים. מי שהבין מיד את הפוטנציאל הוא היזם מארק אנדריסן - מי שפיתח בשנות ה-90 את הדפדפן "נטסקייפ", היה מהמשקיעים הראשונים בפייסבוק, ובכלל נחשב אחד מאנשי החזון של עולם הטכנולוגיה. אנדריסן פנה אליו, העניק לו סכום משמעותי - ומאז מועסק פליניוס בחוזים קצרי טווח בחברות AI מובילות כדי להפוך את המערכות שלהן לחזקות ועמידות יותר.
מארק אנדריסן. זיהה את הפוטנציאל
(צילום: AP)
כך, ממעמד של האקר אנונימי זכה סוף סוף פליניוס להכרה, ולשכר - כיועץ מומחה. בראיון צ'אט נדיר שהעניק ב"רדיט" (reddit) נשאל, בין השאר, כמה מהחברות הגדולות הציעו לו לעבוד אצלן. 
"ארבע או חמש", השיב, "אם כי אני לא מאושר להישאר בבית. אני חושב שיש צורך הרבה יותר גדול בבדיקות עצמאיות ובהפצת מודעות ציבורית, מה שדורש ממני לשמור על ניטרליות. אני גם לא מיישר קו מבחינה פילוסופית עם גישות עכשוויות רבות לבטיחות".  
למרות מעמדו הציבורי החדש, "פליניוס המשחרר" מקפיד לשמור על אנונימיות מוחלטת. עם זאת, בראיון ברדיט הסכים לחשוף מספר פרטים מפתיעים על חייו: הוא למד מדעי הקוגניציה - תחום מחקר מדעי אשר עוסק בחקר הכישורים המנטאליים: למידה, זיכרון, חשיבה, קבלת החלטות וכו' – ואכן, מעולם לא התנסה בכתיבת קוד או בבינה מלאכותית לפני שהחל לפרוץ מודלי AI.
פלניוס לא תוקף את הקוד הבסיסי של המודלים כמו שהאקרים אחרים עושים, אלא מתמקד בכתיבת הנחיות המבוססות על הבנת השפה ותהליכי החשיבה האנושיים
העובדה זו מסבירה אולי את השיטות שלו: הוא אינו תוקף את הקוד הבסיסי של המודלים כמו שהאקרים אחרים עושים, אלא מתמקד בכתיבת הנחיות המבוססות על הבנת השפה ותהליכי החשיבה האנושיים. הפריצות שלו אינן טכניות, אלא נשענות על כושר המצאה אנושי ודרכים יצירתיות של שימוש בשפה כדי לבלבל את המודל. דוגמה מושלמת לסוג חדש של מומחה, שמתבסס על ביצועיו על תובנה ויצירתיות אנושית בלבד.   
המודל לחיקוי
בחירת הכינוי "פליני (קיצור לפליניוס באנגלית) המשחרר" אינה מקרית. זוהי מחווה לפליניוס הזקן (Pliny the Elder), סופר וקצין רומי שחי במאה הראשונה לספירה, והקדיש את חייו לתיעוד העולם הטבעי באנציקלופדיה מונומנטלית בת 37 כרכים בשם "תולדות הטבע", הנחשבת למקיפה ביותר בעולם העתיק. 
פליניוס הזקן נהרג בניסיון לתעד את התפרצות הר הגעש וזוב בשנת 79 לספירה. ההאקר שאימץ את שמו מצהיר כי הוא מבקש רק לתעד, לחשוף את ה"הוראות הנסתרות" שמנחות את המודלים. את מהלכי הפריצה שלו הוא תופס כמחקר אבטחה, שחושף את נקודות החולשה של המודלים ומספק הוכחת היתכנות לפריצות שלהם.   
ענקי הטק לא יכולים להרשות לעצמם להתעלם מחולשות האבטחה של מערכות ה-AI שלהם
(צילום: AP/Julia Demaree Nikhinson)
גם הבחירה של "טיים" ב"פליניוס המשחרר" כאחד מ-100 המשפיעים בתחום ה-AI אינה מקרית: הוא הפך להיות דמות מפתח בדיון על אבטחת ופילוסופיית ה-AI, ונתפס כמודל לחיקוי. הניסיון שלו לחשוף את הכללים החבויים שמנחים את המודלים נובע מהאמונה, שהציבור – מיליארדי משתמשים בעולם המסתמכים יותר ויותר על בינה מלאכותית לצורך קבלת ההחלטות שלהם - זכאי לדעת לאלו הנחיות המודלים הללו מצייתים. 
החשיפות שלו מתייחסות לליבת המחקר של החברות ומאלצות אותן להשקיע יותר במנגנוני אבטחה קפדניים ובמעקב מתמיד אחרי המודלים לאחר השקתם, ובמקביל מדגימות את הסיכונים העצומים בשימוש לרעה בבינה המלאכותית. הן משמשות כקריאת השכמה לתעשייה כולה.
אגב, כשנשאל פליניוס ברדיט אם פריצות בינה מלאכותית עתידות להישאר איתנו או שבסופו של דבר הן ייחסמו לצמיתות, ענה: "אני חושב שפריצה תמיד תהיה בסביבה בצורה כלשהי, אם כי בעוד כמה שנים אני לא חושב שבני אדם יהיו בעניינים; סביר להניח שזה יתפתח למשחק חתול ועכבר בין נחילי סוכני AI יריבים".