עולם הבינה המלאכותית רותח, ואת הביטוי של זה אפשר לראות בכנסים הבינלאומיים המתקיימים בזה אחר זה במקומות שונים בעולם. אחד כזה, מעניין במיוחד, התקיים בסוף אפריל בסינגפור. מדובר בכנס ICLR 2025, שמתקיים לראשונה בדרום מזרח אסיה ואולי מסמל בכך את המקום המרכזי שיש לחברות סיניות, הודיות, גם סינגפוריות בעולמות ה-AI.
אחת החברות הבולטות בכנס הייתה אנבידיה (NVIDIA), שהציגה יותר מ-70 מאמרים מקצועיים בתחום הבינה המלאכותית בנושאים כמו רכבים אוטונומיים, בריאות, יצירת תוכן, רובוטיקה ועוד. לאנבידיה יש מעמד מיוחד: היא מספקת את התשתית לרוב המוחלט של מערכות ה-AI בעולם, וניתן להעריך שכל משתתפי הכנס מריצים את ה-AI שלהם על תשתיות שלה. אבל החברה לא מסתפקת בזה, אלא משקיעה משאבים ניכרים בפיתוח כלי AI ופלטפורמות AI שנועדו להרחיב את השפעתה ואת השימוש בתשתיות שלה.
טרנד התמונות הערוכות עדיין כאן
אחד המחקרים שהציגה אנבידיה הגיע ממרכז המחקר לבינה המלאכותית שהחברה מפעילה בישראל, בשיתוף פעולה עם חוקרים מאוניברסיטת תל אביב ובאוניברסיטת בר אילן. במחקר הוצג כלי חדש בשם Add-It, המאפשר להוסיף פריטים לתמונות קיימות (אמיתיות או מג'ונרטות) באמצעות הנחיות טקסט (פרומפטים) ובצורה שמבינה את הפיזיקה, הכימיה והאופטיקה של המרחב.
כך אפשר למשל להוסיף כובע לראשו של אדם ולהשאיר תלתל אחד בחוץ, להוסיף ארוחה לצלחת כך שתיראה כאילו נערכה על ידי שף, ולהושיב אדם על ספה – כשהכריות שהיו עליה זזות באופן שיתאים לתמונה החדשה.
מה חדש בזה? בין היתר גם התוצאה: כל מי שניסה להוסיף פריטים לתמונה באמצעות פוטושופ או כלי ה-AI השונים, יודע כמה התוצאות עלולות להיות מביכות. לעומת זאת, הכלי החדש הזה מבין את המרחב, מבין את הבקשה, ומניב תוצאות מרשימות.
גם תהליך העבודה השתפר פלאים, וכעת לא צריך לכתוב את כל הפרומפט מחדש באינספור ניסויים וטעיה עד להשגת התוצאה, אלא פשוט להוסיף הנחיה חדשה שמשפרת את התמונה ולהגיב על התוצאה בסוג של דיאלוג עם ה-AI. ואת כל זה הוא עושה ללא צורך באימון נוסף או באופטימיזציה של מחולל התמונות.
"המודלים יודעים איך אובייקטים מסודרים בעולם"
קבוצת המחקר שפיתחה את הכלי כוללת את פרופ' גל צ'צ'יק מאוניברסיטת בר אילן, דירקטור בכיר באנבידיה ומנהל מרכז המחקר ל-AI של החברה בישראל, פרופ' ליאור וולף מאוניברסיטת תל אביב, המשמש גם כמנכ"ל חברת הרובוטיקה מנטי (Mentee Robotics), הדוקטורנטים וחוקרי אנבידיה דביר סמואל מאוניברסיטת בר אילן ויועד תבל מאוניברסיטת תל אביב, ועוד.
6 צפייה בגלריה


מימין: פרופ' שי שלו שוורץ, פרופ' אמנון שעשוע ופרופ' ליאור וולף, מייסדי מנטי רובוטיקס
(צילום: מנטי רובוטיקס)
"הרעיון המרכזי הוא שאנחנו יכולים להשתמש במודל שיודע ליצור תמונות, כמו אלה שכולנו מכירים", מסביר תבל. "מודלים כאלה מבינים איך אובייקטים מסודרים בעולם – למשל, הם יודעים שאם יש שולחן, סביר שכוס קפה תהיה מונחת עליו. לכן, בלי צורך באימון נוסף, אפשר פשוט לכתוב טקסט חופשי כמו 'אני רוצה כוס קפה על השולחן' או 'אדם יושב על הספה בבית קפה', והמודל ידע להוסיף את האובייקט המתאים לסצנה, תוך שמירה על הרקע המקורי והבנה של ההקשר וההתנהגות הטבעית של אותו אובייקט".
״הוספה של פריט חדש לתמונות באמצעות פקודות טקסטואלית היא משימה מאתגרת שדורשת איזון עדין בין שמירה על הסצנה המקורית לבין שילוב של הפריט החדש בנראות מתאימה ובמקום המתאים״, מסביר צ׳צ׳יק, ״מודלים קיימים מתקשים למצוא את האיזון הזה".
לדבריו, היכולת הושגה על ידי הרחבת מנגנון ה-Attention (תשומת הלב) של מודל ה-AI, כך שישלב מידע משלושה מקורות: התמונה המקורית, הפרומפט הטקסטואלי, והתמונה הסופית. הוא מציין שבבדיקות שערכה החברה בני אדם העדיפו את התוצאות של Add-it על פני שיטות אחרות ב-80% מהמקרים.
למה זה חשוב?
צ'צ'יק: "אנחנו רוצים לייצר עולמות שאנחנו יכולים לעשות להם סימולציה. אבני הבניין שלנו הן תמונות, אחר כך אנחנו עוברים לווידאו, אחר כך לסצנות תלת ממדיות, ואז אנחנו עוברים לסצנות תלת ממדיות בווידאו, ואז אנחנו עוברים למודלים פיזיקליים. אנחנו מתחילים בתמונות כי זה יחסית קל, יש הרבה דאטה ואנחנו לומדים הרבה מאוד על איך לייצר תוכן ויזואלי".
ומה המטרה של הלימוד הזה?
"בסוף אנחנו רוצים לייצר עולמות. זה הכיוון הזה של 'תאומים דיגיטליים', במובן שכל דבר שאתה רוצה לבנות, לפני כן אתה רוצה להעביר אותו בסימולציה. ואלה כלים שיכולים להיות מאוד שימושיים. למודלים האלה, 'מודלי דיפוזיה', יש המון שימושים. למשל, זה מפתיע, אותה טכנולוגיה יכולה לשמש לחיזוי מזג אוויר, לחיזוי מבנה של חלבונים, כך שאנחנו יכולים להשתמש בה לבעיות מאוד מגוונות".
כשחוקרים אנושיים צריכים לבקר עבודת מחקר של AI
יותר מ-8,000 משתתפים גדשו את אולמות הוועידה בסינגפור, אחת משלוש הוועידות החשובות בעולמות למידת המכונה. מרבית ההרצאות לוו בנייר אקדמי או מחקר, שעובר ביקורת עמיתים במטרה לסנן את המחקרים המתאימים ביותר לכנס.
כיאות לכנס בינה מלאכותית, שיחת היום הייתה החשיפה שכמה מהמחקרים שהתקבלו לכנס נכתבו בכלל על ידי AI. חברת Autoscience למשל דיווחה שסוכן ה-AI שלה, ששמו קארל, כתב מאמר שהתקבל להצגה בשלוש מתוך ארבע הסדנאות שאליהן ניגש. לא שזה הפתיע מישהו בתחום הזה, אבל היו הרבה מומחי AI שהביעו כעס ותסכול על כך שהתבקשו לעשות ביקורת עמיתים אנושית על מאמר שנכתב על ידי AI.
חוץ מזה הכנס עסק בסוכני AI, התחום הלוהט של הבינה המלאכותית, ובשילוב AI בעולמות הפיזיים, למשל באמצעות מכונות חכמות או רובוטים, כולל תרחישים בעלי סיכון גבוה. הייתה שם נציגות של ענקיות ה-AI כמו גוגל, וגם של שחקניות חדשות בתחום, למשל מרכז פיתוח ה-AI של חברת אפל.
היו גם לא מעט ישראלים בכנס, כמה עשרות לכל הפחות, אבל הרבה פחות מזה השתתפו באופן פעיל בהצגת עבודות ומחקרים. ויכול להיות שזה משקף היטב את מקומה של ישראל בעולם ה-AI, שבהרבה מקרים דילג מעליה והשאיר אותה מאחור.