ריאליזם מדהים מול תבונה עילאית: גוגל ו-OpenAI ראש בראש

זה כבר הופך לשגרה בעולמות ה-AI: גוגל פתחה את השבוע בהכרזה על כלי AI חדש, ו-OpenAI מסיימת את אותו השבוע במטח של מודלי AI חדשים. בקצב הזה הם עוד יצליחו לבלבל אותנו לגמרי.
גלריה
מנכ"ל OpenAI, סם אלטמן, ומנכ"ל גוגל, סונדר פיצ'אי. לא נחים לרגע
(צילום: Evan Vucci / AP)
גוגל הכריזה בתחילת השבוע על פתיחת גישה לכלי יצירת הווידאו שלה, Veo 2, לשימוש רחב באמצעות הצ'אטבוט של ג'מיני. זה קרה לא בלי קשר לכך שבחודש שעבר OpenAI הציגה את Images in ChatGPT, הכלי שמאפשר להשתמש ב-ChatGPT כדי לייצר עיבודי תמונה מדהימים, שכבר הספיק מאז לשבור שיאי שימוש.
המתחרה שעוקף את סורה
עכשיו גוגל תוקפת בגזרה אחרת. Veo 2 הוא המתחרה הגדול של כלי יצירת הווידאו "סורה" (Sora) של OpenAI, וההכרזה הזו מעוררת סערה והתרגשות בקרב קהל יוצרי הווידאו. Veo 2 הוא כלי מתקדם, יש האומרים מתקדם אפילו יותר מסורה, שמסוגל לייצר סרטוני וידאו באיכות גבוהה ובנאמנות ריאליסטית למציאות. 
בסרטונים שלפניכם תוכלו לראות השוואה שביצענו בין שני המודלים תחת אותו הפרומפט: "אישה שהיא חתול, הולכת על שתיים. היא לבושה בבגדים של סוכנת חשאית משנות ה-40. היא הולכת על רקע של עיר עתידנית עם רכבים מרחפים מאחוריה. כולם מסתכלים עליה, אבל היא ממשיכה ללכת". את התוצאות תשפטו בעצמכם.
יצירה של Veo 2 דרך פרומפט בג'מיני 
יצירה של סורה

כך או כך, נראה כי Veo 2 נשען על הבנת הפיזיקה של העולם האמיתי ועל פיענוח הדרך בה בני אדם נעים, והוא מספק סצנות מציאותיות (או פנטזיה, או אנימציה וכולי) עם פירוט גדול באפיון הדמויות על הבעותיהם וקמטוטיהם.
Veo 2 יהיה זמין גם דרך Whisk, כלי יצירת התמונה באמצעות תמונות קודמות ולא טקסט. Whisk, שהוצג בינואר השנה במסגרת Google Labs, מאפשר להעלות תמונות שמתארות נושא, סביבה וסגנון ואז הוא מייצר תמונה חדשה שמשלבת את כל האלמנטים האלה בתוכה. שילוב Veo 2 ב-Whisk יאפשר לייצר תמונות ולהנפיש אותן לסרטוני וידאו.
נכון לעכשיו, משתמשים בעלי חשבונות Gemini Advanced יכולים לגשת ל-Veo 2 ולייצר באמצעות הנחיות טקסטואליות סרטונים באיכות 720p באורך שמונה שניות. החברה מגבילה את מספר היצירות אותן ניתן להפיק, אך לא פרסמה מה היא המגבלה. כמו כן, כל הסרטונים שנוצרו עם Veo 2 מסומנים עם "סימן מים" דיגיטלי  (SynthID), המוטבע בכל פריים ומשקף את העובדה שהם נוצרו על ידי בינה מלאכותית.
ג'מיני. מעכשיו ניתן ליצור דרכה גם סרטונים
(צילום: גוגל)
מכת המחץ של OpenAI
התשובה של OpenAI, אולי מכת המחץ שלה, נחשפה אתמול (ד'), כשהחברה הציגה לא פחות משני מודלי AI חדשים - o3 ולצידו o4-mini, שאותם הגדירה "החכמים ביותר ובעלי היכולות הגבוהות ביותר עד כה". 
"מודל o3 הוא ברמת אינטליגנציה שמעל לגאון", כותבת החברה, ומציינת שהמודל פועל ללא הזיות (כלומר אינו ממציא עובדות), משתמש בכלים של סוכן AI, ומייצר היפותזות מדעיות. "זה גיים-צ'יינג'ר בתחומי המדע והרפואה" היא מכריזה. גם סם אלטמן המנכ"ל כתב: "אנחנו ברמת הגאונות, או קרובים אליה".
"at or near genius level" https://ancillary-proxy.atarimworker.io?url=https%3A%2F%2Ft.co%2FSbDl5BooK8
— Sam Altman (@sama) April 16, 2025 
אחת התכונות הבולטות שלהם היא היכולת להבין תמונות, סקיצות ודיאגרמות, ולהפיק מהן תובנות. צריך לשים לב כמובן: מדובר במודלים של AI, שהגישה אליהם נעשית באמצעות כלי כמו ChatGPT. 
מודלי o מוכרים כמודלים ההיסקיים (reasoning) של OpenAI. בספטמבר האחרון החברה הציגה את המודל הראשון -  - o1ואת שיטת העבודה שלו: חשיבה מעמיקה במטרה לבחון את הבעיה המוצגת, לפרק אותה לשלבים ולבצע בדיקות חוזרות במידת הצורך. הגישה הזו אומצה על ידי המתחרות במהירות, כולל מודל R1  של "דיפסיק" (Deepseek) הסינית, והתחרות מחייבת את OpenAI להתקדם במהירות.
בהמשך ל-o1 הוצג דגם o3-mini (על השם o2 דילגו כדי לא לפגוע בזכויות המסחריות של חברת o2 הבריטית) וכעת מוצג דגם o3 המלא ואיתו הגרסה המוחלשת של הדור הבא-  o4-mini. החברה מסבירה שמודל o3 מכוון לשימושים בתחומי המתמטיקה, הקידוד, המדעים והבנת תמונות. מודל o4-mini עושה אותו דבר, אבל מהר יותר ובעלות נמוכה יותר. שני המודלים האלה זמינים החל מהשבוע ללקוחות ChatGPT Plus וגם Pro ו- Team.
Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.

For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) April 16, 2025 
המודלים החדשים יכולים "לחשוב עם תמונות", לקלוט גרפים וסקיצות או כל מידע ויזואלי אחר, לשלב את המידע בשרשרת החשיבה שלהם, ולהפיק ממנו תובנות. הם יכולים לשפר את הגרפיקה שקיבלו, לשנות את מאפייניה וגם להשתמש בכלים לעריכת תמונות כדי לעשות שינויים משמעותיים יותר.
OpenAI מציינת שהמודלים החדשים יכולים להשתמש באופן עצמאי בכל כלי ChatGPT ולעשות פעולות כמו גלישה באינטרנט, כתיבה ב-Python, והבנת תמונה ויצירת תמונות, וכל זאת במטרה לשפר את תהליך פתירת הבעיות המורכבות בצורה יעילה יותר. האם זה צעד ראשון לקראת פעולה עצמאית של המודל, ללא מעורבות בני אדם?
ועוד הכרזה מפתיעה: OpenAI מציגה במקביל למודלי ה-AI החדשים גם כלי חדש המכונה Codex CLI, שהוא למעשה סוכן AI (AI agent), שנועד לשפר את תהליך בניית הקוד באמצעות המודלים o3 ו-o4-mini. 
o3 and o4-mini are super good at coding, so we are releasing a new product, Codex CLI, to make them easier to use.

this is a coding agent that runs on your computer. it is fully open source and available today; we expect it to rapidly improve.
— Sam Altman (@sama) April 16, 2025 
הוא מופעל (בקוד פתוח) על המחשב האישי של המשתמש ומאפשר לתת גישה למודלי ה-AI לקוד שכבר קיים על המחשב המקומי, וגם לקבצים שזמינים דרך המחשב המקומי. הסוכן Codex CLI מתפקד כמו עוזר תכנות למפתח התוכנה, אבל מעניין לחשוב כמו ג'וניורים לא יועסקו בחברה בגלל סוכנים כאלה. אלטמן, מכל מקום, הבטיח לשפר את הסוכנים עוד הרבה יותר.
ונראה שמרתון שיפור המודלים הזה לא עומד להיעצר בזמן הקרוב. אלטמן צייץ שגרסת o3-pro  עומדת לצאת לאוויר העולם בתוך כמה שבועות. במגזר אחר של פעילות OpenAI, אתר The Verge מגלה שהחברה עומדת להציג בקרוב את מודל GPT-4.1. 
זה מודל AI שאינו היסקי אלא רב מודאלי, שמלהטט בין אודיו, וידאו וטקסט ומייצר דברים מלהיבים. ועדיין צריך לזכור שמדובר בתרגילי משיכת זמן בעוד GPT-5, המודל שאמור להיות בינה מלאכותית כוללת (AGI), מתעכב כבר חודשים ארוכים. האם הגענו לתקרת הזכוכית של ה-AI? בקרוב נגלה.