תמונה אחת שווה 8 שניות: גוגל הופכת תמונות לסרטוני וידאו חיים

ענקית הטק גוגל ממשיכה להרחיב את יכולות הבינה המלאכותית שלה, ומשיקה היום (חמישי) פיצ'ר חדש ליצירת סרטונים באורך של 8 שניות עם סאונד מתוך תמונות סטילס. הפיצ'ר מתווסף לשלל היכולות שכבר קיימות במודל יצירת הווידאו Veo 3, והוא הוצג בכנס המפתחים של החברה במאי האחרון.
כלי יצירת הווידאו מתוך תמונה החדש של גוגל
הפיצ'ר החדש זמין החל מהיום למנויי Google AI Pro ביותר מ-150 מדינות, כולל ישראל. מאז השקתו הראשונית של Veo 3 בחודש מאי, הפיצ'ר זכה להתעניינות גדולה, עם למעלה מ-45 מיליון סרטונים שנוצרו באפליקציית ג'מיני וב-Flow (כלי יצירת הסרטים של גוגל) בחודשיים שעברו מאז השקתו, כך לפני גוגל.
איך זה עובד 
השימוש בכלי החדש פשוט ואינטואיטיבי: המשתמשים יכולים לבחור באפשרות "סרטונים עם Veo" בתפריט הכלים של ג'מיני, להעלות תמונה, לתאר את הסצנה הרצויה בכתב או בהנחיות קוליות, והמערכת תהפוך את התמונה הסטטית לסרטון וידאו חי. לאחר שהסרטון מוכן, ניתן להוריד או לשתף אותו ללא הגבלה.
לאור ניסיון העבר עם כלי AI של חברות שונות שיצאו לשוק ואפשרו לאנשים ליצור יצירות בעייתיות (כמו למשל המקרה האחרון של גרוק, שעבר עדכון והתחיל להלל את היטלר, ר"ק), גוגל הדגישה כי היא הכניסה למערכת שלל כלים ו"מעקות בטיחות" מאחורי הקלעים, הכוללים בדיקות "Red Teaming" נרחבות לזיהוי ותיקון בעיות פוטנציאליות טרם הופעתן. 
2 צפייה בגלריה 
מוסיפים תמונה, פרומפט, ומקבלים סרטון בן 8 שניות
(גוגל)
בגוגל הדגישו בהודעה שהחברה מבצעת הערכות יסודיות למניעת שימוש לרעה בכלי, ומטמיעה מדיניות קפדנית נגד תוכן לא בטוח. כל הסרטונים שנוצרו באמצעות AI כוללים "סימן מים" גלוי המעיד על מקורם, וכן "סימן מים" דיגיטלי בלתי נראה של SynthID, שמטרתו לסמן תוכן שנוצר על ידי בינה מלאכותית.
הכלי החדש מגיע כחודשיים אחרי ההשקה של Veo 3 באירוע המפתחים של גוגל בסוף מאי האחרון. ההפתעה הגדולה ביותר הייתה השקתו של Flow – כלי עוצמתי המשלב את ג'מיני, Veo 3 ו-Imagen 4, ומאפשר יצירה ועריכה של וידאו בצורה חופשית ואינטואיטיבית. 
נציין כי בניסיון שלנו ליצור סרטון עם Veo 3 ביקשנו מהמודל שיכין לנו סרטון בסגנון אנימה יפני - ילד שהורג חייזר ודם שמשפריץ לו מהפגיעה. ביקשנו גם להוסיף לצידו דמות נשית בסגנון סקסי שמחבקת את הילד לאחר מכן. 
סרטון שיצרנו ב-Veo 3
למודל לא הייתה בעיה לייצר לנו את הסצנה האלימה, אך הוא התעלם מהבקשה שנגעה לדמות הנשית הסקסית, ככל הנראה בגלל אותן הגדרות בטיחות שנועד למנוע שימוש לרעה במודל (אם כי לדעתנו גם אלימות מהווה בעיה לא פחותה). בכל מקרה, היכולת של המודל לייצר סרטון מתיאור קצר באמת מרשימה ובעיקר מהירה אם יש לכם מנוי פרו מתאים.
שוק יצירת הווידאו AI רותח
שוק יצירת הווידאו באמצעות בינה מלאכותית נמצא בתנופה אדירה, וגוגל מצטרפת לשחקנים מובילים אחרים בתחום. מודלים כמו סורה (Sora) של OpenAI, אשר הציג יכולות מרשימות ביצירת סרטוני וידאו ריאליסטיים מטקסט, וכן RunwayML עם כלי ה-Gen-1 וה-Gen-2 שלה, מאפשרים גם הם המרת טקסט לווידאו, וכן מודלי AI שונים המאפשרים עריכת וידאו באמצעות בינה מלאכותית. 
גם בסין, חברות טכנולוגיה כמו Tencent ו-Baidu מפתחות יכולות דומות. Veo 3 ו-Flow מהווים תחרות ישירה למודלים אלו, עם דגש חזק על שילוב יכולות טקסט-לווידאו, תמונה-לווידאו ועריכה מתקדמת באקוסיסטם אחד. ובעוד שחלק מהפתרונות מתמקדים באיכות גבוהה במיוחד של פלט הווידאו, אחרים שמים דגש על קלות שימוש ונגישות לקהל רחב. 
2 צפייה בגלריה 
באידו. גם הסינים חזק בתמונה
(צילום: testing / Shutterstock.com)
היכולת להפיק וידאו מנתונים סטטיים אינה חדשה לגמרי, אך הבינה המלאכותית מקפיצה אותה לרמה חסרת תקדים. בעבר, הפיכת תמונה לווידאו הצריכה ידע מצקועי וכלים מורכבים בתוכנות עריכת וידאו ושעות עבודה רבות.
עם התפתחות רשתות נוירונים ומודלים גנרטיביים, חל שינוי דרמטי. כיום, מודלים כמו Veo 3 מסוגלים לנתח את התמונה, להבין את מרכיביה ולייצר תנועה וסאונד באופן אוטומטי, תוך הבנת ההקשרים והאלמנטים הוויזואליים. זוהי התפתחות טכנולוגית משמעותית שמנגישה את יצירת הווידאו המתקדמת לקהל רחב אבל גם מציעה כלי עוצמתי וגמיש ליוצרי תוכן מקצועיים.