טנסנט, עליבאבא ובייטדאנס משנות את כללי המשחק בתחום הבינה המלאכותית

תחום הבינה המלאכותית ממשיך להתפתח בקצב מטורף, ושלוש ענקיות הטכנולוגיה – טֶנְסֶנְט, עליבאבא ובֵּייטְדָאנְס – הציגו לאחרונה פיתוחים מדהימים שפשוט משנים את כללי המשחק. מהדמיה בזמן אמת ועד עריכת וידאו סופר-מתקדמת ואוטומציה של מחקר, החידושים האלה מרחיבים את גבולות האפשרי ומבשרים על עתיד מרתק.

Hanuen Image 2.0 של טֶנְסֶנְט: יוצרים תמונות בלי לחכות

טֶנְסֶנְט השיקה את Hunyuan Image 2.0, מודל ליצירת תמונות בזמן אמת, וזה שיפור משמעותי בתחום. המודל הזה מסוגל ליצור תמונות כמעט מיד כשמקלידים את הפקודות, כאילו אין דיליי בכלל, לא משנה אם משתמשים בטקסט, קול או סקיצה מהירה. הוא מגיב תוך אלפיות שנייה, מה שהופך את חוויית האינטראקציה עם מודלים ליצירת תמונות לכיפית וזורמת, ושוכחים מההמתנה המעיקה.

המודל הזה גם סופר מדויק, עם ציון של מעל 95% במבחני Geneval. הוא מייצר תמונות מציאותיות עם טקסטורות מפורטות ברמות, קצוות חדים וסצנות מורכבות. מעצבים ואמנים יכולים ממש להשתגע איתו וליצור איורים, פרסומות ואמנות קונספטואלית ממש בקלות וביעילות. יש גם פיצ'ר מגניב של לוח ציור, שמאפשר לראות את האפקטים של הצביעה מתעדכנים בזמן אמת כשעושים סקיצות או מתאימים הגדרות. זה מייעל את העבודה ומאפשר לבחון רעיונות ולבצע שינויים במקום.

Vase של עליבאבא: סטודיו AI שלם לעריכת וידאו

מעבדת 1X של עליבאבא הציגה את Vase, כלי AI מקיף ליצירת ועריכת וידאו. עד עכשיו, התהליך היה קצת בלגן, ודרש לעבור בין כמה כלים שונים בשביל חיתוך, מיסוך, קומפוזיציה ואנימציה. Vase בא לשנות את זה ולהציע פלטפורמה אחת של All-in-One, שתאפשר ליצור ולערוך וידאו בצורה קלילה ומהירה.

הכלי הזה מבוסס על מודל one 2.1 של עליבאבא, שיש לו עד 14 מיליארד פרמטרים, והוא מאפשר ליצור וידאו מטקסט, לערוך חלק ספציפי בסרטון (למשל, לשנות את השמיים) ולשלב תמונות וסרטונים כדי לשלוט איך הפלט הסופי ייראה ואיך הוא יזוז. אפשר לעשות עריכות מיסוך, להחליף אובייקטים, לצבוע אזורים מסוימים ולהאריך סצנות. ל-Vase יש מנגנון שנקרא "יחידת וידאו" (Video Unit), שמתפקד כמו מנהל מתכונים – הוא מזהה את האלמנטים הכי חשובים, מבין מה צריך לשנות ושומר על עקביות. הכלי תומך ברזולוציות של עד 720p ויודע לעשות משימות מורכבות, כמו להחליף בגדים לדמות, לצבוע מכונית ולהאריך סצנה, וכל זה תוך כדי שמירה על תנועה, תאורה ומעברים חלקים.

Vase זמין בקוד פתוח ב-HuggingFace וב-Model Scope, ואפשר להשתמש בו ליצירת וידאו מטקסט, המרת וידאו לווידאו, עריכות מיסוך, אנימציה של דמויות ואובייקטים מתמונות סטטיות ושילוב יכולות שונות ליצירת משימות מורכבות. בדקו את הביצועים שלו בכל מיני משימות עריכת וידאו ויצירה, ותראו שהוא נותן תוצאות עם איכות פריימים יותר גבוהה, מעברים יותר חלקים ופחות עיוותים ממתחרים אחרים.

Seed 1.5VL ו-Deerflow של בָּייטְדָאנְס: עוד צעד קדימה בבינה מלאכותית

בָּייטְדָאנְס הכריזה על שני פיתוחים חשובים: Seed 1.5VL, מודל בסיס חדש לראייה-שפה, ו-Deerflow, מסגרת מודולרית רב-סוכנים לאוטומציה של מחקר. שני הכלים האלה נועדו להתמודד עם אתגרים לא פשוטים בתחום ה-AI, כמו שילוב של הבנה חזותית וטקסטואלית, ניתוח וידאו ואוטומציה של מחקר.

Seed 1.5VL הוא מודל שמשלב מקודד ראייה (Vision Encoder) עם 532 מיליון פרמטרים ומודל שפה גדול (LLM) עם 20 מיליארד פרמטרים. למרות שהוא יחסית קומפקטי, Seed 1.5VL עולה על מודלים של OpenAI ו-Anthropic ב-38 מתוך 60 מדדי VLM ציבוריים. המודל אומן על יותר משלושה טריליון טוקנים איכותיים, שמכסים כמעט כל תחום – טקסט, תמונות, וידאו ואודיו. הארכיטקטורה של המודל מאפשרת לו לטפל בשרשראות חשיבה מורכבות ולבצע משימות כמו ספירת אובייקטים, פענוח תרשימים והבנה מרחבית תלת-ממדית. יש לו גישה חדשנית לדגימת וידאו שמאפשרת לו להתאים את קצב הפריימים והרזולוציה בהתאם לרמת המורכבות של התוכן, מה שנותן לו יכולות מרחביות-זמניות חזקות.

Deerflow היא מסגרת קוד פתוח לאוטומציה של מחקר עמוק באמצעות סוכני AI מרובים. במקום להסתמך על סוכן AI אחד ויחיד, Deerflow מאפשרת להקים צוות של סוכנים מומחים שמתאמים ביניהם באמצעות גרף מכוון. המסגרת מבוססת על Lang Chain ו-Lang Graph ומאפשרת תכנון, חיפוש, כתיבת קוד, סיכום ותיאום בין הסוכנים. Deerflow משלבת שיתוף פעולה אנושי ומאפשרת לבחון את הנימוקים של הסוכנים, לשנות תוכניות ולעקוף שלבים מסוימים. המסגרת תומכת ב-Python 3.12 וב-Node.js 22, ומספקת דוגמאות, מקרי שימוש ואפשרות להפעיל הכל באופן מקומי או בענן. מערכת ה-AI כוללת ממשק משתמש אינטרנטי שמאפשר לעקוב אחרי תהליכי עבודה, לאתר באגים ולראות איך הנתונים זורמים בין הסוכנים. Deerflow משתלבת עם ממשקי API לחיפוש באינטרנט, כמו Tavily, Duck.Go, Brave Search, ומאפשרת לבנות תהליכים אוטומטיים עבור סקירות ספרות, דיווחים טכניים, יצירת שקפים ותסריטים לפודקאסטים. אפשר אפילו להפעיל פיצ'ר Text-to-Speech כדי להפוך את הדיווחים הסופיים לאודיו איכותי.

לסיכום

הפיתוחים החדשים של טֶנְסֶנְט, עליבאבא ובָּייטְדָאנְס מראים את הפוטנציאל האדיר של הבינה המלאכותית בתחומים שונים. מיצירת תמונות בזמן אמת ועד עריכת וידאו מקיפה ואוטומציה של מחקר, הכלים האלה מאפשרים ליצור, לערוך ולחקור בצורה הרבה יותר יעילה וחדשנית. עתיד הבינה המלאכותית נראה מבטיח מתמיד.

אם בא לכם לצלול לעולם של סוכני AI, אולי תגלו שהידע על הדור הבא של סוכני AI ולהבין את פרוטוקול הקשר המודל (MCP) זה סופר חשוב. תוכלו גם להרחיב את היכולות שלכם עם מדריך מקיף לכלי MCP Client וטריגר MCP Server או ללמוד איך ליצור תרחישים אוטומטית ב-N8N עם AI Co-Pilot.

טנסנט, עליבאבא ובייטדאנס משנות את כללי המשחק בתחום הבינה המלאכותית

Hanuen Image 2.0 של טֶנְסֶנְט: יוצרים תמונות בלי לחכות

Vase של עליבאבא: סטודיו AI שלם לעריכת וידאו

Seed 1.5VL ו-Deerflow של בָּייטְדָאנְס: עוד צעד קדימה בבינה מלאכותית

לסיכום

תגובות