האם AI פתוח מנצח במרוץ נגד קוד סגור? עדכוני AI מהשבוע

CyberGeek

מאז שבינה מלאכותית פרצה לתודעה, התקיים ויכוח אינטלקטואלי לוהט: מה עדיף – מודלים בקוד פתוח או מודלים בקוד סגור? בעבר, מודלים סגורים שלטו ללא עוררין, אך בשנים האחרונות אנו עדים למהפך משמעותי. פרויקטים פתוחים כמו Stable Diffusion ו-Llama הוכיחו את יכולתם, והפער מצטמצם במהירות, ולעיתים אף נסגר לגמרי.

בשבוע האחרון ראינו מספר השקות ופיתוחים בקוד פתוח שבהחלט כדאי להכיר. בואו נצלול לראות היכן עומד עולם ה-AI הפתוח כיום.

מודלי שפה גדולים (LLMs): שמועות מרעישות והשקות עוצמתיות

נתחיל בשמועה מרעישה (קחו אותה בערבון מוגבל, כמובן) על המודל המצופה Deepseek R2. Deepseek R1 עורר הד גדול כשהצליח לשכפל יכולות הסקה מתקדמות של OpenAI בזמן קצר ולהפוך אותן לנגישות לכולם בקוד פתוח. כעת, R2 עשוי לקחת את זה צעד קדימה:

  • מודל בעל 1.2 טריליון פרמטרים (עם 78 מיליארד פעילים בכל רגע).

  • השמועות מדברות על עלות נמוכה להפליא - 97% פחות מ-GPT4o.

אם השמועות נכונות, מדובר בענק חדש שעולה וייתכן שהפער במודלי שפה גדולים בין קוד פתוח לסגור ייסגר השנה, לפחות עבור רוב השימושים היומיומיים.

בנוסף לשמועות, זכינו להשקה של Quen 3, מודל שפה בקוד פתוח שכבר זמין לשימוש מקומי במגוון גדלים (מ-6 מיליארד עד 235 מיליארד פרמטרים). Quen 3 מציג ביצועים מרשימים, ולפי הבנצ'מרקים, הוא מתעלה על מודלים כמו Llama 4 של מטא במדדים רבים, והוא מגיע תחת רישיון Apache 2.0 פתוח לחלוטין.

Quen 3 מצטיין במיוחד ב:

  • הסקה לוגית מורכבת: מסוגל לפתור חידות לוגיות צעד אחר צעד ולהסביר את תהליך המחשבה.

  • רב-לשוניות: תומך בשפות רבות, בניגוד למודלים פתוחים קודמים שהתמקדו לעיתים באנגלית בלבד.

  • נגישות: ניתן להריץ אותו מקומית על חומרה ביתית (כולל מחשבי מאק M-series), ובכך ליהנות ממודל עוצמתי בחינם וללא תלות בספקים חיצוניים.

יצירת וידאו: דור חדש על חומרה ביתית

בתחום יצירת הווידאו, ראינו התקדמות מסחררת גם כן. בעוד שבעבר מודלים סגורים כמו Sora של OpenAI הציגו יכולות מרשימות אך לא היו נגישים, כיום אנו יכולים ליצור סרטונים ארוכים באיכות טובה על מחשב ביתי ובחינם!

  • Frame Pack: מאפשר יצירת סרטוני וידאו ארוכים (עד 2 דקות) עם צריכת זיכרון נמוכה (6GB VRAM בלבד).

  • Realist Dance: נבנה על בסיס המודל הפתוח WAN 2.1 (GitHub) ומתמחה ביצירת תנועת אנוש ריאליסטית להפליא בווידאו.

  • WAN 2.1: מודל יצירת וידאו פתוח שמציע יצירות וידאו חינמיות וללא הגבלה באתר שלהם (במצב "רגוע"). עצם העובדה שהוא בקוד פתוח מאפשר גמישות רבה ובניית פרויקטים נוספים עליו. (קראו עוד בסיכום שבועי קודם).

יכולתם של מודלים אלו לייצר תנועה אנושית אמינה על חומרה נגישה היא הישג משמעותי.

טקסט לדיבור (TTS): שליטה והבעה

גם בתחום ה-TTS, הקוד הפתוח סוגר את הפער. מודל ה-DIA, שהפך לטרנדי במהירות, הוא מודל טקסט לדיבור קוד פתוח שיכול להקשיב להוראות ספציפיות ולהפיק דיבור עם הבעה ורגש.

בעוד שמודלים סגורים כבר עשו זאת, DIA מנגיש את היכולת הזו לכולם, מאפשר שליטה מלאה על הקול והטון, ואף מאפשר הרצה מקומית על המחשב האישי. השוואות למודלים סגורים מובילים מראות ש-DIA יכול להפיק קולות אנושיים יותר עם הבעה עשירה יותר, גם אם לפעמים פחות "נקי" מבחינת ההגייה.

יצירת תמונות: דמויות עקביות ושימושים חדשים

לבסוף, גם בתחום יצירת התמונות אנו רואים חידושים. מודל "Instant Character" מאפשר ליצור דמויות עקביות במחוללי תמונות פשוט על ידי העלאת תמונה אחת. המודל, שהוא בקוד פתוח אך מוגבל כרגע לשימוש אקדמי/חינוכי, מפתיע ביכולתו לשמור על מאפייני הדמות תוך כדי יצירת וריאציות מגוונות.

זהו צעד משמעותי ליצירת סיפורים חזותיים עקביים ואף לשילוב דמויות ספציפיות במודלי יצירת וידאו.

המרוץ נמשך: מה הלאה?

כפי שראינו, בינה מלאכותית בקוד פתוח לא רק מדביקה את הפער, אלא במקרים רבים אף מתחילה להוביל בתחומים ספציפיים. בין אם זה במודלי שפה עוצמתיים, ביצירת וידאו נגישה או בכלי יצירה ייעודיים – הקוד הפתוח פורח.

התפתחות זו נובעת רבות מהיכולת של פרויקטים פתוחים לבנות זה על זה, לשתף ידע וקוד, וליצור קהילה של מפתחים התורמים לקידום התחום כולו.

עם זאת, חשוב לזכור שפרופילציה (שילוב כלים ויכולות שונות) ובניית ארכיטקטורות חדשות יהיו המפתח להתקדמות עתידית, ולא רק הגדלת המודלים הקיימים. קראו על מפת הדרכים לעתיד ה-AI.

העתיד של ה-AI נראה פתוח יותר מתמיד. אנו מזמינים אתכם לחקור את הכלים והמודלים שהוצגו כאן ולגלות את היכולות המדהימות שהקוד הפתוח מציע.

האם לדעתכם AI פתוח עומד לגבור על קוד סגור? שתפו אותנו במחשבותיכם!

תגובות

יש להתחבר כדי להגיב

טוען תגובות...