סיכום שבוע סוער בעולם הבינה המלאכותית: מודלים חדשים מ-OpenAI, גוגל משיבה מלחמה וחידושים ביצירת וידאו

BlogNavon

עולם הבינה המלאכותית חווה לאחרונה את אחד השבועות הסוערים והמרגשים ביותר בתולדותיו. כמעט מדי יום התבשרנו על הכרזות פורצות דרך וחידושים מסעירים, שמשנים את פני התעשייה בקצב מסחרר. בואו נצלול לעומק האירועים המרכזיים שהפכו את השבוע הזה לנקודת ציון היסטורית.

יום שני: הדמוקרטיזציה של מודלי שפה גדולים עם Alpaca 7B

השבוע נפתח עם בשורה מאוניברסיטת סטנפורד: הצגת מודל Alpaca 7B. מודל זה אומן על 52,000 הוראות, בדומה לאופן אימון GPT-3, אך בזכות מערך נתונים מצומצם משמעותית, הוא קל משקל וניתן להרצה על מחשב מקומי. במבחנים השוואתיים מול כלים כמו GPT-3 ו-ChatGPT, אלפקה הציג ביצועים קרובים להפליא, אך עם דרישות חומרה נמוכות בהרבה.

הפיתוח הזה מסמן צעד חשוב לקראת "דמוקרטיזציה" של מודלי שפה גדולים (LLM). אמנם נדרשה חומרה מתקדמת (כרטיס מסך RTX 4090) ו-3 שעות לאימון באמצעות מודלי Llama ששוחררו לאחרונה, אך הכיוון ברור: העתיד בו כל אחד יוכל להריץ צ'אטבוט אישי, מאומן על נתונים פרטיים, על המחשב האישי שלו – קרוב מתמיד.

יום שלישי: מתקפת הכרזות – גוגל, Anthropic ו-GPT-4

יום שלישי היה עמוס בהכרזות משמעותיות שהאפילו זו על זו:

  • גוגל משלבת AI ב-Workspace:גוגל הכריזה על שילוב יכולות AI מתקדמות, דומות ל-GPT-3, ישירות בתוך כלי Workspace כמו Docs ו-Gmail. בקרוב נוכל לראות השלמה אוטומטית של מיילים ומסמכים, סיוע בכתיבה, סיעור מוחות ועוד. בהמשך, היכולות יורחבו גם ל-Sheets, Slides, Meet וכלים נוספים. המהלך הזה עשוי לייתר חברות סטארט-אפ רבות שבנו כלים סביב יכולות אלו.
  • ממשק PaLM API למפתחים: גוגל פתחה למפתחים נבחרים גישה ל-PaLM API. PaLM הוא מודל מולטי-מודאלי המסוגל להבין טקסט ותמונות יחדיו, בדומה לציפיות המוקדמות מ-GPT-4. פתיחת ה-API תאפשר פיתוח יישומים חדשניים המבוססים על יכולותיו.
  • Anthropic מציגה את Claude: חברת Anthropic, בה גוגל מושקעת, השיקה את Claude, צ'אטבוט מתחרה הזמין כרגע דרך API ומשולב בכלים כמו Poe של Quora ו-Notion AI.
  • השקת GPT-4: גולת הכותרת של היום ושל השבוע כולו. OpenAI השיקה את GPT-4, הדור הבא של מודל השפה המוביל שלה. הגרסה החדשה, שהפכה זמינה מיידית ב-ChatGPT למנויים, מציעה שיפורים דרמטיים באיכות התגובות, דיוק גבוה יותר, יכולת עיבוד קונטקסט ארוך יותר, ותמיכה בקלט ויזואלי – כלומר, היכולת "לראות" ולהבין תמונות בנוסף לטקסט. פענוח מודלי הבינה המלאכותית של OpenAI מעולם לא היה מרתק יותר.
  • מיקרוסופט מאשרת: Bing כבר משתמש ב-GPT-4: באותו יום, מיקרוסופט אישרה כי מנוע החיפוש Bing החדש רץ על גרסה מוקדמת ומותאמת אישית של GPT-4 כבר חמישה שבועות.

יום רביעי: Midjourney V5 משנה את חוקי המשחק ביצירת תמונות

ביום רביעי, תשומת הלב עברה לעולם יצירת התמונות עם ההכרזה על Midjourney V5. הגרסה החדשה מציעה קפיצת מדרגה ביצירת תמונות פוטו-ריאליסטיות, שיפור משמעותי (אם כי עדיין לא מושלם) ביצירת ידיים, תכונת "ריצוף" (tiling) ליצירת דפוסים חלקים, והחזרת האפשרות לקביעת משקולות לתמונות.

השינוי המעניין ביותר הוא באופן כתיבת ההנחיות (prompts): המודל החדש מבין טוב יותר שפה טבעית ומשפטים מלאים, בדומה לאינטראקציה עם צ'אטבוט. שינוי זה עשוי להקל על שילוב Midjourney עם כלים כמו GPT-4 ליצירת הנחיות מורכבות. בנוסף, נרמז על פיתוח API עתידי, שיפתח אפשרויות לשילוב Midjourney במוצרים ושירותים אחרים – צעד חשוב לקראת יצירת API משלכם ליצירת תמונות.

יום חמישי: מיקרוסופט מציגה את 365 Co-pilot ו-Baidu מאכזבת

מיקרוסופט המשיכה במתקפת ה-AI והכריזה על 365 Co-pilot. בדומה למהלך של גוגל, מיקרוסופט משלבת בינה מלאכותית בכל סוויטת כלי 365: Word, Excel, PowerPoint, Outlook ו-Teams. החידוש המרכזי הוא Business Chat – כלי צ'אט המאגד מידע מכל יישומי מיקרוסופט של המשתמש ומאפשר לשאול שאלות ולקבל תשובות מבוססות על הנתונים האישיים (מיילים, פגישות, מסמכים, שיחות). זהו צעד משמעותי לקראת בינה מלאכותית שהיא לא רק צ'אט, אלא חלק אינטגרלי מעולם האוטומציות והאינטגרציות.

באותו יום, חברת Baidu הסינית השיקה את Ernie, המתחרה שלה ל-ChatGPT, אך ההשקה נחשבה למאכזבת. ההדגמה לא הייתה חיה אלא מבוססת על סרטונים ערוכים מראש, מה שלא הרשים את המשקיעים ומניית החברה צנחה.

מבט לעתיד: כנס GTC ורמזים מ-Stability.ai

השבוע המטורף הזה הוא רק ההתחלה. השבוע הבא יתקיים כנס GTC של Nvidia, המוגדר כ"כנס לעידן ה-AI והמטאוורס", וצפויות בו הכרזות נוספות. במקביל, עימאד מוסטאק, מייסד Stability.ai (החברה מאחורי Stable Diffusion), רמז על הכרזות גדולות נוספות הצפויות בקרוב, גם לאחר השקת Midjourney V5 המרשימה. ייתכן שמדובר ב-Stable Diffusion 3.0 או בשיפורים אחרים. מפת הדרכים לעתיד הבינה המלאכותית מתעצבת לנגד עינינו.

אין ספק, אנו חיים בתקופה מרתקת של התפתחויות טכנולוגיות מסחררות בתחום ה-AI. המהירות שבה התחום מתקדם מבטיחה עוד חידושים והפתעות רבות בעתיד הקרוב.

תגובות

יש להתחבר כדי להגיב

טוען תגובות...