OpenAI משיקה את O3 ו-O4 Mini: עידן חדש של AI עם יכולות סוכן ושימוש בכלים

CyberGeek
OpenAI משיקה את O3 ו-O4 Mini: עידן חדש של AI עם יכולות סוכן ושימוש בכלים

OpenAI חושפת את מודלי O3 ו-O4 Mini: הדור הבא של בינה מלאכותית

חברת OpenAI הכריזה על שני מודלי שפה חדשים ופורצי דרך: O3 ו-O4 Mini. מודלים אלו מייצגים, לדברי החברה, את המודלים החכמים ביותר שהשיקה עד כה, ומסמנים קפיצת מדרגה משמעותית ביכולות של ChatGPT עבור כלל המשתמשים.

הדגש המרכזי: יכולות סוכן ושימוש בכלים (Tool Use)

החידוש המרכזי במודלים אלו, ואולי חוק סקלביליות (Scaling Law) חדש בפני עצמו, הוא היכולת המובנית והמלאה שלהם להשתמש בכלים באופן אוטונומי ויעיל. בניגוד למודלים קודמים ממשפחת O, שהיו צריכים לעבור התאמות כדי להשתמש בכלים, O3 ו-O4 Mini מגיעים עם יכולת זו "מהקופסה" ומפגינים מיומנות גבוהה בכך.

OpenAI מדגישה כי אלו המודלים הראשונים שהיא משחררת המסוגלים להגיע לרעיונות חדשניים באמת (Truly Novel Ideas), תכונה הנחשבת לקריטית בדרך לפיתוח אינטליגנציה מלאכותית כללית (AGI) המסוגלת לשפר את עצמה באופן איטרטיבי.

חשוב לציין שמודלים אלו הם רב-מודאליים (multimodal): הם מסוגלים לקבל קלט במגוון פורמטים (טקסט, תמונות, אודיו) וגם לייצר פלט רב-מודאלי.

באופן מעט מבלבל אך עקבי עם שיטת השמות של OpenAI, מודל O3 הוא למעשה המודל המתקדם יותר כרגע, בעוד O4 Mini מציע חלופה. ניתן לשער כי מודל O4 מלא, כאשר יושק, יהיה המתקדם מכולם. קראו עוד על פענוח המודלים של OpenAI.

הדגמה: שימוש איטרטיבי בכלים במשימה מורכבת

בהדגמה חיה, הוצגה יכולתו של O3 להתמודד עם משימה מדעית מורכבת: ניתוח פוסטר אקדמי ישן בנושא פיזיקת חלקיקים, איתור נתונים רלוונטיים, השוואתם לספרות עדכנית ואף השלמת חישובים שלא הופיעו בפוסטר המקורי. הדבר המרשים ביותר היה לא רק השימוש בכלי אחד, אלא היכולת האיטרטיבית של המודל לנסות כלים שונים (ניתוח תמונה, חיפוש ברשת, ביצוע חישובים) כדי להגיע לפתרון. התנהגות זו מזכירה מאוד יכולות של "סוכנים" אוטונומיים.

גרג ברוקמן מ-OpenAI ציין כי למרות היכולות המתקדמות, בבסיס עדיין מדובר במודל המנבא את הטוקן הבא, מה שמרמז כי החברה מאמינה שעדיין לא הגיעה לקצה גבול היכולת של ארכיטקטורה זו. הפיתוח ממשיך להתמקד בשני סוגי סקלביליות: שיפור האימון המקדים (pre-training) ושיפור האימון שלאחר מכן באמצעות למידת חיזוק (post-training). ניתן לראות ביכולת השימוש בכלים חוק סקלביליות שלישי בפני עצמו.

ביצועים במדדי ביצועים (Benchmarks)

המודלים החדשים מציגים שיפורים מרשימים במגוון מדדי ביצועים מהקשים בעולם:

  • מתמטיקה (Amy 2024/2025): קפיצות משמעותיות ביחס ל-O1, כאשר O4 Mini (ללא כלים) מגיע ל-93% ו-92% בהתאמה.

  • תכנות (Codeforces):O3 ו-O4 Mini (עם גישה לטרמינל) מגיעים לניקוד של 2700, הממקם אותם ב-Top 200 המתכנתים בתחרות זו בעולם.

  • שאלות מדע ברמת PhD (GPQA Diamond): שיפור נאה לעומת O1.

  • הבנה והסקה (Humanity's Last Exam): שיפור משמעותי, במיוחד כאשר המודלים מקבלים גישה לכלי Python וגלישה. O3 עם כלים מגיע ל-25%.

  • משימות הנדסת תוכנה בעולם האמיתי (Sui Lancer):O3 הראה פוטנציאל רווח של $65,000 (לעומת $28,500 של O1), ו-O4 Mini הראה $56,000.

  • תיקון באגים בקוד (Swebench Verified):O3 קופץ ל-69% (מ-48% של O1), ו-O4 Mini ל-68%.

  • עריכת קוד (Aider Polyglot):O3 מראה ביצועים גבוהים יותר באופן משמעותי.

  • הבנת הוראות ושימוש אג'נטי בכלים:O3 מוביל בבירור על פני שאר המודלים.

תיאוריה על מקור המודלים

קיימת סברה כי מודלי O3 ו-O4 Mini אינם מודלים נפרדים לחלוטין, אלא "תמונות מצב" (checkpoints) שונות של מודל GPT-5 הנמצא בתהליך אימון מתמשך. לפי תיאוריה זו, OpenAI ממשיכה לאמן את GPT-5, ובכל פעם שהיא מגיעה לנקודת ביקורת משמעותית ובוחנת את ביצועיה, היא מופתעת לטובה מהשיפורים המתמשכים. את אותן נקודות ביקורת מוצלחות היא אורזת כמודלי O השונים (O3, O4 Mini וכו') ומשחררת אותם, תוך יישום למידת חיזוק נוספת כדי לכוונן את יכולות ה"חשיבה" והשימוש בכלים.

יעילות ועלות

דגש משמעותי נוסף בהשקה זו הוא על יעילות ועלות. בדומה למודל GPT-4.1 שקדם להם, O3 ו-O4 Mini מציעים ביצועים טובים יותר בעלות נמוכה יותר או דומה למודלים מהדור הקודם. גרפים שהוצגו מראים כי ביחס לעלות ההסקה (inference cost) המשוערת, המודלים החדשים מספקים שיפור ניכר בביצועים במדדים כמו Amy ו-GPQA. זהו מהלך אסטרטגי חכם, שכן עלות היא שיקול מרכזי עבור מפתחים וארגונים הבוחרים על איזה מודל AI לבסס את הכלים שלהם. קראו עוד על ייעול עלויות ב-AI.

ההפתעה הנוספת: CodeX CLI

לצד המודלים החדשים, OpenAI שחררה פרויקט קוד פתוח חדש ומסקרן בשם CodeX CLI. זהו למעשה כלי תכנות אג'נטי (agentic coding) הפועל בשורת הפקודה (console) המקומית, ומאפשר למודלים של OpenAI (כמו O3 ו-O4 Mini) לבצע משימות תכנות מורכבות ישירות על המחשב של המשתמש.

CodeX CLI יכול לקרוא ולכתוב קבצים, להריץ פקודות (במצב "auto mode", בזהירות הנדרשת), ולנצל את מלוא יכולות ההבנה הרב-מודאלית, השימוש בכלים והחשיבה של המודלים החדשים כדי לעבוד עם סביבת הפיתוח ובסיס הקוד של המשתמש. הכלי נראה דומה מאוד ל-Claude Code של אנת'רופיק ומהווה תחרות ישירה עבורו.

סיכון הפלטפורמה (Platform Risk)

שחרור CodeX CLI מדגים תופעה מוכרת בעולם הטכנולוגיה המכונה "סיכון פלטפורמה". כאשר מפתחים בונים כלים ושירותים על גבי פלטפורמה של חברה אחרת (במקרה זה, המודלים של OpenAI), הם תמיד חשופים לסיכון שהחברה בעלת הפלטפורמה תחליט להיכנס לאותו שוק ולבנות מוצר מתחרה, תוך ניצול היתרונות המובנים שלה. CodeX CLI, למרות שמוגדר כרגע כ"פרויקט ייחוס" (reference project), מסמן כניסה של OpenAI לתחום כלי הפיתוח האג'נטיים, מה שעלול לאיים על חברות סטארט-אפ וכלים קיימים בתחום.

המלצה למפתחים היא לגוון את התלות בספקי מודלים ולא להסתמך באופן בלעדי על פלטפורמה אחת, וכן לשקול שימוש בפתרונות קוד פתוח.

יוזמת מענקים ותמיכה

כדי לעודד שימוש ב-CodeX CLI ובמודלים החדשים, OpenAI משיקה יוזמה בהיקף של מיליון דולר לתמיכה בפרויקטים. מענקים בסך 25,000 דולר (בצורת קרדיטים ל-API) יוענקו לפרויקטים נבחרים.

זמינות

  • משתמשי Plus, Pro ו-Team יכולים להתחיל להשתמש ב-O3, O4 Mini ו-O4 Mini High החל מהיום, והם מחליפים את מודלי O1, O3 Mini ו-O3 Mini High הקודמים בבורר המודלים.

  • משתמשי Enterprise ו-EDU יקבלו גישה תוך שבוע.

  • משתמשים בחינם יכולים לנסות את O4 Mini על ידי בחירת האפשרות "Think" לפני שליחת שאילתה.

  • מגבלות השימוש (Rate limits) נשארות ללא שינוי.

השקת O3, O4 Mini ו-CodeX CLI מסמנת צעד משמעותי נוסף בהתקדמות הבינה המלאכותית, עם דגש חזק על יכולות אוטונומיות, שימוש יעיל בכלים ואינטגרציה עמוקה יותר עם סביבת העבודה של המשתמש.

תגובות

יש להתחבר כדי להגיב

מערכת התגובות מאתחלת, אנא המתן...

בודק חיבור לשרת...

    OpenAI משיקה את O3 ו-O4 Mini: עידן חדש של AI עם יכולות סוכן ושימוש בכלים