ייתכן שזו הפריצה הגדולה ביותר בתחום הבינה המלאכותית (AI) שראינו השנה, ואולי אף נקודת מפנה לקראת השגת סופר-אינטליגנציה. דמיינו לעצמכם מערכת AI הלומדת לחשוב ולהסיק מסקנות באופן עצמאי, והופכת לחכמה במיוחד, ללא כל נתונים חיצוניים. היא מפתחת את האינטליגנציה שלה לחלוטין באופן עצמאי.
בואו נעמיק במחקר פורץ דרך זה, שכותרתו "אפס מוחלט: היסק באמצעות משחק עצמי מחוזק עם אפס נתונים" (Absolute Zero: Reinforced Self-Play Reasoning with Zero Data). אל דאגה אם אתם לא מומחים טכניים, אסביר את המושגים המרכזיים בצורה פשוטה ונגישה. המחקר מציג גישה חדשה ללמידה של מודלי AI בשם "הסבר אפס מוחלט" (Absolute Zero Reasoner), שנראית כמו התקדמות משמעותית בתחום.
איך מודלים של AI לומדים בדרך כלל?
לפני שניכנס לפרטים, חשוב להבין איך מודלי AI לומדים בדרך כלל. גישה נפוצה היא למידה מפוקחת, בדומה להדגמה של כל שלב בפתרון בעיית מתמטיקה לילד. במקרה זה, מספקים למערכת AI את השאלה, שלבי ההיסק המדויקים (שרשרת החשיבה) ואת התשובה הסופית. כלומר, יוצרים מערך נתונים עצום של שאלות, שלבי היסק ותשובות, ומשתמשים בו כדי לאמן את ה-AI. לאחר מכן, ה-AI לומד לחקות את שלבי ההיסק כדי להגיע לתשובה הנכונה.
הבעיה היא שיצירת ערכות נתונים מפורטות כאלה היא תהליך יקר וגוזל זמן רב. בנוסף, מכיוון שמלמדים את המערכת בדיוק איך להסיק מסקנות, היא תהיה טובה רק כמו הדרך בה *אנחנו* חושבים שצריך להסיק מסקנות. מה אם קיימת דרך יעילה יותר שבני אדם טרם גילו?
גישה נוספת היא למידת חיזוק עם תגמולים ניתנים לאימות (RLVR). שיטה זו שימשה בין היתר לאימון מודלים מתקדמים כמו DeepSeek R1. ב-RLVR, במקום "להאכיל בכפית" שלבי היסק ידועים מראש, פשוט מספקים ל-AI שאלה ותשובה, והוא צריך ליצור את שלבי ההיסק בעצמו. אם ה-AI מגיע לתשובה הנכונה, הוא מקבל פרס; אם הוא טועה, הוא לא מקבל פרס.
זוהי מעין לולאת משוב מתמשכת שבה ה-AI צריך ליצור אסטרטגיות היסק שונות כדי למקסם את התגמול שלו, ומכאן המונח "למידת חיזוק". היתרון כאן הוא שה-AI יכול לחקור דרכים שונות לפתרון בעיה, כולל דרכים חדשות ובני אדם אולי לא חשבו עליהן.
חשוב לציין את החלק של "תגמולים ניתנים לאימות" בשם השיטה. ניתן לאמן מודלים אלה רק בנושאים שיש להם תשובה מוגדרת וחד משמעית, כמו מתמטיקה, פיזיקה או תכנות. השיטה לא מתאימה לתחומים סובייקטיביים יותר כמו כתיבה יוצרת. ה-AI צריך להיות מסוגל לאמת בעצמו שהתשובה שלו נכונה. לדוגמה, אם השאלה היא 2 + 4 וה-AI עונה 6, הוא יכול לוודא ש-6 אכן שווה ל-2 + 4.
אולם, גם לשיטה הזו יש מגבלה מרכזית: עדיין יש צורך במערך נתונים עצום ואיכותי של שאלות ותשובות שאוצרו על ידי בני אדם, מה שדורש זמן, מאמץ ומשאבים רבים. בנוסף, ככל שה-AI הופך לחכם יותר, תעולה בעיית מדרגיות: האם בני אדם יוכלו לעמוד בקצב של יצירת שאלות מאתגרות מספיק? מה יקרה כאשר ה-AI יעלה על האינטליגנציה האנושית? ייתכן שהמשימות שאנחנו ממציאים יהיו קלות מדי מכדי להציע שיפורים משמעותיים ל-AI.
לכן, החוקרים הציעו גישה חדשה: להוציא את בני האדם לחלוטין מהתהליך. כאן נכנסת לתמונה השיטה שנקראת "אפס מוחלט".
אפס מוחלט: AI מלמד את עצמו
אפס מוחלט הוא מודל AI שיכול ללמד את עצמו מאפס, ללא נתוני אימון מבני אדם. הוא מייצר את כל נתוני האימון בעצמו. אין שאלות או תשובות שנכתבו על ידי בני אדם, ואין גם הדרכה לגבי איך להסיק מסקנות. ה-AI צריך להבין הכל בעצמו: הוא יוצר את מערך האימונים שלו ואז משתמש בו כדי לנסות לפתור את הבעיה. זוהי גישה דומה לזו של AlphaZero מבית DeepMind של גוגל, שומשה לאימון AI שהגיע לרמה עולמית במשחקים Go, שחמט ושוגי. AlphaZero מעולם לא קיבל נתונים אנושיים; הוא פשוט למד לשחק את המשחקים האלה על ידי משחק של מיליוני סיבובים נגד עצמו ושיפור חוזר ונשנה. בסופו של דבר, הוא הגיע לרמה על-אנושית.
ההבדל הוא שהסבר אפס מוחלט, במקום להתמחות במשחקי לוח מסוימים, לומד להסיק מסקנות ולפתח אינטליגנציה כללית.
באופן כללי, ה-AI מחולק לשני חלקים נפרדים: "מציע" (Proposer) שיוצר את המשימות, ו"פותר" (Solver) שמנסה לפתור אותן. אפשר לחשוב על זה כמו על חלוקה בין מורה לתלמיד, כאשר המורה ממציא כל הזמן שיעורים ומבחנים כדי שהתלמיד ילמד ויתרגל.
ה"מציע" מייצר משימה, והמשימה הזו עוברת דרך "סביבה" (environment). הסביבה מעריכה ומאמתת את המשימה והופכת אותה לבעיה מתאימה (X) ולתשובה ניתנת לאימות (Ystar). Ystar היא התשובה הנכונה לבעיה, בדומה ללמידת חיזוק עם תגמולים ניתנים לאימות. חשוב לזכור שהארכיטקטורה הזו עובדת רק עם נושאים שיש להם פתרונות ניתנים לאימות כמו תכנות, מתמטיקה ופיזיקה. ה-AI צריך להיות מסוגל לקחת את התשובה ולאמת בעצמו שהיא נכונה.
בנוסף לשאלה ולתשובה, ה"מציע" מקבל גם תגמול, בהתבסס על האיכות של הפלט שלו. כלומר, הוא מקבל תגמול על יצירת שאלות או דוגמאות למידה טובות. השאלה (X) מוזנת לאחר מכן ל"פותר", שמנסה ליצור תשובה משלו (Y). ה-Y הזה מוזן לאחר מכן לסביבה, שבודקת אם זו התשובה הנכונה על ידי השוואתה ל-Ystar. אם ה"פותר" מגיע לתשובה הנכונה, הוא מקבל תגמול, ואז התהליך חוזר על עצמו.
שימו לב שזוהי לולאה אינסופית. בקיצור, הנה כל המחזור: ה"מציע" ממציא שאלות ותשובות ומתוגמל על כך שהוא מציע דוגמאות טובות ללמידה. השאלות מועברות ל"פותר", שצריך לפתור אותן בעצמו ומתוגמל אם הוא עונה נכון. המחזור הזה פשוט ממשיך לחזור על עצמו. בתיאוריה, ה-AI הזה יכול להפוך לחכם יותר ויותר בעצמו עם הזמן, כלומר מדובר במערכת AI שמשפרת את עצמה.
בהמשך המחקר, החוקרים מפרטים את סוגי המשימות שהם ביקשו מהמודלים ליצור. אפשר לחשוב על זה כמו על תוכנית לימודים, המתמקדת בשלושה סוגים בסיסיים של היסק: דדוקציה, אינדוקציה וחטיפה. נסביר בקצרה מה כל אחת מהמשימות האלה אומרת במונחים פשוטים, באמצעות תכנות כדוגמה: משימת תכנות מחולקת לשלושה רכיבים: קלט (לדוגמה, המחרוזת "שלום עולם"), תוכנית (קוד שמקבל את הקלט ומעבד אותו, למשל קוד Python בסיסי שממיר את הקלט לאותיות רישיות) ופלט (המחרוזת "שלום עולם" באותיות רישיות).
משימת דדוקציה היא כאשר ה-AI מקבל קלט ותוכנית, והוא צריך לנחש מה יהיה הפלט. במשימת חטיפה, ה-AI מקבל תוכנית ואת הפלט, והוא צריך לנחש מה היה הקלט. משימת אינדוקציה נחשבת למאתגרת ביותר: ה-AI מקבל רק קלט ואת הפלט, והוא צריך להבין את התוכנית או הקוד הדרוש כדי להפוך את הקלט לפלט.
אפס מוחלט אומן על כל שלושת סוגי משימות ההיסק האלה.
עד כמה זה טוב בפועל?
אחרי שכיסינו את הארכיטקטורה, את אופן הפעולה שלה ואת סוגי המשימות שהיא יוצרת ולומדת, בואו נראה עד כמה היא טובה בפועל. ההישגים של אפס מוחלט מרשימים במיוחד ביחס למודלי AI אחרים שאומנו על הרבה נתונים. לדוגמה, מודלים כמו Quen 2.5, ACE coder, code R1 ואחרים אומנו עם מערכי נתונים עצומים של מידע מהעולם האמיתי, או שאלות בתחום המתמטיקה.
לעומתם, אפס מוחלט אומן עם מערך נתונים בגודל אפס. הוא יצר את כל הנתונים בעצמו ולמד הכל באופן עצמאי. מהנתונים המפורטים במחקר עולה, כי מודל Alpha Zero Reasoner משיג ביצועים מתקדמים, ובממוצע עולה על שאר המודלים האחרים ביכולות תכנות ומתמטיקה. זהו הישג יוצא דופן: למרות שלא היו לו נתונים להתחיל איתם, הוא הצליח להגיע לביצועים טובים יותר ממודלים אחרים.
אפס מוחלט הוא אגנוסטי למודלים, כלומר ניתן להוסיף אותו על כל מודל קיים ולשפר את הביצועים שלו. לדוגמה, הוספת אפס מוחלט ל-Llama 3.1 שיפרה את יכולות התכנות והמתמטיקה שלה. תוצאות דומות נצפו גם בשילוב עם מודלי Quen 2.5 שונים, כאשר השיפורים הגיעו לעיתים ליותר מ-13%.
אחד הממצאים העיקריים של המחקר הוא שהשיטה מניבה שיפורים גדולים יותר במודלים גדולים ויכולים – ככל שלמודל הבסיס יש יותר פרמטרים, כך השיפור יהיה גדול יותר. המודל הגדול ביותר שנבדק הוא Quen 2.5 עם 4 מיליארד פרמטרים, שחווה שיפור של 13% בביצועים. אפשר רק לדמיין כמה תגדל האינטליגנציה של מודלים גדולים בהרבה, עם מאות מיליארדים או טריליונים של פרמטרים.
תובנה מעניינת נוספת נוגעת לעיצוב התגמול ל"מציע" (הרכיב שממציא שאלות ומציע פתרונות), רכיב שחיוני להצלחת המודל. אלגוריתם התגמול תוכנן כך שה"מציע" יתוגמל רק עבור יצירת משימות או שאלות שעשויות לעזור ל"פותר" ללמוד משהו שימושי, המאתגרות אך ניתנות להשגה, כך שהמודל יוכל להמשיך ללמוד ביעילות.
התנהגות מעניינת נוספת שנצפתה היא שכאשר ה"מציע" וה"פותר" הפיקו קוד, ה-AI החל להוסיף הערות לאורך הקוד, הערות שלא משפיעות על פעולת הקוד, אלא משמשות כהסברים שלב אחר שלב. החוקרים ציינו שהתנהגות זו דומה להתנהגות שנצפתה במודלים גדולים בהרבה המשמשים להיסק מתמטי מורכב. נראה שהמודל מצא שמועיל לבנות את תהליך פתרון הבעיות שלו עם הערות פנימיות. מעניין לציין, שהסרת ההערות פגעה בביצועים, ולכן נראה שהן תורמות ללמידה, אולי כערוץ תקשורת מועיל בין ה"מציע" ל"פותר".
אולם, עם AI שיכול לשפר את עצמו באופן עצמאי, יש גם מקום לדאגה. אחד מתהליכי החשיבה של ה-AI כלל יצירת פונקציית Python "מגוחכת ומפותלת לחלוטין" שמטרתה "להערים על כל הקבוצות של מכונות אינטליגנטיות ובני אדם פחות אינטליגנטיים", מה שמעלה שאלות בנוגע למניעים שלו. החוקרים עצמם מציינים כי יש צורך בפיקוח כדי למנוע התנהגויות לא רצויות, וכי ישנה אי-בהירות רבה בנוגע לאופן שבו מגדירים את הבטיחות של מודלי AI שיכולים להשתפר בעצמם לאורך זמן. יישור המודלים האלה עם ערכים אנושיים הוא כמובן חיוני, ואסור לתת להם לפעול ללא הגבלה.
לבסוף, החוקרים ניסו להבין אילו סוגי שאלות או נתונים הם החשובים ביותר. הם ערכו מחקרי הסרה שבהם הם הסירו סוגים שונים של שאלות שבהן השתמשו לאימון ה-AI וראו איך זה משפיע על הביצועים. הם גילו שאם מספקים למערכת רק משימות דדוקציה ומסירים משימות אינדוקציה וחטיפה, תהיה ירידה משמעותית בביצועים בתחומי המתמטיקה והתכנות. מכאן, שסוגי משימות שונים מלמדים כישורי היסק משלימים, ושיש לתת למערכת את כל שלושת סוגי המשימות כדי שתלמד ביעילות.
המחקר בחן גם את החשיבות וההשפעה של ה"מציע" על האינטליגנציה של המודל. כאשר ה"מציע" לא אומן כלל, חלה ירידה ניכרת בביצועים בתחומי המתמטיקה והתכנות, כצפוי. מעניין לציין שככל שהארכיטקטורה ממשיכה לפעול, ה"מציע" מייצר שאלות מורכבות יותר ויותר, ובנוסף שואף להציע שאלות של מגוון הולך וגובר.
לפעמים ה"מציע" יצר שאלה או קוד מורכבים בהרבה מהנדרש, בהשוואה למה שה"פותר" היה עשוי לייצר עבור התשובה, כאילו המורה הוסיף בכוונה אתגרים קטנים כדי לגרום ל"פותר" להתאמץ יותר.
אחרי קריאה מעמיקה של המחקר, ניתן להסיק שפריצת הדרך הטמונה באפס מוחלט היא עצומה. נתונים תמיד נחשבו לאחד החסמים העיקריים בהכשרת מודלים טובים ואינטליגנטיים יותר של AI, אולם המחקר מראה שאפשר להגיע לתוצאות מרשימות גם ללא נתונים כלל. המחקר מספק הוכחה למערכת AI שיכולה ללמוד וללמד את עצמה ולשפר את עצמה באופן אוטונומי.
חשוב להיזהר לא לטעון שמדובר במפתח להשגת בינה מלאכותית כללית (AGI) או סופר-אינטליגנציה, אך אין ספק שזהו צעד מבטיח בכיוון הזה, לקראת מודלים של AI שמשיגים אוטונומית אינטליגנציה על-אנושית.
עוד על אפס מוחלט.
בנוסף, תוכלו להכיר את הדור הבא של סוכני AI.
מומלץ לקרוא גם על Agentic RAG.
הנה מאמר על אתגרי ההקשר והחישוב ב-AI.
אולי תרצו לקרוא על מפת הדרכים לעתיד הבינה המלאכותית.
קראו עוד על מודלים גדולים של שפה (LLM).
למידע נוסף על ייעול מודלי שפה גדולים.
תגובות
יש להתחבר כדי להגיב
טוען תגובות...