מודלי העולם בפלטפורמת Cosmos, מודלי בינה מלאכותית פורצי דרך ש״מבינים״ את התכונות הפיזיות של העולם האמיתי, יסייעו לקצר את זמני הפיתוח של מערכות בינה מלאכותית פיזית כמו מכוניות אוטונומיות ורובוטים. בנוסף, שורה של כלים שהציגה NVIDIA בתחום ה-Agentic AI יחוללו מהפכה במגוון תעשיות – מענף הייצור ועד לעולם הספורט
תערוכת CES, לאס וגאס, 6 בינואר 2025: חברת NVIDIA הכריזה היום עלNVIDIA Cosmos , פלטפורמת תוכנה חדשה המציעה מודלי עולם (World Foundation Models) פורצי דרך, כמו גם משאבים נוספים, שמטרתה לקדם ולפשט את הפיתוח, האימון והבדיקה של מערכות בינה מלאכותית פיזית (Physical AI), כגון רכבים אוטונומיים ורובוטים.
World Models הם מודלי בינה מלאכותית “המבינים” את התכונות הפיזיות והדינמיקה של העולם האמיתי, כולל חוקי הפיזיקה ומאפיינים מרחביים, שמסוגלים לחזות תוצאות מדויקות ודינמיקה כמו תנועה, כוח ויחסים מרחביים על סמך טקסט, תמונה, וידאו או נתוני חיישנים. עם היכולת ליצור, לאצור ולקודד נתוני וידאו ונתוני חיישנים, מפתחים המשתמשים ב-World Models יכולים לבנות סביבות סימולציה וירטואליות כדי לייעל, להרחיב ולהאיץ תהליכי אימון של מכונות אוטונומיות, ולגרום להן “לחוש” ו”לתפוס” את העולם האמיתי, ולקיים אינטראקציה עם סביבתם הדינמית.
פלטפורמת NVIDIA Cosmos, שכוללת גם כלי מתקדם להפיכת הדאטה לטוקנים (Tokenizer), כלי בטיחות (Guardrails) למודלי AI, וסביבת עבודה מואצת עבור עיבוד וידאו, מגיעה במודל פתוח כך שמפתחים יכולים להתאים את מודלי העולם לצרכיהם, עם מערכי נתונים שונים כגון הקלטות וידאו של נסיעות רכב אוטונומי או לוגים של רובוטים המנווטים במחסן, בהתאם לדרישות של יישום היעד שלהם.
מייסד ומנכ”ל אנבידיה, ג’נסן הואנג, הכריז על NVIDIA Cosmos במהלך ה-Keynote שלו בכנס CES, שם שיתף בהכרזות נוספות כחלק מהמהלך של החברה להרחיב את השילוב של פלטפורמת ה”תאומים הדיגיטליים” NVIDIA Omniverse ביישומי AI פיזיים (Physical AI) – פיתוח רובוטים ומכונות אוטונומיות, כדי לאפשר למפתחים להאיץ את העידן הבא של AI תעשייתי.
מודלי בינה מלאכותית המצייתים לחוקי הפיזיקה (Physical AI Models) הם יקרים ומורכבים לפיתוח מאחר שהם דורשים כמויות אדירות של נתונים מהעולם האמיתי, בדיקות רבות, וכוח מחשוב עצום. המודלים בפלטפורמת NVIDIA Cosmos מאפשרים למפתחים ליצור בקלות כמויות אדירות של נתונים סינתטיים מבוססי פיזיקה כדי לאמן, לבחון ולהתאים את המודלים הקיימים שלהם לצרכיהם.
“רגע ה-ChatGPT של הרובוטיקה מגיע”, אמר הואנג על הבמה. “כמו מודלי שפה גדולים, World Foundation Models הם הכרחיים לקידום ופיתוח רובוטים ומכוניות אוטונומיות. אך לא לכל המפתחים יש את המומחיות והמשאבים הנדרשים לאמן מודלים בעצמם. יצרנו את NVIDIA Cosmos כדי לחולל דמוקרטיזציה בתחום ה-Physical AI, ולהנגיש את תחום הרובוטיקה לכל מפתח״. לדברי הואנג, ״בינה מלאכותית פיזית תחולל מהפכה בתעשיות הייצור והלוגיסטיקה – שוק שנאמד בכ-50 טריליון דולר. כל מה שזז – ממכוניות ומשאיות ועד למפעלים ומחסנים – יהיה רובוטי ומבוסס AI. מערכת ההפעלה לתאומים דיגיטליים מבוססת NVIDIA Omniverse ו-NVIDIA Cosmos ישמשו כבסיס לדיגיטציה של התעשיות הפיזיות”.
המודלים ב-פלטפורמתNVIDIA Cosmos יהיו זמינים תחת רישיון פתוח (Open Model License) כדי להאיץ את העבודה של קהילת מפתחי הרובוטיקה והמכוניות האוטונומיות. מפתחים יכולים לבחון את המודלים הראשונים בקטלוג ה-API של אנבידיה, או להוריד את חבילת המודלים ותשתיות האופטימיזציה (Fine-tuning) מקטלוג המודלים NVIDIA NGC או מ-Hugging Face.
פלטפורמת NVIDIA Cosmos, יחד עם משאבים חדשים הזמינים ב-NVIDIA Omniverse יוצרים מנוע שמסוגל לייצר כמויות עצומות של דאטה סינתטי מציאותי וניתן לשליטה. מפתחים יכולים ליצור תרחישים בתלת-ממד על גבי Omniverse ולהפוך אותם לפלטי וידאו מציאותיים. בפלטי הווידאו הללו ניתן להשתמש באמצעות הנחיות טקסטואליות כדי ליצור אינספור סביבות סינתטיות ותרחישים שונים לצורך מחקר ואימון יישומי Physical AI. כך ניתן, למשל, ליצור קטעי וידאו מציאותיים המבוססים על צירוף של טקסט, תמונה, וידאו או נתונים חיישנים, כדי לאמן מודלי Physical AI עבור סביבות תעשייתיות – מחסנים או מפעלים, או תרחישי נסיעה ותנאי דרך מגוונים וקיצוניים לאימון רכבים אוטונומיים בבטיחות ויעילות.
חברות רובוטיקה ויצרניות רכב מובילות הן המאמצות הראשונות של פלטפורמת NVIDIA Cosmos. בין היתר, חברת הרובוטים 1X תשתמש בכלי המרת הטוקנים שבפלטפורמה כדי לשפר תהליכי פיתוח. יצרנית הרכב XPENG תשתמש בפלטפורמה כדי להאיץ את הפיתוח של הרובוט ההומנואידי (דמוי אדם) שלה.
חברות הרובוטיקה Hillbot ו-SkildAI ישתמשו בפלטפורמה כדי לעקוב במהירות אחר הפיתוח של הרובוטים לשימוש כללי שלהם. Foretellix, ספקית התוכנה הישראלית למכוניות אוטונומיות, תשתמש ב-NVIDIA Cosmos, לצד NVIDIA Omniverse Sensor RTX APIs, כדי להעריך ולייצר תרחישי בדיקות ונתוני אימון בקנה מידה רחב. ענקית שיתוף הנסיעות העולמית Uber תשתף פעולה עם NVIDIA כדי להאיץ את תחום הרכב האוטונומי. מערכי נתונים עשירים לנהיגה של Uber, בשילוב עם הכלים של NVIDIA Cosmos ו-NVIDIA DGX Cloud, יסייעו לשותפיה של אובר בתחום הרכב האוטונומי לבנות מודלי AI עוצמתיים יותר.
הגל הבא באבולוציה של AI – סוכנים חכמים
נושא נוסף שעמד במוקד ההכרזות של אנבידיה בכנס היה Agentic AI – הגל הבא באבולוציה של בינה מלאכותית יוצרת. כלי AI אלה מאפשרים להציע לארגונים הרבה יותר מאשר אינטראקציות פשוטות עם צ’אטבוט כדי להתמודד עם בעיות מורכבות, מרובות שלבים, הדורשות חשיבה ותכנון.
עם סוכני AI מותאמים אישית, ארגונים בכל מגזרי התעשייה יוכלו לייצר אינטליגנציה ולהשיג יעילות חסרת תקדים. סוכני בינה מלאכותית אלה זקוקים למערכת של מגוון מודלי Generative AI שעברו התאמה לפונקציונליות של Agentic AI. המשמעות של המורכבות הזו היא שהצורך במודלי שפה עוצמתיים, ויעילים המתאימים לארגונים מעולם לא היה גדול יותר.
כדי לספק את הבסיס ל-Agentic AI בארגונים, אנבידיה מכריזה היום על משפחה חדשה של מודלי שפה גדולים מסדרת Llama Nemotron ו-Cosmos Nemotron. מבוססים על Llama, המודלים החדשים יכולים לעזור למפתחים ליצור ולפרוס סוכני AI במגוון יישומים – כולל שירות לקוחות, זיהוי הונאות, אופטימיזציה של שרשרת אספקת המוצרים וניהול המלאי.
שתי משפחות המודלים החדשות – NVIDIA Cosmos Nemotron עבור מודלים ויזואליים (Vison Language Models, VLMs) ו-NVIDIA Llama Nemotron, מגיעות בשלושה גדלים על מנת לאפשר למפתחים להטמיע סוכני AI בכל סקייל:
- Nano – המודל בעל רמת היעילות-עלות הגבוהה יותר, מותאם עבור אפליקציות זמן-אמת עם זמן תגובה נמוך, וייעודי למכשירי קצה (Edge Devices) ומחשבים אישיים.
- Super – מודל בעל רמת דיוק גבוהה המציע קצב תעבורה גבוה במיוחד על גבי GPU יחיד.
- Ultra – המודלים בעלי רמת הדיוק הגבוהה ביותר, מיועדים לאפליקציות בסקייל של מרכז נתונים ודורשים את הביצועים העוצמתיים ביותר.
כיום, יותר מ-1.5 מיליארד מצלמות ארגוניות ותעשייתיות הפרוסות ברחבי העולם מייצרות בערך 7 טריליון שעות של וידאו בשנה. עם זאת, ההערכה היא שפחות מ-1% מהסרטונים מהמצלמות התעשייתיות נצפים בשידור חי על ידי בני אדם, נתון שסולל את הדרך לתקלות ותקריות חמורות שהמחיר שלהן יקר: לדוגמה, יצרנים מפסידים טריליוני דולרים מדי שנה בגלל איכות מוצר ירודה או פגמים שהיו יכולים לזהות מוקדם יותר, או אפילו לחזות, על ידי שימוש בסוכני AI עם יכולות תפיסה חזותית מובנית. סוכנים אלה יכולים לשמש כמנתחי וידאו הפעילים תמיד, לשפר יעילות במפעלים ולהפחית בזבוז, לשפר ניהול מלאים במחסנים על ידי הערכות נפח בתלת-ממד, להבטיח את בטיחות העובדים ועוד.
ענף נוסף שבו סוכני בינה מלאכותית לניתוח וידאו עומדים להטביע חותם הוא הספורט – שוק של 500 מיליארד דולר ברחבי העולם, עם צמיחה צפויה של מאות מיליארדים במהלך השנים הקרובות. מאמנים, קבוצות וליגות – מקצועיים או חובבים – מסתמכים על ניתוח וידאו כדי להעריך ולשפר את ביצועי השחקנים, להגביר את הבטיחות ולחזק את מעורבות האוהדים באמצעות פלטפורמות לניתוח ביצועי שחקנים והדמיית נתונים. בעזרת סוכני AI בעלי תפיסה חזותית, לספורטאים תהיה כעת גישה חסרת תקדים לתובנות עמוקות יותר שיסייעו להם לשפר את הביצועים.