New-Tech OnLine | חברת Untether AI חושפת את הדור השני של ארכיטקטורת At-Memory Compute

ארכיטקטורת speedAI מספקת ביצועים של Petaflops 2 ביעילות אנרגטית של TFLOPs/W 30

Untether AI^TM, המובילה בארכיטקטורת חישוב-בזיכרון (at-memory computation) לעומסי עבודה של בינה מלאכותית (AI), הכריזה היום בכנס HOT CHIPS 2022 על ארכיטקטורת הדור הבא שלה, בשם speedAI, להאצת היסקי בינה מלאכותית, הנושאת את שם הקוד הפנימי “Boqueria”. עם ביצועים של TeraFlops 30 לוואט (TFlops/W), ארכיטקטורת speedAI קובעת סטנדרט חדש ליעילות אנרגטית וצפיפות מחשוב.

האתגרים הכרוכים בהאצת היסקי בינה מלאכותית

בינה מלאכותית נמצאת בשימוש בגוון רחב של יישומים ושווקים, מטכנולוגיות Fintech, העיר החכמה, קמעונות, עיבוד שפה טבעית, כלי רכב אוטונומיים ויישומים מדעיים. הגידול המשמעותי בארכיטקטורות רשתות עצביות והדרישות להאצת ביצועי מחשוב, גורמים לגידול בצריכת ההספק של עומסי עבודה של בינה מלאכותית. יישומים תובעניים אלה דורשים רמות דיוק הולכות וגדלות כדי להבטיח בטיחות ואיכות התוצאות. דרישות אלו של גמישות, ביצועים בשילוב עם יעילות אנרגטית ודיוק מחייבות גישה חדשה להאצת בינה מלאכותית , גישה אשר Untether AI מיישמת עם ארכיטקטורת speedAI שהיא מציעה.

"היתרונות בארכיטקטורת compute-at-memory הוכחו עם הדור הראשון של המעבד runAI. ארכיטקטורת speedAI מהדור השני משפרת את יעילות צריכת ההספק, התפוקה, הדיוק והמדרגיות יחסית לדור הקודם", אמר Arun Iyengar, מנכ"ל Untether AI. "ארכיטקטורת SpeedAI מציעה יכולת שאין דומה לה בשוק."

יעילות אנרגטית מניעה ביצועים

מכיוון שארכיטקטורת compute-at-memory מציעה יעילות אנרגטית טובה יותר מארכיטקטורות Von Neumann המסורתיות, ניתן לבצע יותר TFlops עבור מעטפת צריכת הספק נתונה. עם הצגת מעבד הבינה מלאכותית runAI בשנת 2020, Untether AI קבעה רמת יעילות אנרגטית חדשה של TOPs/W 8 עבור סוג הנתונים INT8. ארכיטקטורת

ה-speedAI משפרת באופן דרמטי את צריכת ההספק, ומספקת TeraFlops 30 לוואט (TFlops/W). יעילות אנרגטית זו היא תוצר של ארכיטקטורת at-memory-compute של הדור השני, עם למעלה מ-1,400 מעבדי RISC-V אופטימליים עם הוראות מותאמות אישית, זרימת נתונים חסכונית באנרגיה ואימוץ של סוג נתונים חדש של FP8, כל אלו עוזרים להכפיל את היעילות פי ארבעה בהשוואה ל- runAI, דור המעבדים הקודם.

speedAI240, המעבד הראשון במשפחה החדשה, מספק ביצועי PetaFlops 2 בנתוני FP8 ו- PetaFlop אחד ב- BF16. זה מתורגם לביצועים ויעילות מובילים בתעשייה ברשתות עצביות כמו BERT-base, כאשר המעבד speedAI240 יכול להריץ יותר מ-750 שאילתות לשנייה לוואט (qps/w), פי 15 יותר מ- GPUs מובילים.

מאגר זיכרון מהדור השני – תוכנן לגמישות ויעילות בהאצת אלגוריתמיקה של בינה מלאכותית

לכל מאגר זיכרון בארכיטקטורת speedAI יש 512 יחידות עיבוד עם חיבור ישיר לזיכרון SRAM ייעודי. יחידות עיבוד אלו תומכים בסוגי הנתונים INT8, FP8, INTI ו- FP16, יחד עם מעגלי "גילוי ערכי 0" לשימור אנרגיה.

מסודרת ב-8 שורות של 64 יחידות עיבוד, לכל שורה יש בקר שורה ייעודי משלה וחיבורים המצמצמים פונקציות כדי לאפשר גמישות בתכנות ויעילות במחשוב פונקציות רשת כגון Softmax ו- LayerNorm. השורות מנוהלות על ידי שני מעבדי RISC-V עם למעלה מ-20 הוראות מותאמות אישית המיועדות להאצת היסקי בינה מלאכותית. הגמישות של מאגר הזיכרון מאפשרת לו להסתגל למגוון ארכיטקטורות של רשתות עצביות, כולל רשתות מבוססות קונבולוציה, רשתות מסוג Transformer, וכן רשתות נוירונים להמלצות תוכן ברשת וכן מודלים של אלגברה ליניארית.

FP8 – טיפוס מידע חדש לשיפור הדיוק בהיסקי בינה מלאכותית

בחיפוש אחר יעילות אנרגטית, המחקר של Untether AI קבע ששני פורמטים שונים של FP8 מספקים את התמהיל הטוב ביותר של דיוק, טווח ויעילות. גרסת מנטיסה (mantissa) של 4 סיביות (FP8p עבור "דיוק") וגרסת מנטיסה של 3 סיביות (FP8r עבור "טווח") סיפקו את הדיוק והתפוקה הטובים ביותר להיסקים על פני מגוון רשתות. הן עבור רשתות מבוססות קונבולוציה כמו ResNet-50 והן עבור רשתות transformer כמו BERT-Base, היישום FP8 של Untether AI מביא לאובדן דיוק של פחות מ-1/10 מ-1% בהשוואה לשימוש בסוגי נתונים BF16, עם גידול של פי 4 בתפוקה ובצריכת ההספק.

מדרגיות עבור מודלים גדולים

המעבד speedAI240נועד להתאים למדרגים של מודלים גדולים. ארכיטקטורת הזיכרון היא רב-שכבתית, עם 238MBs של זיכרון SRAM ייעודיים למעבדים המציעים רחב סרט של 1 PetaByte/s, ארבעה זיכרונות מסוג scratchpads בגודל של 1MB, וכן שני ערוצי LPDDR5 ברוחב 64-bit, המציעים זיכרון חיצוני של עד 32GBs. ממשק PCI-Express Gen5 מהיר מחבר בין הרכיבים למחשב המארח.

ערכת פיתוח התוכנה imAIgine תומכת במשפחת speedAI

Untether AI מספקת ערכת פיתוח תוכנה (SDK) בשם imAIgineTM המכילה מגוון כלים למימוש והפעלת רשתות נוירונים בביצועים גבוהים, עם כימות (קוונטיזציה) בלחיצת כפתור, אופטימיזציה, הקצאה פיזית וחלוקה למימוש מרובה שבבים, סימולטור מדויק למחזוריות ואינטגרציה קלה של ממשק runtime API, והוא זמין כעת.

זמינות

מעבדי משפחת speedAI יהיו זמינים ברמת רכיב וכן בכרטיסים בפורמט m.2 ו- PCI Express. דוגמאות של המעבד speedAI240 וכרטיסים המבוססים עליו צפויים להיות זמנים ללקוחות early access ברבעון הראשון של שנת 2023.