העידן של תהליכי היסק

העולם של אינטליגנציה מלאכותית ולימוד מכונה (AI/ ML) מחולק לתחומים שונים. שניים מבין התחומים האלו מייצגים פיצולים בין הדרכה (training) לבין תהליכי היסק (inference), ובין ענן (cloud) לעומת קצה (edge). יש עוד הרבה הבדלים אחרים במשימות של AI/ ML, אך שני פיצולים אלו הם הנושאים העיקריים שבהם נדון במאמר זה. הדרכת AI/ ML מפתחת מודלים שבהם משתמשים תהליכי היסק כדי לזהות כל מה שנדרש לו זיהוי, בין אם מדובר בתעבורה קלה או בתעבורה כבדה בדרך בעיר חכמה, ברמה של הרשאה של תג זיהוי והפנים התואמות שמשמשת לבקרה של גישה מאובטחת, זיהוי של מילים שנאמרות על ידי מי שמתקשר בטלפון למרכז שירות לקוחות או זיהוי של כתובת שנרשמה בכתב יד על מעטפה ונמצאת במרכז מיון של שירות הדואר.

הדרכה מתרחשת בדרך כלל במרכזי נתונים של ארגונים או בענן שבהם נמצאים שרתים רבי יכולת, מקום רב בזיכרון, מאיצי חומרה ורישות מהיר, שמשמשים בעומסי עבודה. בסביבה כזו כמויות עצומות של הספק חשמלי לצורך מחשוב, רישות וקירור משמשות להדרכה, כשהיעד הוא לסיים במהירות. עומסי עבודה של תהליכי היסק יכולים גם להתבצע במרכז נתונים או בענן, אבל באופן גובר והולך, משימות של תהליכי היסק עוברות הגירה אל הקצה, מכמה סיבות.

ראשית, קיים הנושא של זמן המתנה (latency). שינוע נתונים גולמיים חזרה לענן או למרכז הנתונים גוזל זמן. לבצע את תהליך ההיסק גוזל זמן רב עוד יותר, ועוד הרבה יותר מדי זמן נדרש כדי לשנע את התשובה או ההחלטה הרצויות חזרה לקצה. ההחלטות עבור חלק מהמשימות בזמן אמת – לרבות אוטומצית מפעלים, מכ”ם ולוחמה אלקטרונית – הן החלטות שנמשכות זמן רב ויכולות להיות כרוכות בעלויות גבוהות.

שתי הסיבות הנוספות שבגללן עומסי עבודה בתהליכי היסק עוברים המרה לקצה, קשורות בכוח מחשוב ובהספק חשמלי. כאשר עומסי העבודה הנדרשים להיסק בתהליכי AI/ ML מועברים למספר רב של התקני קצה, כוח המחשוב המצטבר של אותם מיליוני מנועים של התקני קצה המשמשים בתהליכי היסק, עולה על כוח המחשוב של שרתים במרכז נתונים יחיד. בנוסף, מנועים בתהליכי היסק קצה לא צורכים כמויות גדולות של הספק חשמלי.

לאחרונה הוכרז על שבבים מענינים רבים עם ארכיטקטורות מחשוב חדשות שמתאימות לטיפול בצרכים הייחודיים של תהליכי היסק בקצה. יצרנים שמים דגש על כמויות החישוב העצומות של teraFLOPS ו- teraOPS- (TFLOPS ו- TOPs) שההתקנים שלהם יכולים להשיג בפחות צריכת הספק. אמנם לעומסי העבודה בתהליכי היסק יש צורך בכמות רבה של TFLOPS ו- TOPS, אך שבבים אלו, שנוצרו במיוחד לתהליכי היסק בקצה, מהווים דרך חד סטרית מבחינת הארכיטקטורה, שיכולה להסתבר כנתיב בלתי רצוי כאשר לוקחים בחשבון עומסי עבודה משולבים של הדרכה ותהליכי היסק.

כיום עומסי עבודה של הדרכה במודל AI/ ML פועלים ביחידות יע”מ (CPU) וביחידות לעיבוד גרפי (GPU) בעלות כוח מחשוב רב, במרכזי נתונים שבהם הן צורכות כמויות גדולות של הספק, ובה בעת ממנפות קירור מתקדם לביצוע אותם טריליונים של חישובים שנדרשים להדרכה של מודלי AI/ ML. הדרכה כזו משתמשת באופן אוניברסאלי כמעט בתבניות נתונים בנקודה צפה עם טווח דינמי מאוד, כדי למקסם את רמת הדיוק במודל, על ידי כך שהיא מאפשרת לערוך התאמה הפרשית זעירה למשקלי המודל. פעולות מחשוב בנקודה צפה צורכות יותר הספק ולכן נדרש להן קירור נוסף. בנוסף, יחידות CPU ויחידות GPU צורכות כמויות משמעותיות של הספק כדי להעביר מערכים גדולים של נתוני הדרכה בין זיכרון לבין יחידות המחשוב הפנימי שלהם.

ברוב השבבים המשמשים בתהליכי היסק בקצה לא ניתן להשקיע את הסיליקון ואת צריכת ההספק הנדרשים כדי לבצע בדיוק מלא את כל החישובים, תוך שימוש בתבניות נתונים של נקודה צפה. במקרים רבים ייעשו פשרות כדי להשיג מדדים בשיא גבוה של TFLOPS ו- TOPS, לעתים קרובות על ידי שימוש בנתונים מדוייקים פחות כדי ליצג משקלים, הפעלות ונתונים של AI/ ML. ייצרנים של שבבי AI/ ML בקצה מספקים כלי תוכנה להקטנת הדיוק של משקלי המודל שבהדרכה, כשהם ממירים את המודלים למספר קטן יותר של תבניות כגון FP8, מספרים שלמים מקוצצים (scaled) או אפילו תבניות נתונים בינאריים. כל אחת מתבניות נתונים מוקטנות אלו מספקת יתרונות לתהליכי היסק בקצה בעומסי עבודה, אבל כל התבניות האלו מאבדות כמות מסוימת של דיוק בשימוש במודלים. שמירה על מודלים של AI/ ML בדיוק מופחת יכולה, לא פעם, לשקם מעט מהדיוק הזה.

כעת, נסה לדמיין שיש לך ארכיטקטורת התקנים ניתנת לשדרוג שאפשר לפרוש אותה בהתקני קצה קטנים ומשובצים ובהתקנים גדולים יותר, שמסוגלים לצבור עומסי עבודה שפועלים במרכז נתונים. אותן אופטימיזציות שמשפרות את צריכת ההספק ואת נצילות העלות בקצה, הן גם אלו שהופכות את המחשוב במרכז הנתונים ליותר דחוס וכדאי מבחינת עלות, ובכך מוקטנים ההון והוצאות התפעול של המתקן, הן עבור תהליכי היסק וגם עבור הדרכה.

ארכיטקטורות ניתנות לשדרוג של מאיצי AI/ ML שתומכות בתבניות בנקודה צפה הן בדיוק מלא וגם בדיוק מופחת, מנפצות את הגבול המלאכותי שבין הדרכה לבין תהליכי היסק ומאפשרות את הפרישה של אותם כלי תוכנה סטנדרטיים מוכרים לארכיטקטורה מאוחדת. מאיצי ה- AI היעילים האלו בקצה, משתמשים בחידושי ארכיטקטורה, כגון רשתות שידור בזרימת נתונים ועל-שבב שמאפשרות להשתמש שימוש חוזר פעמים רבות בנתונים שהובאו מזיכרון חיצוני, מרגע שהובאו אל השבב.

קיימות דוגמאות ממשיות רבות ליישומים שבהם קיום של ארכיטקטורה מאוחדת של זרימת נתונים ניתנת לשדרוג עבור לימוד מכונה, שמנתצת את החומה שבין השלבים הנפרדים של הדרכה ותהליכי היסק. לימוד מכונה שיתופי הוא אחת הדוגמאות האלו, אשר מאפשר שימוש בסוגים חדשים עומסי עבודה של AI/ ML. עבור יישומים מקושרים רבים, לימוד מכונה שיתופי יכול להחליף את הגישה של דרך חד סטרית של מודלים בתהליכי היסק AI/ ML בדיוק מופחת, שנגזרים דרך הדרכה חד פעמית לא מקוונת, ולאפשר ביצועים שעלולים להיות אולי קשים להשגה, מפני שקבוצות שמייצגות הדרכה לא מקוונת, מרכזית אינן זמינות.

לימוד מכונה שיתופי מנצל מאפיין חשוב של תהליכי היסק בקצה, במקום שבו התקנים חשופים לקלט נתונים מגוונים רבים שמתפרשים הרבה מעבר לקבוצות ההדרכה המקוריות של המודל. אם התקני קצה אלו מתוכננים כהלכה, הם יכולים ללמוד מקלט נתונים נוספים אלו ולשפר עוד את דיוק המודל שלהם במהלך פרישת ההתקן. יכולים להיות מאות, אלפים או מיליונים של התקני קצה, שכולם משפרים את אותם מודלים של AI/ ML כדי לספק תשובות או החלטות מקומיות טובות יותר.

למשל, חושב לרגע על סורקי CT או MRI שנוצרו על ידי אותו יצרן שנפרשו בבתי חולים ברחבי העולם. התקני דימות אלו עסוקים לעתים קרובות במשימות של גילוי גידולים סרטניים ובעיות אחרות, ויכולים להשתמש במידה רבה במודלים של AI/ ML כדי לעזור לרדיולוגים לזהות רקמות חשודות. כמו שכל אחד מהמחשבים בשטח משפר את המודל שלו, המודל המקורי שעבר הדרכה שבו משתמשים כדי להכניס לפעולה ציוד דימות חדש יוכל להפיק תועלת מאותם שיפורים, אם ישתמשו בלימוד מכונה שיתופי כדי לעדכן ולשפר את המודל המקורי.

איוו בולסנס [Bolsens Ivo ,] סגן נשיא בכיר, AMD קרדיט: AMD

את העדכונים האלו אפשר לבצע בדרך שמבטיחה שיתוף רק של התובנות שהתקבלו דרך הדרכה מבוססת קצה, ולא של נתונים פרטיים של אדם מסוים. כל המחשבים הפרושים בשטח יכולים להפיק תועלת מלימוד נוסף זה, בלי להתפשר על פרטיות. ללימוד מכונה שיתופי יש אפשרות ליישום רחב בהתאמה אישית של התקנים ששומרים על פרטיות, כאשר את הביצועים של אלגוריתמי ראייה ודיבור אפשר להתאים במיוחד למשתמשים מסוימים. ללימוד מכונה שיתופי יש גם יישומים באבטחת רשתות, כאשר אפשר להשתמש בלימוד המשותף של צומתי חדירה לרשת כדי לגלות כללי אבטחה יוזמת, בלי לשתף תעבורת רשתות פרטיות רגישות.

התועלת הטמונה בארכיטקטורה מאוחדת של מחשוב ענן ומחשוב קצה היא שאפשר לפצל את המודל באופן לוגי כדי שיפעל בענן ובקצה בעזרת קובצי תוכנה בינאריים זהים. הארכיטקטורה המאוחדת מבטיחה את השימוש בתבניות נתונים תואמות וכן, מבטיחה שהאופטימיזציות של תבניות נתונים כגון צורות הצגה של דלילות לא יישברו בין הענן לקצה. ארכיטקטורה מאוחדת שניתנת לשדרוג, ולימוד שמתמשך לאורך כל משך חיי יישום שנפרש, שונים מהדרכה רגילה שנהוגה כיום ומנוהל תהליכי היסק שנשען על יחידות CPU ויחידות GPU במרכז נתונים ובהתקנים מיוחדים בקצה. ועדיין, גישה מאוחדת זו נראית הנתיב הלוגי ביותר אם בתעשייה יש רצון לזכות בתועלת רחבה יותר בביצועים, בדיוק ובנצילות הספק, ככל ש- AI/ ML מחלחל יותר ויותר.

איוו בולסנס [Ivo Bolsens], סגן נשיא בכיר, AMD