חדשות היום
אינטל Intel

עיבוד תמונה בתחום המכ”ם זוכה להאצת מהירות בזכות Intel® Advanced Vector Extensions

אריק וינשטיין

חברת NASoftware בע”מ זכתה ביתרונות ביצועיים משמעותיים בזכות האופטימיזציה של פונקציות VSIPL עבור Intel® AVX

סקירה כללית
המגמה הנעה לעבר מחשוב עתיר פעולות בנקודה צפה נמצאת בעלייה ברחבי המגזרים התעשייתיים, ומניעה את הדרישה לביצועי מחשוב משופרים. ניתן להבין באופן ברור את המגמה הזו ביישומים למטרות כלליות, כמו למשל עיבוד תמונה, עיבוד וידיאו ועיבוד אודיו, וכן גם ביישומים הנדסיים מורכבים, לרבות יצירת דגמים תלת ממדיים וניתוח שלהם, הדמיות מדעיות, ניתוחים פיננסיים ומחשוב ברמת ביצועים גבוהה (HPC).
ההרחבות Advanced Vector Extensions (הרחבות וקטוריות מתקדמות – AVX) של ®Intel מספקת תשתית ובלוקי בנייה שמאפשרים עמידה בדרישות הביצועים המתפתחות. Intel® AVX היא קבוצה חדשה של פקודות ב-256 סיביות שפותחה על ידי ®Intel לטובת יישומים עתירי נקודה צפה. כתוספת להרחבות SSE (הרחבות SIMD זורמות של ®Intel), הרחבות Intel® AVX יצאו לשוק כחלק מ-2nd generation Intel® CoreTM processor-based microarchitecture (ארכיטקטורת המיקרו מדור 2 מבוססת מעבדי CoreTM של ®Intel) עבור פלטפורמות משובצות. הרחבות Intel® AVX משפרות את ביצועי התוכנה באמצעות ווקטורים רחבים יותר, תחביר (syntax) חדש שניתן להרחבה ופונקציונליות עשירה.
חברת NASoftware, שהיא חברת תוכנה מבריטניה המתמחה בספריות, באלגוריתמים ובשירותים של עיבוד אותות ספרתיים (DSP) מותאמים באופטימיזציה, מנצלת את היתרונות של הרחבות Intel® AVX כדי לאפשר ביצועים משופרים ביישומים של עיבוד תמונה בתחום המכ”ם. כלי התוכנה המתקדם ביותר של החברה הוא אחת הספריות הראשונות לעיבוד תמונה באותות ווקטוריים (VSIPL) שמותאמת באופטימיזציה להרחבות Intel® AVX, ומעניקה ליצרני המעגלים המשובצים ולמשתמשי הקצה גישה לרמת ביצועים, אשר כיום לא ניתן להשיגה במקום אחר.
הספרייה החדשה של NASoftware מאופשרת הרחבות AVX – מימוש מלא של התקן התעשייתי VSIPL בריבוי תהליכונים (multithreaded) המותאם באופטימיזציה במידה רבה – מניבה תוצאות מרשימות בפלטפורמות המתקדמות ביותר של ®Intel בעלות ריבוי ליבות. מבחני ביצועים מראים שהרחבות Intel® AVX יכולות להאיץ חלק מהפונקציות הנפוצות לעיבוד תמונות מכ”ם, עד כדי פי שניים בהשוואה להרחבות SSE. לפי חברת NASoftware, המהירות הגבוהה יותר, המתאפשרת בצריכת הספק נמוכה יותר, מהווה שינוי גדול ביותר עבור יישומי מכ”ם שבהם נדרש לעבד כמויות גדולות מאוד של נתונים מורכבים בזמן אמת. החברה מכירה גם בעובדה שההתקדמות המהירה לאספקת מימוש VSIPL המותאם באופטימיזציה להרחבות AVX ללקוחות, מסייעת בהשגת יתרון תחרותי ליישום בשוק הדורשני.

האתגר: עיבוד אלגוריתמים מורכבים בזמן אמת
תהליך עיבוד תמונת מכ”ם, מעצם טבעו, עמוס ביותר מבחינה חישובית. דופק (pulse) של אות אנלוגי (בתדר רדיו) נשלח, ולאחר מכן, האות המוחזר נקלט ומומר לאות ספרתי להקלה על הניתוח. האות הספרתי מורכב בדרך כלל ממספרים מרוכבים בתבנית של נקודה קבועה, אך בעיקרו של דבר, כל אלגוריתם לעיבוד אותות מכ”ם ממיר באופן מיידי את נתוני הקלט לתבנית של נקודה צפה, לפני שהוא מעבד אותם. פעולה זו נעשית על מנת לשמור על הדיוק – שהוא הכרחי עבור יישומי מכ”ם.
האתגר הגדול הוא לגרום לאלגוריתמים בעלי דיוק גבוה ועתירי חישובים לפעול בזמן אמת, כדי שיעמדו בקצב הפעולה והמהירות של המכ”ם. מאחר שהמכ”ם פולט באופן קבוע כמויות עצומות של נתונים מורכבים ומאחר שלכל הנתונים האלו נדרשות כמויות גדולות ביותר של עיבוד, מהירותה של יכולת החישוב הופכת להיות קריטית. לכן, ככל שהחומרה תוכל לפעול מהר יותר, כך אפשר יהיה לממש בה אלגוריתמים רבים יותר ולבצע יותר חישובים בזמן אמת.
(NASoftware (NAS הבינה את האתגר הזה ופיתחה כלים ייחודיים שיענו על הדרישות. NAS, שנוסדה בשנת 1978 כישות עסקית שנפרדה מאוניברסיטת ליברפול, סיפקה בתחילה שירותי ייעוץ למשרד ההגנה הבריטי, בעיקר בתחום של מכ”ם מפתח סינתטי (SAR). לאחרונה התרחבה NAS לתחום של פיתוח ספריות המותאמות באופטימיזציה וכלי תוכנה אחרים לשוקי HPC ועיבוד DSP, כולל VSIPL וספריות ווקטוריות אחרות עבור מעבדים מתקדמים.
VSIPL, שהוא תקן תעשייתי פתוח המשמש ביישומי עיבוד DSP צבאיים בארה”ב ובאירופה, מתוכנן להיות בלתי תלוי (neutral) במעבד, אבל הוא מאפשר ביצוע פעולות אופטימיזציה מקיפות למעבדים מסוימים. לדוגמה, ספריית VSIPL של NAS, מתוכננת לנצל עד תום את היתרונות הטמונים בתכונות SIMD (פקודה יחידה, נתונים רבים) של מעבד המטרה, כמו למשל הרחבות SSE של ®Intel. היא מספקת בדרך כלל האצה של פי שישה עד פי שמונה, בהשוואה למימושים ללא תכונות SIMD. במערכות עם ריבוי ליבות ועם זיכרון משותף, ספריית NAS אשר פועלת בריבוי תהליכונים, מספקת באופן אוטומטי ביצועים בעלי סקאלאביליות (מדורגים) לבעיות היותר רציניות.
לדברי מייק דלבס [Mike Delves], יו”ר חברת NASoftware, המעבדים של חברת ®Intel מהווים בחירה טובה לביצוע אופטימיזציית VSIPL, מפני שהם מספקים ביצועים גבוהים בהספק נמוך. אלו הן דרישות חשובות עבור משתמשי הקצה של ספריות NAS, שהם בעיקר קבלני משנה המפתחים יישומים של עיבוד תמונה למכ”ם ולסונר במערכות הגנה.
“למעבדים של ®Intel, הפועלים במתח נמוך, יש הביצועים הגבוהים ביותר לכל וואט, בסוגים רבים של פונקציות עיבוד אותות,” כך לדברי פרופסור דלבס. “הלקוחות שלנו יודעים זאת והם עוברים לשימוש במעבדים של ®Intel, ולכן הם מעונינים שנספק תמיכה במסגרת הארכיטקטורה של ®Intel.”

הפתרון: ספריית VSIPL מותאמת באופטימיזציה להרחבות Intel® AVX
על מנת לספק מענה לדרישה הקיימת בשוק, הניעה חברת NAS תוכנית פיתוח להרחבות Intel® AVX, על ידי עבודה שבוצעה על דוגמאות ראשוניות של סיליקון עבור ארכיטקטורת 2nd generation Intel® CoreTM processor. היעד היה לספק ליצרני מעגלים פונקציות של ספריית VSIPL לעיבוד אותות המותאמות באופטימיזציה להרחבות Intel® AVX שיעלו בקנה אחד עם הגרסה הראשונית של הדור הבא של מעבדי ®Intel בתחילת שנת 2011.
“כל הלקוחות שלנו מתעניינים מאוד בהרחבות Intel® AVX ומעונינים בספריית VSIPL המותאמת באופטימיזציה להרחבות AVX”, כך לדעתו של פרופסור דלבס. “הספרייה מעניקה להם יתרון תחרותי בשוק העומד לאמץ את הרחבות Intel® AVX מהר ככל האפשר, שכן, הן מהוות שיפור משמעותי ביותר לעומת הרחבות SSE.”
הרחבות Intel® AVX מאיצות את ביצועי החישוב בנקודה צפה על ידי הכפלת הגודל של אוגרי SIMD של הנקודה הצפה (ווקטור) מ-128 סיביות ל-256 סיביות. ביצועים משופרים אלו יכולים להאיץ באופן משמעותי את היישומים הדורשניים של עיבוד אותות ושל עיבוד תמונה, כמו למשל מכשירי מכ”ם בתעבורה אווירית מסחרית, מערכות ניווט מוקשחות ועיבוד תמונה במערכות רפואיות. כאשר קבוצת הפקודות בהרחבות Intel® AVX משמשות עם הרחבות נוספות של ארכיטקטורת 2nd generation Intel® CoreTM processor, הם יכולים לספק שיפור ביצועים המגיע לעד פי שניים בתפוקת פעולות FLOPS (פעולות בנקודה צפה בשנייה).

 

התוצאות: ביצועים משופרים באופן משמעותי
מבחני ביצועים מאמתים זאת. באמצעות גרסת בטא של ספריית VSIPL מותאמת באופטימיזציה להרחבות Intel® AVX, חברת NAS השוותה את הביצועים של הרחבות SSE של כמה פעולות אופייניות של ספריית VSIPL לביצועים שווי הערך בפלטפורמה מאופשרת Intel® AVX (כאשר הקוד של SSE ושל AVX פועל באותה החומרה). המחקר נערך באמצעות אלגוריתמי עיבוד DSP שפותחו על ידי NAS ובאמצעות ספריית IPP (Integrated Performance Primitives) של ®Intel במסגרת סדרה של יחידות מעטפת VSIPL. בטבלה 1 אפשר לראות את יתרונות הביצועים המרביים שהושגו במחקר בהשוואה להאצת המהירות התיאורטית של פי שניים מתוך אוגרי וקטור רחבים יותר. (שים לב שהאחוזים האופטימליים המוצגים בטבלה זו משקפים בדרך כלל אורכי וקטורים קצרים. ככל שאורך הוקטור גדל האחוזים של החטאות בזיכרון מטמון [Cache miss] גדלים ונדרשות פעולות גישה רבות יותר לזיכרון מערכת איטי יותר).
על מנת לראות את תוצאות המחקר שערכה NASoftware לגבי ביצועי VSIPL בפלטפורמות מאופשרות Intel® AVX, הורד את הדוח השלם שכותרתו AVX Optimizations: VSIPL Benchmarks בכתובת www.nasoftware.co.uk/home/attachments/avx_report3.pdf
כחלק ממחקר אחר, NAS בחנה את ביצועי העיבוד של וקטור באלגוריתם לעיבוד מכ”ם באופטימיזציה של AVX בשם SAR/MTI, שהוא אלגוריתם עתיר חישובים ומתקדם למדי המשמש ביישומים מתוחכמים לעיבוד תמונות מכ”ם.
חשוב על תרחיש שבו הוריקן בדרגה 5 פוגע בעיר במלוא העוצמה בחשכת הלילה. גשם זלעפות ורוחות של 100 קמ”ש מקרקעים את המסוקים המשטרתיים, אך מטוס סיור ללא טייס מעביר בזמן אמת תמונות מכ”ם אל מרכז תגובה למצבי חירום ומספק מידע חיוני, שעה שכבישי העיר נחסמים. בזמן שהדיווחים בנוגע לנתיבי פינוי מגיעים, צוותי החירום צריכים לדעת אם מכוניות יכולות עדיין לעבור בצמתים מסוימים. בתרחיש כזה, אפשר להשתמש באלגוריתם SAR/MTI, על מנת להפיק נתונים ברזולוציה גבוהה בנוגע לתוואי הקרקע, לשלב אותם עם המקומות שבהם נמצאים כלי רכב איטיים וכלי רכב מהירים באזורים מסוימים של אזור האסון, ולהפיק מפה מפורטת בזמן אמת של דרכים שעלולות להיות חסומות.
כפי שאפשר לראות בטבלה 2, המחקר של NAS מצא שמעבד המכ”ם SAR/MTI בגרסה המותאמת באופטימיזציה להרחבות Intel® AVX פועל במהירות שהיא כפולה כמעט מזו שבה פועלת הפלטפורמה של ®Intel בעלת הליבה הכפולה, בגרסה שאינה מותאמת באופטימיזציה, ובמהירות שהיא פי שניים וחצי כמעט בפלטפורמה של ®Intel בעלת ארבע ליבות. חברת NAS מבצעת בטבלה השוואה בין פלטפורמה מאופשרת הרחבות Intel® AVX לפלטפורמה מאופשרת הרחבות SSE של ®Intel שפועלות באותה תדירות פעולה. יש לציין שלפלטפורמה מאופשרת AVX יש שתיים או ארבע ליבות פיסיות. לפלטפורמה מאופשרת SSE יש שתי ליבות פיסיות וארבע ליבות עם ריבוי תהליכונים (hyper threading).

טבלה 1. שיפורי הביצועים המרביים המושגים באמצעות הרחבות Intel® AVX לעומת הרחבות SSE

 

טבלה 2. השינוי בביצועים ביישום מכ”ם ממשי

תגובות סגורות