Freescale Semiconductor Israel

שיפור יעילות ההשוואה של ריבוי כניסות ויציאות אלחוטיות בעזרת מערכת על שבב עם מעבדי DSP מרובים

 Freescale Semiconductor IsraelHaim Cohen, Freescale Semiconductor Israel. מאמר זה מתאר את השימוש במערכת על שבב (SoC) של Freescale עם ליבות עיבוד DSP – StarCore SC3900 – שמשולבות כדי לממש מעגל משווה (equalizer) בטכנולוגיית MIMO (ריבוי כניסות וריבוי יציאות) בגודל 44, עבור תקשורת LTE. הביצועים ישתפרו עוד, כתוצאה משימוש במאיץ יחידת העיבוד על השבב של המעגל המשווה, הפועל במהירות גבוהה.
על מנת לענות על הדרישה המתרחבת לשירותי דור רביעי (4G) המתקדמים, יצרני הציוד לתשתית אלחוטית דורשים רכיבים שמציעים ביצועים וגמישות יוצאי דופן. לשירותי הדור הרביעי נדרש שהתקני multi-RAT (טכנולוגיית גישה ברדיו) יספקו תמיכה מלאה לדרישות של השכבה הפיסית והשכבה הגבוהה יותר של פס הבסיס, עבור תחנות בסיס הפועלות בטכנולוגיות FDD-LTE, TDD-LTE ו-LTE-Ad. על מנת לאפשר את קיומן של הטכנולוגיות האלו, המעבד הנמצא בשימוש צריך לספק תקשורת בזמן אחזור נמוך ובתפוקה גבוהה והכל – במחיר שניתן לעמוד בו. בנוסף, היה צורך באיזון בין ביצועים גבוהים לעיבוד בהספק נמוך, עם יכולת תכנות מספקת.
כדי להסביר את הדרישות של שירותי הדור הרביעי, בחנו כדוגמה מימוש של מעגל משווה
44 בטכנולוגיית MIMO-LTE MIMO – של מערכת על שבב (SoC) , עם ליבות מעבדי DSP מסוג StarCore SC3900 שמשולבות בה. בהמשך, נתאר בפרטים את הקטנת העומס ממאיץ יחידת עיבוד ההשוואה (MAPLE-B3 EQPE) הפועלת במהירות גבוהה של המעבד, שאותה מאפשר המעגל המשווה.
המעגל המשווה בטכנולוגיית LTE משמש כאחת הפונקציות העיקריות במקלט LTE, והוא מבוסס על מטריצה מרוכבת של כפל, פירוק והיפוך דמוית אלגברה. להקטנת העומס של פונקציות חישוב מוגברות, כגון אלו של המעגל המשווה, יש חשיבות רבה מבחינת הביצועים והיעילות של מערכת על שבב המשמשת בתחנת בסיס בטכנולוגיית LTE.
מאמר זה מתאר בפרטים את הביצועים של המעגל המשווה בטכנולוגיית LTE ואת המימוש שלו על ליבות עיבוד DSP, שמשובצות במערכת על שבב. בנוסף, נציג חלופה להקטנת העומס מהמעגל המשווה בטכנולוגיית LTE אל המאיץ MIMO הייעודי (יחידת עיבוד של מעגל משווה – EQPE), שיכולה לטפל במקביל בשתיים, ארבע או שמונה תצורות MIMO מורכבות של אנטנה. היכולות של EQPE מוצגות במונחים של זמן אחזור נמוך, תפוקה גבוהה ובקרה שעברה אופטימיזציה; כשהם משולבים, תכונות אלו עונות ביעילות על דרישות קצב הנתונים הגדל. הפתרון מספק הפחתה ניכרת בעלויות, לכל מגה סיביות, עבור תעבורת נתונים מתרחבת ברשתות LTE סלולריות.
Qonverge B4860 (איור 1) היא מערכת על שבב (SoC) בעלת ריבוי ליבות של Freescale שמיועדת עבור תחנות בסיס גדולות. היא משלבת שש ליבות מעבדים ווקטוריים (FVP) גמישות מסוג SC3900 StarCore, עם פלטפורמה מרובת מאיצים MAPLE-B לפס הבסיס.
המערכת Qonverge B4860 מתוכננת לספק גמישות, אינטגרציה וזמינות כלכלית, תוך כדי עמידה בדרישה של יצרני ציוד המקור (OEM) של תחנות הבסיס האלחוטיות לביצועי מחשוב גבוהים במיוחד, ביישומים המיועדים לפס הבסיס. המערכת B4860 מציעה ביצועי ליבת DSP כוללים של 230.4 ג’יגה פעולות כפל – צבירה (GMAC) בשנייה. הפלטפורמה MAPLE-B3 (פלטפורמה דור שלישי מרובת מאיצים עבור פס הבסיס) משלבת קבוצה של יחידות עיבוד (PE) מהירות ויעילות – כאשר היחידה LTE/LTE-A MIMO EQPE היא אחת מהן.

הארכיטקטורה של StarCore SC3900
הליבה SC3900 (איור 2) עברה שיפור על מנת להאיץ את העיבוד מקצה לקצה, בשכבה הפיסית (PHY) של פס הבסיס, מגרעינים (kernel) עם מחשוב מוגבר עד לקוד הבקרה. על מנת להצטיין בעיבוד DSP עם מחשוב מוגבר, הליבה SC3900 מספקת נתיב נתונים מותאם באופטימיזציה, שכולל רוחב פס גבוה ביותר של זיכרון, קובץ אוגרים (register) תואם ויכולת של יחידת ביצוע ותמיכה בפעולות בנקודה קבועה עם מגוון של פקודות ייחודיות ליישום.
לכל ליבת עיבוד DSP מסוג SC3900 יש ארבע יחידות כפל נתונים (DNU), כאשר כל אחת מהן מכילה שמונה יחידות כפל – צבירה (MAC) של 16×16 ומבצעת 38.4 מיליארד פעולות כפל – צבירה בשנייה (GMACS) בקצב של 1.2 ג’יגה הרץ.
בנוסף, נתיב הנתונים של SC3900 מתוכנן להיות גמיש ומאפשר לכל יחידת ביצוע לבצע פקודות שונות, ולגשת לכל אוגר ללא אובדן. נתיב נתונים גמיש זה הוא החלק העיקרי של מעבד FVP והוא מאפשר ללקוחות לשמור על יעילות גבוהה, תוך כדי שימוש בפחות קוד עיבוד DSP מקבילי, מאשר בשימוש במעבדים וקטוריים מסורתיים. חישובים אלגבריים מורכבים במטריצות, שהם ליבו של עיבוד מעגל ההשוואה, מבוצעים ביעילות, תוך כדי שימוש בארבע יחידות הביצוע שלו.

הארכיטקטורה של פלטפורמת MAPLE-B3
הפלטפורמה MAPLE-B3 (איור 3) המשובצת במערכת B4860 מאפשרת את קיום ההאצה של Freescale בשכבה 1 עבור מערכות על שבב של תחנות בסיס בקנה מידה גדול של מקמש”ים (BTS). מעגלי ההאצה מיועדים ליישומי רוחב פס רחב עם רמת מחשוב גבוהה, והם הופכים את הפתרון של המערכת על שבב למתאים במיוחד, על ידי הקטנת העומס, של רוב הפונקציונליות של המחשוב המוגבר בשכבה 1, מעל ליבות עיבוד DSP. הפלטפורמה MAPLE-B3 משפרת גם את התעבורה במערכת, השימוש בזיכרון ואת תקורת מערכות הבקרה, תוך כדי שימוש במעבדי הבקרה מבוססי RISC והמארג (fabric) המשובץ המתקדמים והגמישים שלה.
הפלטפורמה MAPLE-B3 כוללת ממשק מערכת ניתן לתכנות (PSIF) וקבוצה של יחידות עיבוד (PE) לרבות יחידת EQPE. ממשק PSIF מטפל בכל היבטי האינטגרציה של המערכת, לרבות פעולות מבוססות מתאר (descriptor) במאגר זיכרון זמני (buffer), יצירת תורי המתנה, בוררות (arbitration) ובקרת יחידות עיבוד ברמה הנמוכה. כל הטרנסאקציות של הבקרה ושל הקלט והפלט המיועדות לביצוע משימות, מבוצעות על ידי ממשק PSIF, תוך כדי שימוש ביחידת גישה ישירה לזיכרון (DMA) שניתנת לתכנות וביחידת DMA פנימית, לצורך העברת נתונים באופן ישיר בין יחידות העיבוד. משימות אלו ממומשות באמצעות ארכיטקטורה גמישה בעזרת ארבעה מעבדי RISC, שמאפשרים לחברת Freescale לפתח מערכות על שבב שמאמצות טכנולוגיות סטנדרטיות, ולממש שינויים חסרי חשיבות עם התקני קושחה (firmware).
הגדרת האלגוריתם
החישוב המיושם על ידי EQPE עבור כל נושא משנה מתבצע בשיטת איזון MMSE (שגיאת ריבוע ממוצעים מינימלית) המופיעה במשוואה 1 להלן:

משוואה 1:
כאשר,
x [Ntx1]
היא הערכת MMSE עבור האות המשודר

H [NrxNt]
היא מטריצת הערכת הערוץ

Cx [NtxNt]
היא מטריצת השונות המשותפת
(covariance) של השכבה

Cn [NrxNr]
היא מטריצת השונות המשותפת של הרעש

y [Nrx1]
היא האות הנקלט

(.)H
מציין שחלוף (טרנספוזיציה) הרמיטי

וכאשר,
Nt מציין את מספר השכבות, Nr הוא מספר אנטנות הקליטה

נתוני הקלט אל EQPE הם דגימות של H, y, ו-. הפלט הוא דגימות X, שהן הערכת MMSE של האותות המשודרים (EQPE תומך גם בהוספה של דגימות במקום דגימות ).

מימוש מעגל משווה MIMO מסוג 44 MMSE במערכת SC3900
אנו מניחים שהאלמנטים של מטריצת הקלט מיוצגים בנקודה קבועה Q15.
המימוש של חלקי כפל המטריצות של משוואה 1 מבוסס על שימוש ב-4 יחידות DMU כופלי – שמונה. את החומרה משלימה קבוצה מגוונת של פקודות כפל, בהן פקודות מורכבות לכפל של 1616 ו-3216. פעולות הכפלה מורכבות של 1616 מתבצעות בעזרת הפקודה mpycx.2x שמחשבת את החלק הממשי והחלק המדומה של המכפלה. כל נתוני הקלט והפלט מגיעים מאוגרי של 40 סיביות. ההנחה היא שהאופרנדים של המקור מכילים מספר מרוכב דחוס, כאשר החלק הגבוה מכיל את החלק הממשי (16 סיביות, שבר עם סימן) והחלק הנמוך מכיל את החלק המדומה (16 סיביות, שבר עם סימן). נתוני הפלט של הפעולה מאוחסנים כערך של 40 סיביות. (ראה איור 4).
בעזרת 4 יחידות DMU, אפשר לבצע במחזור אחד שמונה פעולות כפל מרוכבות של
1616. איור 5 מדגים את פקודות הכפל המרוכבות.
הקוד הבא מדגים את השימוש בפקודה החדשה של כפל-נקודה של מספרים מרוכבים של SC3900, אשר לא הייתה קיימת בליבות מהדור הקודם. את הפעולה של שתי פקודות MPYCX.2X אפשר לשלב בעזרת הפקודה MPYCXD.PP.S.2X.
המערכת SC3900 תומכת גם בפעולות כפל-צבירה (MAC) של מספרים מרוכבים.ראוי לשים לב, שכדי לבצע אותה פעולה במערכת SC3850 היה צורך בשש פקודות נפרדות.
היפוך מטריצה 44 הוא חלק מאלגוריתם ההשוואה של 44 והיא ממומשת בעזרת שיטת הגורם המשלים (cofactor), עם הנוסחה הבאה (כפי שמוגדר בכתובת הבאה:
http://tutorial.math.lamar.edu/Classes/LinAlg/MethodOfCofactors.aspx)
נוסחה 2:
A-1 = {1/det(A)} * Transpose
{Cofactor(A)}
שיטה זו מבוססת על חישובי דטרמיננטות מינור של מטריצות – כאשר את הדטרמיננטות של המינור אפשר לחשב כ:
נוסחה 3:
a(ei – hf) + d(hc – bi) + g(bf – ec)

מספר הפעולות והמחזורים קטן עם השימוש בנוסחה זו, על ידי חישוב ערכי הגורמים המשלימים עמודה אחר עמודה, וכתיבת התוצאה, שורה אחר שורה, וכן על ידי שימוש בתכונות המטריצה ההרמיטית, ובארבע יחידות DMU. לאלגוריתם נדרש כפל 1616 של מספרים מרוכבים, כפי שמתואר לעיל, ופעולות כפל MAC 3216 של מספרים מרוכבים.
פעולות כפל 3216 של מספרים מרוכבים, (כלומר, פעולות כפל עם דיוק מעורב), במידה מסוימת מורכבות יותר. כמו בפעולת כפל 1616 – אופרנד אחד הוא מספר שבר מרוכב של 16 סיביות בתבנית מרוכבת דחוסה. האופרנד השני הוא מספר שבר מרוכב של 32 סיביות, שמוצב בשני אוגרים. אוגר אחד מכיל את החלק הממשי בן 32 הסיביות, והאוגר השני מכיל את החלק המדומה בן 32 סיביות. התוצאה מוצבת בשני אוגרים עם דיוק של 40 סיביות. הפקודה MMCCXM.R.2X מבצעת את העיגול והצבירה של פעולת הכפל המרוכבת הזו.
התפוקה היא 4 פעולות כפל MAC מרוכבות בכל מחזור.
הביצועים קרובים למספר המחזורים האופטימלי בהתבסס על מספר הפעולות הנדרשות של כפל MAC במספרים מרוכבים 1616 ו-3216, על היפוך דטרמיננטה, ועל דירוג.

יחידת עיבוד מעגל השוואה (EQPE) של פלטפורמת MAPLE-B3
התקנים של (SC-FDMA) של נושא יחיד מבוסס טכנולוגיית LTE וטכנולוגיית LTE-A מיועדים לתפוקת נתונים גבוהה יותר בהרבה מזו של טכנולוגיית הדור השלישי המשמשת כיום. תפוקות נתונים גבוהות יותר אלו מניעות דרישות לבלוקים של מעגלי השוואה בעלי תפוקה גבוהה. על מנת לאפשר עיבוד עם זמן אחזור קטן והשוואה בתפוקה גבוהה, על מנת לקבל תקשורת אמינה, יש צורך להגדיל את יכולת ההשוואה בגורמים של עד פי עשרה, בהשוואה לתכנונים הקיימים כיום של תחנות בסיס בדור השלישי (איור 6).
ממשק PSIF של פלטפורמת MAPLE מסיר לחלוטין את העומס של הבקרה וקביעת הקונפיגורציה הנדרשים של יחידת EQPE (ושל כל יחידות העיבוד האחרות) מעל ליבות עיבוד DSP במימוש של השכבה הפיסית. יחידת EQPE היא מאיץ בחומרה שמתוכנן כחלק מפלטפורמת MAPLE–B3 כדי לבצע השוואת MIMO עבור מקלטים הפועלים בטכנולוגיית OFDMA/SC–FDMA והיפוך של מטריצה לשימוש כללי. בנוסף, הוא מספק תמיכה מלאה עבור מערכת SoC בעלת ריבוי ליבות, שבה נדרש שריבוי ליבות DSP יוכלו להשתמש בפונקציה מסוימת מואצת בחומרה.
יחידת EQPE תומכת בהשוואת MIMO בשיטת השגיאה המינימלית של ריבוע הממוצעים
(MMSE) ובהיפוך מטריצות. פעולות אלו ממומשות בעזרת מנועי נקודה צפה פנימיים.

התכונות של יחידת EQPE עבור מקלט LTE
הגמישות של יחידת EQPE מאפשרת לה לבצע השוואה MMSE/ZF/IRC בריבוי MIMO עבור טכנולוגית LTE והיפוך מטריצה. היא תומכת בתכונות הבאות:
חישובי נקודה צפה בדיוק גבוה.
דגימות קלט ופלט מקודדות בנקודה צפה בבלוק. החישובים הפנימיים מבוצעים בנקודה צפה בהתאמה אישית.
תמיכה במטריצת שונות משותפת (covariance) (Cn) אלכסונית והרמיטית של רעש והפרעות – עם גרגריות (granularity) שניתנת לקונפיגורציה.
ביצוע אינטרפולציה במטריצת הערכה של ערוצים תוך כדי פעולה בעזרת שקלולים שניתנים לקונפיגורציה.
תמיכה במקלטים מתקדמים הפועלים באופן מחזורי (iterative) (Turbo – SIC):
ביטול שכבות
הקטנת דירוג
מטריצת שונות משותפת (Cx) של אותות
סדר עיבוד מותאם באופטימיזציה – מאפשר עיבוד בצינור נתונים (pipelining)
עם פעולת iDFT.
תפוקות גבוהות לאספקת זמן אחזור קצר:
השוואת MMSE: עד 425 מגה [שגיאות יחסיות ממוצעות (MRE) בשנייה] עבור איזון של 42 או 22, עד 210 מגה [שגיאות יחסיות ממוצעות (MRE) בשנייה] עבור 8 יאיזון
של 2 ועד 100 מגה [שגיאות יחסיות ממוצעות (MRE) בשנייה] עבור איזון של 84 או 44.
היפוך מטריצה: עד 240 מגה [היפוכים בשנייה] עבור מטריצות 2×2 סימטריות (הרמיטיות) ועד 96 מגה [היפוכים בשנייה] עבור מטריצות 4×4.
בתלות בשימוש ובהנחות, אפשר להחליף את יחידת EQPE בעד שתי ליבות SC3900 הפועלות ב-1.2 ג’יגה הרץ עבור מעגל משווה 4×4 בשיטת MMSE עבור MIMO. זמן האחזור של יחידת EQPE טוב פי שלושה בערך יותר, בממוצע, מאשר זמן האחזור של מעגל משווה הממומש בליבת SC3900 בנרמול לתדירויות.

השוואת ביצועי הליבות
כפי שצוין לעיל, B4860 משלב שש ליבות SC3900 הפועלות בתדירות של עד 1.2 ג’יגה הרץ, פעולה שהיא שוות ערך לתדירות של 7.2 ג’יגה הרץ. אם נניח שמתקיים התרחיש המתואר לעיל עם שתי ליבות SC3900 ייעודיות לאלגוריתם מעגל משווה עבור ריבוי MIMO, היכולת המרבית קטנה
ל-4.8 ג’יגה הרץ עבור יתר העיבוד בשכבה 1 מחוץ למעל המשווה עבור ריבוי MIMO – יכולת של 33 אחוזים פחות. ההערכה נעשתה לגבי ביצועי ליבה של אריתמטיקה בנקודה קבועה. יחידת EQPE מספקת אריתמטיקה בנקודה צפה על מנת להגדיל את הדיוק. הנקודה הצפה נתמכת על ידי ליבת SC3900, אך נדרשים לה יותר מגה – מחזורים בשנייה (MCPS). בנוסף, השימוש ביחידת EQPE מקטין את ההספק הכולל של ההתקן מאחר שנדרש לו פחות הספק מאשר לשתי ליבות SC3900.

מסקנות
יחידת EQPE משפרת בדרך כלל את הביצועים של B4860 בחמישים אחוזים על ידי כך שהיא משחררת שתי ליבות נוספות (לכן אפשר להשתמש בשש ליבות במקום בארבע ליבות) לצורך העיבוד בחיבור הכינוס (uplink) ובחיבור ההפצה (downlink) בטכנולוגית LTE.
לסיכום, B4860 מספק רמה גבוהה של ביצועים, גמישות, ואינטגרציה תוך שילוב של שש ליבות SC390 חדשות ומתקדמות לעיבוד DSP שניתנות באופן מלא לתכנות, כל אחת פועלת בתדירות של עד 1.2 ג’יגה הרץ עם פלטפורמת Maple-B3 משובצת לפס הבסיס בריבוי מאיצים אשר מספקת ארכיטקטורה עם אופטימיזציה ברמה גבוהה ליישומים של תשתית אלחוטית.

תגובות סגורות