חדשות היום

איזון MIMO יעיל עם מערכת SoC לפס הבסיס B4860 של Freescale

כדי שיוכלו לתת מענה לדרישה הגוברת לשירותי הדור הרביעי (4G) המתקדמים, ליצרני ציוד התשתית האלחוטית נדרשים רכיבים שמציעים ביצועים וגמישות יוצאי דופן. התקנים לריבוי אפשרויות גישה בתקשורת רדיו (Multi–RAT) נדרשים כדי לתמוך באופן מלא בדרישות השכבה הפיסית בפס הבסיס ובדרישות של השכבות העליונות עבור תחנות בסיס הפועלות בטכנולוגיות

FDD-LTE, TDD-LTE ו-LTE-Ad. כדי לאפשר את השימוש בטכנולוגיות אלו, המעבד שבו משתמשים צריך לספק תקשורת עם זמן אחזור (latency) קטן ועם תפוקה גבוהה במחיר סביר. בנוסף, יש צורך באיזון בין עיבוד בביצועים גבוהים ובהספק נמוך לבין אפשרות תכנות מספיקה. מאמר זה יבחן מימוש של התקן איזון 44 עבור MIMO בטכנולוגיית LTE באמצעות המערכת על שבב () Qonverge B4860 עם ליבות עיבוד DSP המשולבות StarCore SC3900. במאמר נתאר בפירוט את הורדת העומס ממאיץ יחידת עיבוד האיזון המהירה (MAPLE-B3 EQPE) של המעבד שמתאפשרת באמצעות התקן האיזון.
הקדמה
התקן איזון LTE הוא אחת הפונקציות החשובות במקלט LTE והוא מבוסס על פעולות אלגבראיות מרוכבות כדוגמת מטריצת מכפלה, מטריצת פירוק (decomposition) ומטריצה הפיכה. להסרת העומס של פונקציות בעלות ריבוי חישובים כגון התקן האיזון, יש חשיבות גדולה לביצועים וליעילות של המערכת על שבב שבה משתמשים בתחנת הבסיס בטכנולוגיית LTE.
מאמר זה יתאר בפרטים את הביצועים של התקן איזון LTE ואת המימוש שלו בליבות עיבוד DSP המשובצות במערכת על שבב. בנוסף, המאמר יתאר חלופה להסרת העומס של איזון LTE אל מאיץ MIMO ייעודי (יחידת עיבוד איזון או EQPE) שיכול לטפל בתצורות מורכבות של MIMO אנטנה של שתיים, ארבע או שמונה במקביל. היכולות של יחידת EQPE יוצגו במונחים של זמן אחזור קצר, תפוקה גבוהה ובקרה מותאמת באופטימיזציה. כשהן משולבות, הן יכולות לענות על הדרישה לקצבי נתונים גדלים. הפתרון מספק הפחתה משמעותית של העלות לכל מגה סיביות של תעבורת הנתונים המתעצמת ברשתות LTE הסלולריות.
Qonverge B4860 היא מערכת על שבב (SoC) בעלת ריבוי ליבות של Freescale עבור תחנות בסיס גדולות. היא משלבת שש ליבות מעבדים ווקטוריים גמישים (FVP) מסוג SC3900 StarCore עם פלטפורמה בריבוי מאיצים לפס הבסיס MAPLE–B. היא מתוכננת לספק גמישות, אינטגרציה ועלות סבירה תוך עמידה בדרישות שמעמידים יצרני ציוד המקור (OEM) של תחנות הבסיס האלחוטיות. B4860 מציעה ביצועים כוללים של 230.4GMAC (ג’יגה פעולות כפל-צבירה) בשניה בליבת DSP. פלטפורמת MAPLE-B3 (פלטפורמת ריבוי מאיצים דור שלישי לפס הבסיס) משלבת קבוצה של יחידות עיבוד (PE) מהירות ויעילות – יחידת LTE/LTE-A MIMO EQPE היא אחת מהן.

הארכיטקטורה של StarCore SC3900
ליבת SC3900 הורחבה כדי להאיץ את
העיבוד מקצה לקצה בשכבה הפיסית (PHY) של פס הבסיס, מגרעינים (kernel) מרובי חישובים ועד לקוד הבקרה. כדי לשפר מאוד את עיבוד DSP בריבוי חישובים, SC3900 משתמשת בנתיב נתונים מותאם באופטימיזציה שכולל רוחב פס גבוה ביותר לזיכרון, קובץ אוגרים תואם ויכולת של יחידת ביצוע והיא תומכת בפעולות בנקודה קבועה עם מגוון של פקודות ייעודיות ליישום.
לכל ליבת DSP מסוג SC3900 יש ארבע יחידות כפל נתונים (DMU) ולכל יחידת כפל נתונים יש שמונה יחידות של 1616 כפל-צבירה והיא מבצעת 3.84 מיליארד פעולות של כפל-צבירה בשניה (GMAC) בקצב של 1.2GHz.
מעבר לכך, נתיב הנתונים של SC3900 מתוכנן להיות גמיש ומאפשר לכל יחידת ביצוע לבצע פקודות אחרות ולגשת לכל אוגר ללא תוצאות שליליות. נתיב נתונים גמיש זה הוא חלק חשוב של מעבדי FVP ומאפשר ללקוחות לשמור על יעילות גבוהה תוך שימוש בפחות קוד DSP מקבילי מאשר נדרש במעבדים הווקטוריים הישנים. חישובים אלגבריים מרוכבים במטריצות, שהם הלב של העיבוד בהתקני איזון, מבוצעים ביעילות תוך שימוש בארבע יחידות הביצוע.

הארכיטקטורה של MAPLE- B3
MAPLE–B3, פלטפורמה המשובצת
ב-B4860, מאפשרת האצה בשכבה 1 של Freescale עבור מערכות על שבב המשמשות במקמ”שים בתחנות בסיס גדולות (BTS). המאיצים מיועדים ליישומים של רוחב פס גדול ועם פעולות חישוב רבות והם משפרים את פתרון המערכת על שבב על ידי הסרת העומס של רוב הפונקציונליות מרובת החישובים בשכבה 1 מליבות עיבוד DSP. הפלטפורמה MAPLE-B3 גם מתאימה באופטימיזציה את התקורה של התעבורה, של השימוש בזיכרון ושל הבקרות במערכת על ידי שימוש במעבדי הבקרה הגמישים שלה מבוססי RISC ובמארג (fabric) המשובץ.
MAPLE–B3 כוללת ממשק מערכת ניתן לתכנות (PSIF) וקבוצה של יחידות PE, כולל יחידת EQPE. ממשק PSIF מטפל בכל היבטי האינטגרציה של המערכת לרבות פעולות מבוססות מתאר (descriptor)
לזיכרון זמני, יצירת תורים, פישור, ובקרת יחידות PE לרמה הנמוכה. כל תנועות (transaction) הקלט והפלט ותנועות הבקרה המיועדות להשלמת משימות מבוצעות
על ידי ממשק PSIF באמצעות יחידת הגישה הישירה לזיכרון (DMA) הניתנת לתכנות של המערכת ובאמצעות יחידת DMA פנימית כך שנתונים מועברים ישירות בין
יחידות PE. משימות אלו ממומשות בארכיטקטורה גמישה עם ארבעה מעבדי RISC אשר מאפשרים לחברת Freescale לפתח מערכות על שבב שיכולות לאמץ טכנולוגיות סטנדרטיות ושינויים קלים שנדרשים אפשר לממש באמצעות עדכוני קושחה (firmware).

הגדרת האלגוריתם
החישובים הממומשים על ידי יחידת EQPE עבור כל חברת תשתית משנית הם בשיטת איזון השגיאה הריבועית הממוצעת המינימלית (MMSE), כפי שמוצג במשוואה 1:

כאשר:
[Ntx1] הוא ההערכה של שגיאת MMSE של האות המשודר
[NrxNt] הוא מטריצת ההערכה של הערוץ
[NtxNt] הוא מטריצת השונות המשותפת (covariance) של השכבה
[NrxNr] הוא מטריצת השונות המשותפת (covariance) של הרעש
[Nrx1] הוא האות הנקלט
מציין שחלוף (טרנספוזיציה) הרמיטי
וכאשר Nt הוא מספר השכבות, Nr הוא מספר אנטנות הקליטה.
הקלט של EQPE הוא דגימות של . הפלט הוא דגימות
שהן ההערכה של יחידת MMSE לגבי האותות המשודרים (יחידת EQPE תומכת גם באפשרות להשתמש בדגימות של במקום בדגימות של ).
מימוש מעגל איזון MMSE 4×4 MIMO על SC3900
אנו מניחים שאברי מטריצת הכניסה מיוצגים בנקודה קבועה (fixed point Q15).
מימוש חלקי הכפל של המטריצה שבמשוואה 1 מבוסס על שימוש בארבע יחידות DMU מכפילי שמונה. לחומרה מתווספת קבוצה מגוונת של פקודות כפל לרבות פקודות כפל ו- של מספרים מרוכבים. כפל מרוכב מבוצע באמצעות הפקודה mpycx.2x אשר מחשבת את החלק הממשי ואת החלק הדמיוני של המכפלה. כל הקלט והפלט מועברים דרך אוגרים בני 40 סיביות. אנו מניחים שהאופרנדים של המקור מכילים מספר מרוכב ארוז (packed), כאשר החלק העליון מכיל את החלק הממשי (מסומן, שבר ב-16 סיביות) והחלק התחתון מכיל את החלק הדמיוני (מסומן, שבר ב-16 סיביות). תוצאת הפעולה (הפלט) מאוחסן כערך בן 40 סיביות.

בעזרת ארבעת יחידות DMU, אפשר לבצע שמונה מכפלות 1616 של מספרים מרוכבים. האיור הבא מתאר את פקודות הכפל המרוכב.
הקוד המופיע להלן מדגים את השימוש בפקודת המכפלה הסקלרית (dot product) החדשה של מספרים מרוכבים המשמשת ב-SC3900 שלא הייתה קיימת בליבות של הדור הקודם. אפשר לשלב את הפעולה של שתי פקודות MPYCX.2X בעזרת הפקודה MPYCXD.PP.S.2X.
הליבה SC3900 תומכת גם בפעולות כפל – צבירה (MAC) מרוכבות. שים לב, שעל מנת לבצע אותה פעולה בליבה SC3850 נדרשו שש פקודות נפרדות.

דוגמה 1. קוד המכפלה הסקלרית במספרים מרוכבים של SC3900. הליבה SC3900 מבצעת שתי פעולות כפל 16×16 מרוכבות ופעולת חיסור אחת במספרים מרוכבים בפקודה אחת.
היפוך מטריצה 4×4 הוא חלק מאלגוריתם האיזון 4×4 וממומש בעזרת שיטת המשלים האלגברי (cofactor).
משוואה 2:
השימוש במשוואה זו מאפשר להקטין את מספר הפעולות והמחזורים על ידי חישוב ערכי הגורם המשלים עמודה אחרי עמודה וכתיבה של הפלט שורה אחרי שורה ועל ידי שימוש בתכונות של המטריצה ההרמיטית ובארבע יחידות DMU. לאלגוריתם נדרשות פעולות כפל – צבירה (MAC) מרוכבות 16×16 (המתוארות למעלה) ופעולות כפל – צבירה מרוכבות 32×16. הנורמל של הדטרמיננטה משמש כדי לחשב את גורם קנה המידה (scale factor) ולבצע התאמה לפיו.
כפל 32×16 מרוכב (כלומר כפל עם דיוק מעורב) מורכב קצת יותר. כמו בכפל 16×16, אופרנד אחד מכיל מספר מרוכב ב-16 סיביות עם שבר בתבנית של מספר מרוכב ארוז. האופרנד השני מכיל מספר מרוכב ב-32 סיביות עם שבר שמוצב בשני אוגרים:
אוגר אחד מכיל את החלק הממשי ב-32 סיביות והאוגר השני מכיל את החלק הדמיוני
ב-32 סיביות. תוצאת החישוב מוצבת בשני אוגרים עם דיוק של 40 סיביות.
הפקודה MACCXM.R.2X מבצעת את העיגול והצבירה של הכפל המרוכב הזה. התפוקה מגיעה לארבע פעולות MAC מרוכבות במחזור.

דוגמה 3. קוד פעולת כפל – צבירה 32×16 מרוכבת ב-SC3900. בדוגמה זו, b הוא הקלט המורכב בן 32 סיביות.
הביצועים קרובים למספר המחזורים האופטימלי בהתבסס על מספר הפעולות הנדרשות: פעולות כפל – צבירה 16×16 ו-32×16 מרוכבות, היפוך הדטרמיננטה והתאמת קנה המידה הנדרשים.

יחידת MAPLE-B3 EQPE (יחידת עיבוד האיזון)
הנעה
תקני טכנולוגיית FDMA לחברת תשתית יחידה (SC-FDMA) מבוססי LTE ו-LTE-A מיועדים לתפוקת נתונים גבוהה בהרבה מאשר טכנולוגיית הדור השלישי (3G) הנוכחית. תפוקות נתונים גבוהות בהרבה אלו דוחפות את הדרישה לבלוקי איזון בעלי תפוקה גבוהה. על מנת לאפשר את עיבוד האיזון עם זמן אחזור קטן ותפוקה גבוהה הנדרשים לתקשורת אמינה, יש צורך שיכולת האיזון תגדל עד פי עשר בהשוואה לאלו הקיימים בתכנונים של תחנות הבסיס הקיימות בדור השלישי.
ממשק PSIF של MAPLE מסיר מעל הליבות שבמימוש השכבה הפיסית לחלוטין את עומס הבקרה ואת קביעת הקונפיגורציה הנדרשים עבור יחידת EQPE (ועבור כל יחידות PE האחרות). יחידת EQPE היא מאיץ בחומרה המתוכנן כחלק מפלטפורמת MAPLE-B3 ומיועדת לבצע את איזון MIMO עבור מקלטי OFDMA/SC-FDMA ואת היפוך המטריצה הרב תכליתי. בנוסף, היא מספקת תמיכה מלאה למערכת על שבב בריבוי ליבות שבה יש צורך שליבות DSP מרובות יוכלו להשתמש בפונקציות מסוימות בהאצת חומרה.
יחידת EQPE תומכת באפשרויות הבאות:
1. איזון MIMO עם MMSE (שגיאה מינימלית של ריבוע הממוצעים)
2. היפוך מטריצה
פעולות אלו ממומשות באמצעות מנועי הנקודה הצפה הפנימיים.

תכונות יחידת EQPE המתאימות למקלט LTE
הגמישות של יחידת EQPE מאפשרת לבצע איזון MMSE/ZF/IRC MIMO עבור LTE והיפוך מטריצה. היא תומכת בתכונות הבאות:
1. חישובים בדיוק גבוה בנקודה צפה
הדגימות של הכניסות והיציאות הן בציפת בלוקים (block floating). החישובים הפנימיים מתבצעים עם נקודה צפה בהתאמה אישית.
2. תמיכה במטריצת שונות משותפת (covariance) אלכסונית ומלאה (הרמיטית) (Cn) לרעש ולהפרעות עם גרגריות (granularity) שניתנת לקונפיגורציה.
3. קירוב (interpolation) מטריצה בהערכת ערוץ תוך כדי פעולה באמצעות שקלולים שניתנים לקונפיגורציה.
4. תמיכה במקלטים איטרטיביים מתקדמים (Turbo–SIC):
ביטול שכבות
הפחתת דירוג
מטריצת שונות משותפת של האותות (Cx)
5. סדר עיבוד מותאם באופטימיזציה – מאפשר יצירת צינור נתונים (pipelining) עם פעולת iDFT.
6. תפוקה גבוהה המספקת זמן אחזור קטן:
איזון MMSE: עד 425 [MRE/sec] עבור איזון 4×2/2×2, עד [MRE/sec] עבור איזון 8×2 ועד [MRE/sec] עבור איזון 8×4/4×4.
היפוך מטריצה:
עד [invps] עבור מטריצות 2×2 סימטריות (הרמיטיות) ועד [invps] עבור מטריצות 4×4.

בתלות בשימוש ובהערכות, אפשר להחליף את יחידת EQPE בעד שתי ליבות SC3900 הפועלות
ב-1.2GHz עבור התקן איזון MMSE. זמן האחזור של יחידת EQPE טוב בממוצע בערך פי שלושה מאשר הזמן של התקן איזון הממומש בליבת SC3900 ומנורמל לתדירויות.
השוואת ביצועי ליבה
כפי שצוין לעיל, מערכת B4860 משלבת שש ליבות SC3900 הפועלות בקצב של עד
1.2GHz, והתוצאה שוות ערך ל-7.2GHz. אם נניח שהתרחיש המתואר לעיל היה מתבצע באמצעות שתי ליבות SC3900 הפועלות
ב-1.2GHz ומשמשות רק עבור אלגוריתם התקן איזון MIMO, היכולת הכוללת הייתה יורדת ל-4.8GHz עבור יתר העיבוד שמחוץ להתקן איזון MIMO בשכבה 1 – ומסתכמת ביכולת פחותה ב-33 אחוזים. ביצועי הליבה הוערכו עבור אריתמטיקה בנקודה קבועה. יחידת EQPE סיפקה אריתמטיקה בנקודה צפה על מנת להגדיל את הדיוק. לנקודה צפה יש תמיכה בליבת SC3900, אולם נדרשים לכך יותר מגה מחזורים בשניה (MCPS). בנוסף, השימוש ביחידת EQPE מקטין את ההספק הכולל של ההתקן, מאחר שנדרש לה פחות הספק מזה שנדרש לשתי ליבות SC3900.

מסקנות
במאמר זה תוארו דוגמאות ויתרונות הנובעים מהשימוש ביחידת עיבוד האיזון של B4860. באופן כללי, יחידת EQPE משפרת את ביצועי B4860 ב-50 אחוזים על ידי כך שהיא משחררת שתי ליבות נוספות (והתוצאה היא שש ליבות זמינות לשימוש במקום ארבע ליבות) עבור עיבוד הקישור מהמכשירים הניידים לתחנת הבסיס (uplink) ועבור עיבוד הקישור מתחנת הבסיס למכשירים הניידים (downlink). כל זאת מתקיים ללא התקן איזון MIMO תוך שמירה על הגמישות למקרה שמתכנן תחנת הבסיס יהיה מעונין לממש את אלגוריתם איזון MIMO בליבות. לסיכום, B4860 מספקת ביצועים, גמישות ואינטגרציה ברמות גבוהות תוך שהיא משלבת שש ליבות SC3900 חדשות ומתקדמות לעיבוד DSP שניתנות לתכנות באופן מלא, שכל אחת מהן פועלת בקצב של עד 1.2GHz עם פלטפורמת MAPLE-B3 המשובצת לפס הבסיס בריבוי מאיצים אשר מספקת ארכיטקטורה המותאמת באופטימיזציה ברמה גבוהה ליישומי תשתית אלחוטיים.

אודות B4860
המערכת על שבב QorIQ Qonverge B4860 מתוכננת עבור תחנות הבסיס האלחוטיות של הדור הבא שיפעלו בריבוי תקנים. B4860, המבוססת על טכנולוגיית התהליך ב-28nm, מציעה תפוקה ויכולת שאין שני להן והיא משלבת תערובת רבת ערך של ליבות ניתנות לתכנות יעילות ובעלות ביצועים גבוהים וכן מאיצים ייעודיים ליישום ומספקת צריכת הספק ועלות אופטימליות. היא מיועדת לשימוש בתכנונים של תחנות בסיס סלולריות גדולות עבור תשתית אלחוטית בפס הרחב והיא בנויה על יחידות היע”מ (CPU) ומעבדי DSP בעלי ריבוי הליבות של Freescale שהצלחת פעולתם הוכחה בשטח בשוקי התשתיות האלחוטיות. B4860 משלבת ארבע ליבות e6500 ל-64bit בעלות תהליכונים (thread) כפולים הבנויות בטכנולוגיית ®Power Architecture, עם שש ליבות StarCore SC3900 ל-16bit ו-32MAC/ cycle ועם מנועי עיבוד האצת פס הבסיס MAPLE-B3. המערכת מתוכננת להתאים לתקנים המשתנים והמתרחבים במהירות של מערכות LTE ( ו-TDD), ו-WCDMA והיא תומכת בו זמנית בתקנים שונים.
ליבות SC3900 לעיבוד DSP מניבות ביצועים כוללים מקסימליים של 230.4GMACS להתקן. B4860 מכילה גם מנוע פלטפורמת ריבוי מאיצים של דור שלישי (MAPLE–B3) אשר מבצע פענוח קידוד Turbo, פענוח קידוד Viterbi, טרנספורם פורייה מהיר (FFT), איזון MIMO, חיפוש קצב אותות (chip rate) ונתיב עבור WCDMA/HSPA ובדיקת CRC.

Haim Cohen, Freescale Semiconductor, Inc.

תגובות סגורות