New-Tech OnLine | GPUs לא מספיקים יותר: המרוץ החדש על חומרת ה־ AI

במשך רוב תקופת הבום של הבינה המלאכותית, נדמה היה שהתשובה לכל שאלה טכנולוגית היא פשוט להוסיף עוד GPU. ככל שמודלי ה־AI תפחו לממדים עצומים, כך גם הביקוש למעבדי AI עתירי ביצועים שבר שיאים. חברות טכנולוגיה רכשו אלפי מאיצים גרפיים, דאטה סנטרים חדשים נבנו בקצב חסר תקדים, ו־NVIDIA הפכה בתוך זמן קצר לאחת החברות המשפיעות ביותר בתעשיית הטכנולוגיה.

אבל ב־2026 מתחיל להסתמן שינוי כיוון ברור. תעשיית ה־AI מגלה בהדרגה ש־GPU לבדו כבר אינו פתרון קסם, ובחלק מהמקרים הוא אפילו הופך למגבלה. ככל שהטכנולוגיה יוצאת מחוות השרתים ועוברת למערכות שצריכות לעבוד בעולם האמיתי, הדרישות משתנות לחלוטין. השאלה כבר אינה כמה כוח מחשוב אפשר לדחוף למודל בזמן האימון, אלא כמה מהר, יעיל וזול ניתן להריץ אותו לאורך זמן.

ופה בדיוק מתחיל המרוץ החדש של עולם החומרה.

עידן האימון מפנה מקום לעידן ה־Inference

בשנים הראשונות של מהפכת ה־Generative AI, עיקר תשומת הלב הופנה לשלב האימון. חברות התחרו ביניהן על גודל המודל, מספר הפרמטרים וכמות ה־ GPUs שנדרשו כדי להחזיק תהליכי אימון שנמשכו שבועות ולעיתים חודשים.

אלא שכיום מרכז הכובד מתחיל לעבור בבירור לעולם ה־Inference, כלומר שלב ההרצה בפועל של המודל מול משתמשי קצה ומערכות אמיתיות.

בפועל, רוב העלויות ארוכות הטווח של מערכות AI אינן נובעות מאימון חד פעמי, אלא מההרצה היומיומית שלהן. ככל שמספר המשתמשים גדל וככל שיותר מערכות מתחילות להפעיל inference בזמן אמת, כך גדל גם העומס על התשתיות.

לפי הערכות שפורסמו השנה על ידי Gartner, חלק משמעותי מעומסי ה־AI החדשים בשנים הקרובות צפוי להגיע דווקא מיישומי inference מבוזרים ולא רק ממודלי ענן מרכזיים.

זו נקודה קריטית, משום שיישומי inference נראים אחרת לגמרי מאימון מודלים.

מערכות ראייה ממוחשבת במפעלים, רובוטים אוטונומיים, מערכות ADAS ברכב או מכשור רפואי מתקדם אינם צריכים בהכרח מפלצות GPU שמחוברות לדאטה סנטר. הם צריכים תגובה מהירה, latency נמוך, צריכת הספק סבירה ויכולת לעבוד בצורה יציבה גם כאשר החיבור לענן מוגבל או לא קיים בכלל.

הבעיה היא שמעבדי GPU תוכננו במקור לעולם אחר.

הבעיה החדשה: צריכת חשמל וזיכרון

מעבדים גרפיים מצטיינים בעיבוד מקבילי רחב היקף, וזו אחת הסיבות המרכזיות לכך שהם הזניקו את עולם ה־AI קדימה. אבל ככל שהתעשייה דוחפת לכיוון של Edge AI ומערכות inference ייעודיות, מתברר של־GPU יש תג מחיר כבד מאוד, פשוטו כמשמעו.

מאיצי AI מודרניים מגיעים כיום להספקים של 700W ואף יותר לכרטיס בודד. כאשר מחברים עשרות ומאות כאלה יחד בארונות שרתים, צריכת החשמל והקירור הופכות לאתגר הנדסי משמעותי בפני עצמו.

נתונים שפרסמו Dell Technologies ו־Schneider Electric מראים כי חלק ממרכזי הנתונים החדשים שמתוכננים עבור AI כבר נדרשים להתמודד עם צפיפות הספק של מעל 100kW לארון שרתים בודד. לפני שנים בודדות מספרים כאלה כמעט לא הופיעו מחוץ לעולם מחשבי העל.

זו גם אחת הסיבות לכך ש־liquid cooling הפך בשנה האחרונה לנושא מרכזי כמעט בכל שיחה על AI infrastructure. קירור אוויר פשוט מתחיל להגיע לגבול היכולת שלו.

אבל החשמל הוא רק חלק מהבעיה.

בפועל, אחד מצווארי הבקבוק הגדולים ביותר של מערכות AI כיום הוא בכלל הזיכרון. מודלים מודרניים דורשים רוחב פס עצום כדי להזרים מידע למאיצים בזמן אמת. במקרים רבים יחידות העיבוד עצמן אינן צוואר הבקבוק, אלא העובדה שהנתונים פשוט לא מגיעים אליהן מהר מספיק.

וכאן נכנס לתמונה HBM.

HBM הפך למשאב אסטרטגי

HBM, או High Bandwidth Memory, הפך בתוך זמן קצר לאחד הרכיבים המבוקשים ביותר בתעשיית הסמיקונדקטור. מאיצי AI מודרניים תלויים בזיכרון מהיר במיוחד כדי לעמוד בעומסי inference ואימון, והביקוש לרכיבי HBM זינק בצורה חדה כמעט בכל שרשרת האספקה.

כתוצאה מכך, יצרניות כמו SK hynix, Samsung Electronics ו־Micron Technology הפכו לשחקניות אסטרטגיות במרוץ ה־AI.

לפי דוח של TrendForce מהשנה, הביקוש ל־HBM4 צפוי להמשיך לעלות לפחות עד סוף העשור, בעיקר בגלל עומסי inference והתרחבות תשתיות ה־AI.

אבל גם ייצור הזיכרון עצמו אינו הסיפור היחיד. בשנה האחרונה חלק מהתעשייה כבר התחיל לדבר על מחסור ביכולות packaging מתקדמות. צוואר הבקבוק עבר בהדרגה לא רק לייצור השבבים עצמם, אלא גם ליכולת לחבר אותם יחד.

ב־2025 חלק מזמני האספקה לרכיבי HBM ולמערכות AI מתקדמות כבר התארכו משמעותית, בין היתר בגלל מגבלות קיבולת בטכנולוגיות packaging כמו CoWoS של TSMC.

כשאריזת השבבים הופכת לקריטית

עד לא מזמן, אריזת שבבים נחשבה לתחום יחסית אפור בתעשיית הסמיקונדקטור. היום היא נמצאת בלב מהפכת ה־AI.

במקום לבנות שבב ענק אחד, יצרניות רבות עוברות כיום לארכיטקטורות מודולריות המבוססות על Chiplets ו־Advanced Packaging. הרעיון פשוט: לחבר יחד מספר רכיבים שונים, כמו מעבדי AI, זיכרון HBM ורכיבי תקשורת מהירים, בתוך מארז צפוף אחד.

הגישה הזו מאפשרת להגדיל ביצועים בלי להמשיך להגדיל את גודל השבב עצמו, אבל היא גם יוצרת אתגרי חום, הספק וקישוריות מורכבים בהרבה.

ככל שכמות הנתונים גדלה, גם עולם הקישוריות מתחיל להגיע למגבלות פיזיקליות. חיבורי נחושת מסורתיים מתקשים לעמוד במהירויות החדשות, תוך שהם מייצרים יותר חום וצורכים יותר אנרגיה.

זו אחת הסיבות לכך שתחום ה־Silicon Photonics הופך לאחד התחומים החמים ביותר בתעשייה. חברות כמו Broadcom, Molex ו־ Samtec משקיעות כיום משאבים עצומים בפתרונות Optical Interconnects שמנסים להחליף חלק מחיבורי הנחושת בתקשורת אופטית מהירה יותר.

גם בישראל רואים היטב את הכיוון הזה. הרכישה של Teramount על ידי Molex ממחישה עד כמה פתרונות optical connectivity לשבבים הפכו מנושא מחקרי יחסית לרכיב אסטרטגי בתעשיית ה־AI.

כולם רוצים NPU

במקביל, שוק נוסף שצומח במהירות הוא שוק ה־NPU, או Neural Processing Unit.

בניגוד ל־GPU, שהוא מעבד כללי יחסית, NPU מתוכנן מראש כדי לבצע משימות AI ספציפיות בצורה יעילה הרבה יותר. הדגש כאן הוא פחות על כוח brute force ויותר על latency, צריכת הספק ויעילות inference.

המעבדים הללו מופיעים כיום כמעט בכל מקום: ממחשבי AI PC חדשים ועד סמארטפונים, מצלמות, מערכות רובוטיקה ובקרים תעשייתיים.

Qualcomm משלבת NPUs בדור החדש של Snapdragon. Intel ו־AMD מוסיפות מאיצי AI גם למעבדי PC. Apple ממשיכה להרחיב את ה־Neural Engine שלה כחלק מהמעבר ל־on-device AI.

גם Hailo הישראלית הפכה בשנים האחרונות לאחת השחקניות הבולטות בתחום ה־Edge AI, בעיקר בזכות מעבדים שמנסים לספק ביצועי inference גבוהים יחסית בהספקים נמוכים ובמערכות קטנות.

לפי תחזיות של IDTechEx, שוק שבבי ה־Edge AI צפוי לעבור את רף 80 מיליארד הדולר עד 2036, כאשר חלק משמעותי מהצמיחה צפוי להגיע מתחומי הרכב, הרובוטיקה והמכשור החכם.

תעשיית ה־AI מתחילה להתפכח

אחרי שנתיים של מרוץ כמעט אגרסיבי סביב מודלים גדולים יותר ויותר, נראה שהתעשייה מתחילה להבין שגם לחומרה יש גבול.

אי אפשר להמשיך להגדיל מודלים בלי סוף בלי להתמודד עם צריכת החשמל, עלויות הקירור, זמינות הזיכרון ורוחב הפס שנדרש כדי להזין את כל המערכת הזו.

לכן גם השיח סביב AI מתחיל להשתנות. פחות דיבורים על “המודל הגדול בעולם”, ויותר עיסוק באופטימיזציה, inference, latency ועלויות תפעול אמיתיות.

בסופו של דבר, השלב הבא של מהפכת ה־AI כנראה לא יוכרע רק לפי מספר הפרמטרים של המודל, אלא לפי השאלה מי יצליח לבנות את החומרה, הקישוריות והתשתית שיאפשרו להריץ אותו בצורה יעילה ובקנה מידה אמיתי.

מקורות וקרדיטים