במשך כמעט שלוש שנים נדמה היה שתעשיית הבינה המלאכותית מתקדמת בכיוון אחד בלבד. כל דור חדש של מודלים היה גדול יותר, כבד יותר ודרש יותר כוח מחשוב מקודמו. מספר הפרמטרים הפך למדד המרכזי שלפיו נמדדה ההתקדמות, וחברות הטכנולוגיה הגדולות נכנסו למרוץ חימוש של ממש סביב בניית מודלים עצומים והקמת תשתיות מחשוב בקנה מידה חסר תקדים.
אלא שבחודשים האחרונים מתחיל להסתמן שינוי מעניין הרבה יותר. דווקא בזמן שחברות משקיעות מיליארדים בחוות GPU ובמרכזי נתונים חדשים, יותר ויותר ארגונים מגלים שבמערכות אמיתיות, אלה שפועלות במפעלים, ברובוטים, במצלמות, בציוד רפואי או ברכב, מודלים קטנים ויעילים מספקים לעיתים תוצאה טובה יותר ממודלי הענק.
זה לא אומר שעידן המודלים הגדולים הסתיים. רחוק מזה. אבל נראה שהתעשייה מתחילה להבין שלא כל משימת AI דורשת מודל של מאות מיליארדי פרמטרים שרץ בענן. במקרים רבים, השאלה החשובה באמת היא בכלל אחרת: כמה מהר המערכת מגיבה, כמה חשמל היא צורכת, כמה עולה להריץ אותה והאם היא יכולה לעבוד גם בלי חיבור קבוע לדאטה סנטר מרוחק.
זו בדיוק הסיבה שבשנה האחרונה המושג Small Language Models , או SLMs , מופיע כמעט בכל דוח תעשייה גדול שעוסק ב־AI.
גם חברות הענק שהובילו את מרוץ המודלים הגדולים כבר משקיעות עכשיו מאמצים משמעותיים בכיוון הזה. Meta הרחיבה את משפחת Llama עם גרסאות קטנות ויעילות יותר, כולל מודלים שמיועדים לפעול על תחנות עבודה ומערכות Edge Google דוחפת את משפחת Gemma ואת Gemini Nano שמיועד להרצה ישירה על סמארטפונים ומכשירי קצה. גם Microsoft נכנסה חזק לתחום עם מודלי Phi, שמנסים לספק יחס טוב יותר בין ביצועים לדרישות חומרה.
עצם העובדה שהחברות שהובילו את עידן מודלי הענק הן גם אלה שמקדמות עכשיו מודלים קטנים יותר, מספרת לא מעט על הכיוון שאליו השוק הולך.
לפי דוח של Marketsand Markets, שוק ה־ SLMs צפוי לצמוח מכ־930 מיליון דולר ב־2025 לכ־5.45 מיליארד דולר עד 2032. אבל מאחורי התחזית הזו מסתתר שינוי עמוק יותר. ארגונים מתחילים להבין שלא תמיד צריך את “המודל הכי חזק בעולם”. לפעמים עדיף מודל קטן יותר, שמכיר היטב תחום ספציפי ועולה הרבה פחות להרצה ותחזוקה.
המעבר הזה קשור גם לשינוי אחר שמתחיל לעבור על עולם ה־AI. אם לפני שנתיים כל הדיון עסק באימון מודלים, היום השיחה עוברת בהדרגה לעולם ה־Inference. כלומר, לא רק איך מאמנים מודל, אלא איך מריצים אותו בעולם האמיתי.
וזה כבר סיפור הרבה יותר מורכב.
מערכת רובוטית בקו ייצור לא יכולה להמתין שנייה או שתיים לתשובה מהענן. מצלמת בטיחות חכמה לא יכולה להיות תלויה תמיד בחיבור רשת יציב. גם ציוד רפואי או מערכות רכב אוטונומיות צריכים לקבל החלטות בזמן אמת, לעיתים בתוך מילישניות בודדות.
כאן בדיוק מתחילה הבעיה של מודלי הענק. הם אמנם מרשימים מאוד ביכולות שלהם, אבל בעולם הפיזי הם דורשים משאבי מחשוב, צריכת הספק ורוחב פס שלא תמיד אפשר לספק.
לפי דוח Edge AI שפרסמה השנה Dell Technologies, יותר חברות עוברות למודלים קטנים וממוקדים שיכולים לפעול ישירות על ציוד Edge, קרוב למקור הנתונים. הסיבה אינה רק ביצועים. מדובר גם בפרטיות, עלויות תקשורת, latency ולעיתים פשוט בצורך לעבוד גם כשהרשת לא זמינה.
זה כבר מזמן לא רק שקפים בכנסים ופוסטים בלינקדאין. החברות הגדולות מרגישות את זה בתפעול היומיומי שלהן.
גם בצד הטכנולוגי רואים את השינוי בצורה ברורה. חלק גדול מהתעשייה עובד כיום על דרכים לקחת מודלים גדולים ולהקטין אותם בלי לאבד יותר מדי ביצועים. אחת השיטות המרכזיות היא Quantization, כלומר מעבר לחישובים מדויקים פחות מבחינה מספרית כדי לחסוך זיכרון וצריכת חשמל. במקום לעבוד ב־FP32, מודלים רבים רצים היום ב־INT8 ולעיתים אפילו ב־INT4.
טכניקה נוספת שהפכה נפוצה מאוד היא Knowledge Distillation. הרעיון פשוט יחסית: מודל קטן “לומד” ממודל גדול וחזק יותר ומנסה לשמר חלק מהיכולות שלו, אבל בהרבה פחות משאבי מחשוב.
השילוב בין הטכניקות הללו לבין חומרת inference חדשה מאפשר כיום להריץ מודלים שבעבר דרשו שרתי GPU גדולים, ישירות על מחשבי Edge, מצלמות חכמות ואפילו טלפונים.
גם עולם השבבים משתנה בהתאם. בשנים האחרונות כל תשומת הלב הייתה סביב GPUs עצומים לאימון מודלים, אבל כעת חלק גדול מהמאמץ עובר דווקא לכיוון inference יעיל וחסכוני יותר. יצרניות שבבים משקיעות כיום במעבדי AI ייעודיים, NPUs ומנועי inference שמיועדים לפעול בהספקים נמוכים יותר.
חברות כמו Qualcomm, NVIDIA, AMD ו־Intel כבר ממקדות חלק משמעותי מהפיתוחים שלהן ב־ Edge AI. גם Hailo הישראלית הפכה בשנים האחרונות לאחת השחקניות הבולטות בתחום, בעיקר בזכות מעבדי AI שתוכננו מראש להרצה מקומית ולצריכת הספק נמוכה יחסית.
לפי דוח של IDTechEx, שוק שבבי ה־AI ליישומי Edge צפוי לעבור את רף 80 מיליארד הדולר עד 2036, כאשר חלק משמעותי מהצמיחה צפוי להגיע מתחומי הרכב, הרובוטיקה והמכשירים החכמים.
אבל אולי הסיבה המרכזית לשינוי אינה חומרה, אלא פשוט התפכחות.
אחרי שנתיים של הייפ סביב מודלים כלליים שעושים “הכול”, יותר ויותר ארגונים מגלים שבפועל הם צריכים משהו הרבה יותר ממוקד. מערכת שמנטרת פס ייצור אינה צריכה לנהל שיחה פילוסופית. רובוט תעשייתי לא חייב להבין היסטוריה או לכתוב קוד. גם מערכת רפואית בדרך כלל צריכה לבצע מספר מוגבל מאוד של משימות, אבל לעשות אותן במהירות, בעקביות וברמת אמינות גבוהה.
במקרים כאלה, מודל קטן וממוקד יכול להיות פתרון טוב בהרבה ממודל עצום ויקר לתפעול.
זו כנראה הסיבה שהשיח סביב AI מתחיל להשתנות. פחות דגש על “מי בנה את המודל הגדול בעולם”, ויותר שאלות פרקטיות על latency, עלויות inference, צריכת אנרגיה ויכולת להריץ AI קרוב למקור הנתונים.
יכול מאוד להיות שהשלב הבא של מהפכת ה־AI לא יתרחש דווקא בדאטה סנטרים עצומים. ייתכן שהוא יקרה בתוך מצלמות, בקרים תעשייתיים, רובוטים, ציוד רפואי ומערכות Edge שפועלות הרחק מחוות השרתים הענקיות של עולם ה־AI.
מקורות וקרדיטים
- MarketsandMarkets — Small Language Model Market Report, 2025–2032 Forecast
- Dell Technologies – Edge AI Predictions for 2026
- IDTechEx – AI Chips for Edge Applications Report
- N-iX Research – Edge AI Trends & Industrial AI Research 2026
- TechRadar Pro – Analysis on Domain-Specific AI Models and Enterprise ROI
- arXiv – “Are Large Language Models Economically Viable for Industry Deployment?” (2026)
- מידע ונתונים נוספים מתוך פרסומים טכנולוגיים של Google, Meta, Microsoft, NVIDIA ו־Qualcomm.




