תמונות המחשה - קוד המפצח הבנה מרחבית לבינה מלאכותית

חוקרים מבר־אילן ו-NVIDIA משפרים בעשרות אחוזים את ההבנה המרחבית במודלי יצירת תמונה

חוקרים מהמחלקה למדעי המחשב באוניברסיטת בר־אילן וממרכז מחקר הבינה המלאכותית של NVIDIA בישראל פיתחו שיטה חדשה לשיפור ההבנה המרחבית של מודלים ליצירת תמונות — מבלי לשנות את ארכיטקטורת המודל ומבלי לאמן אותו מחדש.

מודלים מודרניים מסוג Text-to-Image יודעים לייצר תמונות באיכות גבוהה במיוחד, אך מתקשים לעיתים בהבנת יחסים מרחביים פשוטים. כאשר מתבקשים לייצר סצנה על פי הוראות כמו "חתול מתחת לשולחן" או "כיסא מימין לשולחן", הם עלולים למקם את העצמים באופן שגוי או להתעלם מההוראה המרחבית לחלוטין.

במחקר החדש מציגים החוקרים גישה המאפשרת לשפר את הדיוק המרחבי של המודל בזמן יצירת התמונה עצמה, מבלי לבצע אימון מחדש (retraining). השיטה מבוססת על ניתוח דפוסי הפעילות הפנימיים של המודל, ובעיקר על זיהוי ייצוגים מרחביים בתוך מפות הקשב (attention maps) שלו.

השיטה, שנקראת Learn-to-Steer, כוללת אימון מסווג קל־משקל (lightweight classifier) הלומד לזהות יחסים מרחביים בתוך הייצוגים הפנימיים של המודל. במהלך תהליך יצירת התמונה, המסווג משפיע באופן מבוקר על ייצוגי המודל וכך מכוון אותו למיקום מדויק יותר של העצמים בסצנה. לדברי החוקרים, ניתן ליישם את השיטה על גבי מודלים קיימים באמצעות תוספת קוד, ללא שינוי מבני.

התוצאות שהוצגו במחקר מצביעות על שיפור משמעותי בדיוק המרחבי. במודל Stable Diffusion 2.1 עלה שיעור ההצלחה בהבנת יחסים מרחביים מ-7% ל-54%. במודל נוסף, Flux.1, עלה שיעור ההצלחה מ-20% ל-61%. זאת, מבלי לפגוע בביצועים הכלליים של המודל במשימות אחרות.

לדברי פרופ' גל צ'צ'יק מהמחלקה למדעי המחשב באוניברסיטת בר־אילן ומ-NVIDIA, "מודלים מודרניים ליצירת תמונה יודעים לייצר תמונות מרשימות, אך בהבנה מרחבית בסיסית הם עדיין נוטים לטעות. הגישה שפיתחנו מאפשרת לשפר את ההיענות להוראות מרחביות, מבלי לפגוע ביכולות הכלליות של המודל".

המחקר הובל על ידי החוקרת ספיר יפלח, יחד עם פרופ' צ'צ'יק וד"ר יובל עצמון מ-NVIDIA, ויוצג בכנס WACV 2026. לדברי יפלח, "במקום להניח מראש כיצד המודל אמור לפעול, ניתחנו את דפוסי הפעילות שלו ולמדנו מהם כיצד ניתן להשפיע על תהליך היצירה בזמן אמת".

שיפור ההבנה המרחבית במודלי יצירת תמונה עשוי להיות משמעותי ביישומים הדורשים שליטה מדויקת בסידור עצמים — החל מיצירת דאטה סינתטי ואימון מערכות ראייה ממוחשבת, דרך סימולציות תעשייתיות ועד פיתוח עולמות ויזואליים מדויקים למשחקים ולכלי תכנון.


תמונה: תמונות המחשה – קוד המפצח הבנה מרחבית לבינה מלאכותית

קרדיט – הידיעה מבוססת על מחקר שיוצג בכנס WACV 2026.

מערכת ניו-טק מגזינים גרופ

תגובות סגורות